library(pacman)
p_load(rmdformats,readr,readxl,ggplot2,plotly,DT,xfun,gridExtra,leaflet,TSstudio)

1.- ¿Qué es la estadística y que aplicaciones tiene en ingeniería (según su ingeniería)?

En cuanto a la estadística considero que está ligado intímamente a Ingeniería en Software ya que gracias a todos los sistemas operativos que tenemos a la mano tenemos la facilidad de crear e investigar más a profundidad casos de estudio con las herramientas que nos brinda

2.- Enliste y defina los tipos de variables usados en estadística, de 2 ejemplos de cada uno. Defina distribución de frecuencia y explique que es la distribución normal.

Variables cuantitativas: Se le define a variables cuantitativas como las variables que se expresan numéricamente y nos ayudan a tener una idea o aproximación numérica.

Variable continua: Toman un valor infinito de valores entre un intervalo de datos.

Variable discretas: Toman solamente valores reales por lo que son muy específicos al momento de seleccionar sus valores ya que sólo toman valores pertenecientes a un conjunto de números

Variable cualitativa: Son variables que se expresan, por norma general, en palabras. Variable ordinal: Expresa diferentes niveles y orden.

Importar Datos

setwd("~/ESTADISTICA")
p <- read_excel("pozos.xlsx")
datatable(p)
pH <- t(p$PH)
pH <- as.vector(pH)
sort(pH, decreasing=FALSE)
##   [1] 6.1 6.3 6.4 6.4 6.4 6.4 6.4 6.4 6.4 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5
##  [19] 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6
##  [37] 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.7 6.7 6.7 6.7 6.7
##  [55] 6.7 6.7 6.7 6.7 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
##  [73] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
##  [91] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
## [109] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9
## [127] 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9
## [145] 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 7.0 7.0
## [163] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [181] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [199] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [217] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [235] 7.0 7.0 7.0 7.0 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1
## [253] 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.2 7.2
## [271] 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.3 7.3 7.3 7.3 7.3 7.3 7.4 7.4
## [289] 7.4 7.4 7.4 7.4 7.5

pH MÁXIMA Y MÍNIMA

max(pH)
## [1] 7.5
min(pH)
## [1] 6.1
TEMP <- t(p$TEMP)
TEMP <- as.vector(TEMP)
sort(TEMP, decreasing=FALSE)
##   [1] 25.6 25.8 26.2 26.3 26.3 26.4 26.4 26.8 26.8 26.9 27.0 27.0 27.1 27.2 27.2
##  [16] 27.3 27.3 27.3 27.3 27.4 27.4 27.4 27.4 27.4 27.5 27.5 27.5 27.5 27.5 27.5
##  [31] 27.5 27.5 27.5 27.5 27.5 27.5 27.6 27.7 27.7 27.7 27.7 27.8 27.8 27.8 27.8
##  [46] 27.8 27.8 27.8 27.8 27.8 27.8 27.8 27.9 27.9 27.9 27.9 27.9 27.9 27.9 27.9
##  [61] 27.9 27.9 27.9 27.9 27.9 27.9 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0
##  [76] 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.1 28.1 28.1 28.2 28.2 28.2
##  [91] 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.3 28.3 28.3 28.3 28.3 28.3
## [106] 28.3 28.4 28.4 28.4 28.4 28.4 28.4 28.4 28.5 28.5 28.5 28.5 28.5 28.5 28.5
## [121] 28.5 28.5 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6
## [136] 28.6 28.6 28.6 28.6 28.6 28.6 28.7 28.7 28.7 28.7 28.7 28.7 28.7 28.7 28.7
## [151] 28.7 28.7 28.7 28.7 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8
## [166] 28.8 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9
## [181] 28.9 28.9 28.9 28.9 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0
## [196] 29.0 29.0 29.0 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.2
## [211] 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.3 29.3
## [226] 29.3 29.3 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.5 29.5
## [241] 29.5 29.5 29.5 29.5 29.5 29.5 29.5 29.6 29.6 29.6 29.7 29.7 29.8 29.8 29.8
## [256] 29.8 29.8 29.8 29.9 29.9 29.9 29.9 30.0 30.0 30.0 30.0 30.0 30.0 30.1 30.1
## [271] 30.1 30.1 30.2 30.2 30.2 30.3 30.3 30.3 30.3 30.4 30.5 30.6 30.8 30.9 31.1
## [286] 31.1 31.1 31.2 31.4 31.5 31.7 31.9 32.1

TEMPERATURA MÁXIMA Y MÍNIMA

max(TEMP)
## [1] 32.1
min(TEMP)
## [1] 25.6

B) Obtenga (el número de) los intervalos (o clases) usando la fórmula según Surges y el ancho de clase.

nclass.Sturges(pH)
## [1] 10
nclass.Sturges(TEMP)
## [1] 10

C) Construya una tabla de frecuencias que incluya: límites de clases, frecuencia absoluta, frecuencia relativa, frecuencia relativa porcentual, frecuencia acumulada y explique a detalle que refleja esta tabla.

library(fdth)
## 
## Attaching package: 'fdth'
## The following objects are masked from 'package:stats':
## 
##     sd, var
tablapH <- fdt(pH)
tablapH
##   Class limits   f   rf rf(%)  cf  cf(%)
##  [6.039,6.193)   1 0.00  0.34   1   0.34
##  [6.193,6.346)   1 0.00  0.34   2   0.68
##    [6.346,6.5)   7 0.02  2.39   9   3.07
##    [6.5,6.653)  40 0.14 13.65  49  16.72
##  [6.653,6.807)  67 0.23 22.87 116  39.59
##  [6.807,6.961)  44 0.15 15.02 160  54.61
##  [6.961,7.114) 108 0.37 36.86 268  91.47
##  [7.114,7.268)  12 0.04  4.10 280  95.56
##  [7.268,7.421)  12 0.04  4.10 292  99.66
##  [7.421,7.575)   1 0.00  0.34 293 100.00
library(fdth)
tablaTemp <- fdt(TEMP)
tablaTemp
##     Class limits  f   rf rf(%)  cf  cf(%)
##  [25.344,26.052)  2 0.01  0.68   2   0.68
##  [26.052,26.759)  5 0.02  1.71   7   2.39
##  [26.759,27.467) 17 0.06  5.80  24   8.19
##  [27.467,28.175) 63 0.22 21.50  87  29.69
##  [28.175,28.883) 79 0.27 26.96 166  56.66
##   [28.883,29.59) 81 0.28 27.65 247  84.30
##   [29.59,30.298) 28 0.10  9.56 275  93.86
##  [30.298,31.006)  9 0.03  3.07 284  96.93
##  [31.006,31.713)  7 0.02  2.39 291  99.32
##  [31.713,32.421)  2 0.01  0.68 293 100.00

D) Elabore un histograma, polígono de frecuencias, histograma de frecuencias acumulado.

plot(tablapH, type = "fh", col="sky blue")
title(main = "Histograma pH")

plot(tablapH, type = "fp", pch=19, col="red")
  title(main = "Polígono de frecuencia pH")

plot(tablapH, type = "cfh", col="sky blue")
title(main = "Histograma Frecuencia Acumulada pH")

plot(tablapH, type = "cfp", pch=1,col="red")
title(main = "Polígono de frecuencia Acumulada PH")

plot(tablaTemp, type = "fh", col="sky blue")
title(main = "Histograma Temperatura")

plot(tablaTemp, type = "fp", pch=19, col="red")
  title(main = "Polígono de frecuencia Temperatura")

plot(tablaTemp, type = "cfh", col="sky blue")
title(main = "Histograma Frecuencia Acumulada Temperatura")

plot(tablaTemp, type = "cfp", pch=1,col="red")
title(main = "Polígono de frecuencia Acumulada Temperatura")

E) Obtenga la media, mediana, moda e interprete los resultados.

Media pH

mean(pH)
## [1] 6.890444

Mediana pH

median(pH)
## [1] 6.9

Moda pH

library(modeest)
## Registered S3 method overwritten by 'rmutil':
##   method         from
##   print.response httr
## 
## Attaching package: 'modeest'
## The following object is masked from 'package:fdth':
## 
##     mfv
mlv(pH,method = "mfv")
## [1] 7

Media Temperatura

mean(TEMP)
## [1] 28.69795

Mediana Temperatura

median(TEMP)
## [1] 28.7

Moda Temperatura

mlv(TEMP,method = "mfv")
## [1] 28.6

F) Obtenga la varianza y la desviación estándar, interprete los resultados. ¿Pueden estas medidas ser negativas?

Tanto la varianza como la desviación estándar, no pueden ser negativas ya que siempre están arraigadas a valores mayores o iguales a 0 por lo que sería imposible dar un desviación o varianza negativa.

Varianza pH

var(pH)
## [1] 0.04908645

Desviación estándar pH

sd(pH)
## [1] 0.2215546

Varianza Temperatura

var(TEMP)
## [1] 1.035407

Desviación estándar Temperatura

sd(TEMP)
## [1] 1.017549

G) Elabore gráfico de caja y bigote

bp <- ggplot(p, aes(y =pH, x=" ") )+
  geom_boxplot(width=0.2, fill="sky blue", alpha=0.5)+
  stat_boxplot(geom ='errorbar', width = 0.10) +
  ylab("pH de los pozos")+
  xlab("")+
            labs(title="                                          Gráfico caja y bigote pH pozos", )
  
bp

 bp <- ggplot(p, aes(y =TEMP, x=" ") )+
  geom_boxplot(width=0.2, fill="sky blue", alpha=0.3)+
  stat_boxplot(geom ='errorbar', width = 0.12)  +
   ylab("Temperatura POZOS")+
            xlab(" ")+
            labs(title="                                  Gráfico caja y bigote Temperatura Pozos", )
  
bp

H) Elabora una gráfica de dispersión de pH versus temperatura, use ggplot aquí. En base a esta gráfica: ¿Considera que estas 2 variables están relacionadas?

En este caso no están relacionadas, sin embargo es sabido que las moléculas de agua se afectan con el calor, cuando hay un incremento en la temperatura el pH disminuye y cuando disminuye la temperatura el pH aumenta.

disp <- ggplot(data = p, aes(x=TEMP,y=pH))+
        geom_point()
ggplotly(disp)