E1U1

Jhoselyn Chavez Pacheco 181130

23/10/2020

Exámen 1era unidad Estadistica Aplicada

1.- ¿Qué es la estadística y que aplicaciones tiene en ingeniería química?

La estadistica es un conjunto de datos númericos que brindan información en base a cálculos de probabilidades; esta relacionada con la ingeniería química en base a calculos probabilisticos por ejemplo al elegir un lote de algún producto químico aleatoriamente, o sacar la probabilidad del rendimiento en un proceso para asi proceder a realizar correctamente el calculo. Es muy importante ya que como aqui estudiamos el agua de los pozos en base a sus condiciones (PH y temperatura), esto viene aplicado tambien en nuestro campo de trabajo.

2.- Enliste y defina los tipos de variables usados en estadística, da 2 ejemplos de cada uno.

Cualitativo: Cuando nos referimos a una variable que no es número por ejemplo: colores, comidas. Cuantitativo: Cuando la variable es un numero por ejemplo: edad, Temperatura.

##Defina distribucion de frecuencia y explique que es la distribución normal. Distribucion de frecuencia: Las distribuciones de frecuencias son tablas que tienen la finalidad de facilitar la obtención de la información que contienen los datos. Distribucion normal:La distribución normal es con forma de campana donde las desviaciones estándar con respecto a la media establecen valores de referencia para estimar el porcentaje de observaciones de los datos.

##Caso de estudio Pozos de agua subterránea

Importar datos

library(pacman)
p_load("readxl", "prettydoc", "DT")
pozos <- read_excel("1pozos.xlsx", col_types = c("numeric", 
    "numeric", "numeric"))
datatable(pozos)

Filtración de datos

Ph<-(pozos$PH)
Temp<-(pozos$TEMP)

A) Ordene los datos de menor a mayor, indique el valor máximo / mínimo y el rango total de datos.

# Datos para el PH
## Ordenar los datos de menor a mayor
sort(Ph)
##   [1] 6.1 6.3 6.4 6.4 6.4 6.4 6.4 6.4 6.4 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5
##  [19] 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6
##  [37] 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.7 6.7 6.7 6.7 6.7
##  [55] 6.7 6.7 6.7 6.7 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
##  [73] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
##  [91] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
## [109] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9
## [127] 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9
## [145] 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 7.0 7.0
## [163] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [181] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [199] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [217] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [235] 7.0 7.0 7.0 7.0 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1
## [253] 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.2 7.2
## [271] 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.3 7.3 7.3 7.3 7.3 7.3 7.4 7.4
## [289] 7.4 7.4 7.4 7.4 7.5
## Valor Minimo
min(Ph)
## [1] 6.1
## Valor Máximo
max(Ph)
## [1] 7.5
## Rango total de datos
R1<-range(Ph)
# Datos para la Temperatura
## Ordenar los datosde menor a mayor
sort(Temp)
##   [1] 25.6 25.8 26.2 26.3 26.3 26.4 26.4 26.8 26.8 26.9 27.0 27.0 27.1 27.2 27.2
##  [16] 27.3 27.3 27.3 27.3 27.4 27.4 27.4 27.4 27.4 27.5 27.5 27.5 27.5 27.5 27.5
##  [31] 27.5 27.5 27.5 27.5 27.5 27.5 27.6 27.7 27.7 27.7 27.7 27.8 27.8 27.8 27.8
##  [46] 27.8 27.8 27.8 27.8 27.8 27.8 27.8 27.9 27.9 27.9 27.9 27.9 27.9 27.9 27.9
##  [61] 27.9 27.9 27.9 27.9 27.9 27.9 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0
##  [76] 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.1 28.1 28.1 28.2 28.2 28.2
##  [91] 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.3 28.3 28.3 28.3 28.3 28.3
## [106] 28.3 28.4 28.4 28.4 28.4 28.4 28.4 28.4 28.5 28.5 28.5 28.5 28.5 28.5 28.5
## [121] 28.5 28.5 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6
## [136] 28.6 28.6 28.6 28.6 28.6 28.6 28.7 28.7 28.7 28.7 28.7 28.7 28.7 28.7 28.7
## [151] 28.7 28.7 28.7 28.7 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8
## [166] 28.8 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9
## [181] 28.9 28.9 28.9 28.9 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0
## [196] 29.0 29.0 29.0 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.2
## [211] 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.3 29.3
## [226] 29.3 29.3 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.5 29.5
## [241] 29.5 29.5 29.5 29.5 29.5 29.5 29.5 29.6 29.6 29.6 29.7 29.7 29.8 29.8 29.8
## [256] 29.8 29.8 29.8 29.9 29.9 29.9 29.9 30.0 30.0 30.0 30.0 30.0 30.0 30.1 30.1
## [271] 30.1 30.1 30.2 30.2 30.2 30.3 30.3 30.3 30.3 30.4 30.5 30.6 30.8 30.9 31.1
## [286] 31.1 31.1 31.2 31.4 31.5 31.7 31.9 32.1
## Valor Minimo
min(Temp)
## [1] 25.6
## Valor Máximo
max(Temp)
## [1] 32.1
## Rango total de datos
R<-range(Temp)

B) Obtenga (el número de) los intervalos (o clases) usando la fórmula según Sturges y el ancho de clase.

# Número de intervalos para el Ph
K1<-nclass.Sturges(Ph)
K1
## [1] 10
# Ancho de clase para el Ph
round(R1/K1, 1)
## [1] 0.6 0.8
# Número de intervalos para la Temperatura
K<-nclass.Sturges(Temp)
K
## [1] 10
# Ancho de clase para el Temperatura
round(R/K, 1)
## [1] 2.6 3.2

C) Construya una tabla de frecuencias que incluya: límites de clases, frecuencia absoluta, frecuencia relativa, frecuencia relativa porcentual, frecuencia acumulada y explique a detalle que refleja esta tabla.

Usada principalmente para reunir y resumir una gran cantidad de datos. Esta tabla de frecuencias es una herramienta bastante útil para saber de qué va una variable.

# Tabla de frecuencias para el Ph
library(fdth)
## 
## Attaching package: 'fdth'
## The following objects are masked from 'package:stats':
## 
##     sd, var
Datos <- fdt(pozos, breaks="Sturge")
Datos
## PH 
##   Class limits   f   rf rf(%)  cf  cf(%)
##  [6.039,6.193)   1 0.00  0.34   1   0.34
##  [6.193,6.346)   1 0.00  0.34   2   0.68
##    [6.346,6.5)   7 0.02  2.39   9   3.07
##    [6.5,6.653)  40 0.14 13.65  49  16.72
##  [6.653,6.807)  67 0.23 22.87 116  39.59
##  [6.807,6.961)  44 0.15 15.02 160  54.61
##  [6.961,7.114) 108 0.37 36.86 268  91.47
##  [7.114,7.268)  12 0.04  4.10 280  95.56
##  [7.268,7.421)  12 0.04  4.10 292  99.66
##  [7.421,7.575)   1 0.00  0.34 293 100.00
## 
## TEMP 
##     Class limits  f   rf rf(%)  cf  cf(%)
##  [25.344,26.052)  2 0.01  0.68   2   0.68
##  [26.052,26.759)  5 0.02  1.71   7   2.39
##  [26.759,27.467) 17 0.06  5.80  24   8.19
##  [27.467,28.175) 63 0.22 21.50  87  29.69
##  [28.175,28.883) 79 0.27 26.96 166  56.66
##   [28.883,29.59) 81 0.28 27.65 247  84.30
##   [29.59,30.298) 28 0.10  9.56 275  93.86
##  [30.298,31.006)  9 0.03  3.07 284  96.93
##  [31.006,31.713)  7 0.02  2.39 291  99.32
##  [31.713,32.421)  2 0.01  0.68 293 100.00
## 
## PHB 
##   Class limits   f   rf rf(%)  cf  cf(%)
##      [0,0.101) 160 0.55 54.61 160  54.61
##  [0.101,0.202)   0 0.00  0.00 160  54.61
##  [0.202,0.303)   0 0.00  0.00 160  54.61
##  [0.303,0.404)   0 0.00  0.00 160  54.61
##  [0.404,0.505)   0 0.00  0.00 160  54.61
##  [0.505,0.606)   0 0.00  0.00 160  54.61
##  [0.606,0.707)   0 0.00  0.00 160  54.61
##  [0.707,0.808)   0 0.00  0.00 160  54.61
##  [0.808,0.909)   0 0.00  0.00 160  54.61
##   [0.909,1.01) 133 0.45 45.39 293 100.00
DatosT<- fdt(pozos, breaks="Sturge")
DatosT
## PH 
##   Class limits   f   rf rf(%)  cf  cf(%)
##  [6.039,6.193)   1 0.00  0.34   1   0.34
##  [6.193,6.346)   1 0.00  0.34   2   0.68
##    [6.346,6.5)   7 0.02  2.39   9   3.07
##    [6.5,6.653)  40 0.14 13.65  49  16.72
##  [6.653,6.807)  67 0.23 22.87 116  39.59
##  [6.807,6.961)  44 0.15 15.02 160  54.61
##  [6.961,7.114) 108 0.37 36.86 268  91.47
##  [7.114,7.268)  12 0.04  4.10 280  95.56
##  [7.268,7.421)  12 0.04  4.10 292  99.66
##  [7.421,7.575)   1 0.00  0.34 293 100.00
## 
## TEMP 
##     Class limits  f   rf rf(%)  cf  cf(%)
##  [25.344,26.052)  2 0.01  0.68   2   0.68
##  [26.052,26.759)  5 0.02  1.71   7   2.39
##  [26.759,27.467) 17 0.06  5.80  24   8.19
##  [27.467,28.175) 63 0.22 21.50  87  29.69
##  [28.175,28.883) 79 0.27 26.96 166  56.66
##   [28.883,29.59) 81 0.28 27.65 247  84.30
##   [29.59,30.298) 28 0.10  9.56 275  93.86
##  [30.298,31.006)  9 0.03  3.07 284  96.93
##  [31.006,31.713)  7 0.02  2.39 291  99.32
##  [31.713,32.421)  2 0.01  0.68 293 100.00
## 
## PHB 
##   Class limits   f   rf rf(%)  cf  cf(%)
##      [0,0.101) 160 0.55 54.61 160  54.61
##  [0.101,0.202)   0 0.00  0.00 160  54.61
##  [0.202,0.303)   0 0.00  0.00 160  54.61
##  [0.303,0.404)   0 0.00  0.00 160  54.61
##  [0.404,0.505)   0 0.00  0.00 160  54.61
##  [0.505,0.606)   0 0.00  0.00 160  54.61
##  [0.606,0.707)   0 0.00  0.00 160  54.61
##  [0.707,0.808)   0 0.00  0.00 160  54.61
##  [0.808,0.909)   0 0.00  0.00 160  54.61
##   [0.909,1.01) 133 0.45 45.39 293 100.00

D) Elabore un histograma, polígono de frecuencias, histograma de frecuencias acumulado.

par(mfrow=c(3,1))

# Histograma Ph
hist(Ph, col="turquoise4")

# Poligono de frecuencias Ph
plot(Datos, type="fp", col='turquoise4', main="Polígono de frecuencias")

# Histograma de frecuencias acumulado Ph
plot(Datos,  type="cfh", col='turquoise4',main="Histograma de frecuencias acumuladas")

# Histograma Temperatura
hist(Temp, col="violetred3")

# Poligono de frecuencias Temperatura
plot(DatosT, type="fp", col='violetred3', main="Polígono de frecuencias")

# Histograma de frecuencias acumulado Temperatura
plot(DatosT,  type="cfh", col='violetred3',main="Histograma de frecuencias acumuladas")

E) Obtenga la media, mediana, moda e interprete los resultados.

La mediana es el valor medio cuando un conjunto de datos se ordena de menor a mayor. La moda es el número que se presenta con más frecuencia en un conjunto de datos.

# Media Ph
mean(Ph)
## [1] 6.890444
# Mediana Ph
median(Ph)
## [1] 6.9
#Moda Ph
mfv(Ph)
## [1] 7
# Media Temperatura
mean(Temp)
## [1] 28.69795
# Mediana Temperatura
median(Temp)
## [1] 28.7
#Moda Temperatura
mfv(Temp)
## [1] 28.6

F) Obtenga la varianza y la desviación estándar, interprete los resultados. ¿Pueden estas medidas ser negativas?

No, ya que estas no serian reales

# Varianza Ph
var(Ph)
## [1] 0.04908645
# Desviación Estándar Ph
sd(Ph)
## [1] 0.2215546
# Varianza Temperatura
var(Temp)
## [1] 1.035407
# Desviación Estándar Temperatura
sd(Temp)
## [1] 1.017549

G) Elabore gráfico de caja y bigote

par(mfrow=c(2,1))

boxplot(Ph, col="turquoise4", main="Caja y Bigote PH")

boxplot(Temp, col="violetred3", main="Caja y Bigote Temperatura")        

H) Elabora una gráfica de dispersión de pH versus temperatura, use ggplot aquí. En base a esta gráfica: ¿Considera que estas 2 variables están relacionadas?

En algún modo si estan relacionadas ya que cuando sube la temperatura los casos en los que es acido aumentan, podemos verlo en la linea que ve en alza mientras la temperatura sube.

# Gráfica de dispersión
library(ggplot2)
ggplot(data = pozos)+geom_point(mapping = aes(x=Temp, y=Ph),col='violetred4',lwd=2)

#Regresión Temp vs Ph
regresion <- lm(PH ~ TEMP, data=pozos)
summary(regresion)
## 
## Call:
## lm(formula = PH ~ TEMP, data = pozos)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.78955 -0.09220  0.01089  0.11089  0.59587 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  7.017231   0.366448  19.149   <2e-16 ***
## TEMP        -0.004418   0.012761  -0.346    0.729    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.2219 on 291 degrees of freedom
## Multiple R-squared:  0.0004117,  Adjusted R-squared:  -0.003023 
## F-statistic: 0.1199 on 1 and 291 DF,  p-value: 0.7294
plot(pozos$TEMP, pozos$PH, xlab="Temperatura del pozo", ylab="pH", col="violetred3", lwd=2, main="Regresion Temp vs Ph")
abline(regresion)

# Representacion grafica de los datos ALCALINOS/NEUTROS (0) y ACIDOS (1)
PHB<-(pozos$PHB)
table(pozos$PHB)
## 
##   0   1 
## 160 133
colores <- NULL
colores[pozos$PHB==0] <- "turquoise3"
colores[pozos$PHB==1] <- "violetred3"
plot(pozos$TEMP, pozos$PHB, pch=21,bg=colores, xlab="Temperatura", ylab="pH" )