E1U1

Jaime Corral R.

23/10/2020

Exámen de la primera unidad de competencia de estadística aplicada

1.- ¿Qué es la estadística y que aplicaciones tiene en ingeniería (según su ingeniería)?

La estadística es una ciencia que calcula probabilidades y llega a conclusiones a partir de datos y del estudio de estos. En mi carrera podemos utilizar la estadística al momento de calcular datos para un proceso a aplicar, siempre tomando los que me den mayores ingresos y memores pérdidas económicas mientras mantengo la eficiencia en el nivel mas alto posible.

2.- Enliste y defina los tipos de variables usados en estadística, de 2 ejemplos de cada uno. Defina distribución de frecuencia y explique que es la distribución normal.

Cualitativa: son los valores que como dice la palabra, son cualidades, no son valores numéricos. Ejemplos: Sexo, pelicula favorita.

Cuantitativa: son valores numéricos en su totalidad. Ejemplos: Edad, peso.

Temperatura y pH de pozos de agua subterránea

Pozos subterráneos

Importar datos (Temperatura y pH de pozos de agua subterránea)

library(pacman)
p_load("readxl", "prettydoc", "DT")
pozos <- read_excel("pozos2.xlsx", col_types = c("numeric", 
    "numeric", "numeric"))

Temp <- pozos$TEMP

PH <- pozos$PH

Temperatura

Datos de menor a mayor, valor máximo y mínimo, rango total de datos

  • Mayor a menor
sort(Temp)
##   [1] 25.6 25.8 26.2 26.3 26.3 26.4 26.4 26.8 26.8 26.9 27.0 27.0 27.1 27.2 27.2
##  [16] 27.3 27.3 27.3 27.3 27.4 27.4 27.4 27.4 27.4 27.5 27.5 27.5 27.5 27.5 27.5
##  [31] 27.5 27.5 27.5 27.5 27.5 27.5 27.6 27.7 27.7 27.7 27.7 27.8 27.8 27.8 27.8
##  [46] 27.8 27.8 27.8 27.8 27.8 27.8 27.8 27.9 27.9 27.9 27.9 27.9 27.9 27.9 27.9
##  [61] 27.9 27.9 27.9 27.9 27.9 27.9 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0
##  [76] 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.1 28.1 28.1 28.2 28.2 28.2
##  [91] 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.3 28.3 28.3 28.3 28.3 28.3
## [106] 28.3 28.4 28.4 28.4 28.4 28.4 28.4 28.4 28.5 28.5 28.5 28.5 28.5 28.5 28.5
## [121] 28.5 28.5 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6
## [136] 28.6 28.6 28.6 28.6 28.6 28.6 28.7 28.7 28.7 28.7 28.7 28.7 28.7 28.7 28.7
## [151] 28.7 28.7 28.7 28.7 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8
## [166] 28.8 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9
## [181] 28.9 28.9 28.9 28.9 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0
## [196] 29.0 29.0 29.0 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.2
## [211] 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.3 29.3
## [226] 29.3 29.3 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.5 29.5
## [241] 29.5 29.5 29.5 29.5 29.5 29.5 29.5 29.6 29.6 29.6 29.7 29.7 29.8 29.8 29.8
## [256] 29.8 29.8 29.8 29.9 29.9 29.9 29.9 30.0 30.0 30.0 30.0 30.0 30.0 30.1 30.1
## [271] 30.1 30.1 30.2 30.2 30.2 30.3 30.3 30.3 30.3 30.4 30.5 30.6 30.8 30.9 31.1
## [286] 31.1 31.1 31.2 31.4 31.5 31.7 31.9 32.1
  • Max y min
Tempmax <- max(Temp)
Tempmin <- min(Temp)
  • Rango
#Obtenemos el valor de mayor- menor (rango)
rango <- (Tempmax-Tempmin)
rango
## [1] 6.5
  • Usamos la formula de Sturges para calcular “k”
#sacamos el numero tal cual "K"
nclass.Sturges(Temp)
## [1] 10
  • Calculamos el ancho de clase diviendo el rango entre “k” que nos dio 10
A = (rango/10)
A
## [1] 0.65

Tabla de frecuencias (Usada principalmente para reunir y resumir una gran cantidad de datos. De tal manera que sea interpretable facilmente para el lector.)

library(fdth)
## 
## Attaching package: 'fdth'
## The following objects are masked from 'package:stats':
## 
##     sd, var
tsturges <- fdt(Temp, breaks = "Sturges")
tsturges
##     Class limits  f   rf rf(%)  cf  cf(%)
##  [25.344,26.052)  2 0.01  0.68   2   0.68
##  [26.052,26.759)  5 0.02  1.71   7   2.39
##  [26.759,27.467) 17 0.06  5.80  24   8.19
##  [27.467,28.175) 63 0.22 21.50  87  29.69
##  [28.175,28.883) 79 0.27 26.96 166  56.66
##   [28.883,29.59) 81 0.28 27.65 247  84.30
##   [29.59,30.298) 28 0.10  9.56 275  93.86
##  [30.298,31.006)  9 0.03  3.07 284  96.93
##  [31.006,31.713)  7 0.02  2.39 291  99.32
##  [31.713,32.421)  2 0.01  0.68 293 100.00

#Donde

#f= frecuencia absoluta: Nos dice la frecuencia en que aparecen las temperaturas

#rf= frecuencia relativa: Es la relacion entre la frecuencia absoluta de cada temperatura entre el numero total de datos

#rf(%) frecuencia relativa porcentual: Es el porcentaje de la frecuencia relativa

#cf= frecuencia acumulada: Es el resultado de sumar sucesivamente los datos de frecuencia de menor a mayor

#cf(%)=frecuencia acumulada porcentual: es la frecuencia acumulada mostrada en porcentaje

Histograma, polígono de frecuencias, histograma de frecuencias acumulado

  • Histogramas de frecuencias
plot(tsturges, type = "fh") # Histograma de frecuencia absoluta

plot(tsturges, type = "cfh") # Histograma de frecuencia acumulada

plot(tsturges, type = "rfh") # Histograma de frecuencia relativa

  • Polígonos de frecuencias
plot(tsturges, type = "fp") # Polígono de frecuencia absoluta

plot(tsturges, type = "cfp") # Polígono de frecuencia acumulada

plot(tsturges, type = "rfp") # Polígono de frecuencia relativa

Media, mediana y moda

  • Media
mean(Temp)
## [1] 28.69795

La temperatura promedio en los pozos es de 28.69795

  • Mediana
median(Temp)
## [1] 28.7

Si ordenamos los datos de menor a mayor el dato que esta en medio del todo es de 28.7

  • Moda
mfv(Temp)
## [1] 28.6

El valor que mas se repite entre todas las temperaturas es el de 28.6

Varianza y desviación estándar

  • Varianza
var(Temp)
## [1] 1.035407

Representa que tanto varían la temperaturas de la temperatura promedio

  • Desviación estándar
sd(Temp)
## [1] 1.017549

Muestra que tan dispersos estan los datos de temperatura entre si

  • ¿Pueden éstas ser negativas?

No, ya que el minimo que podrian estar alejados los datos entre si y alejados los datos del promedio sería 0

Gráfico de caja y bigote

boxplot(Temp)

pH

Datos de menor a mayor, valor máximo y mínimo, rango total de datos

  • Mayor a menor
sort(PH)
##   [1] 6.1 6.3 6.4 6.4 6.4 6.4 6.4 6.4 6.4 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5
##  [19] 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6
##  [37] 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.7 6.7 6.7 6.7 6.7
##  [55] 6.7 6.7 6.7 6.7 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
##  [73] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
##  [91] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
## [109] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9
## [127] 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9
## [145] 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 7.0 7.0
## [163] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [181] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [199] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [217] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [235] 7.0 7.0 7.0 7.0 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1
## [253] 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.2 7.2
## [271] 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.3 7.3 7.3 7.3 7.3 7.3 7.4 7.4
## [289] 7.4 7.4 7.4 7.4 7.5
  • Max y min
phmax <- max(PH)
phmin <- min(PH)
  • Rango
#Obtenemos el valor de mayor- menor (rango)
rangoph <- (phmax-phmin)
rangoph
## [1] 1.4
  • Usamos la formula de Sturges para calcular “k”
#sacamos el numero tal cual "K"
nclass.Sturges(PH)
## [1] 10
  • Calculamos el ancho de clase diviendo el rango entre “k” que nos dio 10
A = (rangoph/10)
A
## [1] 0.14

Tabla de frecuencias (Usada principalmente para reunir y resumir una gran cantidad de datos. De tal manera que sea interpretable facilmente para el lector.)

library(fdth)
phsturges <- fdt(PH, breaks = "Sturges")
phsturges
##   Class limits   f   rf rf(%)  cf  cf(%)
##  [6.039,6.193)   1 0.00  0.34   1   0.34
##  [6.193,6.346)   1 0.00  0.34   2   0.68
##    [6.346,6.5)   7 0.02  2.39   9   3.07
##    [6.5,6.653)  40 0.14 13.65  49  16.72
##  [6.653,6.807)  67 0.23 22.87 116  39.59
##  [6.807,6.961)  44 0.15 15.02 160  54.61
##  [6.961,7.114) 108 0.37 36.86 268  91.47
##  [7.114,7.268)  12 0.04  4.10 280  95.56
##  [7.268,7.421)  12 0.04  4.10 292  99.66
##  [7.421,7.575)   1 0.00  0.34 293 100.00

#Donde

#f= frecuencia absoluta: Nos dice la frecuencia en que aparecen el pH

#rf= frecuencia relativa: Es la relacion entre la frecuencia absoluta de cada pH entre el numero total de datos

#rf(%) frecuencia relativa porcentual: Es el porcentaje de la frecuencia relativa

#cf= frecuencia acumulada: Es el resultado de sumar sucesivamente los datos de frecuencia de menor a mayor

#cf(%)=frecuencia acumulada porcentual: es la frecuencia acumulada mostrada en porcentaje

Histograma, polígono de frecuencias, histograma de frecuencias acumulado

  • Histogramas de frecuencias
plot(phsturges, type = "fh") # Histograma de frecuencia absoluta

plot(phsturges, type = "cfh") # Histograma de frecuencia acumulada

plot(phsturges, type = "rfh") # Histograma de frecuencia relativa

  • Polígonos de frecuencias
plot(phsturges, type = "fp") # Polígono de frecuencia absoluta

plot(phsturges, type = "cfp") # Polígono de frecuencia acumulada

plot(phsturges, type = "rfp") # Polígono de frecuencia relativa

Media, mediana y moda

  • Media
mean(PH)
## [1] 6.890444

El pH promedio en los pozos es de 6.890444

  • Mediana
median(PH)
## [1] 6.9

Si ordenamos los datos de menor a mayor el dato que esta en medio del todo es de 6.9

  • Moda
mfv(PH)
## [1] 7

El valor que mas se repite entre todos los pH es el de 7

Varianza y desviación estándar

  • Varianza
var(PH)
## [1] 0.04908645

Representa que tanto varían llos pH de el pH promedio

  • Desviación estándar
sd(PH)
## [1] 0.2215546

Muestra que tan dispersos estan los datos de pH entre si

  • ¿Pueden éstas ser negativas?

No, ya que el minimo que podrian estar alejados los datos entre si y alejados los datos del promedio sería 0

Gráfico de caja y bigote

boxplot(PH)

¿Se relacionan Temperatura y pH?

Gráfica de dispersón de pH vs Temp

library(pacman)
p_load("base64enc", "htmltools", "mime", "xfun", "prettydoc", "readr", "knitr", "DT", "tidyverse", "scales", "gridExtra", "modeest", "fdth")
ggplot(data=pozos) + 
  geom_line(aes(TEMP, PH, colour="Temperatura vs pH")) +
  xlab("Temperatura") +
  ylab ("pH") +
  ggtitle("Temperatura vs pH") +
  scale_y_continuous(labels = comma)

Curva de regresión logística

Teóricamente, la temperatura y el ph si se relacionan, pero lo veremos mejor con una curva de regresión logística

reg <- glm(PHB ~ TEMP, data=pozos, family=binomial)
summary(reg)
## 
## Call:
## glm(formula = PHB ~ TEMP, family = binomial, data = pozos)
## 
## Deviance Residuals: 
##     Min       1Q   Median       3Q      Max  
## -0.6781  -0.4814  -0.4540  -0.4130   2.3384  
## 
## Coefficients:
##             Estimate Std. Error z value Pr(>|z|)  
## (Intercept)  -9.3105     5.3634  -1.736   0.0826 .
## TEMP          0.2479     0.1854   1.337   0.1813  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 193.56  on 292  degrees of freedom
## Residual deviance: 191.79  on 291  degrees of freedom
## AIC: 195.79
## 
## Number of Fisher Scoring iterations: 5
library(pacman)
p_load("readxl", "prettydoc", "DT")

datos <- data.frame(TEMP= seq(20,35,0.1))
probabilidades <- predict(reg, datos, type = "response")

#otorgamos valores de color
colores <- NULL
colores[pozos$PHB==0] <- "orange"
colores[pozos$PHB==1] <- "purple"

#Gráfica
plot(pozos$TEMP, pozos$PHB, pch = 21, bg = colores, xlab = 'Temperatura', ylab = 'Probabilidad alcalino o ácido')
legend('bottomleft', c('acido', 'alcalino'), pch = 21, col = c('purple', 'orange'))

lines(datos$TEMP, probabilidades, col="green", lwd=3)

Cuando sube la temperatura los casos en que es acido aumentan, podemos verlo en la linea que ve en alza mientras la temperatura sube, en otras palabras, EXISTE una relación entre temperatura y pH