Exámen de la primera unidad de competencia de estadística aplicada
1.- ¿Qué es la estadística y que aplicaciones tiene en ingeniería (según su ingeniería)?
La estadística es una ciencia que calcula probabilidades y llega a conclusiones a partir de datos y del estudio de estos. En mi carrera podemos utilizar la estadística al momento de calcular datos para un proceso a aplicar, siempre tomando los que me den mayores ingresos y memores pérdidas económicas mientras mantengo la eficiencia en el nivel mas alto posible.
2.- Enliste y defina los tipos de variables usados en estadística, de 2 ejemplos de cada uno. Defina distribución de frecuencia y explique que es la distribución normal.
Cualitativa: son los valores que como dice la palabra, son cualidades, no son valores numéricos. Ejemplos: Sexo, pelicula favorita.
Cuantitativa: son valores numéricos en su totalidad. Ejemplos: Edad, peso.
Temperatura y pH de pozos de agua subterránea
Pozos subterráneos
Temperatura
Datos de menor a mayor, valor máximo y mínimo, rango total de datos
- Mayor a menor
## [1] 25.6 25.8 26.2 26.3 26.3 26.4 26.4 26.8 26.8 26.9 27.0 27.0 27.1 27.2 27.2
## [16] 27.3 27.3 27.3 27.3 27.4 27.4 27.4 27.4 27.4 27.5 27.5 27.5 27.5 27.5 27.5
## [31] 27.5 27.5 27.5 27.5 27.5 27.5 27.6 27.7 27.7 27.7 27.7 27.8 27.8 27.8 27.8
## [46] 27.8 27.8 27.8 27.8 27.8 27.8 27.8 27.9 27.9 27.9 27.9 27.9 27.9 27.9 27.9
## [61] 27.9 27.9 27.9 27.9 27.9 27.9 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0
## [76] 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.1 28.1 28.1 28.2 28.2 28.2
## [91] 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.3 28.3 28.3 28.3 28.3 28.3
## [106] 28.3 28.4 28.4 28.4 28.4 28.4 28.4 28.4 28.5 28.5 28.5 28.5 28.5 28.5 28.5
## [121] 28.5 28.5 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6
## [136] 28.6 28.6 28.6 28.6 28.6 28.6 28.7 28.7 28.7 28.7 28.7 28.7 28.7 28.7 28.7
## [151] 28.7 28.7 28.7 28.7 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8
## [166] 28.8 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9
## [181] 28.9 28.9 28.9 28.9 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0
## [196] 29.0 29.0 29.0 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.2
## [211] 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.3 29.3
## [226] 29.3 29.3 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.5 29.5
## [241] 29.5 29.5 29.5 29.5 29.5 29.5 29.5 29.6 29.6 29.6 29.7 29.7 29.8 29.8 29.8
## [256] 29.8 29.8 29.8 29.9 29.9 29.9 29.9 30.0 30.0 30.0 30.0 30.0 30.0 30.1 30.1
## [271] 30.1 30.1 30.2 30.2 30.2 30.3 30.3 30.3 30.3 30.4 30.5 30.6 30.8 30.9 31.1
## [286] 31.1 31.1 31.2 31.4 31.5 31.7 31.9 32.1
- Max y min
- Rango
## [1] 6.5
- Usamos la formula de Sturges para calcular “k”
## [1] 10
- Calculamos el ancho de clase diviendo el rango entre “k” que nos dio 10
## [1] 0.65
Tabla de frecuencias (Usada principalmente para reunir y resumir una gran cantidad de datos. De tal manera que sea interpretable facilmente para el lector.)
##
## Attaching package: 'fdth'
## The following objects are masked from 'package:stats':
##
## sd, var
## Class limits f rf rf(%) cf cf(%)
## [25.344,26.052) 2 0.01 0.68 2 0.68
## [26.052,26.759) 5 0.02 1.71 7 2.39
## [26.759,27.467) 17 0.06 5.80 24 8.19
## [27.467,28.175) 63 0.22 21.50 87 29.69
## [28.175,28.883) 79 0.27 26.96 166 56.66
## [28.883,29.59) 81 0.28 27.65 247 84.30
## [29.59,30.298) 28 0.10 9.56 275 93.86
## [30.298,31.006) 9 0.03 3.07 284 96.93
## [31.006,31.713) 7 0.02 2.39 291 99.32
## [31.713,32.421) 2 0.01 0.68 293 100.00
#Donde
#f= frecuencia absoluta: Nos dice la frecuencia en que aparecen las temperaturas
#rf= frecuencia relativa: Es la relacion entre la frecuencia absoluta de cada temperatura entre el numero total de datos
#rf(%) frecuencia relativa porcentual: Es el porcentaje de la frecuencia relativa
#cf= frecuencia acumulada: Es el resultado de sumar sucesivamente los datos de frecuencia de menor a mayor
#cf(%)=frecuencia acumulada porcentual: es la frecuencia acumulada mostrada en porcentaje
Histograma, polígono de frecuencias, histograma de frecuencias acumulado
- Histogramas de frecuencias
- Polígonos de frecuencias
Media, mediana y moda
- Media
## [1] 28.69795
La temperatura promedio en los pozos es de 28.69795
- Mediana
## [1] 28.7
Si ordenamos los datos de menor a mayor el dato que esta en medio del todo es de 28.7
- Moda
## [1] 28.6
El valor que mas se repite entre todas las temperaturas es el de 28.6
Varianza y desviación estándar
- Varianza
## [1] 1.035407
Representa que tanto varían la temperaturas de la temperatura promedio
- Desviación estándar
## [1] 1.017549
Muestra que tan dispersos estan los datos de temperatura entre si
- ¿Pueden éstas ser negativas?
No, ya que el minimo que podrian estar alejados los datos entre si y alejados los datos del promedio sería 0
pH
Datos de menor a mayor, valor máximo y mínimo, rango total de datos
- Mayor a menor
## [1] 6.1 6.3 6.4 6.4 6.4 6.4 6.4 6.4 6.4 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5
## [19] 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6
## [37] 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.7 6.7 6.7 6.7 6.7
## [55] 6.7 6.7 6.7 6.7 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
## [73] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
## [91] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
## [109] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9
## [127] 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9
## [145] 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 7.0 7.0
## [163] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [181] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [199] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [217] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [235] 7.0 7.0 7.0 7.0 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1
## [253] 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.2 7.2
## [271] 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.3 7.3 7.3 7.3 7.3 7.3 7.4 7.4
## [289] 7.4 7.4 7.4 7.4 7.5
- Max y min
- Rango
## [1] 1.4
- Usamos la formula de Sturges para calcular “k”
## [1] 10
- Calculamos el ancho de clase diviendo el rango entre “k” que nos dio 10
## [1] 0.14
Tabla de frecuencias (Usada principalmente para reunir y resumir una gran cantidad de datos. De tal manera que sea interpretable facilmente para el lector.)
## Class limits f rf rf(%) cf cf(%)
## [6.039,6.193) 1 0.00 0.34 1 0.34
## [6.193,6.346) 1 0.00 0.34 2 0.68
## [6.346,6.5) 7 0.02 2.39 9 3.07
## [6.5,6.653) 40 0.14 13.65 49 16.72
## [6.653,6.807) 67 0.23 22.87 116 39.59
## [6.807,6.961) 44 0.15 15.02 160 54.61
## [6.961,7.114) 108 0.37 36.86 268 91.47
## [7.114,7.268) 12 0.04 4.10 280 95.56
## [7.268,7.421) 12 0.04 4.10 292 99.66
## [7.421,7.575) 1 0.00 0.34 293 100.00
#Donde
#f= frecuencia absoluta: Nos dice la frecuencia en que aparecen el pH
#rf= frecuencia relativa: Es la relacion entre la frecuencia absoluta de cada pH entre el numero total de datos
#rf(%) frecuencia relativa porcentual: Es el porcentaje de la frecuencia relativa
#cf= frecuencia acumulada: Es el resultado de sumar sucesivamente los datos de frecuencia de menor a mayor
#cf(%)=frecuencia acumulada porcentual: es la frecuencia acumulada mostrada en porcentaje
Histograma, polígono de frecuencias, histograma de frecuencias acumulado
- Histogramas de frecuencias
- Polígonos de frecuencias
Media, mediana y moda
- Media
## [1] 6.890444
El pH promedio en los pozos es de 6.890444
- Mediana
## [1] 6.9
Si ordenamos los datos de menor a mayor el dato que esta en medio del todo es de 6.9
- Moda
## [1] 7
El valor que mas se repite entre todos los pH es el de 7
Varianza y desviación estándar
- Varianza
## [1] 0.04908645
Representa que tanto varían llos pH de el pH promedio
- Desviación estándar
## [1] 0.2215546
Muestra que tan dispersos estan los datos de pH entre si
- ¿Pueden éstas ser negativas?
No, ya que el minimo que podrian estar alejados los datos entre si y alejados los datos del promedio sería 0
¿Se relacionan Temperatura y pH?
Gráfica de dispersón de pH vs Temp
library(pacman)
p_load("base64enc", "htmltools", "mime", "xfun", "prettydoc", "readr", "knitr", "DT", "tidyverse", "scales", "gridExtra", "modeest", "fdth")
ggplot(data=pozos) +
geom_line(aes(TEMP, PH, colour="Temperatura vs pH")) +
xlab("Temperatura") +
ylab ("pH") +
ggtitle("Temperatura vs pH") +
scale_y_continuous(labels = comma)Curva de regresión logística
Teóricamente, la temperatura y el ph si se relacionan, pero lo veremos mejor con una curva de regresión logística
##
## Call:
## glm(formula = PHB ~ TEMP, family = binomial, data = pozos)
##
## Deviance Residuals:
## Min 1Q Median 3Q Max
## -0.6781 -0.4814 -0.4540 -0.4130 2.3384
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -9.3105 5.3634 -1.736 0.0826 .
## TEMP 0.2479 0.1854 1.337 0.1813
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 193.56 on 292 degrees of freedom
## Residual deviance: 191.79 on 291 degrees of freedom
## AIC: 195.79
##
## Number of Fisher Scoring iterations: 5
library(pacman)
p_load("readxl", "prettydoc", "DT")
datos <- data.frame(TEMP= seq(20,35,0.1))
probabilidades <- predict(reg, datos, type = "response")
#otorgamos valores de color
colores <- NULL
colores[pozos$PHB==0] <- "orange"
colores[pozos$PHB==1] <- "purple"
#Gráfica
plot(pozos$TEMP, pozos$PHB, pch = 21, bg = colores, xlab = 'Temperatura', ylab = 'Probabilidad alcalino o ácido')
legend('bottomleft', c('acido', 'alcalino'), pch = 21, col = c('purple', 'orange'))
lines(datos$TEMP, probabilidades, col="green", lwd=3)Cuando sube la temperatura los casos en que es acido aumentan, podemos verlo en la linea que ve en alza mientras la temperatura sube, en otras palabras, EXISTE una relación entre temperatura y pH