- Importar
library(pacman)
p_load("readr","DT","prettydoc","fdth","modeest")
datos1 <- read_csv("invierno.csv")## Parsed with column specification:
## cols(
## Dias = col_character(),
## Invierno = col_double(),
## cab_madera = col_double()
## )
#datos de la busqueda de Invierno relacionada con la busqueda de cabañas de madera en los ultimos 90 dias - Visualizar
Primer repaso de la unidad 1 de la materia de estadística aplicada
Definición de estadística
es la rama de las matemáticas que estudia la variabilidad, así como el proceso aleatorio que la genera siguiendo las leyes de la probabilidad.2. Como parte de la matemática, la estadística es una ciencia formal deductiva, con un conocimiento propio, dinámico y en continuo desarrollo obtenido a través del método científico formal. En ocasiones, las ciencias fácticas necesitan utilizar técnicas estadísticas durante su proceso de investigación factual, con el fin de obtener nuevos conocimientos basados en la experimentación y en la observación. En estos casos, la aplicación de la estadística permite el análisis de datos provenientes de una muestra representativa, que busca explicar las correlaciones y dependencias de un fenómeno físico o natural, de ocurrencia en forma aleatoria o condicional.
La estadística se divide en dos grandes áreas:
Estadística descriptiva: Se dedica a la descripción, visualización y resumen de datos originados a partir de los fenómenos de estudio. Los datos pueden ser resumidos numérica o gráficamente. Su objetivo es organizar y describir las características sobre un conjunto de datos con el propósito de facilitar su aplicación, generalmente con el apoyo de gráficas, tablas o medidas numéricas. Ejemplos básicos de parámetros estadísticos son: la media y la desviación estándar. Ejemplos gráficos son: histograma, pirámide poblacional, gráfico circular, entre otros.
Estadística inferencial: Se dedica a la generación de los modelos, inferencias y predicciones asociadas a los fenómenos en cuestión teniendo en cuenta la aleatoriedad de las observaciones. Se usa para modelar patrones en los datos y extraer inferencias acerca de la población bajo estudio. Estas inferencias pueden tomar la forma de respuestas a preguntas sí/no (prueba de hipótesis), estimaciones de unas características numéricas (estimación), pronósticos de futuras observaciones, descripciones de asociación (correlación) o modelamiento de relaciones entre variables (análisis de regresión). Otras técnicas de modelamiento incluyen análisis de varianza, series de tiempo y minería de datos. Su objetivo es obtener conclusiones útiles para lograr hacer deducciones acerca de la totalidad de todas las observaciones hechas, basándose en la información numérica.
Distribuciones de frecuencia
Tabla de distribución de frecuencia
## Invierno
## Class limits f rf rf(%) cf cf(%)
## [24.8,34.3) 25 0.28 27.78 25 27.78
## [34.3,43.8) 15 0.17 16.67 40 44.44
## [43.8,53.3) 14 0.16 15.56 54 60.00
## [53.3,62.9) 6 0.07 6.67 60 66.67
## [62.9,72.4) 12 0.13 13.33 72 80.00
## [72.4,81.9) 9 0.10 10.00 81 90.00
## [81.9,91.5) 7 0.08 7.78 88 97.78
## [91.5,101) 2 0.02 2.22 90 100.00
##
## cab_madera
## Class limits f rf rf(%) cf cf(%)
## [30.69,34.934) 7 0.08 7.78 7 7.78
## [34.934,39.178) 17 0.19 18.89 24 26.67
## [39.178,43.421) 12 0.13 13.33 36 40.00
## [43.421,47.665) 18 0.20 20.00 54 60.00
## [47.665,51.909) 15 0.17 16.67 69 76.67
## [51.909,56.153) 15 0.17 16.67 84 93.33
## [56.153,60.396) 2 0.02 2.22 86 95.56
## [60.396,64.64) 4 0.04 4.44 90 100.00
Histograma de distribución de frecuencia
Medidas de tendencia central
Moda
## [1] 30 37
## [1] 46
Ordenar datos de menor a mayor
## [1] 25 27 27 28 28 30 30 30 30 30 30 31 31 31 31 32 32 32 32
## [20] 33 33 33 34 34 34 35 36 36 37 37 37 37 37 37 38 38 40 42
## [39] 42 43 44 44 44 45 45 46 46 46 47 47 48 50 52 52 54 54 55
## [58] 55 58 62 63 65 65 65 66 67 67 70 70 71 72 72 73 73 73 75
## [77] 76 77 77 79 80 82 82 83 83 89 89 90 96 100
## [1] 31 32 32 33 33 34 34 35 35 35 36 36 36 36 36 37 37 37 37 38 39 39 39 39 40
## [26] 40 40 40 40 41 41 42 42 42 42 42 44 44 44 45 45 45 45 46 46 46 46 46 46 46
## [51] 47 47 47 47 48 48 48 48 48 49 49 49 50 50 50 51 51 51 51 52 52 52 53 53 53
## [76] 54 54 54 54 55 55 56 56 56 60 60 61 63 64 64
Cuantiles
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 25.00 34.00 45.50 51.38 69.25 100.00
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 31.00 39.00 46.00 45.47 51.00 64.00
Medidas de dispersión
Análisis de correlación
Regresión lineal simple
##
## Call:
## lm(formula = Invierno ~ cab_madera, data = busqueda)
##
## Residuals:
## Min 1Q Median 3Q Max
## -22.068 -12.200 -4.028 10.079 53.851
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 118.6573 9.8526 12.043 < 2e-16 ***
## cab_madera -1.4798 0.2134 -6.933 6.59e-10 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 16.14 on 88 degrees of freedom
## Multiple R-squared: 0.3532, Adjusted R-squared: 0.3459
## F-statistic: 48.06 on 1 and 88 DF, p-value: 6.588e-10
Recta de minimos cuadrados
Ecuación de la recta
\[ y = 118.6573 -1.4798 x \]
Predicción
## [1] 31 32 32 33 33 34 34 35 35 35 36 36 36 36 36 37 37 37 37 38 39 39 39 39 40
## [26] 40 40 40 40 41 41 42 42 42 42 42 44 44 44 45 45 45 45 46 46 46 46 46 46 46
## [51] 47 47 47 47 48 48 48 48 48 49 49 49 50 50 50 51 51 51 51 52 52 52 53 53 53
## [76] 54 54 54 54 55 55 56 56 56 60 60 61 63 64 64
nuevas.cab_madera <- data.frame(cab_madera=seq(0,100))
nuevas.Invierno <- data.frame(Invierno=seq(0,100))
predict(regresion,nuevas.cab_madera)## 1 2 3 4 5 6
## 118.6572668 117.1775127 115.6977585 114.2180043 112.7382502 111.2584960
## 7 8 9 10 11 12
## 109.7787419 108.2989877 106.8192336 105.3394794 103.8597252 102.3799711
## 13 14 15 16 17 18
## 100.9002169 99.4204628 97.9407086 96.4609544 94.9812003 93.5014461
## 19 20 21 22 23 24
## 92.0216920 90.5419378 89.0621837 87.5824295 86.1026753 84.6229212
## 25 26 27 28 29 30
## 83.1431670 81.6634129 80.1836587 78.7039046 77.2241504 75.7443962
## 31 32 33 34 35 36
## 74.2646421 72.7848879 71.3051338 69.8253796 68.3456255 66.8658713
## 37 38 39 40 41 42
## 65.3861171 63.9063630 62.4266088 60.9468547 59.4671005 57.9873463
## 43 44 45 46 47 48
## 56.5075922 55.0278380 53.5480839 52.0683297 50.5885756 49.1088214
## 49 50 51 52 53 54
## 47.6290672 46.1493131 44.6695589 43.1898048 41.7100506 40.2302965
## 55 56 57 58 59 60
## 38.7505423 37.2707881 35.7910340 34.3112798 32.8315257 31.3517715
## 61 62 63 64 65 66
## 29.8720174 28.3922632 26.9125090 25.4327549 23.9530007 22.4732466
## 67 68 69 70 71 72
## 20.9934924 19.5137383 18.0339841 16.5542299 15.0744758 13.5947216
## 73 74 75 76 77 78
## 12.1149675 10.6352133 9.1554591 7.6757050 6.1959508 4.7161967
## 79 80 81 82 83 84
## 3.2364425 1.7566884 0.2769342 -1.2028200 -2.6825741 -4.1623283
## 85 86 87 88 89 90
## -5.6420824 -7.1218366 -8.6015907 -10.0813449 -11.5610991 -13.0408532
## 91 92 93 94 95 96
## -14.5206074 -16.0003615 -17.4801157 -18.9598698 -20.4396240 -21.9193782
## 97 98 99 100 101
## -23.3991323 -24.8788865 -26.3586406 -27.8383948 -29.3181490
Intervalos de confianza
## 2.5 % 97.5 %
## (Intercept) 99.077273 138.237261
## cab_madera -1.903932 -1.055576
nuevas.Invierno <- data.frame(temp=seq(0,100))
#Recta ajustada al gráfico de dispersión
plot(busqueda$Invierno, busqueda$cab_madera, xlab = "Invierno", ylab="Cabañas de madera")
abline(regresion)Análisis de residuales
##" Análisis ANOVA (Análisis de varianza)
## Analysis of Variance Table
##
## Response: Invierno
## Df Sum Sq Mean Sq F value Pr(>F)
## cab_madera 1 12517 12517.0 48.062 6.588e-10 ***
## Residuals 88 22918 260.4
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Diagnóstico del modelo
residuos <- rstandard(regresion)
valores.ajustados <- fitted(regresion)
plot(valores.ajustados,residuos)Pruebas de normalidad
No se observa ningún patrón especial, por lo que tanto la homocedasticidad como la linealidad resultan hipótesis razonables.
La hipótesis de normalidad se suele comprobar mediante un QQ plot de los residuos. El siguiente código sirve para obtenerlo: