- Importar
library(pacman)
p_load("readr","DT","prettydoc","fdth","modeest")
datosob <- read_csv("telefonos.csv")## Parsed with column specification:
## cols(
## Semana = col_character(),
## telefono = col_double(),
## iphone = col_double()
## )
- Visualizar
Primer repaso de la unidad 1 de la materia de estadística aplicada
Definición de estadística
es la rama de las matemáticas que estudia la variabilidad, así como el proceso aleatorio que la genera siguiendo las leyes de la probabilidad.2. Como parte de la matemática, la estadística es una ciencia formal deductiva, con un conocimiento propio, dinámico y en continuo desarrollo obtenido a través del método científico formal. En ocasiones, las ciencias fácticas necesitan utilizar técnicas estadísticas durante su proceso de investigación factual, con el fin de obtener nuevos conocimientos basados en la experimentación y en la observación. En estos casos, la aplicación de la estadística permite el análisis de datos provenientes de una muestra representativa, que busca explicar las correlaciones y dependencias de un fenómeno físico o natural, de ocurrencia en forma aleatoria o condicional.
La estadística se divide en dos grandes áreas:
Estadística descriptiva: Se dedica a la descripción, visualización y resumen de datos originados a partir de los fenómenos de estudio. Los datos pueden ser resumidos numérica o gráficamente. Su objetivo es organizar y describir las características sobre un conjunto de datos con el propósito de facilitar su aplicación, generalmente con el apoyo de gráficas, tablas o medidas numéricas. Ejemplos básicos de parámetros estadísticos son: la media y la desviación estándar. Ejemplos gráficos son: histograma, pirámide poblacional, gráfico circular, entre otros.
Estadística inferencial: Se dedica a la generación de los modelos, inferencias y predicciones asociadas a los fenómenos en cuestión teniendo en cuenta la aleatoriedad de las observaciones. Se usa para modelar patrones en los datos y extraer inferencias acerca de la población bajo estudio. Estas inferencias pueden tomar la forma de respuestas a preguntas sí/no (prueba de hipótesis), estimaciones de unas características numéricas (estimación), pronósticos de futuras observaciones, descripciones de asociación (correlación) o modelamiento de relaciones entre variables (análisis de regresión). Otras técnicas de modelamiento incluyen análisis de varianza, series de tiempo y minería de datos. Su objetivo es obtener conclusiones útiles para lograr hacer deducciones acerca de la totalidad de todas las observaciones hechas, basándose en la información numérica.
Distribuciones de frecuencia
Tabla de distribución de frecuencia
## telefono
## Class limits f rf rf(%) cf cf(%)
## [53.5,60.3) 1 0.02 1.92 1 1.92
## [60.3,67) 1 0.02 1.92 2 3.85
## [67,73.8) 4 0.08 7.69 6 11.54
## [73.8,80.6) 11 0.21 21.15 17 32.69
## [80.6,87.4) 18 0.35 34.62 35 67.31
## [87.4,94.2) 16 0.31 30.77 51 98.08
## [94.2,101) 1 0.02 1.92 52 100.00
##
## iphone
## Class limits f rf rf(%) cf cf(%)
## [40.59,46.767) 2 0.04 3.85 2 3.85
## [46.767,52.944) 16 0.31 30.77 18 34.62
## [52.944,59.121) 24 0.46 46.15 42 80.77
## [59.121,65.299) 5 0.10 9.62 47 90.38
## [65.299,71.476) 2 0.04 3.85 49 94.23
## [71.476,77.653) 2 0.04 3.85 51 98.08
## [77.653,83.83) 1 0.02 1.92 52 100.00
Histograma de distribución de frecuencia
Medidas de tendencia central
Moda
## [1] 88
## [1] 50 56 57
Ordenar datos de menor a mayor
## [1] 54 67 69 69 72 73 76 77 77 77 77 77 79 79 79 79 80 82 82
## [20] 82 82 83 83 83 83 84 84 84 85 85 86 86 86 87 87 88 88 88
## [39] 88 88 88 89 89 90 91 92 92 92 92 92 93 100
## [1] 41 43 47 48 48 48 49 49 49 49 50 50 50 50 50 51 51 52 53 53 53 54 55 55 55
## [26] 56 56 56 56 56 57 57 57 57 57 58 58 58 59 59 59 59 60 61 61 64 65 66 68 72
## [51] 73 83
Cuantiles
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 54.00 79.00 84.00 82.98 88.00 100.00
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 41.00 50.00 56.00 55.79 59.00 83.00
Medidas de dispersión
Análisis de correlación
Correlación pearson
## tel iphon
## tel 1.0000000 0.5577802
## iphon 0.5577802 1.0000000
Regresión lineal simple
##
## Call:
## lm(formula = tel ~ iphon, data = telephone)
##
## Residuals:
## Min 1Q Median 3Q Max
## -26.765 -2.514 1.848 4.305 10.405
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 50.3440 6.9297 7.265 2.31e-09 ***
## iphon 0.5850 0.1231 4.752 1.74e-05 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 6.655 on 50 degrees of freedom
## Multiple R-squared: 0.3111, Adjusted R-squared: 0.2973
## F-statistic: 22.58 on 1 and 50 DF, p-value: 1.74e-05
Recta de minimos cuadrados
Ecuación de la recta
\[ y = 50.3440 + 0.5850 x \]
Predicción
## [1] 41 43 47 48 48 48 49 49 49 49 50 50 50 50 50 51 51 52 53 53 53 54 55 55 55
## [26] 56 56 56 56 56 57 57 57 57 57 58 58 58 59 59 59 59 60 61 61 64 65 66 68 72
## [51] 73 83
nuevas.iphon <- data.frame(iphon=seq(0,100))
nuevas.tel <- data.frame(tel=seq(54,100))
predict(regresion,nuevas.tel)## Warning: 'newdata' had 47 rows but variables found have 52 rows
## 1 2 3 4 5 6 7 8
## 84.27454 82.51951 81.34950 83.68953 88.95461 90.12462 86.02956 84.85955
## 9 10 11 12 13 14 15 16
## 88.36960 92.46466 98.89975 93.04966 87.78459 83.10452 83.10452 81.93450
## 17 18 19 20 21 22 23 24
## 80.17948 78.42445 79.59447 79.59447 79.59447 79.00946 79.59447 75.49941
## 25 26 27 28 29 30 31 32
## 74.32939 78.42445 84.85955 79.59447 83.10452 81.34950 82.51951 86.02956
## 33 34 35 36 37 38 39 40
## 83.10452 79.00946 81.34950 82.51951 83.68953 83.10452 83.68953 85.44455
## 41 42 43 44 45 46 47 48
## 84.27454 84.85955 84.85955 84.27454 83.68953 79.00946 78.42445 79.00946
## 49 50 51 52
## 83.68953 80.17948 77.83944 80.76449
Análisis de residuales
##" Análisis ANOVA (Análisis de varianza)
## Analysis of Variance Table
##
## Response: tel
## Df Sum Sq Mean Sq F value Pr(>F)
## iphon 1 1000.2 1000.24 22.581 1.74e-05 ***
## Residuals 50 2214.7 44.29
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Diagnóstico del modelo
residuos <- rstandard(regresion)
valores.ajustados <- fitted(regresion)
plot(valores.ajustados,residuos)Pruebas de normalidad
No se observa ningún patrón especial, por lo que tanto la homocedasticidad como la linealidad resultan hipótesis razonables.
La hipótesis de normalidad se suele comprobar mediante un QQ plot de los residuos. El siguiente código sirve para obtenerlo: