- Importar
datos <- mpg
cilindros <- as.numeric(datos$displ)
millas <- as.numeric(datos$hwy)
cilmi <- data.frame(cilindros,millas)
names(cilmi)## [1] "cilindros" "millas"
- Visualizar
Primer repaso de la unidad 1 de la materia de estadística aplicada
Definición de estadística
es la rama de las matemáticas que estudia la variabilidad, así como el proceso aleatorio que la genera siguiendo las leyes de la probabilidad.2. Como parte de la matemática, la estadística es una ciencia formal deductiva, con un conocimiento propio, dinámico y en continuo desarrollo obtenido a través del método científico formal. En ocasiones, las ciencias fácticas necesitan utilizar técnicas estadísticas durante su proceso de investigación factual, con el fin de obtener nuevos conocimientos basados en la experimentación y en la observación. En estos casos, la aplicación de la estadística permite el análisis de datos provenientes de una muestra representativa, que busca explicar las correlaciones y dependencias de un fenómeno físico o natural, de ocurrencia en forma aleatoria o condicional.
La estadística se divide en dos grandes áreas:
Estadística descriptiva: Se dedica a la descripción, visualización y resumen de datos originados a partir de los fenómenos de estudio. Los datos pueden ser resumidos numérica o gráficamente. Su objetivo es organizar y describir las características sobre un conjunto de datos con el propósito de facilitar su aplicación, generalmente con el apoyo de gráficas, tablas o medidas numéricas. Ejemplos básicos de parámetros estadísticos son: la media y la desviación estándar. Ejemplos gráficos son: histograma, pirámide poblacional, gráfico circular, entre otros.
Estadística inferencial: Se dedica a la generación de los modelos, inferencias y predicciones asociadas a los fenómenos en cuestión teniendo en cuenta la aleatoriedad de las observaciones. Se usa para modelar patrones en los datos y extraer inferencias acerca de la población bajo estudio. Estas inferencias pueden tomar la forma de respuestas a preguntas sí/no (prueba de hipótesis), estimaciones de unas características numéricas (estimación), pronósticos de futuras observaciones, descripciones de asociación (correlación) o modelamiento de relaciones entre variables (análisis de regresión). Otras técnicas de modelamiento incluyen análisis de varianza, series de tiempo y minería de datos. Su objetivo es obtener conclusiones útiles para lograr hacer deducciones acerca de la totalidad de todas las observaciones hechas, basándose en la información numérica.
Distribuciones de frecuencia
Tabla de distribución de frecuencia
## cilindros
## Class limits f rf rf(%) cf cf(%)
## [1.584,2.194) 43 0.18 18.38 43 18.38
## [2.194,2.803) 57 0.24 24.36 100 42.74
## [2.803,3.413) 27 0.12 11.54 127 54.27
## [3.413,4.022) 36 0.15 15.38 163 69.66
## [4.022,4.632) 16 0.07 6.84 179 76.50
## [4.632,5.241) 24 0.10 10.26 203 86.75
## [5.241,5.851) 23 0.10 9.83 226 96.58
## [5.851,6.46) 6 0.03 2.56 232 99.15
## [6.46,7.07) 2 0.01 0.85 234 100.00
##
## millas
## Class limits f rf rf(%) cf cf(%)
## [11.88,15.498) 17 0.07 7.26 17 7.26
## [15.498,19.116) 61 0.26 26.07 78 33.33
## [19.116,22.733) 20 0.09 8.55 98 41.88
## [22.733,26.351) 67 0.29 28.63 165 70.51
## [26.351,29.969) 43 0.18 18.38 208 88.89
## [29.969,33.587) 17 0.07 7.26 225 96.15
## [33.587,37.204) 6 0.03 2.56 231 98.72
## [37.204,40.822) 0 0.00 0.00 231 98.72
## [40.822,44.44) 3 0.01 1.28 234 100.00
Histograma de distribución de frecuencia
Medidas de tendencia central
Moda
## [1] 2
## [1] 26
Ordenar datos de menor a mayor
## [1] 1.6 1.6 1.6 1.6 1.6 1.8 1.8 1.8 1.8 1.8 1.8 1.8 1.8 1.8 1.8 1.8 1.8 1.8
## [19] 1.8 1.9 1.9 1.9 2.0 2.0 2.0 2.0 2.0 2.0 2.0 2.0 2.0 2.0 2.0 2.0 2.0 2.0
## [37] 2.0 2.0 2.0 2.0 2.0 2.0 2.0 2.2 2.2 2.2 2.2 2.2 2.2 2.4 2.4 2.4 2.4 2.4
## [55] 2.4 2.4 2.4 2.4 2.4 2.4 2.4 2.4 2.5 2.5 2.5 2.5 2.5 2.5 2.5 2.5 2.5 2.5
## [73] 2.5 2.5 2.5 2.5 2.5 2.5 2.5 2.5 2.5 2.5 2.7 2.7 2.7 2.7 2.7 2.7 2.7 2.7
## [91] 2.8 2.8 2.8 2.8 2.8 2.8 2.8 2.8 2.8 2.8 3.0 3.0 3.0 3.0 3.0 3.0 3.0 3.0
## [109] 3.1 3.1 3.1 3.1 3.1 3.1 3.3 3.3 3.3 3.3 3.3 3.3 3.3 3.3 3.3 3.4 3.4 3.4
## [127] 3.4 3.5 3.5 3.5 3.5 3.5 3.6 3.6 3.7 3.7 3.7 3.8 3.8 3.8 3.8 3.8 3.8 3.8
## [145] 3.8 3.9 3.9 3.9 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0
## [163] 4.0 4.2 4.2 4.2 4.2 4.4 4.6 4.6 4.6 4.6 4.6 4.6 4.6 4.6 4.6 4.6 4.6 4.7
## [181] 4.7 4.7 4.7 4.7 4.7 4.7 4.7 4.7 4.7 4.7 4.7 4.7 4.7 4.7 4.7 4.7 5.0 5.0
## [199] 5.2 5.2 5.2 5.2 5.2 5.3 5.3 5.3 5.3 5.3 5.3 5.4 5.4 5.4 5.4 5.4 5.4 5.4
## [217] 5.4 5.6 5.7 5.7 5.7 5.7 5.7 5.7 5.7 5.7 5.9 5.9 6.0 6.1 6.2 6.2 6.5 7.0
## [1] 12 12 12 12 12 14 14 15 15 15 15 15 15 15 15 15 15 16 16 16 16 16 16 16 17
## [26] 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17
## [51] 17 17 17 17 17 18 18 18 18 18 18 18 18 18 18 19 19 19 19 19 19 19 19 19 19
## [76] 19 19 19 20 20 20 20 20 20 20 20 20 20 20 21 21 22 22 22 22 22 22 22 23 23
## [101] 23 23 23 23 23 24 24 24 24 24 24 24 24 24 24 24 24 24 25 25 25 25 25 25 25
## [126] 25 25 25 25 25 25 25 25 26 26 26 26 26 26 26 26 26 26 26 26 26 26 26 26 26
## [151] 26 26 26 26 26 26 26 26 26 26 26 26 26 26 26 27 27 27 27 27 27 27 27 27 27
## [176] 27 27 27 27 28 28 28 28 28 28 28 29 29 29 29 29 29 29 29 29 29 29 29 29 29
## [201] 29 29 29 29 29 29 29 29 30 30 30 30 31 31 31 31 31 31 31 32 32 32 32 33 33
## [226] 34 35 35 36 36 37 41 44 44
Cuantiles
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.600 2.400 3.300 3.472 4.600 7.000
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 12.00 18.00 24.00 23.44 27.00 44.00
Medidas de dispersión
Análisis de correlación
Correlación pearson
## cilindros millas
## cilindros 1.00000 -0.76602
## millas -0.76602 1.00000
Regresión lineal simple
##
## Call:
## lm(formula = millas ~ cilindros, data = cilmi)
##
## Residuals:
## Min 1Q Median 3Q Max
## -7.1039 -2.1646 -0.2242 2.0589 15.0105
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 35.6977 0.7204 49.55 <2e-16 ***
## cilindros -3.5306 0.1945 -18.15 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 3.836 on 232 degrees of freedom
## Multiple R-squared: 0.5868, Adjusted R-squared: 0.585
## F-statistic: 329.5 on 1 and 232 DF, p-value: < 2.2e-16
Recta de minimos cuadrados
Ecuación de la recta
\[ y = 35.6977 - 3.5306x \]
Predicción
## [1] 12 12 12 12 12 14 14 15 15 15 15 15 15 15 15 15 15 16 16 16 16 16 16 16 17
## [26] 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17
## [51] 17 17 17 17 17 18 18 18 18 18 18 18 18 18 18 19 19 19 19 19 19 19 19 19 19
## [76] 19 19 19 20 20 20 20 20 20 20 20 20 20 20 21 21 22 22 22 22 22 22 22 23 23
## [101] 23 23 23 23 23 24 24 24 24 24 24 24 24 24 24 24 24 24 25 25 25 25 25 25 25
## [126] 25 25 25 25 25 25 25 25 26 26 26 26 26 26 26 26 26 26 26 26 26 26 26 26 26
## [151] 26 26 26 26 26 26 26 26 26 26 26 26 26 26 26 27 27 27 27 27 27 27 27 27 27
## [176] 27 27 27 27 28 28 28 28 28 28 28 29 29 29 29 29 29 29 29 29 29 29 29 29 29
## [201] 29 29 29 29 29 29 29 29 30 30 30 30 31 31 31 31 31 31 31 32 32 32 32 33 33
## [226] 34 35 35 36 36 37 41 44 44
nuevos.millas <- data.frame(millas=seq(0,45))
nuevos.cilindros<- data.frame(temp=seq(1,6))
predict(regresion,nuevos.cilindros)## Warning: 'newdata' had 6 rows but variables found have 234 rows
## 1 2 3 4 5 6 7 8
## 29.34259 29.34259 28.63647 28.63647 25.81200 25.81200 24.75283 29.34259
## 9 10 11 12 13 14 15 16
## 29.34259 28.63647 28.63647 25.81200 25.81200 24.75283 24.75283 25.81200
## 17 18 19 20 21 22 23 24
## 24.75283 20.86918 16.98553 16.98553 16.98553 15.57329 14.51412 15.57329
## 25 26 27 28 29 30 31 32
## 15.57329 13.80800 13.80800 10.98353 16.98553 16.98553 15.57329 12.74882
## 33 34 35 36 37 38 39 40
## 27.22424 27.22424 24.75283 23.34059 22.98753 27.22424 25.10588 24.04671
## 41 42 43 44 45 46 47 48
## 24.04671 24.04671 24.04671 24.04671 22.28141 22.28141 22.28141 21.57530
## 49 50 51 52 53 54 55 56
## 22.63447 22.63447 21.92835 21.92835 19.10388 19.10388 19.10388 17.33859
## 57 58 59 60 61 62 63 64
## 17.33859 21.92835 19.10388 19.10388 19.10388 17.33859 15.57329 14.86718
## 65 66 67 68 69 70 71 72
## 19.10388 19.10388 19.10388 19.10388 19.10388 19.10388 17.33859 17.33859
## 73 74 75 76 77 78 79 80
## 15.57329 14.86718 19.45694 16.63247 16.63247 21.57530 21.57530 21.57530
## 81 82 83 84 85 86 87 88
## 21.57530 19.45694 18.04471 20.86918 20.86918 19.45694 19.45694 19.45694
## 89 90 91 92 93 94 95 96
## 16.63247 16.63247 22.28141 22.28141 21.57530 21.57530 19.45694 19.45694
## 97 98 99 100 101 102 103 104
## 19.45694 19.45694 16.63247 30.04871 30.04871 30.04871 30.04871 30.04871
## 105 106 107 108 109 110 111 112
## 29.34259 29.34259 29.34259 28.63647 27.22424 27.22424 27.22424 27.22424
## 113 114 115 116 117 118 119 120
## 26.87118 26.87118 24.04671 28.63647 28.63647 28.63647 28.63647 26.16506
## 121 122 123 124 125 126 127 128
## 26.16506 26.16506 25.10588 22.63447 21.57530 19.10388 19.10388 19.10388
## 129 130 131 132 133 134 135 136
## 15.57329 14.16106 21.57530 20.86918 20.16306 19.45694 16.63247 16.63247
## 137 138 139 140 141 142 143 144
## 16.63247 21.57530 21.57530 19.45694 18.04471 27.22424 27.22424 26.87118
## 145 146 147 148 149 150 151 152
## 26.87118 23.34059 23.34059 25.10588 25.10588 23.34059 24.04671 24.04671
## 153 154 155 156 157 158 159 160
## 21.57530 15.92635 24.75283 22.28141 22.28141 22.28141 16.98553 26.87118
## 161 162 163 164 165 166 167 168
## 26.87118 26.87118 26.87118 26.87118 26.87118 27.93036 27.93036 26.87118
## 169 170 171 172 173 174 175 176
## 26.87118 26.87118 26.87118 26.87118 26.87118 26.16506 26.16506 23.69365
## 177 178 179 180 181 182 183 184
## 23.69365 21.57530 19.10388 27.93036 27.93036 27.22424 27.22424 25.10588
## 185 186 187 188 189 190 191 192
## 25.10588 23.34059 27.93036 27.93036 27.22424 27.22424 25.10588 25.10588
## 193 194 195 196 197 198 199 200
## 24.04671 29.34259 29.34259 29.34259 29.34259 29.34259 19.10388 15.57329
## 201 202 203 204 205 206 207 208
## 26.16506 26.16506 26.16506 23.69365 23.69365 21.57530 21.57530 28.63647
## 209 210 211 212 213 214 215 216
## 28.63647 28.63647 28.63647 25.81200 28.98953 28.63647 28.63647 28.63647
## 217 218 219 220 221 222 223 224
## 28.63647 26.87118 26.87118 25.81200 25.81200 28.98953 28.98953 28.63647
## 225 226 227 228 229 230 231 232
## 28.63647 26.87118 26.87118 29.34259 29.34259 28.63647 28.63647 25.81200
## 233 234
## 25.81200 22.98753
Intervalos de confianza
## 2.5 % 97.5 %
## (Intercept) 34.278353 37.11695
## cilindros -3.913828 -3.14735
nuevos.cilindros <- data.frame(cilindros=seq(1,6))
#Recta ajustada al gráfico de dispersión
plot(cilmi$cilindros, cilmi$millas, xlab = "Cilindros", ylab="Millas por galon")
abline(regresion)
#Intervalos de confianza para la respuesta media
# ic es una matriz con tres columnas: la primera es la prediccion, las otras dos son los extremos del intervalo
ic <- predict(regresion, nuevos.cilindros, interval = 'confidence')
lines(nuevos.cilindros$cilindros, ic[, 2], lty = 2)
lines(nuevos.cilindros$cilindros, ic[, 3], lty = 2)
# Intervalos de predicción
ic <- predict(regresion, nuevos.cilindros, interval = 'prediction')
lines(nuevos.cilindros$cilindros, ic[, 2], lty = 2, col = "red")
lines(nuevos.cilindros$cilindros, ic[, 3], lty = 2, col = "red")Análisis de residuales
##" Análisis ANOVA (Análisis de varianza)
## Analysis of Variance Table
##
## Response: millas
## Df Sum Sq Mean Sq F value Pr(>F)
## cilindros 1 4847.8 4847.8 329.45 < 2.2e-16 ***
## Residuals 232 3413.8 14.7
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Diagnóstico del modelo
residuos <- rstandard(regresion)
valores.ajustados <- fitted(regresion)
plot(valores.ajustados,residuos)Pruebas de normalidad
No se observa ningún patrón especial, por lo que tanto la homocedasticidad como la linealidad resultan hipótesis razonables.
La hipótesis de normalidad se suele comprobar mediante un QQ plot de los residuos. El siguiente código sirve para obtenerlo:
Introducción a la probabilidad
Probabilidad es el lenguaje matemático para cuantificar la incertidumbre. wasserman
- Terminología de probabilidad: espacio de resulatods,eventos, funciones de probabilidad, Etc.
- Interpretación frecuentista de la probabilidad.
- Probabilidad condicional y su relación con la independencia.
- La regla de Bayes.
Probabilidad clásica
EL espacio de resultados \(\Omega\) es el conjunto de resultados de un experimento aleatorio.
e.g. si lanzamos una moneda dos veces entonces:
\[\Omega = \{AA, AS, SA, SS \}\] Un Evento es un subconjunto del espacio muestral, los eventos usualmente se denotan por mayúsculas.
e.g. Que el primer lanzamiento resulte águila.
\[A=\{AA, AS\}\] ## Eventos equiprobables
La probabilidad se puede ver como una estensión de la idea de proporcion, o cociente de una parte con respecto a todo.
e.g. En la carrera de Ing. Quimíca hay 300 estudiantes que son Hombres y 700 Mujeres, la proporcion de hombres es:
\[\frac{300}{700+300}=0.3\] Eventos equiprobables si todos los elementos en el espacio de resultados tienen la misma oportunidad de ser elegidos entonces la probabilidad del evento A es el número de resultados en A dividido ente el número total de posibles resultados:
\[ P(A) =\frac{\#(A)}{\#(\Omega)}\] Por loque solo hace falta contar.
e.g. Combinaciones
un comité de 5 personas será seleccionado de un grupo de 6 hombres y 9 muejres. Si la selección es aleatorea,¿Cuál es la probabilidad de que el comité este condormado por 3 hombres y 2 mujeres?
Hay \(\dbinom{15}{5}\) posibles comités ,cada uno tiene la misma posiblidad de ser seleccionado. Por otra parte hay \(\dbinom{6}{3} \dbinom{9}{2}\) posibles comités que incluyen 3 hombres y 2 mujeres, por lo tanto la probabilidadque buscamos es:
\[\frac{\dbinom{6}{3} \dbinom{9}{2}}{\dbinom{15}{5}} \] y la función para calcular las combinaciones es choose(n, r)
Probabilidad distribuida
Distribuciones de frecuencia
una frecuencia relativa es una proporcion que mide que tan seguid, o frecuentemente, ocurre una u otra cosa en una sucesion de observaciones.
## [1] "A" "S" "A" "S" "A" "S" "S" "S" "S" "A"
podemos calcular la secuencia de frecuencias relativas de aguila:
## [1] 1 1 2 2 3 3 3 3 3 4
## [1] 1.00 0.50 0.67 0.50 0.60 0.50 0.43 0.38 0.33 0.40
Distribución normal
Si \(x\) es una variable aleatoria, con distribucion normal de media 3, y su desviación típica es de 0.5, la probabilidad de que \(x\) sea menor que 3.5 se calcula en R de esta forma:
## [1] 0.8413447
- para calcular el cuantil 0.7 de una variavle aleatoria normal estandar z, es decir un valor x tal que
## [1] 0.5244005
- para calcular el mismo cuantil, pero para una v.a. normal de media 0 y DT 0.5
## [1] 0.2622003
El valor \(z_\alpha\) que aparece en muchas fórmulas para intervalos y contrastes se obtiene con elcomando qnorm (1-alfa). algunos ejemplos:
## [1] 1.959964
- Para generar una muestra de tamaño 100 de una publicaciión normal de media 10 y desviación típica 1 (y guardarla en un vector x):
## [1] 8.179874 9.469519 10.968940 8.889071 9.930501 10.737078 11.899608
## [8] 9.800537 10.509958 10.040296 10.329414 10.795192 10.197350 9.395079
## [15] 10.412092 10.762571 7.993911 11.477697 8.962684 9.253546 11.687634
## [22] 8.047762 9.207332 11.017171 9.959167 10.052343 9.915838 11.179426
## [29] 9.496718 10.411146 9.714311 10.147115 8.825363 9.918452 10.281855
## [36] 8.541989 8.734050 10.544016 10.116948 11.404479 9.607015 9.361312
## [43] 9.730433 9.626513 9.650758 8.814859 10.793389 10.082963 11.446439
## [50] 10.756987 11.917970 10.184776 8.572623 9.778039 9.501808 8.150580
## [57] 11.262149 10.947782 11.170182 10.684352 10.093072 10.783183 11.279390
## [64] 10.247190 9.819481 9.088109 11.358886 8.099054 10.404352 9.671383
## [71] 8.842007 9.898768 9.692019 9.632420 9.623339 9.244949 9.544186
## [78] 9.163031 9.825833 9.223393 8.142383 9.180693 10.171321 10.623767
## [85] 9.316320 9.990490 10.665686 9.755635 9.682769 10.301581 9.427229
## [92] 10.894956 10.059122 11.709415 9.784174 11.760492 8.242673 9.794023
## [99] 9.891770 9.913555
- Para estimar el promedio de x
## [1] 9.960911
Distribución binomial
## [1] 0 1 1 1 0 1 1 1 0 1 0 0 1 1 1 0 1 0 1 0 0 0 0 0 1 1 0 1 1 0