- Primer repaso de la unidad 1 de la materia de estadística aplicada
Primer repaso de la unidad 1 de la materia de estadística aplicada
Estadística aplicada
Definición de estadística
es la rama de las matemáticas que estudia la variabilidad, así como el proceso aleatorio que la genera siguiendo las leyes de la probabilidad.2. Como parte de la matemática, la estadística es una ciencia formal deductiva, con un conocimiento propio, dinámico y en continuo desarrollo obtenido a través del método científico formal. En ocasiones, las ciencias fácticas necesitan utilizar técnicas estadísticas durante su proceso de investigación factual, con el fin de obtener nuevos conocimientos basados en la experimentación y en la observación. En estos casos, la aplicación de la estadística permite el análisis de datos provenientes de una muestra representativa, que busca explicar las correlaciones y dependencias de un fenómeno físico o natural, de ocurrencia en forma aleatoria o condicional.
La estadística se divide en dos grandes áreas:
Estadística descriptiva: Se dedica a la descripción, visualización y resumen de datos originados a partir de los fenómenos de estudio. Los datos pueden ser resumidos numérica o gráficamente. Su objetivo es organizar y describir las características sobre un conjunto de datos con el propósito de facilitar su aplicación, generalmente con el apoyo de gráficas, tablas o medidas numéricas. Ejemplos básicos de parámetros estadísticos son: la media y la desviación estándar. Ejemplos gráficos son: histograma, pirámide poblacional, gráfico circular, entre otros.
Estadística inferencial: Se dedica a la generación de los modelos, inferencias y predicciones asociadas a los fenómenos en cuestión teniendo en cuenta la aleatoriedad de las observaciones. Se usa para modelar patrones en los datos y extraer inferencias acerca de la población bajo estudio. Estas inferencias pueden tomar la forma de respuestas a preguntas sí/no (prueba de hipótesis), estimaciones de unas características numéricas (estimación), pronósticos de futuras observaciones, descripciones de asociación (correlación) o modelamiento de relaciones entre variables (análisis de regresión). Otras técnicas de modelamiento incluyen análisis de varianza, series de tiempo y minería de datos. Su objetivo es obtener conclusiones útiles para lograr hacer deducciones acerca de la totalidad de todas las observaciones hechas, basándose en la información numérica.
Distribuciones de frecuencia
- Importar
library(pacman)
p_load("readr","DT","prettydoc","fdth","modeest")
datosob <- read_csv("datosob.csv")## Parsed with column specification:
## cols(
## mes = col_character(),
## temp = col_double(),
## prec = col_double()
## )
- Visualizar
Tabla de distribución de frecuencia
## temp
## Class limits f rf rf(%) cf cf(%)
## [17.226,20.225) 3 0.25 25.00 3 25.00
## [20.225,23.223) 2 0.17 16.67 5 41.67
## [23.223,26.222) 1 0.08 8.33 6 50.00
## [26.222,29.22) 2 0.17 16.67 8 66.67
## [29.22,32.219) 4 0.33 33.33 12 100.00
##
## prec
## Class limits f rf rf(%) cf cf(%)
## [0.396,19.365) 6 0.50 50 6 50
## [19.365,38.335) 3 0.25 25 9 75
## [38.335,57.304) 0 0.00 0 9 75
## [57.304,76.274) 0 0.00 0 9 75
## [76.274,95.243) 3 0.25 25 12 100
Histograma de distribución de frecuencia
Medidas de tendencia central
Moda
## [1] 0.4 2.2 4.6 6.4 11.4 14.2 20.8 25.0 28.7 83.6 85.3 94.3
## [1] 17.4 17.9 18.6 20.3 22.1 23.5 26.9 27.5 30.6 31.0 31.6 31.9
Ordenar datos de menor a mayor
## [1] 17.4 17.9 18.6 20.3 22.1 23.5 26.9 27.5 30.6 31.0 31.6 31.9
## [1] 0.4 2.2 4.6 6.4 11.4 14.2 20.8 25.0 28.7 83.6 85.3 94.3
Cuantiles
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 17.40 19.88 25.20 24.94 30.70 31.90
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.40 5.95 17.50 31.41 42.42 94.30
Medidas de dispersión
Análisis de correlación
Correlación pearson
## temp prec
## temp 1.000000 0.626233
## prec 0.626233 1.000000
Regresión lineal simple
##
## Call:
## lm(formula = prec ~ temp, data = clima)
##
## Residuals:
## Min 1Q Median 3Q Max
## -47.09 -15.41 -0.69 22.06 36.91
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -65.923 39.207 -1.681 0.1236
## temp 3.902 1.536 2.540 0.0294 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 28.75 on 10 degrees of freedom
## Multiple R-squared: 0.3922, Adjusted R-squared: 0.3314
## F-statistic: 6.452 on 1 and 10 DF, p-value: 0.02936
Recta de minimos cuadrados
Ecuación de la recta
\[ y = -65.923 + 3.902 x \]
Predicción
## [1] 0.4 2.2 4.6 6.4 11.4 14.2 20.8 25.0 28.7 83.6 85.3 94.3
nuevas.prec <- data.frame(prec=seq(0,100))
nuevas.temp <- data.frame(temp=seq(17,32))
predict(regresion,nuevas.temp)## 1 2 3 4 5 6 7
## 0.4171921 4.3195393 8.2218866 12.1242339 16.0265812 19.9289284 23.8312757
## 8 9 10 11 12 13 14
## 27.7336230 31.6359703 35.5383175 39.4406648 43.3430121 47.2453593 51.1477066
## 15 16
## 55.0500539 58.9524012
Intervalos de confianza
## 2.5 % 97.5 %
## (Intercept) -153.2812572 21.435834
## temp 0.4792123 7.325482
nuevas.temp <- data.frame(temp=seq(17,32))
#Recta ajustada al gráfico de dispersión
plot(clima$temp, clima$prec, xlab = "Temperatura", ylab="Precipitación")
abline(regresion)
#Intervalos de confianza para la respuesta media
# ic es una matriz con tres columnas: la primera es la prediccion, las otras dos son los extremos del intervalo
ic <- predict(regresion, nuevas.temp, interval = 'confidence')
lines(nuevas.temp$temp, ic[, 2], lty = 2)
lines(nuevas.temp$temp, ic[, 3], lty = 2)
# Intervalos de predicción
ic <- predict(regresion, nuevas.temp, interval = 'prediction')
lines(nuevas.temp$temp, ic[, 2], lty = 2, col = "red")
lines(nuevas.temp$temp, ic[, 3], lty = 2, col = "red")Análisis de residuales
Análisis ANOVA (Análisis de varianza)
## Analysis of Variance Table
##
## Response: prec
## Df Sum Sq Mean Sq F value Pr(>F)
## temp 1 5333.4 5333.4 6.4519 0.02936 *
## Residuals 10 8266.4 826.6
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Diagnóstico del modelo
residuos <- rstandard(regresion)
valores.ajustados <- fitted(regresion)
plot(valores.ajustados,residuos)Pruebas de normalidad
No se observa ningún patrón especial, por lo que tanto la homocedasticidad como la linealidad resultan hipótesis razonables.
La hipótesis de normalidad se suele comprobar mediante un QQ plot de los residuos. El siguiente código sirve para obtenerlo:
Introducción a la probabilidad
Dados
Probabilidad clásica
La probabilidad de un evento \(A\) es un número real en el intervalo \([0, 1]\) que se denota por \(P(A)\) y representa una medida de la frecuencia con la que se observa la ocurrencia de este evento cuando se efectúa el experimento aleatorio en cuestión. Históricamente, esta forma de calcular probabilidades es una de las primeras en utilizarse; se aplicó con bastante éxito en problemas de juegos de azar y ayudó a sentar las bases para construir la teoría matemática. Su definición es elemental y su aplicación está restringida a situaciones cuando se satisfacen ciertas condiciones en el experimento aleatorio.
Probabilidad distribuida
En teoría de la probabilidad y estadística, la distribución de probabilidad de una variable aleatoria es una función que asigna a cada suceso definido sobre la variable la probabilidad de que dicho suceso ocurra. La distribución de probabilidad está definida sobre el conjunto de todos los sucesos y cada uno de los sucesos es el rango de valores de la variable aleatoria. También puede decirse que tiene una relación estrecha con las distribuciones de frecuencia. De hecho, una distribución de probabilidades puede comprenderse como una frecuencia teórica, ya que describe cómo se espera que varíen los resultados.
La distribución de probabilidad está completamente especificada por la función de distribución, cuyo valor en cada \(x\) real es la probabilidad de que la variable aleatoria sea menor o igual que \(x\).
Distribuciones de frecuencia
En estadística, se le llama distribución de frecuencias a la agrupación de datos en categorías mutuamente excluyentes que indican el número de observaciones en cada categoría. Esto proporciona un valor añadido a la agrupación de datos.
Distribución normal
Si \(x\) es una variable aleatoria, con distibución normal de media 3 y su desviacion típica es de 0.5, la probabilidad de que \(x\) sea menos que 3.5 se calcula en R de esta forma:
## [1] 0.8413447
- Para calcular el cuantil 0.7 de una v.a. normal estandar z, es decir, un valor x tal que:
## [1] 0.5244005
- Para calcular el mismo cuantil pero para una v.a. normal de media 0 y una DT 0.5
## [1] 0.2622003
El valor \(z_\alpha\) que aparece en muchas fórmulas para intervalos y contrastes se obtiene con el comando qnorm(1-alfa). Algunos ejemplos:
## [1] 1.959964
- Para generar una muestra de tamaño 100 de una población normal de media 10 y desviación típica 1 (y guardarla en un vector x):
## [1] 8.598987 9.870636 11.989128 9.299282 8.216780 9.440310 10.189006
## [8] 9.415411 9.786149 10.060365 10.705650 9.333903 10.321832 7.709386
## [15] 9.135679 10.151213 10.224422 11.554925 8.340245 9.034387 9.314625
## [22] 9.076043 8.580016 11.382131 10.204671 10.473495 10.490060 7.936661
## [29] 9.275841 9.577545 9.699644 8.739348 11.035589 9.411115 11.337580
## [36] 11.592404 9.944474 8.418102 9.887437 9.467920 11.209712 10.833650
## [43] 9.816107 10.825749 9.856458 10.174599 10.484318 10.623691 10.710436
## [50] 10.984451 9.315314 10.747204 10.341696 9.522492 9.772515 10.668018
## [57] 9.812562 10.717436 9.802146 10.115184 7.812842 10.423351 10.196434
## [64] 10.003341 10.265726 9.331089 12.110286 9.113319 9.953704 8.070058
## [71] 8.631115 9.989569 11.131629 10.313046 8.982000 9.388064 10.673278
## [78] 10.475867 9.962586 9.729269 9.957588 8.399579 9.791843 10.015438
## [85] 10.145370 12.113719 8.744503 10.048355 10.140107 10.253954 9.771609
## [92] 10.635337 10.426403 11.669519 10.967714 9.488188 10.137395 9.182288
## [99] 10.146673 12.343310
- Para estimar el promedio de x
## [1] 9.964916
- Histograma de frecuencias
- Gráfico de cajas y bigote
- Histograma de la muestra (normalizado para que la suma de las áreas de los rectángulos sea 1) junto con la densidad de la población:
hist(x, freq=FALSE)
#freq=FALSE, para que el área del histograma sea 1
curve(dnorm(x, mean=10, sd=1), from=7, to=13, add=TRUE)Distribución binomial
- Conteo de éxitos (1) versus fracasos (0)
## [1] 1 1 1 0 0 1 0 1 0 1 1 0 1 1 1 1 1 1 1 0
## x
## 0 1
## 6 14