- Análisis del consumo de nieve (en pintas) y la temperatura (°F)
- Primer repaso de la unidad 1 de la materia de estadística aplicada
- Conclusiones del modelo de regresión lineal
- Bibliografía
Análisis del consumo de nieve (en pintas) y la temperatura (°F)
datos obtenidos de: https://vincentarelbundock.github.io/Rdatasets/datasets.html y https://vincentarelbundock.github.io/Rdatasets/doc/Ecdat/Icecream.html
Nieve
- Importar
library(pacman)
p_load("readr","DT","prettydoc","fdth","modeest")
nieve <- read_csv("nieve.csv", col_types = cols(temp = col_number()))
View(nieve)- Visualizar
Primer repaso de la unidad 1 de la materia de estadística aplicada
Definición de estadística
Es la rama de las matemáticas que estudia la variabilidad, así como el proceso aleatorio que la genera siguiendo las leyes de la probabilidad.2. Como parte de la matemática, la estadística es una ciencia formal deductiva, con un conocimiento propio, dinámico y en continuo desarrollo obtenido a través del método científico formal. En ocasiones, las ciencias fácticas necesitan utilizar técnicas estadísticas durante su proceso de investigación factual, con el fin de obtener nuevos conocimientos basados en la experimentación y en la observación. En estos casos, la aplicación de la estadística permite el análisis de datos provenientes de una muestra representativa, que busca explicar las correlaciones y dependencias de un fenómeno físico o natural, de ocurrencia en forma aleatoria o condicional.
La estadística se divide en dos grandes áreas:
Estadística descriptiva: Se dedica a la descripción, visualización y resumen de datos originados a partir de los fenómenos de estudio. Los datos pueden ser resumidos numérica o gráficamente. Su objetivo es organizar y describir las características sobre un conjunto de datos con el propósito de facilitar su aplicación, generalmente con el apoyo de gráficas, tablas o medidas numéricas. Ejemplos básicos de parámetros estadísticos son: la media y la desviación estándar. Ejemplos gráficos son: histograma, pirámide poblacional, gráfico circular, entre otros.
Estadística inferencial: Se dedica a la generación de los modelos, inferencias y predicciones asociadas a los fenómenos en cuestión teniendo en cuenta la aleatoriedad de las observaciones. Se usa para modelar patrones en los datos y extraer inferencias acerca de la población bajo estudio. Estas inferencias pueden tomar la forma de respuestas a preguntas sí/no (prueba de hipótesis), estimaciones de unas características numéricas (estimación), pronósticos de futuras observaciones, descripciones de asociación (correlación) o modelamiento de relaciones entre variables (análisis de regresión). Otras técnicas de modelamiento incluyen análisis de varianza, series de tiempo y minería de datos. Su objetivo es obtener conclusiones útiles para lograr hacer deducciones acerca de la totalidad de todas las observaciones hechas, basándose en la información numérica.
Distribuciones de frecuencia
Tabla de distribución de frecuencia
## cons
## Class limits f rf rf(%) cf cf(%)
## [0.2534,0.3034) 6 0.20 20.00 6 20.00
## [0.3034,0.3535) 9 0.30 30.00 15 50.00
## [0.3535,0.4035) 8 0.27 26.67 23 76.67
## [0.4035,0.4535) 5 0.17 16.67 28 93.33
## [0.4535,0.5035) 1 0.03 3.33 29 96.67
## [0.5035,0.5535) 1 0.03 3.33 30 100.00
##
## temp
## Class limits f rf rf(%) cf cf(%)
## [23.76,31.92) 5 0.17 16.67 5 16.67
## [31.92,40.08) 6 0.20 20.00 11 36.67
## [40.08,48.24) 4 0.13 13.33 15 50.00
## [48.24,56.4) 3 0.10 10.00 18 60.00
## [56.4,64.56) 5 0.17 16.67 23 76.67
## [64.56,72.72) 7 0.23 23.33 30 100.00
Histograma de distribución de frecuencia
A continuación se muestran los histogramas de las 2 variables, se muestra el histograma de frecuencias absolutas, de frecuencias acumuladas y el de frecuencias relativas.
Polígono de distribución de frecuencia
A continuación se muestran los polígonos de las 2 variables, se muestra el polígono de frecuencias absolutas, de frecuencias acumuladas y el de frecuencias relativas.
Medidas de tendencia central
Las medidas de tendencia central son parámetros estadísticos que informan sobre el centro de la distribución de la muestra. A conntinuación se muestra la media, mediana y moda de las dos variables.
Ordenar datos de menor a mayor
## [1] 24 26 27 28 28 32 32 32 33 40 40 41 41 44 47 52 55 56 60 61 63 63 64 65 67
## [26] 68 69 71 72 72
## [1] 0.256 0.269 0.284 0.286 0.288 0.298 0.307 0.309 0.318 0.319 0.326 0.327
## [13] 0.329 0.342 0.344 0.359 0.374 0.376 0.381 0.381 0.386 0.386 0.393 0.406
## [25] 0.416 0.425 0.437 0.443 0.470 0.548
Cuantiles
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 24.00 32.25 49.50 49.10 63.75 72.00
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.2560 0.3113 0.3515 0.3594 0.3912 0.5480
Gráfico (diagrama) de caja y bigote
Esta es una presentación visual que describe varias características importantes, al mismo tiempo, tales como la dispersión y simetría.
Para su realización se representan los tres cuartiles y los valores mínimo y máximo de los datos, sobre un rectángulo, alineado horizontal o verticalmente.
Medidas de dispersión
Varianza
La varianza nos dice la distancia que existe entre todos los datos y la media.
## [1] 269.6793
## [1] 0.004328392
Análisis de correlación
Correlación pearson
Para conocer si se relacionan linealmente la temperatura como variable independiente y el consumo como variable dependiente
## cons temp
## cons 1.0000000 0.7756246
## temp 0.7756246 1.0000000
Diagramas de dispersión
##
## Call:
## lm(formula = cons ~ temp, data = nieve)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.069411 -0.024478 -0.007371 0.029126 0.120516
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.2068621 0.0247002 8.375 4.13e-09 ***
## temp 0.0031074 0.0004779 6.502 4.79e-07 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.04226 on 28 degrees of freedom
## Multiple R-squared: 0.6016, Adjusted R-squared: 0.5874
## F-statistic: 42.28 on 1 and 28 DF, p-value: 4.789e-07
Recta de minimos cuadrados
Ecuación de la recta
\[ y = 0.2068621 + 0.0031074 x \]
Ajuste de la recta
Predicción
## [1] 0.256 0.269 0.284 0.286 0.288 0.298 0.307 0.309 0.318 0.319 0.326 0.327
## [13] 0.329 0.342 0.344 0.359 0.374 0.376 0.381 0.381 0.386 0.386 0.393 0.406
## [25] 0.416 0.425 0.437 0.443 0.470 0.548
nuevas.cons <- data.frame(cons=seq(0.4,1.1,by=0.01))
nuevas.temp <- data.frame(temp=seq(30,100))
predict(regresion,nuevas.temp)## 1 2 3 4 5 6 7 8
## 0.3000828 0.3031902 0.3062975 0.3094049 0.3125123 0.3156196 0.3187270 0.3218343
## 9 10 11 12 13 14 15 16
## 0.3249417 0.3280490 0.3311564 0.3342637 0.3373711 0.3404785 0.3435858 0.3466932
## 17 18 19 20 21 22 23 24
## 0.3498005 0.3529079 0.3560152 0.3591226 0.3622300 0.3653373 0.3684447 0.3715520
## 25 26 27 28 29 30 31 32
## 0.3746594 0.3777667 0.3808741 0.3839814 0.3870888 0.3901962 0.3933035 0.3964109
## 33 34 35 36 37 38 39 40
## 0.3995182 0.4026256 0.4057329 0.4088403 0.4119477 0.4150550 0.4181624 0.4212697
## 41 42 43 44 45 46 47 48
## 0.4243771 0.4274844 0.4305918 0.4336991 0.4368065 0.4399139 0.4430212 0.4461286
## 49 50 51 52 53 54 55 56
## 0.4492359 0.4523433 0.4554506 0.4585580 0.4616653 0.4647727 0.4678801 0.4709874
## 57 58 59 60 61 62 63 64
## 0.4740948 0.4772021 0.4803095 0.4834168 0.4865242 0.4896316 0.4927389 0.4958463
## 65 66 67 68 69 70 71
## 0.4989536 0.5020610 0.5051683 0.5082757 0.5113830 0.5144904 0.5175978
Intervalos de confianza
## 2.5 % 97.5 %
## (Intercept) 0.156265987 0.25745831
## temp 0.002128452 0.00408626
#Recta ajustada al gráfico de dispersión
plot(nieve$temp, nieve$cons, xlab = "Temperatura", ylab="Consumo de nieve")
abline(regresion)
#Intervalos de confianza para la respuesta media
# ic es una matriz con tres columnas: la primera es la prediccion, las otras dos son los extremos del intervalo
ic <- predict(regresion, nuevas.temp, interval = 'confidence')
lines(nuevas.temp$temp, ic[, 2], lty = 2)
lines(nuevas.temp$temp, ic[, 3], lty = 2)
# Intervalos de predicción
ic <- predict(regresion, nuevas.temp, interval = 'prediction')
lines(nuevas.temp$temp, ic[, 2], lty = 2, col = "red")
lines(nuevas.temp$temp, ic[, 3], lty = 2, col = "red")Análisis de residuales
Diagnóstico del modelo
residuos <- rstandard(regresion)
valores.ajustados <- fitted(regresion) #Nos dice que valores SI se están ajustando
plot(valores.ajustados,residuos)Se comparan los valores que no se ajustan (residuos) con los que si se ajustan. Se puede observar que no hay un patrón específico, lo que quiere decir que hay muchos valores que no se ajustan.
Pruebas de normalidad
No se observa ningún patrón especial, por lo que tanto la homocedasticidad como la linealidad resultan hipótesis razonables.
La hipótesis de normalidad se suele comprobar mediante un QQ plot de los residuos. El siguiente código sirve para obtenerlo:
Conclusiones del modelo de regresión lineal
Gracias a este análisis se puede concluir que las variables temperatura (temp) y consumido (cons) SI están relacionadas.
Introducción a la probabilidad
Probabilidad
Probabilidad clásica
La probabilidad clásica o teórica se aplica cuando cada evento simple del espacio muestral tiene la misma probabilidad de ocurrir. Es el número de resultados favorables a la presentación de un evento dividido entre el número total de resultados posibles.
Probabilidad distribuida
Esta expresa que se obtiene la misma respuesta cuando multiplicas un conjunto de números por otro número que cuando se hace cada multiplicación por separado.
Distribuciones de frecuencia
Las distribuciones de frecuencias son tablas en que se dispone las modalidades de la variable por filas. En las columnas se dispone el número de ocurrencias por cada valor, porcentajes, etc. La finalidad de las agrupaciones en frecuencias es facilitar la obtención de la información que contienen los datos.
Distribución normal
La distribución normal adapta una variable aleatoria continua a una función que depende de la media y la desviación típica. Es decir, la función y la variable aleatoria continua tendrán la misma representación pero con ligeras diferencias.
Distribución binomial
La distribución binomial es una distribución de probabilidad discreta que nos dice el porcentaje en que es probable obtener un resultado entre dos posibles al realizar un número n de pruebas.
La probabilidad de cada posibilidad no puede ser más grande que 1 y no puede ser negativa.
En estas pruebas deberemos tener sólo dos resultados posibles, como al lanzar una moneda que salga cara o cruz o en una ruleta francesa que salga rojo o negro.
Distribución exponencial
Este modelo suele utilizarse para variables que describen el tiempo hasta que se produce un determinado suceso.
Bibliografía
Software DELSOL. (2019, 20 junio). Distribución binomial. https://www.sdelsol.com/glosario/distribucion-binomial/
Rodó, P. (2019, 11 noviembre). Distribución normal. Economipedia. https://economipedia.com/definiciones/distribucion-normal.html
Ramirez, J. (2017, 29 junio). 2.2. Concepto de probabilidad clásica. Información estadística. https://sites.google.com/site/estadisitica5demayo/unidad-ii-probabilidad-y-muestreo/2-2-concepto-de-probabilidad-clasica