U1R

Silvia Flores

6/10/2020

setwd("~/Probabilidadyestadistica")

Análisis del consumo de nieve (en pintas) y la temperatura (°F)

datos obtenidos de: https://vincentarelbundock.github.io/Rdatasets/datasets.html y https://vincentarelbundock.github.io/Rdatasets/doc/Ecdat/Icecream.html

Nieve

  • Importar
library(pacman)
p_load("readr","DT","prettydoc","fdth","modeest")
nieve <- read_csv("nieve.csv", col_types = cols(temp = col_number()))
View(nieve)
  • Visualizar
datatable(nieve)

Primer repaso de la unidad 1 de la materia de estadística aplicada

Definición de estadística

Es la rama de las matemáticas que estudia la variabilidad, así como el proceso aleatorio que la genera siguiendo las leyes de la probabilidad.2. Como parte de la matemática, la estadística es una ciencia formal deductiva, con un conocimiento propio, dinámico y en continuo desarrollo obtenido a través del método científico formal. En ocasiones, las ciencias fácticas necesitan utilizar técnicas estadísticas durante su proceso de investigación factual, con el fin de obtener nuevos conocimientos basados en la experimentación y en la observación. En estos casos, la aplicación de la estadística permite el análisis de datos provenientes de una muestra representativa, que busca explicar las correlaciones y dependencias de un fenómeno físico o natural, de ocurrencia en forma aleatoria o condicional.

La estadística se divide en dos grandes áreas:

  • Estadística descriptiva: Se dedica a la descripción, visualización y resumen de datos originados a partir de los fenómenos de estudio. Los datos pueden ser resumidos numérica o gráficamente. Su objetivo es organizar y describir las características sobre un conjunto de datos con el propósito de facilitar su aplicación, generalmente con el apoyo de gráficas, tablas o medidas numéricas. Ejemplos básicos de parámetros estadísticos son: la media y la desviación estándar. Ejemplos gráficos son: histograma, pirámide poblacional, gráfico circular, entre otros.

  • Estadística inferencial: Se dedica a la generación de los modelos, inferencias y predicciones asociadas a los fenómenos en cuestión teniendo en cuenta la aleatoriedad de las observaciones. Se usa para modelar patrones en los datos y extraer inferencias acerca de la población bajo estudio. Estas inferencias pueden tomar la forma de respuestas a preguntas sí/no (prueba de hipótesis), estimaciones de unas características numéricas (estimación), pronósticos de futuras observaciones, descripciones de asociación (correlación) o modelamiento de relaciones entre variables (análisis de regresión). Otras técnicas de modelamiento incluyen análisis de varianza, series de tiempo y minería de datos. Su objetivo es obtener conclusiones útiles para lograr hacer deducciones acerca de la totalidad de todas las observaciones hechas, basándose en la información numérica.

Distribuciones de frecuencia

Tabla de distribución de frecuencia

dist <- fdt(nieve, breaks="Sturges")
dist
## cons 
##     Class limits f   rf rf(%) cf  cf(%)
##  [0.2534,0.3034) 6 0.20 20.00  6  20.00
##  [0.3034,0.3535) 9 0.30 30.00 15  50.00
##  [0.3535,0.4035) 8 0.27 26.67 23  76.67
##  [0.4035,0.4535) 5 0.17 16.67 28  93.33
##  [0.4535,0.5035) 1 0.03  3.33 29  96.67
##  [0.5035,0.5535) 1 0.03  3.33 30 100.00
## 
## temp 
##   Class limits f   rf rf(%) cf  cf(%)
##  [23.76,31.92) 5 0.17 16.67  5  16.67
##  [31.92,40.08) 6 0.20 20.00 11  36.67
##  [40.08,48.24) 4 0.13 13.33 15  50.00
##   [48.24,56.4) 3 0.10 10.00 18  60.00
##   [56.4,64.56) 5 0.17 16.67 23  76.67
##  [64.56,72.72) 7 0.23 23.33 30 100.00
#nos brinda una tabla con los calculos de la distribución de frecuencias.
#Donde
#f= frecuencia absoluta
#rf= frecuencia relativa
#rf(%) frecuencia relativa porcentual
#cf= frecuencia acumulada
#cf(%)=frecuencia acumulada porcentual

Histograma de distribución de frecuencia

A continuación se muestran los histogramas de las 2 variables, se muestra el histograma de frecuencias absolutas, de frecuencias acumuladas y el de frecuencias relativas.

plot(dist, type="fh") # histograma de frecuencia absoluta

plot(dist, type="cfh") # histograma de frecuencia acumulada

plot(dist, type="rfh") # histograma de frecuencia relativa

Polígono de distribución de frecuencia

A continuación se muestran los polígonos de las 2 variables, se muestra el polígono de frecuencias absolutas, de frecuencias acumuladas y el de frecuencias relativas.

plot(dist, type="fp") # Polígono de frecuencia absoluta

plot(dist, type="cfp") # Polígono de frecuencia acumulada

plot(dist, type="rfp") # Polígono de frecuencia relativa

Medidas de tendencia central

Las medidas de tendencia central son parámetros estadísticos que informan sobre el centro de la distribución de la muestra. A conntinuación se muestra la media, mediana y moda de las dos variables.

Media

mean(nieve$temp)
## [1] 49.1
mean(nieve$cons)
## [1] 0.3594333

Mediana

median(nieve$temp)
## [1] 49.5
median(nieve$cons)
## [1] 0.3515

Moda

mfv(nieve$temp)
## [1] 32
mfv(nieve$cons)
## [1] 0.381 0.386

Ordenar datos de menor a mayor

sort(nieve$temp)
##  [1] 24 26 27 28 28 32 32 32 33 40 40 41 41 44 47 52 55 56 60 61 63 63 64 65 67
## [26] 68 69 71 72 72
sort(nieve$cons)
##  [1] 0.256 0.269 0.284 0.286 0.288 0.298 0.307 0.309 0.318 0.319 0.326 0.327
## [13] 0.329 0.342 0.344 0.359 0.374 0.376 0.381 0.381 0.386 0.386 0.393 0.406
## [25] 0.416 0.425 0.437 0.443 0.470 0.548

Cuantiles

summary(nieve$temp)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   24.00   32.25   49.50   49.10   63.75   72.00
summary(nieve$cons)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.2560  0.3113  0.3515  0.3594  0.3912  0.5480

Valores máximos y mínimos

TempMax <- max(nieve$temp)
TempMin <- min(nieve$cons)

Gráfico (diagrama) de caja y bigote

Esta es una presentación visual que describe varias características importantes, al mismo tiempo, tales como la dispersión y simetría.

Para su realización se representan los tres cuartiles y los valores mínimo y máximo de los datos, sobre un rectángulo, alineado horizontal o verticalmente.

boxplot(nieve$temp)

boxplot(nieve$cons)

Medidas de dispersión

Amplitud (rango, alcance)

amp <- (TempMax - TempMin)

Varianza

La varianza nos dice la distancia que existe entre todos los datos y la media.

var(nieve$temp)
## [1] 269.6793
var(nieve$cons)
## [1] 0.004328392

Desviación estándar

Que tanto se dispersan los datos en función de la media

sd(nieve$temp)
## [1] 16.42192
sd(nieve$cons)
## [1] 0.06579052

Análisis de correlación

Correlación pearson

Para conocer si se relacionan linealmente la temperatura como variable independiente y el consumo como variable dependiente

cor(nieve)
##           cons      temp
## cons 1.0000000 0.7756246
## temp 0.7756246 1.0000000

Diagramas de dispersión

pairs(nieve)

regresion <-  lm(cons ~ temp, data=nieve )
summary(regresion)
## 
## Call:
## lm(formula = cons ~ temp, data = nieve)
## 
## Residuals:
##       Min        1Q    Median        3Q       Max 
## -0.069411 -0.024478 -0.007371  0.029126  0.120516 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 0.2068621  0.0247002   8.375 4.13e-09 ***
## temp        0.0031074  0.0004779   6.502 4.79e-07 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.04226 on 28 degrees of freedom
## Multiple R-squared:  0.6016, Adjusted R-squared:  0.5874 
## F-statistic: 42.28 on 1 and 28 DF,  p-value: 4.789e-07

Recta de minimos cuadrados

Ecuación de la recta

\[ y = 0.2068621 + 0.0031074 x \]

Ajuste de la recta

plot(nieve$temp, nieve$cons, xlab = "Temperatura", ylab="Consumo de nieve")
abline(regresion)

Predicción

temp <- nieve$temp
cons <- nieve$cons
sort(cons)
##  [1] 0.256 0.269 0.284 0.286 0.288 0.298 0.307 0.309 0.318 0.319 0.326 0.327
## [13] 0.329 0.342 0.344 0.359 0.374 0.376 0.381 0.381 0.386 0.386 0.393 0.406
## [25] 0.416 0.425 0.437 0.443 0.470 0.548
nuevas.cons <- data.frame(cons=seq(0.4,1.1,by=0.01))
nuevas.temp <- data.frame(temp=seq(30,100))
predict(regresion,nuevas.temp)
##         1         2         3         4         5         6         7         8 
## 0.3000828 0.3031902 0.3062975 0.3094049 0.3125123 0.3156196 0.3187270 0.3218343 
##         9        10        11        12        13        14        15        16 
## 0.3249417 0.3280490 0.3311564 0.3342637 0.3373711 0.3404785 0.3435858 0.3466932 
##        17        18        19        20        21        22        23        24 
## 0.3498005 0.3529079 0.3560152 0.3591226 0.3622300 0.3653373 0.3684447 0.3715520 
##        25        26        27        28        29        30        31        32 
## 0.3746594 0.3777667 0.3808741 0.3839814 0.3870888 0.3901962 0.3933035 0.3964109 
##        33        34        35        36        37        38        39        40 
## 0.3995182 0.4026256 0.4057329 0.4088403 0.4119477 0.4150550 0.4181624 0.4212697 
##        41        42        43        44        45        46        47        48 
## 0.4243771 0.4274844 0.4305918 0.4336991 0.4368065 0.4399139 0.4430212 0.4461286 
##        49        50        51        52        53        54        55        56 
## 0.4492359 0.4523433 0.4554506 0.4585580 0.4616653 0.4647727 0.4678801 0.4709874 
##        57        58        59        60        61        62        63        64 
## 0.4740948 0.4772021 0.4803095 0.4834168 0.4865242 0.4896316 0.4927389 0.4958463 
##        65        66        67        68        69        70        71 
## 0.4989536 0.5020610 0.5051683 0.5082757 0.5113830 0.5144904 0.5175978

Intervalos de confianza

confint(regresion)
##                   2.5 %     97.5 %
## (Intercept) 0.156265987 0.25745831
## temp        0.002128452 0.00408626
#Recta ajustada al gráfico de dispersión
plot(nieve$temp, nieve$cons, xlab = "Temperatura", ylab="Consumo de nieve")
abline(regresion)

#Intervalos de confianza para la respuesta media 
# ic es una matriz con tres columnas: la primera es la prediccion, las otras dos son los extremos del intervalo
ic <- predict(regresion, nuevas.temp, interval = 'confidence')
lines(nuevas.temp$temp, ic[, 2], lty = 2)
lines(nuevas.temp$temp, ic[, 3], lty = 2)

# Intervalos de predicción
ic <- predict(regresion, nuevas.temp, interval = 'prediction')
lines(nuevas.temp$temp, ic[, 2], lty = 2, col = "red")
lines(nuevas.temp$temp, ic[, 3], lty = 2, col = "red")

Análisis de residuales

Análisis ANOVA (Análisis de varianza)

anova(regresion)
## Analysis of Variance Table
## 
## Response: cons
##           Df   Sum Sq  Mean Sq F value    Pr(>F)    
## temp       1 0.075514 0.075514   42.28 4.789e-07 ***
## Residuals 28 0.050009 0.001786                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Diagnóstico del modelo

residuos <- rstandard(regresion)
valores.ajustados <- fitted(regresion) #Nos dice que valores SI se están ajustando
plot(valores.ajustados,residuos)

Se comparan los valores que no se ajustan (residuos) con los que si se ajustan. Se puede observar que no hay un patrón específico, lo que quiere decir que hay muchos valores que no se ajustan.

Pruebas de normalidad

No se observa ningún patrón especial, por lo que tanto la homocedasticidad como la linealidad resultan hipótesis razonables.

La hipótesis de normalidad se suele comprobar mediante un QQ plot de los residuos. El siguiente código sirve para obtenerlo:

qqnorm(residuos)
qqline(residuos)

Shapiro-wilk

Para ver si se comportan de manera normal.

shapiro.test(residuos)
## 
##  Shapiro-Wilk normality test
## 
## data:  residuos
## W = 0.95607, p-value = 0.2451

Se observa que el valor de p es 0.2451 por lo que no se rechaza la hipótesis nula

Conclusiones del modelo de regresión lineal

Gracias a este análisis se puede concluir que las variables temperatura (temp) y consumido (cons) SI están relacionadas.

Introducción a la probabilidad

Probabilidad

Probabilidad clásica

La probabilidad clásica o teórica se aplica cuando cada evento simple del espacio muestral tiene la misma probabilidad de ocurrir. Es el número de resultados favorables a la presentación de un evento dividido entre el número total de resultados posibles.

Probabilidad distribuida

Esta expresa que se obtiene la misma respuesta cuando multiplicas un conjunto de números por otro número que cuando se hace cada multiplicación por separado.

Distribuciones de frecuencia

Las distribuciones de frecuencias son tablas en que se dispone las modalidades de la variable por filas. En las columnas se dispone el número de ocurrencias por cada valor, porcentajes, etc. La finalidad de las agrupaciones en frecuencias es facilitar la obtención de la información que contienen los datos.

Distribución normal

La distribución normal adapta una variable aleatoria continua a una función que depende de la media y la desviación típica. Es decir, la función y la variable aleatoria continua tendrán la misma representación pero con ligeras diferencias.

Distribución binomial

La distribución binomial es una distribución de probabilidad discreta que nos dice el porcentaje en que es probable obtener un resultado entre dos posibles al realizar un número n de pruebas.

La probabilidad de cada posibilidad no puede ser más grande que 1 y no puede ser negativa.

En estas pruebas deberemos tener sólo dos resultados posibles, como al lanzar una moneda que salga cara o cruz o en una ruleta francesa que salga rojo o negro.

Distribución exponencial

Este modelo suele utilizarse para variables que describen el tiempo hasta que se produce un determinado suceso.

Bibliografía