U1R1

Jose Ibarra

5/10/2020

  • Importar
library(pacman)
p_load("readr","DT","prettydoc","fdth","modeest")
datos1 <- read_csv("invierno.csv")
## Parsed with column specification:
## cols(
##   Dias = col_character(),
##   Invierno = col_double(),
##   cab_madera = col_double()
## )
#datos de la busqueda de Invierno relacionada con la busqueda de cabañas de madera en los ultimos 90 dias 
  • Visualizar
datatable(datos1)

Primer repaso de la unidad 1 de la materia de estadística aplicada

Definición de estadística

es la rama de las matemáticas que estudia la variabilidad, así como el proceso aleatorio que la genera siguiendo las leyes de la probabilidad.2. Como parte de la matemática, la estadística es una ciencia formal deductiva, con un conocimiento propio, dinámico y en continuo desarrollo obtenido a través del método científico formal. En ocasiones, las ciencias fácticas necesitan utilizar técnicas estadísticas durante su proceso de investigación factual, con el fin de obtener nuevos conocimientos basados en la experimentación y en la observación. En estos casos, la aplicación de la estadística permite el análisis de datos provenientes de una muestra representativa, que busca explicar las correlaciones y dependencias de un fenómeno físico o natural, de ocurrencia en forma aleatoria o condicional.

La estadística se divide en dos grandes áreas:

  • Estadística descriptiva: Se dedica a la descripción, visualización y resumen de datos originados a partir de los fenómenos de estudio. Los datos pueden ser resumidos numérica o gráficamente. Su objetivo es organizar y describir las características sobre un conjunto de datos con el propósito de facilitar su aplicación, generalmente con el apoyo de gráficas, tablas o medidas numéricas. Ejemplos básicos de parámetros estadísticos son: la media y la desviación estándar. Ejemplos gráficos son: histograma, pirámide poblacional, gráfico circular, entre otros.

  • Estadística inferencial: Se dedica a la generación de los modelos, inferencias y predicciones asociadas a los fenómenos en cuestión teniendo en cuenta la aleatoriedad de las observaciones. Se usa para modelar patrones en los datos y extraer inferencias acerca de la población bajo estudio. Estas inferencias pueden tomar la forma de respuestas a preguntas sí/no (prueba de hipótesis), estimaciones de unas características numéricas (estimación), pronósticos de futuras observaciones, descripciones de asociación (correlación) o modelamiento de relaciones entre variables (análisis de regresión). Otras técnicas de modelamiento incluyen análisis de varianza, series de tiempo y minería de datos. Su objetivo es obtener conclusiones útiles para lograr hacer deducciones acerca de la totalidad de todas las observaciones hechas, basándose en la información numérica.

Distribuciones de frecuencia

Tabla de distribución de frecuencia

dist <- fdt(datos1, breaks="Sturges")
dist
## Invierno 
##  Class limits  f   rf rf(%) cf  cf(%)
##   [24.8,34.3) 25 0.28 27.78 25  27.78
##   [34.3,43.8) 15 0.17 16.67 40  44.44
##   [43.8,53.3) 14 0.16 15.56 54  60.00
##   [53.3,62.9)  6 0.07  6.67 60  66.67
##   [62.9,72.4) 12 0.13 13.33 72  80.00
##   [72.4,81.9)  9 0.10 10.00 81  90.00
##   [81.9,91.5)  7 0.08  7.78 88  97.78
##    [91.5,101)  2 0.02  2.22 90 100.00
## 
## cab_madera 
##     Class limits  f   rf rf(%) cf  cf(%)
##   [30.69,34.934)  7 0.08  7.78  7   7.78
##  [34.934,39.178) 17 0.19 18.89 24  26.67
##  [39.178,43.421) 12 0.13 13.33 36  40.00
##  [43.421,47.665) 18 0.20 20.00 54  60.00
##  [47.665,51.909) 15 0.17 16.67 69  76.67
##  [51.909,56.153) 15 0.17 16.67 84  93.33
##  [56.153,60.396)  2 0.02  2.22 86  95.56
##   [60.396,64.64)  4 0.04  4.44 90 100.00
#nos brinda una tabla con los calculos de la distribución de frecuencias.
#Donde
#f= frecuencia absoluta
#rf= frecuencia relativa
#rf(%) frecuencia relativa porcentual
#cf= frecuencia acumulada
#cf(%)=frecuencia acumulada porcentual

Histograma de distribución de frecuencia

plot(dist, type="fh") # histograma de frecuencia absoluta

plot(dist, type="cfh") # histograma de frecuencia acumulada

plot(dist, type="rfh") # histograma de frecuencia relativa

Polígono de distribución de frecuencia

plot(dist, type="fp") # Polígono de frecuencia absoluta

plot(dist, type="cfp") # Polígono de frecuencia acumulada

plot(dist, type="rfp") # Polígono de frecuencia relativa

Medidas de tendencia central

Media

mean(datos1$Invierno)
## [1] 51.37778
mean(datos1$cab_madera)
## [1] 45.46667

Mediana

median(datos1$Invierno)
## [1] 45.5
median(datos1$cab_madera)
## [1] 46

Moda

mfv(datos1$Invierno, method="discrete")
## [1] 30 37
mfv(datos1$cab_madera, method="discrete")
## [1] 46

Ordenar datos de menor a mayor

sort(datos1$Invierno)
##  [1]  25  27  27  28  28  30  30  30  30  30  30  31  31  31  31  32  32  32  32
## [20]  33  33  33  34  34  34  35  36  36  37  37  37  37  37  37  38  38  40  42
## [39]  42  43  44  44  44  45  45  46  46  46  47  47  48  50  52  52  54  54  55
## [58]  55  58  62  63  65  65  65  66  67  67  70  70  71  72  72  73  73  73  75
## [77]  76  77  77  79  80  82  82  83  83  89  89  90  96 100
sort(datos1$cab_madera)
##  [1] 31 32 32 33 33 34 34 35 35 35 36 36 36 36 36 37 37 37 37 38 39 39 39 39 40
## [26] 40 40 40 40 41 41 42 42 42 42 42 44 44 44 45 45 45 45 46 46 46 46 46 46 46
## [51] 47 47 47 47 48 48 48 48 48 49 49 49 50 50 50 51 51 51 51 52 52 52 53 53 53
## [76] 54 54 54 54 55 55 56 56 56 60 60 61 63 64 64

Cuantiles

summary(datos1$Invierno)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   25.00   34.00   45.50   51.38   69.25  100.00
summary(datos1$cab_madera)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   31.00   39.00   46.00   45.47   51.00   64.00

Valores máximos y mínimos

TempMax <- max(datos1$Invierno)
TempMin <- min(datos1$Invierno)

Gráfico (diagrama) de caja y bigote

boxplot(datos1$Invierno)

boxplot(datos1$cab_madera)

Medidas de dispersión

Amplitud (rango, alcance)

amp <- (TempMax - TempMin)

Varianza

var(datos1$Invierno)
## [1] 398.1478
var(datos1$cab_madera)
## [1] 64.22921

Desviación estándar

sd(datos1$Invierno)
## [1] 19.95364
sd(datos1$cab_madera)
## [1] 8.014313

Análisis de correlación

Correlación pearson

Invierno <- datos1$Invierno
cab_madera <- datos1$cab_madera
busqueda <- data.frame(Invierno,cab_madera)
cor(busqueda)
##              Invierno cab_madera
## Invierno    1.0000000 -0.5943383
## cab_madera -0.5943383  1.0000000

Diagramas de dispersión

pairs(busqueda)

Regresión lineal simple

regresion <- lm (Invierno ~ cab_madera, data=busqueda)
summary(regresion)
## 
## Call:
## lm(formula = Invierno ~ cab_madera, data = busqueda)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -22.068 -12.200  -4.028  10.079  53.851 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 118.6573     9.8526  12.043  < 2e-16 ***
## cab_madera   -1.4798     0.2134  -6.933 6.59e-10 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 16.14 on 88 degrees of freedom
## Multiple R-squared:  0.3532, Adjusted R-squared:  0.3459 
## F-statistic: 48.06 on 1 and 88 DF,  p-value: 6.588e-10

Recta de minimos cuadrados

Ecuación de la recta

\[ y = 118.6573 -1.4798 x \]

Ajuste de la recta

plot(busqueda$Invierno, busqueda$cab_madera, xlab = "Invierno", ylab="Cabañas de madera")
abline(regresion)

Predicción

sort(cab_madera)
##  [1] 31 32 32 33 33 34 34 35 35 35 36 36 36 36 36 37 37 37 37 38 39 39 39 39 40
## [26] 40 40 40 40 41 41 42 42 42 42 42 44 44 44 45 45 45 45 46 46 46 46 46 46 46
## [51] 47 47 47 47 48 48 48 48 48 49 49 49 50 50 50 51 51 51 51 52 52 52 53 53 53
## [76] 54 54 54 54 55 55 56 56 56 60 60 61 63 64 64
nuevas.cab_madera <- data.frame(cab_madera=seq(0,100))
nuevas.Invierno <- data.frame(Invierno=seq(0,100))
predict(regresion,nuevas.cab_madera)
##           1           2           3           4           5           6 
## 118.6572668 117.1775127 115.6977585 114.2180043 112.7382502 111.2584960 
##           7           8           9          10          11          12 
## 109.7787419 108.2989877 106.8192336 105.3394794 103.8597252 102.3799711 
##          13          14          15          16          17          18 
## 100.9002169  99.4204628  97.9407086  96.4609544  94.9812003  93.5014461 
##          19          20          21          22          23          24 
##  92.0216920  90.5419378  89.0621837  87.5824295  86.1026753  84.6229212 
##          25          26          27          28          29          30 
##  83.1431670  81.6634129  80.1836587  78.7039046  77.2241504  75.7443962 
##          31          32          33          34          35          36 
##  74.2646421  72.7848879  71.3051338  69.8253796  68.3456255  66.8658713 
##          37          38          39          40          41          42 
##  65.3861171  63.9063630  62.4266088  60.9468547  59.4671005  57.9873463 
##          43          44          45          46          47          48 
##  56.5075922  55.0278380  53.5480839  52.0683297  50.5885756  49.1088214 
##          49          50          51          52          53          54 
##  47.6290672  46.1493131  44.6695589  43.1898048  41.7100506  40.2302965 
##          55          56          57          58          59          60 
##  38.7505423  37.2707881  35.7910340  34.3112798  32.8315257  31.3517715 
##          61          62          63          64          65          66 
##  29.8720174  28.3922632  26.9125090  25.4327549  23.9530007  22.4732466 
##          67          68          69          70          71          72 
##  20.9934924  19.5137383  18.0339841  16.5542299  15.0744758  13.5947216 
##          73          74          75          76          77          78 
##  12.1149675  10.6352133   9.1554591   7.6757050   6.1959508   4.7161967 
##          79          80          81          82          83          84 
##   3.2364425   1.7566884   0.2769342  -1.2028200  -2.6825741  -4.1623283 
##          85          86          87          88          89          90 
##  -5.6420824  -7.1218366  -8.6015907 -10.0813449 -11.5610991 -13.0408532 
##          91          92          93          94          95          96 
## -14.5206074 -16.0003615 -17.4801157 -18.9598698 -20.4396240 -21.9193782 
##          97          98          99         100         101 
## -23.3991323 -24.8788865 -26.3586406 -27.8383948 -29.3181490

Intervalos de confianza

confint(regresion)
##                 2.5 %     97.5 %
## (Intercept) 99.077273 138.237261
## cab_madera  -1.903932  -1.055576
nuevas.Invierno <- data.frame(temp=seq(0,100))

#Recta ajustada al gráfico de dispersión
plot(busqueda$Invierno, busqueda$cab_madera, xlab = "Invierno", ylab="Cabañas de madera")
abline(regresion)

Análisis de residuales

##" Análisis ANOVA (Análisis de varianza)

anova(regresion)
## Analysis of Variance Table
## 
## Response: Invierno
##            Df Sum Sq Mean Sq F value    Pr(>F)    
## cab_madera  1  12517 12517.0  48.062 6.588e-10 ***
## Residuals  88  22918   260.4                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Diagnóstico del modelo

residuos <- rstandard(regresion)
valores.ajustados <- fitted(regresion)
plot(valores.ajustados,residuos)

Pruebas de normalidad

No se observa ningún patrón especial, por lo que tanto la homocedasticidad como la linealidad resultan hipótesis razonables.

La hipótesis de normalidad se suele comprobar mediante un QQ plot de los residuos. El siguiente código sirve para obtenerlo:

qqnorm(residuos)
qqline(residuos)

Shapiro-wilk

shapiro.test(residuos)
## 
##  Shapiro-Wilk normality test
## 
## data:  residuos
## W = 0.92438, p-value = 5.992e-05

Introducción a la probabilidad

Probabilidad clásica

Probabilidad distribuida

Distribuciones de frecuencia

Distribución normal
Distribución binomial
Distribución exponencial