Prueba de hipótesis para un experimento estadistico

En este pequeño experimento se analizaran dos variables que pueden estar correlacionadas entre si en un analisis estadistico

Importar los datos

library(readr)
library(DT)
library(prettydoc)
setwd("~/sexto semestre/Estadistica aplicada/EAMJ1130/Semana 1/U1A4")
datos <- read_csv("datos.csv")

## 
## -- Column specification --------------------------------------------------------
## cols(
##   pandemuerto = col_double(),
##   hallowen = col_double()
## )

Se utilizaran datos de google trends para analizar si existe una relacion entre las búsquedas del evento de hallowen con el pan de muerto en Mexico.

Visualizar la hipotesis

Hallowen y pan de muerto En simple vista existe una correlación entre si en una fecha entre el 25 y 31 de octubre. Nos indica en una media que por cada 100 de busqueda de pan de muerto, 64 de ellos también buscan el evento de hallowen.

Visualizar datos

Tablas

Tabla interactiva con todos los datos

datatable(datos)

Graficas

Exploramos la relación que existe entre las variables mediante una matriz de diagrama de dispersión

pairs(datos)

Modelar

Coeficiente de correlación de pearson

¿Existe alguna relación?

Matriz de coeficientes de correlación

cor(datos)

##             pandemuerto  hallowen
## pandemuerto   1.0000000 0.9766842
## hallowen      0.9766842 1.0000000

Con un índice de correlación Pearson de 0.97 determinamos que existe una correlación.

Calculo y representación de la recta de minimos cuadrados

regresion = lm(pandemuerto ~ hallowen, data=datos)
summary(regresion)

## 
## Call:
## lm(formula = pandemuerto ~ hallowen, data = datos)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -12.5921  -1.4923  -0.4923   0.5152  14.3782 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 0.007074   0.567277   0.012     0.99    
## hallowen    1.485181   0.046167  32.170   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 3.734 on 50 degrees of freedom
## Multiple R-squared:  0.9539, Adjusted R-squared:  0.953 
## F-statistic:  1035 on 1 and 50 DF,  p-value: < 2.2e-16

Ecuación de la recta de minimos cuadrados.

\[ y = 0.007074 + 1.485181x \]

Con esta ecuación podemos modelar y predecir valores.

Prediccion de valores utilizando la ecuacion de la recta de minimos cuadrados

Los siguientes comandos representan la nube de puntos (comandos plot) y añaden la representacion grafica de la recta de minimos cuadrados (comando abline aplicado al objeto generado por lm):

plot(datos$hallowen, datos$pandemuerto, xlab = "búsquedas de Hallowen", ylab = "búsquedas de pan de muerto")
abline(regresion)

El coeficiente de determinacion (es decir el coeficiente de correlacion al cuadrado) mide la bondad del ajuste de la recta a los datos. a partir de la salida anterior, vemos que su valor en este caso es multiple R-squiared:

Estimacion de predicciones

nuevos.pandemuerto <- 
  data.frame(disfraces=seq(0,65), hallowen=seq(0,65)) # esto genera un vector de secuencia de valores de 1 en 1 hasta el 50 desde el 0
predict(regresion, nuevos.pandemuerto)

##            1            2            3            4            5            6 
##  0.007073745  1.492254455  2.977435165  4.462615874  5.947796584  7.432977294 
##            7            8            9           10           11           12 
##  8.918158004 10.403338714 11.888519423 13.373700133 14.858880843 16.344061553 
##           13           14           15           16           17           18 
## 17.829242263 19.314422972 20.799603682 22.284784392 23.769965102 25.255145811 
##           19           20           21           22           23           24 
## 26.740326521 28.225507231 29.710687941 31.195868651 32.681049360 34.166230070 
##           25           26           27           28           29           30 
## 35.651410780 37.136591490 38.621772200 40.106952909 41.592133619 43.077314329 
##           31           32           33           34           35           36 
## 44.562495039 46.047675748 47.532856458 49.018037168 50.503217878 51.988398588 
##           37           38           39           40           41           42 
## 53.473579297 54.958760007 56.443940717 57.929121427 59.414302137 60.899482846 
##           43           44           45           46           47           48 
## 62.384663556 63.869844266 65.355024976 66.840205685 68.325386395 69.810567105 
##           49           50           51           52           53           54 
## 71.295747815 72.780928525 74.266109234 75.751289944 77.236470654 78.721651364 
##           55           56           57           58           59           60 
## 80.206832074 81.692012783 83.177193493 84.662374203 86.147554913 87.632735622 
##           61           62           63           64           65           66 
## 89.117916332 90.603097042 92.088277752 93.573458462 95.058639171 96.543819881

Intervalo de confianza con el modelo de regresion simple

confint(regresion)

##                 2.5 %   97.5 %
## (Intercept) -1.132335 1.146483
## hallowen     1.392451 1.577910

El hecho de que exista una correlacion pearson alta, no significa que exista una causalidad

Intervalo de confianza para el 90% de los datos

confint( regresion, level=0.90)

##                    5 %      95 %
## (Intercept) -0.9436284 0.9577758
## hallowen     1.4078087 1.5625527

U1A4

Jonathan Velazquez

11/02/2021