Prueba de hipótesis para un experimento

● Se utilizarán datos de Google Trends para anlizar si existe una relacion entre la búsqueda de pure con las manzanas, ya que desde que era pequeño a mi abuelita solo le gustaba el pure de manzana pero nunca supe si era comun en todos lados o solo era cosa de ella…asi que decidi comprobarlo

library(readr) #para leer datos
library(DT) # tablas interactivas
library(prettydoc) #documentos con mejor formato
setwd("~/Stat") # folder de trabajo
datosPure <- read_csv("datosPure.csv") #importar datos

## 
## -- Column specification --------------------------------------------------------
## cols(
##   Pure = col_double(),
##   Manzana = col_double()
## )

Visualizar Datos

Tabla

● Tabla interactiva con los datos de las busquedas

En la siguiente tabla se muestra la cantidad de veces que los datos ingresados fueron buscados, en este caso los datos fueron “Pure” y “Manzana”

datatable(datosPure) #visualizar datos

Graficas

● Exploremos la relacion que existe entre las variables Manzana y Pure por medio de una matriz de diagramas de dispersión

Aqui se muestra una matriz de diagramas de dispersion, donde se puede ver la relacion que presentan las variables “Pure” y “Manzana”

pairs(datosPure)

¿Existe alguna relación?

● Matriz de coeficientes de correlación

cor(datosPure)

##              Pure   Manzana
## Pure    1.0000000 0.7603831
## Manzana 0.7603831 1.0000000

Con indice de coorelacion de Pearson de 0.76 determinamos que existe una pequeña correlacion mas no una causalidad en estas 2 busquedas.

Calculo y representacion de la recta de mínimos cuadrados

En la siguiente informacion se encuentran los Residuales, Coeficientes, Interceptos, Codicos de significancia, Errores estandar residuales y algunos otros datos que se generan.

regresion = lm(Manzana ~ Pure, data=datosPure)
summary(regresion)

## 
## Call:
## lm(formula = Manzana ~ Pure, data = datosPure)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -14.2307  -3.8445  -0.1911   3.5020  29.2641 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   7.3790     1.4736   5.007 1.02e-06 ***
## Pure          2.3466     0.1245  18.842  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 5.424 on 259 degrees of freedom
## Multiple R-squared:  0.5782, Adjusted R-squared:  0.5766 
## F-statistic:   355 on 1 and 259 DF,  p-value: < 2.2e-16

Ecuación de la recta de mínimos cuadrados Y

y=7.3790+2.3466x

Con esta ecuación podemos modelar y predecir valores a partir de dos variables de búsqueda, como lo son Manzana y Pure.

Con esta escuacion se puede calcular la recta de regresion lineal que minimiza los residuos (Que se refiere a las diferencias entre los valores reales y los estimados por la recta).

plot(datosPure$Pure, datosPure$Manzana, xlab = "Busqueda de manzana", ylab = "Busquedas de pure")
abline(regresion)

Estimacion de predicciones

Estos son valores con una determinada probabilidad, basados en pasadas observaciones.

nuevos.pure <- data.frame(Pure=seq(0,20), Manzana=seq(0,20))
predict(regresion, nuevos.pure)

##         1         2         3         4         5         6         7         8 
##  7.378995  9.725547 12.072099 14.418651 16.765203 19.111756 21.458308 23.804860 
##         9        10        11        12        13        14        15        16 
## 26.151412 28.497964 30.844516 33.191069 35.537621 37.884173 40.230725 42.577277 
##        17        18        19        20        21 
## 44.923829 47.270382 49.616934 51.963486 54.310038

Intervalo de confianza en el modelo de regresión simple

confint(regresion)

##                2.5 %    97.5 %
## (Intercept) 4.477229 10.280760
## Pure        2.101312  2.591793

El hecho de que exista una correlación pearson alta, no significa que exista una causalidad

confint(regresion, level=0.90)

##                  5 %     95 %
## (Intercept) 4.946435 9.811555
## Pure        2.140966 2.552138

U1A4

Angel Hernandez

08/02/2021