u1a2

U1A3

MARINA PORTILLO CARREON

04/02/2021

    *Prueba de hipótesis para un experimento

Se utilizarán datos de google trends para analizar si existe una relación entre las búsquedas de gmail con la de outlook. Durante los ultimos años

*Importar datos

library(readr)
library(DT)
setwd("~/marina/estadistica aplicada/U1A4")
datos <- read_csv("datos.csv")
## 
## -- Column specification --------------------------------------------------------
## cols(
##   gmail = col_double(),
##   outlook = col_double()
## )

la tabla que se muestra acontinuacion son datos obtenidos que nos arrojo la grafica de google trends donde nos muestra la cantidad de veces que estas palabras fueron buscadas

    *Graficas

    se observa la matriz de diagramas de dispersion donde se puede visualizar la relacion que ambas variables presentan tanto gmail como outlook.

pairs(datos)

## Parsed with column specification:
## cols(
##     gmail = col_double(),
##   outlook = col_double()
## )

    *Matriz de coeficientes de correlación

¿Existe alguna relación?

##           gmail outlook
## gmail 1.0000000 0.77254097
## outlook 0.77254097 1.0000000

Con un índice de correlación Pearson de 0.77 determinamos que existe una correlación, mas no necesariamente una causalidad.

    *Calculo y representacion de la recta de minimos cuadrados

Acontinuacion se observan los residuales, los coeficientes, el intercepto, los codigos de significancia, los errores estandar, R cuadrada y el valor de p. y con dos datos tomados de aqui se puede generar la ecuacion que se ocupara para la recta de minimos cuadrados

regresion = lm(gmail ~ outlook,
data=datos)
summary(regresion)
## 
## Call:
## lm(formula = gmail ~ outlook, data = datos)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -18.6986  -5.8180   0.2218   5.3533  27.5246 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  8.27985    3.06911   2.698  0.00744 ** 
## outlook      1.56575    0.07996  19.580  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 8.004 on 259 degrees of freedom
## Multiple R-squared:  0.5968, Adjusted R-squared:  0.5953 
## F-statistic: 383.4 on 1 and 259 DF,  p-value: < 2.2e-16

    *Ecuacion

Ecuacion de la recta de minimos cuadrados

El método de los mínimos cuadrados es utilizada para poder calcular la recta de regresión lineal que minimiza los residuos, es decir, las diferencias entre los valores reales y los estimados por la recta. Se revisa su fundamento y la forma de calcular los coeficientes de regresión con este método. \[ y = 8.27985 + 1.56575x \] La ecuacion que se muestra arriba es la ecuacion que se utilizara para poder representar y predecir los valores que se presentan en la matriz de diagramas de dispersion

    *Prediccion de valores utilizando la ecuacion de la recta de minimos cuadrados

Prediccion de valores utilizando la ecuacion de la recta de minimos cuadrados

la palabra predecir se refiere a la anticipacion de un suceso que pasara en un futuro, aqui nos referimos a la prediccion de nuestros valores de la grafica utilizando la ecuacion de la recta de minimos cuadrados.

plot(datos$outlook, datos$gmail, xlab = "Búsquedas de outlook", ylab = "Búsquedas de gmail")
abline(regresion)

Temenos el coeficiente de determinación Multiple R-squared: 0.5968 y Adjusted R-squared: 0.5953 que es el que mide el ajuste de la recta a los datos, el R-cuadrado es la medida de qué tan cerca están los datos de la línea de regresión ajustada.

    *Estimacion de predicciones

Estimacion de predicciones

la estadistica de prediccion es referida a aquello que nos permite dar una valor apoximado a algo

nuevos.outlook <-
data.frame(outlook=seq(0,50), gmail=seq(0,50))
predict(regresion,nuevos.outlook)
##         1         2         3         4         5         6         7         8 
##  8.279846  9.845591 11.411337 12.977082 14.542828 16.108573 17.674319 19.240065 
##         9        10        11        12        13        14        15        16 
## 20.805810 22.371556 23.937301 25.503047 27.068792 28.634538 30.200283 31.766029 
##        17        18        19        20        21        22        23        24 
## 33.331774 34.897520 36.463265 38.029011 39.594756 41.160502 42.726247 44.291993 
##        25        26        27        28        29        30        31        32 
## 45.857738 47.423484 48.989229 50.554975 52.120720 53.686466 55.252212 56.817957 
##        33        34        35        36        37        38        39        40 
## 58.383703 59.949448 61.515194 63.080939 64.646685 66.212430 67.778176 69.343921 
##        41        42        43        44        45        46        47        48 
## 70.909667 72.475412 74.041158 75.606903 77.172649 78.738394 80.304140 81.869885 
##        49        50        51 
## 83.435631 85.001376 86.567122

Como existe una correlación en este caso positiva entonces quiere decir que probablemente exista una causalidad.

    *Intervalo de confianza en el modelo de regresion simple

Intervalo de confianza en el modelo de regresion simple

los intervalos de confianza son aquellos que permiten calcular los valores que existen alrededor de una media muestral

confint(regresion, level = 0.90 )
##                  5 %      95 %
## (Intercept) 3.213484 13.346208
## outlook     1.433743  1.697748

En este caso existe una correlacion alta y positiva a lo que quiere decir que puede ser una casualidad