u1a4

Martha Castro

4/2/2021

Visualizar una regresión lineal

Prueba de hipóstesis para un experimento

Se utilizarán datos de google trends para analizar si existe una relación entre las búsquedas de género pop y Ricardo Montaner.

Importar datos

library(readr) 
library(DT) 
library(prettydoc) 
setwd("~/EAMJ1130/u1a4")
datos <-read_csv("datos.csv")
## 
## -- Column specification --------------------------------------------------------
## cols(
##   pop = col_double(),
##   ricardomontaner = col_double()
## )

Visualizar

Tabla

datatable(datos)

Gráficas

Se observará la relación entre las variables por medio de una matriz de diagramas de dispersión.

pairs(datos)

Inferencias

¿Existe una correlación entre el género pop y Ricardo Montaner?

cor(datos)
##                         pop ricardomontaner
## pop              1.00000000     -0.01518177
## ricardomontaner -0.01518177      1.00000000

Hubo una correlación inversamente proporcional, ya que el índice de Pearson fue de -0.015.

Cálculo y representación de la recta de mínimos cuadrados

regresion=lm(ricardomontaner~pop,data=datos)
summary(regresion)
## 
## Call:
## lm(formula = ricardomontaner ~ pop, data = datos)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -7.3062 -3.3157 -2.0872  0.9128 27.7128 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 13.658539   2.180608   6.264 1.56e-09 ***
## pop         -0.009523   0.038970  -0.244    0.807    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 6.232 on 259 degrees of freedom
## Multiple R-squared:  0.0002305,  Adjusted R-squared:  -0.00363 
## F-statistic: 0.05971 on 1 and 259 DF,  p-value: 0.8071

Ecuación de la recta de mínimos cuadrados \(Y\) \[ Y=13.658539 -0.009523x \] Con ésta ecuación podemos modelar y predecir valores.

Predicción de valores utilizando la ecuación de la recta de mínimos cuadrados

Una predicción nos referimos a la accion de anunciar un hecho futuro, en éste caso predecimos valores utilizando la ecuación de la recta de mínimos cuadrados, que sería Y=a+bx.

Los siguiente comandos representan: Plot=Nube de puntos y Abline= Representación gráfica de la recta de mínimos cuadrados.

plot(datos$pop, datos$ricardomontaner, xlab= "Búsquedas de ricardomontaner", ylab = "Búsquedas de pop")
abline(regresion)

El coeficiente de correlación al cuadrado mide el ajuste de la recta a los datos. El R-cuadrado es una medida estadística de qué tan cerca están los datos de la línea de regresión ajustada.

Estimación de predicciones

Cuando hablamos de estimación nos referimos cuando calculamos el valor aproximado de una cosa.

nuevos.ricardomontaner <- data.frame(ricardomontaner=seq(0,50), pop=seq(0,50)) #Genera un vector de secuencia de valores de 1 en 1, hasta el 50, desde el 0.
predict(regresion, nuevos.ricardomontaner)
##        1        2        3        4        5        6        7        8 
## 13.65854 13.64902 13.63949 13.62997 13.62045 13.61093 13.60140 13.59188 
##        9       10       11       12       13       14       15       16 
## 13.58236 13.57284 13.56331 13.55379 13.54427 13.53474 13.52522 13.51570 
##       17       18       19       20       21       22       23       24 
## 13.50618 13.49665 13.48713 13.47761 13.46809 13.45856 13.44904 13.43952 
##       25       26       27       28       29       30       31       32 
## 13.43000 13.42047 13.41095 13.40143 13.39190 13.38238 13.37286 13.36334 
##       33       34       35       36       37       38       39       40 
## 13.35381 13.34429 13.33477 13.32525 13.31572 13.30620 13.29668 13.28716 
##       41       42       43       44       45       46       47       48 
## 13.27763 13.26811 13.25859 13.24906 13.23954 13.23002 13.22050 13.21097 
##       49       50       51 
## 13.20145 13.19193 13.18241

Intervalo de confianza en el modelo de regresión simple

Le llamamos intervalo de confianza a un par o varios pares de números entre los cuales se estima que estará cierto valor desconocido con un determinado nivel de confianza.

confint(regresion)
##                   2.5 %      97.5 %
## (Intercept)  9.36456121 17.95251702
## pop         -0.08626199  0.06721667

Si existe una correlación de pearson alta, no significa que exista una causalidad Si el intercerpt es negativo, no significa que exista una causalidad, pero si es positivo, puede haber una posibilidad que haya una causalidad, pero no necesariamente.

Intervalo de confianza para el 90% de los datos

El intervalo de confianza describe la variabilidad entre la medida obtenida en un estudio y la medida real de la población.

confint(regresion, level=0.90)
##                    5 %        95 %
## (Intercept) 10.0588829 17.25819529
## pop         -0.0738535  0.05480818

Así, un intervalo de confianza de 90% nos indica que dentro del rango dado se encuentra el valor real de un parámetro con 90% de certeza.