Visualizar una regresión lineal
Prueba de hipóstesis para un experimento
Se utilizarán datos de google trends para analizar si existe una relación entre las búsquedas de género pop y Ricardo Montaner.
Importar datos
library(readr)
library(DT)
library(prettydoc)
setwd("~/EAMJ1130/u1a4")
datos <-read_csv("datos.csv")##
## -- Column specification --------------------------------------------------------
## cols(
## pop = col_double(),
## ricardomontaner = col_double()
## )
Visualizar
Gráfica de google trends
A observación, en la fecha de Junio 2019 es cuando hay una mayor correlación entre el género pop y Ricardo Montaner
Tabla
datatable(datos)Gráficas
Se observará la relación entre las variables por medio de una matriz de diagramas de dispersión.
pairs(datos)Inferencias
¿Existe una correlación entre el género pop y Ricardo Montaner?
cor(datos)## pop ricardomontaner
## pop 1.00000000 -0.01518177
## ricardomontaner -0.01518177 1.00000000
Hubo una correlación inversamente proporcional, ya que el índice de Pearson fue de -0.015.
Cálculo y representación de la recta de mínimos cuadrados
regresion=lm(ricardomontaner~pop,data=datos)
summary(regresion)##
## Call:
## lm(formula = ricardomontaner ~ pop, data = datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -7.3062 -3.3157 -2.0872 0.9128 27.7128
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 13.658539 2.180608 6.264 1.56e-09 ***
## pop -0.009523 0.038970 -0.244 0.807
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 6.232 on 259 degrees of freedom
## Multiple R-squared: 0.0002305, Adjusted R-squared: -0.00363
## F-statistic: 0.05971 on 1 and 259 DF, p-value: 0.8071
Ecuación de la recta de mínimos cuadrados \(Y\) \[ Y=13.658539 -0.009523x \] Con ésta ecuación podemos modelar y predecir valores.
Predicción de valores utilizando la ecuación de la recta de mínimos cuadrados
Una predicción nos referimos a la accion de anunciar un hecho futuro, en éste caso predecimos valores utilizando la ecuación de la recta de mínimos cuadrados, que sería Y=a+bx.
Los siguiente comandos representan: Plot=Nube de puntos y Abline= Representación gráfica de la recta de mínimos cuadrados.
plot(datos$pop, datos$ricardomontaner, xlab= "Búsquedas de ricardomontaner", ylab = "Búsquedas de pop")
abline(regresion)El coeficiente de correlación al cuadrado mide el ajuste de la recta a los datos. El R-cuadrado es una medida estadística de qué tan cerca están los datos de la línea de regresión ajustada.
Estimación de predicciones
Cuando hablamos de estimación nos referimos cuando calculamos el valor aproximado de una cosa.
nuevos.ricardomontaner <- data.frame(ricardomontaner=seq(0,50), pop=seq(0,50)) #Genera un vector de secuencia de valores de 1 en 1, hasta el 50, desde el 0.
predict(regresion, nuevos.ricardomontaner)## 1 2 3 4 5 6 7 8
## 13.65854 13.64902 13.63949 13.62997 13.62045 13.61093 13.60140 13.59188
## 9 10 11 12 13 14 15 16
## 13.58236 13.57284 13.56331 13.55379 13.54427 13.53474 13.52522 13.51570
## 17 18 19 20 21 22 23 24
## 13.50618 13.49665 13.48713 13.47761 13.46809 13.45856 13.44904 13.43952
## 25 26 27 28 29 30 31 32
## 13.43000 13.42047 13.41095 13.40143 13.39190 13.38238 13.37286 13.36334
## 33 34 35 36 37 38 39 40
## 13.35381 13.34429 13.33477 13.32525 13.31572 13.30620 13.29668 13.28716
## 41 42 43 44 45 46 47 48
## 13.27763 13.26811 13.25859 13.24906 13.23954 13.23002 13.22050 13.21097
## 49 50 51
## 13.20145 13.19193 13.18241
Intervalo de confianza en el modelo de regresión simple
Le llamamos intervalo de confianza a un par o varios pares de números entre los cuales se estima que estará cierto valor desconocido con un determinado nivel de confianza.
confint(regresion)## 2.5 % 97.5 %
## (Intercept) 9.36456121 17.95251702
## pop -0.08626199 0.06721667
Si existe una correlación de pearson alta, no significa que exista una causalidad Si el intercerpt es negativo, no significa que exista una causalidad, pero si es positivo, puede haber una posibilidad que haya una causalidad, pero no necesariamente.
Intervalo de confianza para el 90% de los datos
El intervalo de confianza describe la variabilidad entre la medida obtenida en un estudio y la medida real de la población.
confint(regresion, level=0.90)## 5 % 95 %
## (Intercept) 10.0588829 17.25819529
## pop -0.0738535 0.05480818
Así, un intervalo de confianza de 90% nos indica que dentro del rango dado se encuentra el valor real de un parámetro con 90% de certeza.