Análisis de correlación por medio de una regresión lineal y su análisis de
Confiabilidad
El virus de inmunodeficiencia humana (VIH) daña el sistema inmunitario dejando el cuerpo en riesgo de sufrir otras infecciones graves. El SIDA (Síndrome de inmnodeficiencia adquirida) es una enfermedad infecciosa causada por el VIH, ocurre cuando el sistema inmunitario está muy dañado. No todas las personas con VIH desarrollan SIDA. En méxico se estiman desde el año 1983 hasta el 2020 un total de 313 969 casos.
Se utilizarán datos de google trends para analizar si existe una relación entre las búsquedas de VIH y SIDA en México en los últimos 5 años.
Virus de Inmunodeficiencia humana
Fuente SSA/SUIVE/DGE/DVEET/Sistema Especial de Vigilancia Epidemiológica de VIH
Importar
bibliotecas y datos
library(readr)
library(DT)
library(prettydoc)
setwd("~/EAMJ1130")
datos <- read_csv("datos.csv")##
## -- Column specification --------------------------------------------------------
## cols(
## VIH = col_double(),
## SIDA = col_double()
## )
Visualizar
Tabla
Tabla interactiva con todos los datos
datatable(datos)Gráficas
- Explorar la relación que existe entre las variables por medio de una matriz de diagramas de dispersión
pairs(datos) ## Modelar
Coeficiente de correlación Pearson
¿Existe alguna relación?
- Matriz de coeficientes de correlación
cor(datos)## VIH SIDA
## VIH 1.0000000 0.6516717
## SIDA 0.6516717 1.0000000
Con un índice de correlación pearson de 0.65 se determina que existe una correlación, más no necesariamente una causalidad.
Cálculo y representación de la recta de mínimos cuadrados
regresion = lm (SIDA ~ VIH, data=datos )
summary(regresion)##
## Call:
## lm(formula = SIDA ~ VIH, data = datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -18.4277 -3.9612 -0.6764 3.1904 21.0449
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 5.18550 1.29614 4.001 8.25e-05 ***
## VIH 0.64242 0.04646 13.827 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 5.462 on 259 degrees of freedom
## Multiple R-squared: 0.4247, Adjusted R-squared: 0.4225
## F-statistic: 191.2 on 1 and 259 DF, p-value: < 2.2e-16
Ecuación de la recta de mínimos cuadrados
\[ y= 5.18550 + 0.64242x \] Con esta ecuación se pueden modelar y predecir valores
Predección de valores utilizando la ecuación de la recta de mínimos
cuadrados
Se utiliza el comando plot para crar una gráfica y se añade la representación de mínimos cuadrados (con el comando abline que se genera gracias a lm)
plot(datos$VIH, datos$SIDA, xlab = "Búsquedas de VIH", ylab = "Búsquedas de SIDA")
abline(regresion)El coeficiente de determinación (coeficiente de correlaión al cuadrado) mide la bondad del ajuste de la recta a los datos. La bondad del ajuste permite crear una comparación entre los valores observados con las predicciones asumiendo el modelo para los distintos datos Determinando así si los datos se ajustan a una distribución (Ayala G., 2019)
A partir de la salida anterior, vemos que su valor en este caso es Multiple R-squared: 0.4247 Aquí el valor del coeficiente de determinación tiene un valor positivo medio, ya que esta alejado del valor 1 (entre más cerca del valor 1 es mejor el ajuste )
La linea de regresión líneal tiene una pendiente (β1) de 0.64242 con un intercepto de 5.18550
Estimación de predicciones
Se crea un análisis para predecir los valores de las búsquedas del SIDA en función de las búsquedas del VIH
nuevos.VIH <- data.frame(VIH = seq(0,20), sIDA=seq(0,20))
predict(regresion,nuevos.VIH )## 1 2 3 4 5 6 7 8
## 5.185503 5.827924 6.470346 7.112768 7.755190 8.397612 9.040034 9.682456
## 9 10 11 12 13 14 15 16
## 10.324878 10.967300 11.609722 12.252144 12.894566 13.536988 14.179410 14.821832
## 17 18 19 20 21
## 15.464254 16.106676 16.749098 17.391519 18.033941
La secuencia de valores permite generar un vector de secuencia de valores, de 1 en 1, en este caso hasta el 20 desde el 0
Intervalo de confianza en el modelo de regresión simple
El objetivo de los intervalos de confianza es la construcción de un intervalo que mida el margen error en la estimación junto a la estimación puntual de los parámetros. (Quintela del Río A., 2019 )
confint(regresion)## 2.5 % 97.5 %
## (Intercept) 2.6331824 7.7378226
## VIH 0.5509306 0.7339133
Esto muestra el valor de equivocación a partir de intercepto El hecho de que exista una correlación Pearson alta, no significa que exista una causalidad
Intervalo de confianza para el 90% de los datos
confint(regresion, level=0.90)## 5 % 95 %
## (Intercept) 3.0458840 7.3251211
## VIH 0.5657244 0.7191195
Referencias Ayala G. (2019) Estadística básica Universidad de Valencia Recuperado de: https://www.uv.es/ayala/docencia/nmr/nmr13.pdf
Quintela del Río A. (2019). Estadística Edulcorada Recuperado de: https://bookdown.org/aquintela/EBE/