U1A4

Rosa Gonzalez

11/02/2021

Análisis de correlación por medio de una regresión lineal y su análisis de

Confiabilidad

El virus de inmunodeficiencia humana (VIH) daña el sistema inmunitario dejando el cuerpo en riesgo de sufrir otras infecciones graves. El SIDA (Síndrome de inmnodeficiencia adquirida) es una enfermedad infecciosa causada por el VIH, ocurre cuando el sistema inmunitario está muy dañado. No todas las personas con VIH desarrollan SIDA. En méxico se estiman desde el año 1983 hasta el 2020 un total de 313 969 casos.

Se utilizarán datos de google trends para analizar si existe una relación entre las búsquedas de VIH y SIDA en México en los últimos 5 años.

Virus de Inmunodeficiencia humana

Fuente SSA/SUIVE/DGE/DVEET/Sistema Especial de Vigilancia Epidemiológica de VIH

Importar

bibliotecas y datos

library(readr) 
library(DT) 
library(prettydoc) 
setwd("~/EAMJ1130")
datos <- read_csv("datos.csv")
## 
## -- Column specification --------------------------------------------------------
## cols(
##   VIH = col_double(),
##   SIDA = col_double()
## )

Visualizar

Tabla

Tabla interactiva con todos los datos

datatable(datos)

Gráficas

  • Explorar la relación que existe entre las variables por medio de una matriz de diagramas de dispersión
pairs(datos)

## Modelar

Coeficiente de correlación Pearson

¿Existe alguna relación?

  • Matriz de coeficientes de correlación
cor(datos)
##            VIH      SIDA
## VIH  1.0000000 0.6516717
## SIDA 0.6516717 1.0000000

Con un índice de correlación pearson de 0.65 se determina que existe una correlación, más no necesariamente una causalidad.

Cálculo y representación de la recta de mínimos cuadrados

regresion = lm (SIDA ~ VIH, data=datos )
summary(regresion)
## 
## Call:
## lm(formula = SIDA ~ VIH, data = datos)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -18.4277  -3.9612  -0.6764   3.1904  21.0449 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  5.18550    1.29614   4.001 8.25e-05 ***
## VIH          0.64242    0.04646  13.827  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 5.462 on 259 degrees of freedom
## Multiple R-squared:  0.4247, Adjusted R-squared:  0.4225 
## F-statistic: 191.2 on 1 and 259 DF,  p-value: < 2.2e-16

Ecuación de la recta de mínimos cuadrados

\[ y= 5.18550 + 0.64242x \] Con esta ecuación se pueden modelar y predecir valores

Predección de valores utilizando la ecuación de la recta de mínimos

cuadrados

Se utiliza el comando plot para crar una gráfica y se añade la representación de mínimos cuadrados (con el comando abline que se genera gracias a lm)

plot(datos$VIH, datos$SIDA, xlab = "Búsquedas de VIH", ylab = "Búsquedas de SIDA")
abline(regresion)

El coeficiente de determinación (coeficiente de correlaión al cuadrado) mide la bondad del ajuste de la recta a los datos. La bondad del ajuste permite crear una comparación entre los valores observados con las predicciones asumiendo el modelo para los distintos datos Determinando así si los datos se ajustan a una distribución (Ayala G., 2019)

A partir de la salida anterior, vemos que su valor en este caso es Multiple R-squared: 0.4247 Aquí el valor del coeficiente de determinación tiene un valor positivo medio, ya que esta alejado del valor 1 (entre más cerca del valor 1 es mejor el ajuste )

La linea de regresión líneal tiene una pendiente (β1) de 0.64242 con un intercepto de 5.18550

Estimación de predicciones

Se crea un análisis para predecir los valores de las búsquedas del SIDA en función de las búsquedas del VIH

nuevos.VIH <- data.frame(VIH = seq(0,20), sIDA=seq(0,20))
predict(regresion,nuevos.VIH )
##         1         2         3         4         5         6         7         8 
##  5.185503  5.827924  6.470346  7.112768  7.755190  8.397612  9.040034  9.682456 
##         9        10        11        12        13        14        15        16 
## 10.324878 10.967300 11.609722 12.252144 12.894566 13.536988 14.179410 14.821832 
##        17        18        19        20        21 
## 15.464254 16.106676 16.749098 17.391519 18.033941

La secuencia de valores permite generar un vector de secuencia de valores, de 1 en 1, en este caso hasta el 20 desde el 0

Intervalo de confianza en el modelo de regresión simple

El objetivo de los intervalos de confianza es la construcción de un intervalo que mida el margen error en la estimación junto a la estimación puntual de los parámetros. (Quintela del Río A., 2019 )

confint(regresion)
##                 2.5 %    97.5 %
## (Intercept) 2.6331824 7.7378226
## VIH         0.5509306 0.7339133

Esto muestra el valor de equivocación a partir de intercepto El hecho de que exista una correlación Pearson alta, no significa que exista una causalidad

Intervalo de confianza para el 90% de los datos

confint(regresion, level=0.90)
##                   5 %      95 %
## (Intercept) 3.0458840 7.3251211
## VIH         0.5657244 0.7191195

Referencias Ayala G. (2019) Estadística básica Universidad de Valencia Recuperado de: https://www.uv.es/ayala/docencia/nmr/nmr13.pdf

Quintela del Río A. (2019). Estadística Edulcorada Recuperado de: https://bookdown.org/aquintela/EBE/