Estadística predictiva

Pregunta de investigación

La presión saguínea en reposo y el colesterol total son los valores medidos fácilmente a los pacientes. Estos valores han sido detectados en diversos estudios clínicos como factores de riesgo a Evento Cardioovascular. Pero también se tiene evidencia médica de que estos factores está relacionados y se tiene la sospecha de que uno de ellos podría ser un factor indirecto del riesgo cardiovascular.

¿El colesterol total puede predecir la presión saguínea en reposo?

## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
## 
## Attaching package: 'janitor'
## The following objects are masked from 'package:stats':
## 
##     chisq.test, fisher.test

Análisis exploratorio de datos

Estadística descriptiva

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    94.0   120.0   130.0   131.8   140.0   200.0

Gráficos descriptivos

Gráfico de Presión sanguínea en reposo vs Colesterol total

Modelo de regresión lineal

## 
## Call:
## lm(formula = trestbps ~ chol, data = cleaned_data)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -36.666 -11.390  -2.231  10.193  65.731 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 117.25609    5.17511  22.658  < 2e-16 ***
## chol          0.05907    0.02065   2.861  0.00453 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 17.54 on 296 degrees of freedom
## Multiple R-squared:  0.0269, Adjusted R-squared:  0.02361 
## F-statistic: 8.183 on 1 and 296 DF,  p-value: 0.00453
## `geom_smooth()` using formula = 'y ~ x'

Interpretación.

Coeficientes y su sentido.

Indican la magnitud y dirección de la relación. El coeficiente para colesterol total es 0.05907, sigifica que por cada unidad adicionalde colesterol, la presión sanguínea en reposo incrementa en 0.05907 unidades.

Significancia estadística.

Valor P (Pr(>|t|)): Un valor pequeño (usualmente < 0.05) sugiere que la relación es estadísticamente significativa. En este caso, el modelo de regresión lineal indica que es la relación es significativa, ya que p (0.00453) < 0.01.

Indicadores globales del modelo (R²).

R-cuadrado (\(R^{2}\)): Mide qué proporción de la varianza en la variable dependiente (presión saguínea en reposo) es explicada por la variable independiente (colesterol total). En este caso la \(R^{2}\) = 0.0269; lo cual indica que el colesterol total tiene una relación estadísticamente significativa, pero que explica poco de la variación en los datos; o sea, que el efecto es pequeño.

Relevancia práctica de las variables consideradas.

Las variables consideradas son fáciles de obteer para un paciente y hay muchos registros en muchas poblaciones. También están estandarizadas en las organizaciones de salud y oresentan comportamiento normal. Por ello son muy relelantes, pero se requiere construir modelos más completos que separen el efecto etre sexos, edades, etre otros factores.

Conclusiones.

Sobre la calidad del modelo y su utilidad para responder la pregunta predictiva.

El modelo es muy simple, pero es indicativo de una relación importante para considerar y seguir analizando. Es necesario construir un modelo de regresión múltiple con pruebas que pernitan eliminar las variables que aportan poco al modelo para elimiarlas y calcular sus coeficientes de correlacioes parciales para determinar relaciones indirectas y espurias.