En este estudio, se analizan las variables diferentes:
Age (Edad): Representa la edad del paciente en años. Es una variable numérica que indica la edad del individuo en el momento del estudio.
Sex (Sexo): Indica el género del paciente.
BMI (Índice de masa corporal): Es una medida que relaciona el peso y la altura del paciente para evaluar su nivel de obesidad. Es una variable numérica que se calcula dividiendo el peso del paciente en kilogramos por el cuadrado de su altura en metros.
MAP (Presión arterial promedio): Representa la presión arterial promedio del paciente. Es una medida de la presión ejercida por la sangre contra las paredes de las arterias durante el ciclo cardíaco.
S1: TC (Colesterol total): Es una medida del nivel de colesterol total en la sangre del paciente. El colesterol total incluye tanto el colesterol de lipoproteínas de baja densidad (LDL) como el colesterol de lipoproteínas de alta densidad (HDL).
S2: LDL (Lipoproteínas de baja densidad): Representa el nivel de colesterol transportado por lipoproteínas de baja densidad en la sangre. Las LDL son conocidas como “colesterol malo”, ya que altos niveles de LDL pueden aumentar el riesgo de enfermedades cardiovasculares.
S3: HDL (Lipoproteínas de alta densidad): Indica el nivel de colesterol transportado por lipoproteínas de alta densidad en la sangre. Las HDL son conocidas como “colesterol bueno”, ya que ayudan a eliminar el exceso de colesterol de las arterias.
S4: TCH (Colesterol total / HDL): Es la relación entre el colesterol total y el colesterol transportado por las lipoproteínas de alta densidad. Puede ser utilizado como un indicador de riesgo cardiovascular.
S5: LTG (Lipoproteína de triglicéridos): Representa el nivel de lipoproteínas de triglicéridos en la sangre. Los triglicéridos son una forma de grasa que se encuentra en la sangre y se almacena en el tejido adiposo.
S6: Glu (Glucosa en plasma): Indica el nivel de glucosa en el plasma sanguíneo, que es un indicador importante del metabolismo de la glucosa y puede estar relacionado con la diabetes.
Y: quantitative measure of disease progression one year after baseline
La descripcion de las variables se puede encontrar en el notebook y en el estudio de Bradley Efron, Trevor Hastie, Iain Johnstone and Robert Tibshirani.
La base de datos se puede visualizar de manera dinámica a continuación:
A continuación, se presenta una descripción de cada una de estas variables.
La variable “edad” representa la edad de los individuos participantes en el estudio. Se registró la edad de cada persona en años.
## Media: 48.5180995475113
## Mediana: 50
## Desviación estándar: 13.1090278220411
## Mínimo: 19
## Máximo: 79
La variable “Edad” presenta una media de aproximadamente 48.52, lo que indica que, en promedio, las personas tienen alrededor de 48.52 años. La mediana de 50 sugiere que la mitad de las edades se encuentran por encima de este valor y la otra mitad se encuentra por debajo. Esto indica una distribución cercana a una simetría en las edades. La desviación estándar de 13.11 muestra una moderada dispersión de los valores de edad alrededor de la media. Esto implica que las edades individuales pueden variar dentro de un rango considerable. El rango, que va desde el valor mínimo de 19 hasta el valor máximo de 79, destaca la amplia gama de edades en los datos. En resumen, los resultados indican que, en general, la muestra tiene una edad promedio de 48.52 años, con una mediana de 50, lo que sugiere una distribución simétrica. Sin embargo, la variabilidad de las edades individuales, evidenciada por la desviación estándar de 13.11 y el rango amplio, resalta la diversidad en el rango de edades representadas.
La variable “sexo” indica el género de los participantes. Se clasificó a cada individuo en una de dos categorías: masculino o femenino. Considerar el sexo como una variable permite identificar posibles disparidades biológicas entre los sujetos estudiados. Los procesos fisiológicos y hormonales pueden variar según el sexo, lo que puede tener un impacto en la manifestación de ciertas enfermedades, la respuesta a los tratamientos médicos y la predisposición a ciertos trastornos. Esta variable permite relacionar la prevalencia entre hombres y mujeres. Esto implica analizar si existe una diferencia en la proporción de hombres y mujeres afectados por la diabetes, lo cual podría indicar posibles factores de riesgo o diferencias en la manifestación de la enfermedad según el sexo. Tambien podria asociar factores de riesgo como la obesidad, la actividad física, la dieta y la genética, pueden tener una influencia diferente en hombres y mujeres. Identificar estas diferencias puede ayudar a desarrollar estrategias de prevención y manejo más efectivas y específicas. También es relevante considerar cómo las complicaciones asociadas a la diabetes pueden variar según el sexo. Algunas complicaciones, como la enfermedad cardiovascular, la retinopatía, la neuropatía o la enfermedad renal, pueden presentar diferencias en su prevalencia o gravedad entre hombres y mujeres. Estudiar estas diferencias puede ayudar a adaptar los enfoques de tratamiento y manejo para prevenir o tratar estas complicaciones de manera más efectiva. Junto con lo anterior, este también puede tener implicaciones en la respuesta al tratamiento de la diabetes. Algunos estudios han demostrado que hombres y mujeres pueden responder de manera diferente a ciertos medicamentos o terapias, lo que podría influir en la eficacia y seguridad del tratamiento. Considerar el sexo como una variable relevante en el estudio de la diabetes puede ayudar a personalizar los enfoques terapéuticos y optimizar los resultados clínicos.
El índice de masa corporal es una medida utilizada para evaluar la composición corporal y el peso relativo de una persona. Se calcula dividiendo el peso de un individuo en kilogramos por el cuadrado de su altura en metros (IMC = peso / altura^2). El IMC proporciona una indicación general del estado de peso de una persona, clasificándola en categorías como bajo peso, peso normal, sobrepeso u obesidad.
## Media: 26.3757918552036
## Mediana: 25.7
## Desviación estándar: 4.41812156061577
## Mínimo: 18
## Máximo: 42.2
El análisis de la variable Índice de Masa Corporal (IMC) revela que, en promedio, los participantes del estudio presentan un IMC de 26.3757918552036. La mediana de 25.7 indica que la mitad de los participantes tienen un IMC igual o menor a este valor, mientras que la otra mitad tiene un IMC igual o mayor. La desviación estándar de 4.41812156061577 muestra que los valores de IMC se dispersan alrededor de la media, lo cual indica cierta variabilidad en los datos. El rango observado para esta variable va desde un mínimo de 18 hasta un máximo de 42.2, lo que sugiere que existe una amplia gama de valores de IMC en el estudio. Estas medidas nos brindan información valiosa sobre la distribución y variabilidad del IMC en la población estudiada, permitiéndonos comprender mejor la composición corporal y la posible presencia de valores atípicos.
La variable “presión arterial promedio” refleja la presión arterial promedio de los participantes en el estudio. La presión arterial se mide en milímetros de mercurio (mmHg) y generalmente se registra como dos valores: presión arterial sistólica (la presión durante la contracción del corazón) y presión arterial diastólica (la presión cuando el corazón está en reposo). En este estudio, se ha considerado el promedio de estas dos mediciones.
## Media: 94.6470135746606
## Mediana: 93
## Desviación estándar: 13.831283419783
## Mínimo: 62
## Máximo: 133
La variable Presión arterial promedio muestra que, en promedio, se observa una presión arterial de aproximadamente 94.65. Sin embargo, la mediana de 93 indica que la mitad de los valores se encuentran por encima de este punto y la otra mitad por debajo. Esto sugiere una distribución ligeramente sesgada hacia valores más bajos. La desviación estándar de 13.83 revela una moderada variabilidad alrededor de la media, lo que indica que los valores individuales pueden dispersarse en torno a la presión arterial promedio. Además, el rango que abarca desde el valor mínimo de 62 hasta el valor máximo de 133 muestra la amplitud de los valores registrados, lo que implica que algunos individuos presentan una presión arterial más baja, mientras que otros tienen valores más altos. En conjunto, estos resultados destacan la importancia de considerar tanto la tendencia central como la variabilidad al analizar la presión arterial promedio.
Los seis sueros sanguíneos representan seis variables adicionales obtenidas a partir de muestras de sangre de los participantes. Los datos descriptivos de las variables son los siguientes:
| Variable | Media | Mediana | Desviacion_Estandar | Minimo | Maximo |
|---|---|---|---|---|---|
| S1 | 189.14 | 186.00 | 34.61 | 97.00 | 301.00 |
| S2 | 115.44 | 113.00 | 30.41 | 41.60 | 242.40 |
| S3 | 49.79 | 48.00 | 12.93 | 22.00 | 99.00 |
| S4 | 4.07 | 4.00 | 1.29 | 2.00 | 9.09 |
| S5 | 4.64 | 4.62 | 0.52 | 3.26 | 6.11 |
| S6 | 91.26 | 91.00 | 11.50 | 58.00 | 124.00 |
En primer lugar, la variable S1 muestra una media de 189.14, lo cual indica que, en promedio, los valores de esta variable están alrededor de este valor. La mediana de 186.00 sugiere que la mitad de los valores son menores o iguales a este número, mientras que la otra mitad son mayores o iguales. Además, la desviación estándar de 34.61 señala que los valores tienden a dispersarse alrededor de la media, con una variabilidad de aproximadamente este valor. El rango observado de la variable S1 va desde un mínimo de 97.00 hasta un máximo de
Por otro lado, la variable S2 presenta una media de 115.44, indicando que, en promedio, los valores se encuentran alrededor de este número. La mediana de 113.00 sugiere que la mitad de los valores son menores o iguales a este valor, mientras que la otra mitad son mayores o iguales. La desviación estándar de 30.41 muestra una variabilidad en los datos de aproximadamente este valor. El rango de la variable S2 va desde un mínimo de 41.60 hasta un máximo de 242.40.
Asimismo, la variable S3 tiene una media de 49.79 y una mediana de 48.00, lo cual indica que los valores tienden a agruparse en torno a estos números. La desviación estándar de 12.93 sugiere una variabilidad relativamente baja en los datos. El rango de la variable S3 va desde un mínimo de 22.00 hasta un máximo de 99.00.
Por su parte, la variable S4 presenta una media de 4.07 y una mediana de 4.00, indicando que los valores tienden a agruparse en torno a estos números. La desviación estándar de 1.29 muestra una variabilidad moderada en los datos. El rango de la variable S4 va desde un mínimo de 2.00 hasta un máximo de 9.09.
En cuanto a la variable S5, la media de 4.64 y la mediana de 4.62 sugieren que los valores se encuentran cercanos a estos números. La desviación estándar de 0.52 indica una variabilidad relativamente baja en los datos. El rango de la variable S5 va desde un mínimo de 3.26 hasta un máximo de 6.11.
Finalmente, la variable S6 muestra una media de 91.26 y una mediana de 91.00, lo cual indica que los valores se agrupan en torno a estos números. La desviación estándar de 11.50 sugiere una variabilidad moderada en los datos. El rango de la variable S6 va desde un mínimo de 58.00 hasta un máximo de 124.00.
En resumen, los datos descriptivos revelan características distintivas de cada variable de Suero. Al comparar las medias, medianas, desviaciones estándar, mínimos y máximos de las variables S1 a S6, podemos apreciar sus diferencias en términos de tendencia central, dispersión y rango observado. No obstante, es necesario revisar si existe correlacion entre las mismas, para lograr la construcción de modelos con un mejor ajuste.
| S1 | S2 | S3 | S4 | S5 | S6 | |
|---|---|---|---|---|---|---|
| S1 | 1.0000000 | 0.8966630 | 0.0515194 | 0.5422073 | 0.5155029 | 0.3257168 |
| S2 | 0.8966630 | 1.0000000 | -0.1964551 | 0.6598169 | 0.3183567 | 0.2906004 |
| S3 | 0.0515194 | -0.1964551 | 1.0000000 | -0.7384927 | -0.3985773 | -0.2736973 |
| S4 | 0.5422073 | 0.6598169 | -0.7384927 | 1.0000000 | 0.6178590 | 0.4172121 |
| S5 | 0.5155029 | 0.3183567 | -0.3985773 | 0.6178590 | 1.0000000 | 0.4646688 |
| S6 | 0.3257168 | 0.2906004 | -0.2736973 | 0.4172121 | 0.4646688 | 1.0000000 |
Variables S1 y S2: Hay una correlación positiva fuerte entre S1 y S2, con un coeficiente de correlación de 0.8966630. Esto indica una relación cercana entre estas dos variables, lo que sugiere una asociación positiva entre ellas.
Variables S1 y S4: Existe una correlación moderada positiva entre S1 y S4, con un coeficiente de correlación de 0.5422073. Esto sugiere una relación significativa entre estas dos variables, aunque no tan fuerte como la observada entre S1 y S2.
Variables S1 y S5: También se observa una correlación moderada positiva entre S1 y S5, con un coeficiente de correlación de 0.5155029. Esto indica una relación significativa entre estas variables, aunque nuevamente no tan fuerte como la observada entre S1 y S2.
Variables S2 y S4: Existe una correlación moderada positiva entre S2 y S4, con un coeficiente de correlación de 0.6598169. Esto sugiere una relación significativa entre estas dos variables, similar a la observada entre S1 y S4.
Variables S2 y S5: Hay una correlación positiva moderada entre S2 y S5, con un coeficiente de correlación de 0.3183567. Esta relación es menos fuerte que las mencionadas anteriormente, pero aún muestra una asociación entre estas variables.
Variables S3 y S4: Se observa una correlación negativa moderada entre S3 y S4, con un coeficiente de correlación de -0.7384927. Esto sugiere una relación inversa entre estas variables, indicando que cuando una variable aumenta, la otra tiende a disminuir.
Variables S3 y S5: Existe una correlación negativa moderada entre S3 y S5, con un coeficiente de correlación de -0.3985773. Esto indica una relación inversa entre estas variables, aunque es menos fuerte que la observada entre S3 y S4.
Variables S4 y S5: Hay una correlación positiva moderada entre S4 y S5, con un coeficiente de correlación de 0.6178590. Esto sugiere una relación significativa entre estas variables, aunque no tan fuerte como la observada entre S2 y S4.
En resumen, este conjunto de datos proporciona información sobre la edad, el sexo, el índice de masa corporal, la presión arterial promedio y seis sueros sanguíneos de una muestra de individuos. Estas variables se obtienen mediante diferentes métodos, como encuestas, mediciones físicas, cálculos matemáticos y análisis de laboratorio. El análisis de estos datos podría ayudarnos a comprender mejor la relación entre estas variables y la salud de los individuos estudiados.”
En este estudio, se analizan las variables: edad, sexo, índice de masa corporal (IMC), presión arterial promedio y seis sueros sanguíneos.
| AGE | SEX | BMI | BP | S1 | S2 | S3 | S4 | S5 | S6 | Y | |
|---|---|---|---|---|---|---|---|---|---|---|---|
| AGE | 1.0000000 | 0.1737371 | 0.1850847 | 0.3354276 | 0.2600608 | 0.2192431 | -0.0751810 | 0.2038409 | 0.2707742 | 0.3017310 | 0.1878888 |
| SEX | 0.1737371 | 1.0000000 | 0.0881614 | 0.2410105 | 0.0352768 | 0.1426373 | -0.3790896 | 0.3321151 | 0.1499161 | 0.2081332 | 0.0430620 |
| BMI | 0.1850847 | 0.0881614 | 1.0000000 | 0.3954109 | 0.2497774 | 0.2611699 | -0.3668110 | 0.4138066 | 0.4461565 | 0.3886800 | 0.5864501 |
| BP | 0.3354276 | 0.2410105 | 0.3954109 | 1.0000000 | 0.2424640 | 0.1855485 | -0.1787616 | 0.2576501 | 0.3934801 | 0.3904300 | 0.4414818 |
| S1 | 0.2600608 | 0.0352768 | 0.2497774 | 0.2424640 | 1.0000000 | 0.8966630 | 0.0515194 | 0.5422073 | 0.5155029 | 0.3257168 | 0.2120225 |
| S2 | 0.2192431 | 0.1426373 | 0.2611699 | 0.1855485 | 0.8966630 | 1.0000000 | -0.1964551 | 0.6598169 | 0.3183567 | 0.2906004 | 0.1740536 |
| S3 | -0.0751810 | -0.3790896 | -0.3668110 | -0.1787616 | 0.0515194 | -0.1964551 | 1.0000000 | -0.7384927 | -0.3985773 | -0.2736973 | -0.3947893 |
| S4 | 0.2038409 | 0.3321151 | 0.4138066 | 0.2576501 | 0.5422073 | 0.6598169 | -0.7384927 | 1.0000000 | 0.6178590 | 0.4172121 | 0.4304529 |
| S5 | 0.2707742 | 0.1499161 | 0.4461565 | 0.3934801 | 0.5155029 | 0.3183567 | -0.3985773 | 0.6178590 | 1.0000000 | 0.4646688 | 0.5658826 |
| S6 | 0.3017310 | 0.2081332 | 0.3886800 | 0.3904300 | 0.3257168 | 0.2906004 | -0.2736973 | 0.4172121 | 0.4646688 | 1.0000000 | 0.3824835 |
| Y | 0.1878888 | 0.0430620 | 0.5864501 | 0.4414818 | 0.2120225 | 0.1740536 | -0.3947893 | 0.4304529 | 0.5658826 | 0.3824835 | 1.0000000 |
El análisis de la matriz de correlación revela lo siguiente:
Relación entre “BMI” (Índice de masa corporal) y “Y”: Existe una correlación positiva significativa de 0.586 entre el índice de masa corporal y la progresión de la enfermedad. Esto sugiere que un mayor índice de masa corporal puede estar asociado con una mayor progresión de la enfermedad después de un año.
Relación entre “BP” (Presión arterial promedio) y “Y”: Hay una correlación positiva moderada de 0.441 entre la presión arterial promedio y la progresión de la enfermedad. Esto indica que niveles más altos de presión arterial pueden estar relacionados con una mayor progresión de la enfermedad.
Relación entre “S5” (Lipoproteína de triglicéridos) y “Y”: Se observa una correlación positiva de 0.565 entre el nivel de lipoproteínas de alta densidad en la sangre y la progresión de la enfermedad. Esto sugiere que niveles más altos de lipoproteínas pueden estar asociados con una mayor progresión de la enfermedad.
Relación entre “S4” (TCH (Colesterol total / HDL)) y “Y”: Existe una correlación positiva moderada de 0.430 entre TCH y la progresión de la enfermedad. Esto implica que niveles más altos de TCH densidad pueden estar relacionados con una mayor progresión de la enfermedad.
Relación entre “AGE” (Edad) y “Y”: Hay una correlación positiva de 0.301 entre la edad y la progresión de la enfermedad. Esto sugiere que a medida que aumenta la edad de los pacientes, es más probable que experimenten una mayor progresión de la enfermedad después de un año.
Estas relaciones pueden ser útiles para comprender y explorar las interacciones entre las variables y la progresión de la enfermedad en el estudio. Sin embargo, es importante tener en cuenta que la correlación no implica causalidad y que otros factores y variables pueden estar involucrados en la progresión de la enfermedad.