El conjunto de datos a analizar se lo extrajo del portal UC Irvine Machine Learning Repository en donde se seleccionaron los datos de Heart Failure Clinical Records, el cual representa datos de resultados de ciertos parametros relacionados con la salud cardiaca observados en un período de tiempo en un grupo representativo de personas, separados por su sexo. Entre las variables a analizar se encuentran trece, de las cuales siete son cuantitativas y seis cualitativas. Variables cuantitativas: Edad, Concentración de CPK, Fracción de eyección, Concentración de plaquetas, Concentración de creatinina, Concentración de sodio y Tiempo de seguimiento. Variables cualitativas: Anemia, Diabetes, Presión Alta, Sexo, Fumador y Evento de muerte.
Parte I: Estadística Descriptiva Univariante
Medidas Estadísticas
A continuación se presentan las tablas de algunas medidas estadísticas, tales como la media, mediana, desviación estándar, sesgo y curtosis, de todas las variables cuantitativas y su respectivo análisis.
Tabla de Medidas Estadísticas
TablaEstadística1
Medidas Estadísticas
|
Edad |
Concentración_de_CPK |
|
Media |
Mediana |
Máximo |
Mínimo |
Desv.Estándar |
Sesgo |
Curtosis |
Media |
Mediana |
Máximo |
Mínimo |
Desv.Estándar |
Sesgo |
Curtosis |
|
60.83 |
60 |
95 |
40 |
11.89 |
0.4209 |
2.798 |
581.8 |
250 |
7861 |
23 |
970.3 |
4.441 |
27.71 |
TablaEstadística2
Medidas Estadísticas
|
Concentración_de_creatinina |
Concentración_de_sodio |
|
Media |
Mediana |
Máximo |
Mínimo |
Desv.Estándar |
Sesgo |
Curtosis |
Media |
Mediana |
Máximo |
Mínimo |
Desv.Estándar |
Sesgo |
Curtosis |
|
1.394 |
1.1 |
9.4 |
0.5 |
1.035 |
4.434 |
28.38 |
136.6 |
137 |
148 |
113 |
4.412 |
-1.043 |
7.031 |
TablaEstadística3
Medidas Estadísticas
|
Porcentaje_de_eyección |
Tiempo_de_seguimiento |
|
Media |
Mediana |
Máximo |
Mínimo |
Desv.Estándar |
Sesgo |
Curtosis |
Media |
Mediana |
Máximo |
Mínimo |
Desv.Estándar |
Sesgo |
Curtosis |
|
38.08 |
38 |
80 |
14 |
11.83 |
0.5526 |
3.021 |
130.3 |
115 |
285 |
4 |
77.61 |
0.1272 |
1.788 |
TablaEstadística4
Medidas Estadísticas
|
Plaquetas |
|
Media |
Mediana |
Máximo |
Mínimo |
Desv.Estándar |
Sesgo |
Curtosis |
|
263358 |
262000 |
850000 |
25100 |
97804 |
1.455 |
9.086 |
Cuartiles de variables cuantitativas
Se denominan cuartiles a aquellos datos estadísticos que dividen una muestra de datos en cuatro partes iguales. Utilizando esto, se puede evaluar de una manera rápida la dispersión y la tendencia central de un conjunto de datos.
Cuartiles de la variable Edad
CuartilesEdad
Cuartiles variable:Edad
0% |
40 |
25% |
51 |
50% |
60 |
75% |
70 |
100% |
95 |
Cuartiles de la variable Concentración de CPK
CuartilesCPK
Cuartiles variable: Concentración de CPK
0% |
23.0 |
25% |
116.5 |
50% |
250.0 |
75% |
582.0 |
100% |
7861.0 |
Cuartiles de la variable fracción de eyección
CuartilesCPK
Cuartiles variable: Concentración de CPK
0% |
23.0 |
25% |
116.5 |
50% |
250.0 |
75% |
582.0 |
100% |
7861.0 |
Cuartiles de la variable Plaquetas
CuartilePlaquetas
Cuartiles variable: Concentración de plaquetas
0% |
25100 |
25% |
212500 |
50% |
262000 |
75% |
303500 |
100% |
850000 |
Cuartiles de la variable Concentración de creatinina
CuartilesCreatinina
Cuartiles variable: Concentración de creatinina
0% |
0.5 |
25% |
0.9 |
50% |
1.1 |
75% |
1.4 |
100% |
9.4 |
Cuartiles de la variable Contentración de sodio
CuartilesSodio
Cuartiles variable: Concentración de Sodio
0% |
113 |
25% |
134 |
50% |
137 |
75% |
140 |
100% |
148 |
Cuartiles de la variable Tiempo de seguimiento
CuartilesTiempo
Cuartiles variable:Tiempo de seguimiento
0% |
4 |
25% |
73 |
50% |
115 |
75% |
203 |
100% |
285 |
Histogramas
Por definición, un histograma es una representación gráfica de una variable en forma de barras, donde la superficie de cada barra es proporcional a la frecuencia de los valores representados. A continuación se presentan histogramas de dos variables cuantitativas
Variable: Fracción de Eyección
La fracción de eyección del corazón es la medida más importante del funcionamiento cardíaco. Este valor, expresado en porcentaje, mide la disminución del volumen del ventrículo izquierdo del corazón en sístole, con respecto a la diástole.
hist(Porcentaje_de_Eyección, main = "Histograma de la Fracción de eyección", col = c("green3"))

Variable: Concentración de Sodio en la sangre
La concentración de sodio mide la cantidad de sodio en la sangre. El sodio es un tipo de electrolito. Los electrolitos son minerales con carga eléctrica que ayudan a mantener los niveles de líquido, y el equilibrio de sustancias químicas del cuerpo llamadas ácidos y bases. El sodio también contribuye a que los nervios y músculos funcionen correctamente.
hist(Concentración_de_sodio_en_la_sangre, main= "Histograma de la Concentración de sodio en la sangre", col=c("coral"))

Diagrama de cajas
Un diagrama de cajas es una forma de representar gráficamente un conjunto de datos y los relaciona con sus respectivos cuartiles. A continuación se presentan diagramas de cajas de dos variable cuantitativas
Variable: Concentración de plaquetas en la sangre
Las plaquetas son células que forman parte de la sangre y que ayudan a la coagulación. Son más pequeñas que los glóbulos rojos y los blancos. Para medir la concentración de plaquetas en la sangre se necesita realizar una prueba de exámen en un laboratorio.
boxplot(Plaquetas, main="Concentración de plaquetas en la sangre", col = c("coral"), horizontal=TRUE)

Variable: Edad
La edad juega un papel importante en cuanto a las enfermedades del corazon, a medida que se envejece, el corazón tiende a agrandarse ligeramente, desarrollando unas paredes más gruesas y cavidades que se vuelven un poco más grandes.
boxplot(Edad, main="Edad", col=c("green3"), horizontal =TRUE )

Tabla de frecuencias de variables cualitativas
A continuación se presentan las tablas de frecuencia que relacionan a las variables cualitativas
Tabla de frecuencia: Sexo-Fumador
TabladeFrecuencia1
Tabla de Frecuencia: Sexo-Fumador
Hombre |
0.307692 |
0.341137 |
Mujer |
0.013378 |
0.337793 |
Tabla de frecuencia: Diabetes-Evento de muerte
TabladeFrecuencia2
Tabla de Frecuencia: Diabetes-Muerte
Diabético |
0.133779 |
0.284281 |
No diabético |
0.187291 |
0.394649 |
Diagramas circulares: Variables cualitativas
Esta es una mejor forma de visualizar los aspectos de cada variable cualitativa, a continuación se presentará en porcentajes la cantidad de personas que presentaron características únicas en cada variable analizada
Variable: Fumadores
pie(porcentajes, etiquetas, main = "Gráfico de Fumadores", sub = "Porcentaje de Fumadores",col=colors)

Variable: Presión Alta
pie(porcentajes, etiquetas2,main = "Gráfico de Pesión Alta", sub = "Porcentaje de Presión Alta", col=colors2)

Variable: Diabetes
pie(porcentajes3, etiquetas3, main = "Gráfico de Diabéticos", sub = "Porcentaje de diabéticos", col=colors3)

Variable: Evento de muerte
pie(porcentajes4, etiquetas4, main = "Gráfico de Muertes", sub = "Porcentajes de fallecidos", col=colors4)

Parte II: Estadística descriptiva bivariante y multivariante
Matriz de correlacion
La matriz de correlación muestra los valores de correlación de Pearson, que miden el grado de relación lineal entre cada par de elementos o variables. Los valores de correlación se pueden ubicar entre -1 y +1.
Gráfica general de la matriz de correlación de las variables cuantitativas
corrplot(cor(corazon[,c(1,3,5,7,8,9,12)]))

Matriz de correlación de las variables cuantitativas
Matriz
Matriz de correlación
Edad |
1.000 |
-0.082 |
0.060 |
-0.052 |
0.159 |
-0.046 |
-0.224 |
CPK |
-0.082 |
1.000 |
-0.044 |
0.024 |
-0.016 |
0.060 |
-0.009 |
Eyección |
0.060 |
-0.044 |
1.000 |
0.072 |
-0.011 |
0.176 |
0.042 |
Plaquetas |
-0.052 |
0.024 |
0.072 |
1.000 |
-0.041 |
0.062 |
0.011 |
Creatinina |
0.159 |
-0.016 |
-0.011 |
-0.041 |
1.000 |
-0.189 |
-0.149 |
Sodio |
-0.046 |
0.060 |
0.176 |
0.062 |
-0.189 |
1.000 |
0.088 |
Tiempo |
-0.224 |
-0.009 |
0.042 |
0.011 |
-0.149 |
0.088 |
1.000 |
Matriz de correlacion bivariante
Concentración de sodio Vs. Concentración de creatinina
MatrizCorrelacion_Sodio_Creat
Matriz de correlación Concentración: Sodio Vs. Creatinina
Concentración_de_sodio |
1.000 |
-0.189 |
Concentración_de_creatinina |
-0.189 |
1.000 |
Porcentaje de eyección Vs. Concentración de sodio
MatrizCorrelacion_Eyeccion_Sodio
Matriz de correlación Porcentaje de Eyección Vs Concentración de sodio
Porcentaje_de_Eyección |
1.000 |
0.176 |
Concentración_de_sodio |
0.176 |
1.000 |
Matriz de Varianzas y Covarianzas
MatrizCovarianza
Matriz de covarianzas
Edad |
141.49 |
-941.59 |
8.46 |
-60907.12 |
1.96 |
-2.41 |
-206.86 |
CPK |
-941.59 |
941458.57 |
-506.17 |
2321533.14 |
-16.47 |
254.96 |
-703.80 |
Eyección |
8.46 |
-506.17 |
140.06 |
83545.24 |
-0.14 |
9.19 |
38.33 |
Plaquetas |
-60907.12 |
2321533.14 |
83545.24 |
9565668749.45 |
-4168.40 |
26810.44 |
79811.07 |
Creatinina |
1.96 |
-16.47 |
-0.14 |
-4168.40 |
1.07 |
-0.86 |
-11.99 |
Sodio |
-2.41 |
254.96 |
9.19 |
26810.44 |
-0.86 |
19.47 |
30.01 |
Tiempo |
-206.86 |
-703.80 |
38.33 |
79811.07 |
-11.99 |
30.01 |
6023.97 |
Matriz de diagramas de dispersión
El Diagrama de dispersión es una herramienta utilizada cuando se desea realizar un análisis gráfico de datos bivariados, es decir, los que se refieren a dos conjuntos de datos. El resultado del análisis puede mostrar que existe una relación entre una variable y la otra.
Matriz de diagramas de dispersión del conjunto de datos
plot(corazon[,c(1,3,5,7,8,9,12)], main= "Matriz de diagramas de dispersión")

Matriz de diagrama de dispersión: Concentración de Sodio Vs. Concentración de creatinina
plot(x = Concentración_Creatinina, y = Concentración_Sodio, main="Concentración de sodio Vs. Concentración de creatinina")

Matriz de diagrama de dispersión: Tiempo de seguimiento Vs. Concentración de CPK
plot(x = Tiempo_de_seguimiento, y = Concentración_CPK, main="Concentración de creatinina Vs. Tiempo de seguimiento" )

Variables cualitativas: Gráficos segmentados
Gráfico segmentado: Edad Vs. Diabetes
boxplot(Edad~Diabetes, horizontal=TRUE, main="Edad y diabetes", col = c("green4", "green3"))

Gráfico segmentado: CPK Vs. Anemia
boxplot(CPK~Anemia, horizontal=TRUE, main="Concentración de CPK y anemia", col = c("green4", "green3"))

Gráfico segmentado: Plaquetas y Evento de muerte
boxplot(ConcentracionPlaquetas~EventoMuerte, horizontal=TRUE, main="Concentración de plaquetas y muerte", col = c("green4", "green3"))

Gráfico segmentado: Porcentaje de eyección Vs. Presión Alta
boxplot(PorcentajeEyeccion~DatosPresion, horizontal=TRUE, main="Porcentaje de eyección y presión", col = c("coral3", "coral"))

Gráfico segmentado: Creatinina Vs. Diabetes
boxplot(ConcentracionCreatinina~DatosDiabetes2, horizontal=TRUE, main="Concentración de creatinina y diabetes", col = c("coral3", "coral"))

Gráfico segmentado: Sodio Vs. Presión Alta
boxplot(ConcentracionSodio~DatosPresion2, horizontal=TRUE, main="Concentraciónd de sodio y presión", col = c("coral3", "coral"))

Gráfico segmentado: Tiempo Vs. Evento de muerte
boxplot(TiempoSeguimiento~DatosMuerte, horizontal=TRUE, main="Tiempo de seguimiento y muerte", col = c("coral3", "coral"))

Creador por: Cox Carlos & Salazar Jhon