El conjunto de datos a analizar se lo extrajo del portal UC Irvine Machine Learning Repository en donde se seleccionaron los datos de Heart Failure Clinical Records, el cual representa datos de resultados de ciertos parametros relacionados con la salud cardiaca observados en un período de tiempo en un grupo representativo de personas, separados por su sexo. Entre las variables a analizar se encuentran trece, de las cuales siete son cuantitativas y seis cualitativas. Variables cuantitativas: Edad, Concentración de CPK, Fracción de eyección, Concentración de plaquetas, Concentración de creatinina, Concentración de sodio y Tiempo de seguimiento. Variables cualitativas: Anemia, Diabetes, Presión Alta, Sexo, Fumador y Evento de muerte.

Parte I: Estadística Descriptiva Univariante

Medidas Estadísticas

A continuación se presentan las tablas de algunas medidas estadísticas, tales como la media, mediana, desviación estándar, sesgo y curtosis, de todas las variables cuantitativas y su respectivo análisis.

Tabla de Medidas Estadísticas

TablaEstadística1
Medidas Estadísticas
  Edad Concentración_de_CPK
Media Mediana Máximo Mínimo Desv.Estándar Sesgo Curtosis Media Mediana Máximo Mínimo Desv.Estándar Sesgo Curtosis
60.83 60 95 40 11.89 0.4209 2.798 581.8 250 7861 23 970.3 4.441 27.71
TablaEstadística2
Medidas Estadísticas
  Concentración_de_creatinina Concentración_de_sodio
Media Mediana Máximo Mínimo Desv.Estándar Sesgo Curtosis Media Mediana Máximo Mínimo Desv.Estándar Sesgo Curtosis
1.394 1.1 9.4 0.5 1.035 4.434 28.38 136.6 137 148 113 4.412 -1.043 7.031
TablaEstadística3
Medidas Estadísticas
  Porcentaje_de_eyección Tiempo_de_seguimiento
Media Mediana Máximo Mínimo Desv.Estándar Sesgo Curtosis Media Mediana Máximo Mínimo Desv.Estándar Sesgo Curtosis
38.08 38 80 14 11.83 0.5526 3.021 130.3 115 285 4 77.61 0.1272 1.788
TablaEstadística4
Medidas Estadísticas
  Plaquetas
Media Mediana Máximo Mínimo Desv.Estándar Sesgo Curtosis
263358 262000 850000 25100 97804 1.455 9.086

Cuartiles de variables cuantitativas

Se denominan cuartiles a aquellos datos estadísticos que dividen una muestra de datos en cuatro partes iguales. Utilizando esto, se puede evaluar de una manera rápida la dispersión y la tendencia central de un conjunto de datos.

Cuartiles de la variable Edad

CuartilesEdad
Cuartiles variable:Edad
x
0% 40
25% 51
50% 60
75% 70
100% 95

Cuartiles de la variable Concentración de CPK

CuartilesCPK
Cuartiles variable: Concentración de CPK
x
0% 23.0
25% 116.5
50% 250.0
75% 582.0
100% 7861.0

Cuartiles de la variable fracción de eyección

CuartilesCPK
Cuartiles variable: Concentración de CPK
x
0% 23.0
25% 116.5
50% 250.0
75% 582.0
100% 7861.0

Cuartiles de la variable Plaquetas

CuartilePlaquetas
Cuartiles variable: Concentración de plaquetas
x
0% 25100
25% 212500
50% 262000
75% 303500
100% 850000

Cuartiles de la variable Concentración de creatinina

CuartilesCreatinina
Cuartiles variable: Concentración de creatinina
x
0% 0.5
25% 0.9
50% 1.1
75% 1.4
100% 9.4

Cuartiles de la variable Contentración de sodio

CuartilesSodio
Cuartiles variable: Concentración de Sodio
x
0% 113
25% 134
50% 137
75% 140
100% 148

Cuartiles de la variable Tiempo de seguimiento

CuartilesTiempo
Cuartiles variable:Tiempo de seguimiento
x
0% 4
25% 73
50% 115
75% 203
100% 285

Histogramas

Por definición, un histograma es una representación gráfica de una variable en forma de barras, donde la superficie de cada barra es proporcional a la frecuencia de los valores representados. A continuación se presentan histogramas de dos variables cuantitativas

Variable: Fracción de Eyección

La fracción de eyección del corazón es la medida más importante del funcionamiento cardíaco. Este valor, expresado en porcentaje, mide la disminución del volumen del ventrículo izquierdo del corazón en sístole, con respecto a la diástole.

hist(Porcentaje_de_Eyección, main = "Histograma de la Fracción de eyección", col = c("green3"))

Variable: Concentración de Sodio en la sangre

La concentración de sodio mide la cantidad de sodio en la sangre. El sodio es un tipo de electrolito. Los electrolitos son minerales con carga eléctrica que ayudan a mantener los niveles de líquido, y el equilibrio de sustancias químicas del cuerpo llamadas ácidos y bases. El sodio también contribuye a que los nervios y músculos funcionen correctamente.

hist(Concentración_de_sodio_en_la_sangre, main= "Histograma de la Concentración de sodio en la sangre", col=c("coral"))

Diagrama de cajas

Un diagrama de cajas es una forma de representar gráficamente un conjunto de datos y los relaciona con sus respectivos cuartiles. A continuación se presentan diagramas de cajas de dos variable cuantitativas

Variable: Concentración de plaquetas en la sangre

Las plaquetas son células que forman parte de la sangre y que ayudan a la coagulación. Son más pequeñas que los glóbulos rojos y los blancos. Para medir la concentración de plaquetas en la sangre se necesita realizar una prueba de exámen en un laboratorio.

boxplot(Plaquetas, main="Concentración de plaquetas en la sangre", col = c("coral"), horizontal=TRUE)

Variable: Edad

La edad juega un papel importante en cuanto a las enfermedades del corazon, a medida que se envejece, el corazón tiende a agrandarse ligeramente, desarrollando unas paredes más gruesas y cavidades que se vuelven un poco más grandes.

boxplot(Edad, main="Edad", col=c("green3"), horizontal =TRUE )

Tabla de frecuencias de variables cualitativas

A continuación se presentan las tablas de frecuencia que relacionan a las variables cualitativas

Tabla de frecuencia: Sexo-Fumador

TabladeFrecuencia1
Tabla de Frecuencia: Sexo-Fumador
Fuma No Fuma
Hombre 0.307692 0.341137
Mujer 0.013378 0.337793

Tabla de frecuencia: Diabetes-Evento de muerte

TabladeFrecuencia2
Tabla de Frecuencia: Diabetes-Muerte
Falleció No Falleció
Diabético 0.133779 0.284281
No diabético 0.187291 0.394649

Diagramas circulares: Variables cualitativas

Esta es una mejor forma de visualizar los aspectos de cada variable cualitativa, a continuación se presentará en porcentajes la cantidad de personas que presentaron características únicas en cada variable analizada

Variable: Fumadores

pie(porcentajes, etiquetas, main = "Gráfico de Fumadores", sub = "Porcentaje de Fumadores",col=colors)

Variable: Presión Alta

pie(porcentajes, etiquetas2,main = "Gráfico de Pesión Alta", sub = "Porcentaje de Presión Alta", col=colors2)

Variable: Diabetes

pie(porcentajes3, etiquetas3, main = "Gráfico de Diabéticos", sub = "Porcentaje de diabéticos", col=colors3)

Variable: Evento de muerte

pie(porcentajes4, etiquetas4, main = "Gráfico de Muertes", sub = "Porcentajes de fallecidos", col=colors4)

Parte II: Estadística descriptiva bivariante y multivariante

Matriz de correlacion

La matriz de correlación muestra los valores de correlación de Pearson, que miden el grado de relación lineal entre cada par de elementos o variables. Los valores de correlación se pueden ubicar entre -1 y +1.

Gráfica general de la matriz de correlación de las variables cuantitativas

corrplot(cor(corazon[,c(1,3,5,7,8,9,12)]))

Matriz de correlación de las variables cuantitativas

Matriz
Matriz de correlación
Edad CPK Eyección Plaquetas Creatinina Sodio Tiempo
Edad 1.000 -0.082 0.060 -0.052 0.159 -0.046 -0.224
CPK -0.082 1.000 -0.044 0.024 -0.016 0.060 -0.009
Eyección 0.060 -0.044 1.000 0.072 -0.011 0.176 0.042
Plaquetas -0.052 0.024 0.072 1.000 -0.041 0.062 0.011
Creatinina 0.159 -0.016 -0.011 -0.041 1.000 -0.189 -0.149
Sodio -0.046 0.060 0.176 0.062 -0.189 1.000 0.088
Tiempo -0.224 -0.009 0.042 0.011 -0.149 0.088 1.000

Matriz de correlacion bivariante

Concentración de sodio Vs. Concentración de creatinina

MatrizCorrelacion_Sodio_Creat
Matriz de correlación Concentración: Sodio Vs. Creatinina
Concentración_de_sodio Concentración_de_creatinina
Concentración_de_sodio 1.000 -0.189
Concentración_de_creatinina -0.189 1.000

Porcentaje de eyección Vs. Concentración de sodio

MatrizCorrelacion_Eyeccion_Sodio
Matriz de correlación Porcentaje de Eyección Vs Concentración de sodio
Porcentaje_de_Eyección Concentración_de_sodio
Porcentaje_de_Eyección 1.000 0.176
Concentración_de_sodio 0.176 1.000

Matriz de Varianzas y Covarianzas

MatrizCovarianza
Matriz de covarianzas
Edad CPK Eyección Plaquetas Creatinina Sodio Tiempo
Edad 141.49 -941.59 8.46 -60907.12 1.96 -2.41 -206.86
CPK -941.59 941458.57 -506.17 2321533.14 -16.47 254.96 -703.80
Eyección 8.46 -506.17 140.06 83545.24 -0.14 9.19 38.33
Plaquetas -60907.12 2321533.14 83545.24 9565668749.45 -4168.40 26810.44 79811.07
Creatinina 1.96 -16.47 -0.14 -4168.40 1.07 -0.86 -11.99
Sodio -2.41 254.96 9.19 26810.44 -0.86 19.47 30.01
Tiempo -206.86 -703.80 38.33 79811.07 -11.99 30.01 6023.97

Matriz de diagramas de dispersión

El Diagrama de dispersión es una herramienta utilizada cuando se desea realizar un análisis gráfico de datos bivariados, es decir, los que se refieren a dos conjuntos de datos. El resultado del análisis puede mostrar que existe una relación entre una variable y la otra.

Matriz de diagramas de dispersión del conjunto de datos

plot(corazon[,c(1,3,5,7,8,9,12)], main= "Matriz de diagramas de dispersión") 

Matriz de diagrama de dispersión: Concentración de Sodio Vs. Concentración de creatinina

plot(x = Concentración_Creatinina, y = Concentración_Sodio, main="Concentración de sodio Vs. Concentración de creatinina")

Matriz de diagrama de dispersión: Tiempo de seguimiento Vs. Concentración de CPK

plot(x = Tiempo_de_seguimiento, y = Concentración_CPK, main="Concentración de creatinina Vs. Tiempo de seguimiento" )

Variables cualitativas: Gráficos segmentados

Gráfico segmentado: Edad Vs. Diabetes

boxplot(Edad~Diabetes, horizontal=TRUE, main="Edad y diabetes", col = c("green4", "green3"))

Gráfico segmentado: CPK Vs. Anemia

boxplot(CPK~Anemia, horizontal=TRUE, main="Concentración de CPK y anemia", col = c("green4", "green3"))

Gráfico segmentado: Plaquetas y Evento de muerte

boxplot(ConcentracionPlaquetas~EventoMuerte, horizontal=TRUE, main="Concentración de plaquetas y muerte", col = c("green4", "green3"))

Gráfico segmentado: Porcentaje de eyección Vs. Presión Alta

boxplot(PorcentajeEyeccion~DatosPresion, horizontal=TRUE, main="Porcentaje de eyección y presión", col = c("coral3", "coral"))

Gráfico segmentado: Creatinina Vs. Diabetes

boxplot(ConcentracionCreatinina~DatosDiabetes2, horizontal=TRUE, main="Concentración de creatinina y diabetes", col = c("coral3", "coral"))

Gráfico segmentado: Sodio Vs. Presión Alta

boxplot(ConcentracionSodio~DatosPresion2, horizontal=TRUE, main="Concentraciónd de sodio y presión", col = c("coral3", "coral"))

Gráfico segmentado: Tiempo Vs. Evento de muerte

boxplot(TiempoSeguimiento~DatosMuerte, horizontal=TRUE, main="Tiempo de seguimiento y muerte", col = c("coral3", "coral"))

Creador por: Cox Carlos & Salazar Jhon