#Proyecto de Estadística: Análisis de datos Virus de la hepatitis C
library(readr)
## Warning: package 'readr' was built under R version 4.0.3
library(fdth)
##
## Attaching package: 'fdth'
## The following objects are masked from 'package:stats':
##
## sd, var
library(gapminder)
## Warning: package 'gapminder' was built under R version 4.0.3
library(moments)
## Warning: package 'moments' was built under R version 4.0.3
library(psych)
## Warning: package 'psych' was built under R version 4.0.3
library(ggplot2)
## Warning: package 'ggplot2' was built under R version 4.0.3
##
## Attaching package: 'ggplot2'
## The following objects are masked from 'package:psych':
##
## %+%, alpha
library(corrplot)
## Warning: package 'corrplot' was built under R version 4.0.3
## corrplot 0.84 loaded
data = read.csv(url("https://archive.ics.uci.edu/ml/machine-learning-databases/00571/hcvdat0.csv"), header = TRUE)
###Variables Cuantitativas
edad = data$Age #Age
ALB0 = data$ALB # cantidad de albúmina en la sangre
ALP0 = data$ALP # prueba de fosfatasa alcalina
ALT0 = data$ALT # alanina aminotransferasa
View(data)
Para las variables ALB,ALP y ALT, para ciertos pacientes no tienen una respuesta prueba sobre estos examenes. Lo cual va afectar a la desviacion estandar, la kurtosis y la covarianza POr lo cual se toman denuevo las variables pero recortando los valores no optenidos
ALB = data$ALB[-c(604)] # cantidad de albúmina en la sangre
ALP = data$ALP[-c(542,546,547,569,570,571,572,577,582,583,584,585,586,591,593,604,614,615)] # prueba de fosfatasa alcalina
ALT = data$ALT[-c(541)] # alanina aminotransferasa
###Variables Categoricas
sexo = data$Sex
cate= data$Category # Categorizar si puede donar
###Histograma de Edad
hist(edad,col="deepskyblue3", main = "Histograma de Edades")
#Histograma de cantidad de albúmina en la sangre
hist(ALB,col="deepskyblue3", main = "Histograma de cantidad de albúmina en la sangre")
#Histograma de prueba de fosfatasa alcalina
hist(ALP,col="deepskyblue3", main = "Histograma de prueba de fosfatasa alcalina")
#Histograma de alanina aminotransferasa
hist(ALT,col="deepskyblue3", main = "Histograma de alanina aminotransferasa")
###Diagrama de caja de Edad
boxplot(edad,col="green3" ,horizontal = TRUE, main = "Diagrama de caja de Edades")
###Diagrama de caja de cantidad de albúmina en la sangre
boxplot(ALB,col="green3",horizontal = TRUE, main = "Diagrama de caja de cantidad de albúmina en la sangre")
###Diagrama de caja de prueba de fosfatasa alcalina
boxplot(ALP,col="green3",horizontal = TRUE, main = "Diagrama de caja de prueba de fosfatasa alcalina")
###Diagrama de caja de alanina aminotransferasa
boxplot(ALT,col="green3",horizontal = TRUE, main = "Diagrama de caja de alanina aminotransferasa")
summary(edad)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 19.00 39.00 47.00 47.41 54.00 77.00
sd(edad)
## [1] 10.05511
kurtosis(edad)
## [1] 2.606921
skew(edad)
## [1] 0.2658328
summary(ALB)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 14.90 38.80 41.95 41.62 45.20 82.20
sd(ALB)
## [1] 5.780629
kurtosis(ALB)
## [1] 8.924931
skew(ALB)
## [1] -0.1759048
summary(ALP)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 11.30 52.50 66.20 68.28 80.10 416.60
sd(ALP)
## [1] 26.02832
kurtosis(ALP)
## [1] 57.50354
skew(ALP)
## [1] 4.631555
summary(ALT)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.90 16.40 23.00 28.45 33.08 325.30
sd(ALT)
## [1] 25.46969
kurtosis(ALT)
## [1] 49.73659
skew(ALT)
## [1] 5.47924
tda.edad=fdt(edad,breaks="Sturges")
tda.edad
## Class limits f rf rf(%) cf cf(%)
## [18.81,24.17) 2 0.00 0.33 2 0.33
## [24.17,29.53) 4 0.01 0.65 6 0.98
## [29.53,34.89) 62 0.10 10.08 68 11.06
## [34.89,40.25) 106 0.17 17.24 174 28.29
## [40.25,45.61) 88 0.14 14.31 262 42.60
## [45.61,50.97) 122 0.20 19.84 384 62.44
## [50.97,56.33) 112 0.18 18.21 496 80.65
## [56.33,61.69) 65 0.11 10.57 561 91.22
## [61.69,67.05) 38 0.06 6.18 599 97.40
## [67.05,72.41) 10 0.02 1.63 609 99.02
## [72.41,77.77) 6 0.01 0.98 615 100.00
tda.ALB=fdt(edad,breaks="Sturges")
tda.ALB
## Class limits f rf rf(%) cf cf(%)
## [18.81,24.17) 2 0.00 0.33 2 0.33
## [24.17,29.53) 4 0.01 0.65 6 0.98
## [29.53,34.89) 62 0.10 10.08 68 11.06
## [34.89,40.25) 106 0.17 17.24 174 28.29
## [40.25,45.61) 88 0.14 14.31 262 42.60
## [45.61,50.97) 122 0.20 19.84 384 62.44
## [50.97,56.33) 112 0.18 18.21 496 80.65
## [56.33,61.69) 65 0.11 10.57 561 91.22
## [61.69,67.05) 38 0.06 6.18 599 97.40
## [67.05,72.41) 10 0.02 1.63 609 99.02
## [72.41,77.77) 6 0.01 0.98 615 100.00
tda.ALP=fdt(edad,breaks="Sturges")
tda.ALP
## Class limits f rf rf(%) cf cf(%)
## [18.81,24.17) 2 0.00 0.33 2 0.33
## [24.17,29.53) 4 0.01 0.65 6 0.98
## [29.53,34.89) 62 0.10 10.08 68 11.06
## [34.89,40.25) 106 0.17 17.24 174 28.29
## [40.25,45.61) 88 0.14 14.31 262 42.60
## [45.61,50.97) 122 0.20 19.84 384 62.44
## [50.97,56.33) 112 0.18 18.21 496 80.65
## [56.33,61.69) 65 0.11 10.57 561 91.22
## [61.69,67.05) 38 0.06 6.18 599 97.40
## [67.05,72.41) 10 0.02 1.63 609 99.02
## [72.41,77.77) 6 0.01 0.98 615 100.00
tda.ALT=fdt(edad,breaks="Sturges")
tda.ALT
## Class limits f rf rf(%) cf cf(%)
## [18.81,24.17) 2 0.00 0.33 2 0.33
## [24.17,29.53) 4 0.01 0.65 6 0.98
## [29.53,34.89) 62 0.10 10.08 68 11.06
## [34.89,40.25) 106 0.17 17.24 174 28.29
## [40.25,45.61) 88 0.14 14.31 262 42.60
## [45.61,50.97) 122 0.20 19.84 384 62.44
## [50.97,56.33) 112 0.18 18.21 496 80.65
## [56.33,61.69) 65 0.11 10.57 561 91.22
## [61.69,67.05) 38 0.06 6.18 599 97.40
## [67.05,72.41) 10 0.02 1.63 609 99.02
## [72.41,77.77) 6 0.01 0.98 615 100.00
#Para las variables cualitativas:
sx=factor(sexo)
levels(sx)=c("Masculino","Femenino")
datos.sexo=table(sx)
##Variable categorias para diagramas
ct=factor(cate)
levels(ct)=c("0=Blood Donor","0s=suspect ","1=Hepatitis"," 2=Fibrosis","3=Cirrhosis")
datos.cate=table(ct)
##Diagrama de barras
barplot(datos.sexo,col=c("lightblue","lightpink"), main= " Diagrama de barras de género")
###Diagrama de barras de categorias
barplot(datos.cate,col=c("green","lightgreen","lightblue","lightyellow","pink"),main= " Diagrama de barras de Categoria de donador")
## Diagramas circulares
pie(datos.sexo,col=c("lightblue","lightpink"), main= " Diagrama circular de género")
pie(datos.cate,col=c("green","green3","lightblue","lightyellow","pink"),main= " Diagrama circular de Categoria de donador")
# Estadística descriptiva bivariante o multivariante:
##Para las variables cualitativas Para cada variable cuantitativa presente un diagrama de cajas segmentado por al menos una variable cualitativa
box_factores_c=boxplot(edad~sexo,col=c("lightpink","lightblue"),main = "Diagrama de caja de Edad segmentado por Sexo")
box_factores_c=boxplot(ALB0~sexo,col=c("lightpink","lightblue"),main = "Diagrama de caja de cantidad de albúmina en la sangre segmentado por Sexo")
box_factores_c=boxplot(ALP0~sexo,col=c("lightpink","lightblue"),main = "Diagrama de caja de prueba de fosfatasa alcalina segmentado por Sexo")
box_factores_c=boxplot(ALT0~sexo,col=c("lightpink","lightblue"),main = "Diagrama de caja de alanina aminotransferasa segmentado por Sexo")
box_factores_c=boxplot(edad~cate,col=c("green","lightgreen","lightblue","lightyellow","pink"),main = "Diagrama de caja de Edad segmentado por Categoria de donante")
box_factores_c=boxplot(ALB0~cate,col=c("green","lightgreen","lightblue","lightyellow","pink"),main = "Diagrama de caja de cantidad de albúmina en la sangre segmentado por Categoria de donante")
box_factores_c=boxplot(ALP0~cate,col=c("green","lightgreen","lightblue","lightyellow","pink"),main = "Diagrama de caja de prueba de fosfatasa alcalina segmentado por Categoria de donante")
box_factores_c=boxplot(ALT0~cate,col=c("green","lightgreen","lightblue","lightyellow","pink"),main = "Diagrama de caja de alanina aminotransferasa segmentado por Categoria de donante")
#Para las variables cuantitativas: Realizamos un recorte de todos los datos usando un data frame
edad1 = data$Age[-c(604,541,542,546,547,569,570,571,572,577,582,583,584,585,586,591,593,604,614,615)]
ALB1 = data$ALB[-c(604,541,542,546,547,569,570,571,572,577,582,583,584,585,586,591,593,604,614,615)]
ALP1 = data$ALP[-c(604,541,542,546,547,569,570,571,572,577,582,583,584,585,586,591,593,604,614,615)]
ALT1 = data$ALT[-c(604,541,542,546,547,569,570,571,572,577,582,583,584,585,586,591,593,604,614,615)]
• Se recortan todas las variables de igual manera para tener el mismo número de valores para hacer la matriz de correlación y la de covarianza
data2= data.frame(edad1,ALB1,ALP1,ALT1)
##Matriz de correlación y matriz de covarianzas
###Matriz de correlación
m_corr=cor(data2) #cor(x=data2)
m_corr
## edad1 ALB1 ALP1 ALT1
## edad1 1.00000000 -0.19115736 0.1727700 -0.03916596
## ALB1 -0.19115736 1.00000000 -0.1412017 0.03314182
## ALP1 0.17277005 -0.14120174 1.0000000 0.21448003
## ALT1 -0.03916596 0.03314182 0.2144800 1.00000000
corrplot(m_corr, method="number", type="upper")
corrplot.mixed(m_corr,lower = "circle",upper = "number")
###Matriz de covarianza
m_cov=cov(data2) # pearson es la estandar
m_cov
## edad1 ALB1 ALP1 ALT1
## edad1 98.409768 -10.909223 44.63966 -8.080861
## ALB1 -10.909223 33.095382 -21.15715 3.965425
## ALP1 44.639660 -21.157146 678.37003 116.184961
## ALT1 -8.080861 3.965425 116.18496 432.573029
##Matriz gráfica de correlación
pairs.panels(data2, method = "spearman", ellipses = FALSE, smooth = FALSE, main = "MATRIZ DE CORRELACIÓN")
pairs(data2,col=("darkblue"), main= "MATRIZ DE DISPERCION")
#Investigacion sobre HCV o VHC en español.
Virus que causa la hepatitis. Se lleva y se contagia a los demás a través de la sangre y otros líquidos del cuerpo. Aunque los pacientes infectados por el VHC pueden no tener síntomas, la infección a largo plazo puede conducir a una,fibrosis hepática (cicatrización desmesurada de una herida que acumula tejido conectivo en el hígado), cirrosis (cicatrización patológica del hígado) y cáncer de hígado. Estos pacientes también pueden correr un mayor riesgo de presentar ciertos tipos de linfoma no Hodgkin. También se llama virus de la hepatitis C.
###ALB La prueba de albúmina en la sangre mide la cantidad de albúmina en la sangre. La albúmina es una proteína producida por el hígado. La albúmina ayuda a mantener el líquido dentro del torrente sanguíneo sin que se filtre a otros tejidosa prueba de albúmina en la sangre mide la cantidad de albúmina en la sangre. La albúmina es una proteína producida por el hígado. La albúmina ayuda a mantener el líquido dentro del torrente sanguíneo sin que se filtre a otros tejidos
###ALP La prueba de fosfatasa alcalina mide los niveles de fosfatasa alcalina (FA) en la sangre. La FA es una enzima que está en todo el cuerpo, pero principalmente en el hígado, los huesos, los riñones y el aparato digestivo
###ALT La alanina aminotransferasa o ALT es una enzima que se encuentra principalmente en el hígado. Cuando las células hepáticas están dañadas, liberan esta enzima en el torrente sanguíneo. La prueba de ALT mide el nivel de ALT en la sangre.
#Conclusiones
En general las personas que buscan un tratamiento o atención media con respecto a la hepatitis tienen entre 40 y 55 años.
El ALB es un índice comúnmente alto, y los individuos que poseen mayor índice de ALB tienen menor riesgo de tener una hepatitis o enfermedades que conllevan tener poca albúmina en la sangre. Encontramos un solo dato aberrante de una mujer de 62 con un caso de cirrosis con un nivel de 416.6 de ALP más cuatro veces más lo que una persona normal tiene. Los niveles alto de fosfamina en la sangre podrían indicar un posible problema hepático.
Encontramos datos aberrantes, para un solo individuo, una mujer de 59 años con un nivel muy alto de ALT con indicadores de una posible enfermedad adyacente (Hepatitis), la mayoría de las personas con un nivel alto de ALT tienen un problema hepático como cirrosis o fibrosis Observamos que en promedio los hombres tienen mayor índice de ALT elevado.
Las personas que se encuentran en 0s=suspect Blood Donor, son personas que según su prueba de sangre tienen una posible enfermedad entre las cuales podrían ser problemas en los riñones, problemas en los huesos o otras enfermedades del hígado como ictericia o síndrome de Gilbert.
##Conjunto de datos
#Variables
#Cualitativas
Categoriadonante=data$Category #Category
Sexo=data$Sex#Sex
#Cuantitativas
Colesterol= data$CHOL #Cholesterol
Creatina=data$CREA #Cretin
GGT=data$GGT #GGT
Proteina=data$PROT #Protein
Edad= data$Age #Age
#Estadistica descriptive univariante:
#Histograma Cholesterol
hist(x=data$CHOL, main= "Histograma de Colesterol",ylab="Frecuencia")
#Histograma Creatina
hist(x=data$CREA, main="Histograma de Creatina",ylab="Frecuencia")
#Histograma ggt
hist(x=data$GGT,main="Histograma de GGT",ylab="Frecuencia")
#Histograma Proteina
hist(x=data$PROT, main="Histograma de Proteina", ylab="Frecuencia")
#Histograma Edad
hist(x=data$Age, main="Histograma de Edad", xlab="Edad",ylab="Frecuencia")
#Diagrama de cajas Cholesterol
boxplot(x=data$CHOL, main="Diagrama de cajas de Colesterol", col=c("yellow"))
#Diagrama de cajas Creatina
boxplot(x=data$CREA, main="Diagrama de caja de Creatina", col=c("red"))
#Diagrama de cajas GGT
boxplot(x=data$GGT, main="Diagrama de caja de GGT", col=c("blue"))
#Diagrama de cajas Proteina
boxplot(x=data$PROT, main="Diagrama de caja de Proteina", col=c("purple"))
#Diagrama de cajas Edad
boxplot(x=data$Age, main="Diagrama de caja de Edades", col=c("orange"))
#Summary Cholesterol
summary(data$CHOL)
## Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
## 1.430 4.610 5.300 5.368 6.060 9.670 10
kurtosis(data$CHOL[-c(122,320,414,434,499,425,330,591,585,604)])
## [1] 3.678399
sd(data$CHOL[-c(122,320,414,434,499,425,330,591,585,604)])
## [1] 1.132728
skew(data$CHOL)
## [1] 0.373966
#Summary Creatina
summary(data$CREA)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 8.00 67.00 77.00 81.29 88.00 1079.10
kurtosis(data$CREA)
## [1] 280.8184
sd(data$CREA)
## [1] 49.75617
skew(data$CREA)
## [1] 15.09537
nclass.Sturges(data$CREA)
## [1] 11
#Summary GGT
summary(data$GGT)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 4.50 15.70 23.30 39.53 40.20 650.90
sd(data$GGT)
## [1] 54.66107
kurtosis(data$GGT)
## [1] 46.34826
nclass.Sturges(data$GGT)
## [1] 11
skew(data$GGT)
## [1] 5.605287
#Summary Prot
summary(data$PROT)
## Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
## 44.80 69.30 72.20 72.04 75.40 90.00 1
sd(data$PROT[-c(591)])
## [1] 5.402636
kurtosis(data$PROT[-c(591)])
## [1] 6.505975
skew(data$PROT)
## [1] -0.9589839
#Summary Edad
summary(data$Age)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 19.00 39.00 47.00 47.41 54.00 77.00
sd(data$Age)
## [1] 10.05511
kurtosis(data$Age)
## [1] 2.606921
skew(data$Age)
## [1] 0.2658328
nclass.Sturges(data$Age)
## [1] 11
#Tabla de datos Cholesterol
tda.chol=fdt(data$CHOL,breaks="Sturges")
tda.chol
## Class limits f rf rf(%) cf cf(%)
## [1.416,2.175) 1 0.00 0.17 1 0.17
## [2.175,2.934) 4 0.01 0.66 5 0.83
## [2.934,3.693) 29 0.05 4.79 34 5.62
## [3.693,4.452) 90 0.15 14.88 124 20.50
## [4.452,5.212) 157 0.26 25.95 281 46.45
## [5.212,5.971) 151 0.25 24.96 432 71.40
## [5.971,6.73) 102 0.17 16.86 534 88.26
## [6.73,7.489) 51 0.08 8.43 585 96.69
## [7.489,8.248) 10 0.02 1.65 595 98.35
## [8.248,9.008) 7 0.01 1.16 602 99.50
## [9.008,9.767) 3 0.00 0.50 605 100.00
#Tabla de datos Creatina
tda.crea=fdt(data$CREA,breaks="Sturges")
tda.crea
## Class limits f rf rf(%) cf cf(%)
## [7.92,106.281) 587 0.95 95.45 587 95.45
## [106.281,204.642) 25 0.04 4.07 612 99.51
## [204.642,303.003) 0 0.00 0.00 612 99.51
## [303.003,401.364) 0 0.00 0.00 612 99.51
## [401.364,499.725) 1 0.00 0.16 613 99.67
## [499.725,598.086) 1 0.00 0.16 614 99.84
## [598.086,696.447) 0 0.00 0.00 614 99.84
## [696.447,794.808) 0 0.00 0.00 614 99.84
## [794.808,893.169) 0 0.00 0.00 614 99.84
## [893.169,991.53) 0 0.00 0.00 614 99.84
## [991.53,1089.891) 1 0.00 0.16 615 100.00
#Tabla de datos GGT
tda.ggt=fdt(data$GGT,breaks="Sturges")
tda.ggt
## Class limits f rf rf(%) cf cf(%)
## [4.455,63.8145) 523 0.85 85.04 523 85.04
## [63.8145,123.174) 65 0.11 10.57 588 95.61
## [123.174,182.533) 14 0.02 2.28 602 97.89
## [182.533,241.893) 5 0.01 0.81 607 98.70
## [241.893,301.252) 2 0.00 0.33 609 99.02
## [301.252,360.612) 1 0.00 0.16 610 99.19
## [360.612,419.971) 3 0.00 0.49 613 99.67
## [419.971,479.331) 0 0.00 0.00 613 99.67
## [479.331,538.69) 1 0.00 0.16 614 99.84
## [538.69,598.05) 0 0.00 0.00 614 99.84
## [598.05,657.409) 1 0.00 0.16 615 100.00
#Tabla de datos Prot
tda.prot=fdt(data$PROT,breaks="Sturges")
tda.prot
## Class limits f rf rf(%) cf cf(%)
## [44.35,48.58) 4 0.01 0.65 4 0.65
## [48.58,52.82) 1 0.00 0.16 5 0.81
## [52.82,57.05) 7 0.01 1.14 12 1.95
## [57.05,61.28) 7 0.01 1.14 19 3.09
## [61.28,65.51) 32 0.05 5.21 51 8.31
## [65.51,69.74) 113 0.18 18.40 164 26.71
## [69.74,73.97) 240 0.39 39.09 404 65.80
## [73.97,78.21) 149 0.24 24.27 553 90.07
## [78.21,82.44) 53 0.09 8.63 606 98.70
## [82.44,86.67) 7 0.01 1.14 613 99.84
## [86.67,90.9) 1 0.00 0.16 614 100.00
#PARA VARIABLES CUALITATIVAS
#Diagrama de barras del sexo del paciente
tab_Sexo<-table(data$Sex)
tab_Sexo<-prop.table(tab_Sexo)
barplot(tab_Sexo,xlab="Sexo",ylab="Frecuencia Relativa",las=1,main="Diagrama de barras del sexo del paciente")
#Diagrama de barras de la Categoria
tab_cat<-table(data$Category)
tab_cat<-prop.table(tab_cat)
barplot(tab_cat,xlab="Categoria",ylab="Frecuencia Relativa",las=1,main="Diagrama de barras de Categorias del paciente")
#Diagrama circular del sexo del paciente
pie(x=tab_Sexo,main="Diagrama circular del sexo del examinado")
#Diagrama circular de la Categoria
pie(x=tab_cat,main="Diagrama circular sobre la categoria del examinado")
#ESTADISTICA DESCRIPTIVA MULTIVARIABLE
#PARA VARIABLE CUALITATIVAS
#Diagrama de cajas del Colesterol respecto al Sexo
boxplot((data$CHOL~data$Sex),main="Diagrama de cajas del colesterol respecto al sexo",xlab="Sexo",ylab="Colesterol",col=c("lavenderblush4"))
#Diagrama de cajas de la Creatina respecto al estado del paciente
boxplot((data$CREA~data$Category),main="Diagrama de cajas de la Creatina respecto al estado del paciente",xlab="Categoria",ylab="Creatina",col=c(("goldenrod")))
#Diagrama de cajas del GGT respecto al sexo
boxplot((data$GGT~data$Sex),main="Diagrama de cajas del GGT respecto al sexo",xlab="Sexo",ylab="GGT",col=c("purple3"))
#Diagrama de cajas de la Proteina respecto al estado del paciente
boxplot((data$PROT~data$Category),main="Diagrama de cajas de la Proteina respecto a la categoria del paciente ",xlab="Categoria",ylab="Proteina",col=c(("orangered4")))
#Diagrama de cajas de la Edad respecto al estado del paciente
boxplot((data$Age~data$Category),main="Diagrama de cajas de la Edad respecto al estado del paciente",xlab="Categoria",ylab="Edad",col=c(("mistyrose2")))
#PARA VARIABLES CUANTITATIVAS
CHOL1=data$CHOL[-c(122,320,414,434,499,425,330,591,585,604,591)]
PROT1=data$PROT[-c(122,320,414,434,499,425,330,591,585,604,591)]
GGT1=data$GGT[-c(122,320,414,434,499,425,330,591,585,604,591)]
CREA1=data$CREA[-c(122,320,414,434,499,425,330,591,585,604,591)]
• Se recortan todas las variables de igual manera para tener el mismo número de valores para hacer la matriz de correlación y la de covarianza
data1=data.frame(CHOL1,PROT1,GGT1,CREA1)
#Matriz de Correlacion
m_corr=cor(data1)
m_corr
## CHOL1 PROT1 GGT1 CREA1
## CHOL1 1.000000000 0.20707069 -0.006894795 -0.04774358
## PROT1 0.207070691 1.00000000 -0.013535775 -0.03116845
## GGT1 -0.006894795 -0.01353578 1.000000000 0.12193049
## CREA1 -0.047743578 -0.03116845 0.121930494 1.00000000
#Matriz de covarianza
m_cov=cov(data1)
m_cov
## CHOL1 PROT1 GGT1 CREA1
## CHOL1 1.2830737 1.273383 -0.4262529 -2.708645
## PROT1 1.2733832 29.473343 -4.0106804 -8.475030
## GGT1 -0.4262529 -4.010680 2978.7938678 333.306597
## CREA1 -2.7086451 -8.475030 333.3065973 2508.549650
#Matriz grafica de correlacion Colesterol- Creatina
plot(x=data$CHOL, y=data$CREA,xlab="Colesterol",ylab="Creatina")
#Matriz grafica de correlacion
pairs.panels(data1, method= "spearman",ellipses=FALSE,smooth=FALSE,main="Matriz de Correlacion")
#Matriz Dispersion
pairs(data1,col=("darkblue"),main="Matriz de dispersion")
#Investigacion sobre CREA o Creatinina "Los examenes de Creatinina serica en la sangre nos sirven para detectar un mal funcionamiento en los riñones aunque este tambien aumentan dependiendo de la masa muscular, por deshidratacion o por el consumo de carnes.
#Investigacion sobre GGT El GGT o Gamma glutamil transferasa es un enzima presente en todo el cuerpo pero principalmente en el higado ,un elevado nivel de GGT presente en los examenes normalmente significa una enfermedad en el higado o en los conductos biliares.
#Investigacion sobre Proteina El examen de proteinas totales determina el nivel de globumina y albumina en la sangre, si estos niveles estan bajos indica una posible enfermedad en los riñones o el higado, tambien puede ser indicador de Icteria.Si sus niveles son bajos puede indicar una infecccion.
#Investigacion sobre Colesterol El examen de colesterol tambien llamado lipidograma determina el nivel de colesterol LDL o tambien llamado coles- terol malo, este normalmente es eliminado en el higado. Un alto nivel de colesterol puede derivar en problemas cardíacos graves.
#Hallazgos Segun los Resultados obtenidos se puede apreciar que los hombre son más propensos a desarrollar enfermedad del higado como Cirrosis, fibrosis y Hepatitis
Los diagrama de Cajas en algunos casos salen muy aplanados esto se debe a la presencia de algunos valores aberrantes muy grandes, por ejemplo en el caso de la creatina uno de los examinados reflejo un numero mayor a 1000, lo cual es un valor muy elevado y que refleja una mala salud hepatica.
#Conjunto de datos |
r hcvdat0= data |
#Variables Cuantitativas
AST=hcvdat0$AST #Aspartato aminotransferasa
BIL=hcvdat0$BIL #Bilirrubina
CHE=hcvdat0$CHE #Colineterasa
CHOL=hcvdat0$CHOL #Colesterol
Sex=sexo #Sexo
Category=cate # categoria
#Categoria de donante
Categoria: “Tipo de sangre”,“Sexo” Cuantitatva: AST BIL CHE CHOL
#Estadistica descriptiva univariable
#Histogramas #Histograma de cantidad aspartato aminotransferasa
hist(hcvdat0$AST,
col = "red",
border = "black",
main = "Histograma de cantidad de aspartato aminotransferasa",
xlab = "variable x",
ylab = "Frecuencia")
#Histograma de cantidad de bilirrubina en la sangre
hist(hcvdat0$BIL, col = "red",
border = "black",
main = "Histograma de cantidad de bilirrubina",
ylab = "Frecuencia",
xlab = "Variable x")
#Histograma de cantidad de colinesterasa
hist(hcvdat0$CHE, main = "Histograma de Cantidad de Colinesterasa",
col = "red",
border = "black",
ylab = "Frecuencia",
xlab = "Variable x")
#Histograma de cantidad de Colesterol
hist(hcvdat0$CHOL, main = "Histograma de Cantidad de colesterol",
col = "red",
border = "black",
ylab = "Frecuencia",
xlab = "Variable x")
#Diagramas de Cajas
#Diagrama de caja aspartato aminotransferesa
boxplot(AST, horizontal = TRUE,
main= "Diagrama de Caja de Apartato Aminotransferasa")
#Diagrama de caja de Bilirrubina
boxplot(BIL, horizontal = TRUE,
main = "Diagrama de Caja de Cantidad de Bilirrubina")
#Diagrama de caja de Colinesterasa
boxplot(CHE, horizontal = TRUE,
main= "Diagrama de caja de Cantidad de Colinesterasa")
#Diagrama de caja de la cantidad de coleterol
boxplot(CHOL, horizontal = TRUE,
main = "Diagrama de cantidad de colesterol")
#Medidas Estadisticas
#Medidas estadisticas de AST (Aspartato Aminotransferasa)
summary(AST)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 10.60 21.60 25.90 34.79 32.90 324.00
sd(AST)
## [1] 33.09069
kurtosi(AST)
## [1] 30.46766
skew(AST)
## [1] 4.916254
#Medidas estadisticas de BIL (Bilirrubina)
summary(BIL)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.8 5.3 7.3 11.4 11.2 254.0
sd(BIL)
## [1] 19.67315
kurtosi(BIL)
## [1] 82.22438
skew(BIL)
## [1] 8.344576
#Medidas estadisticas de CHE (Colinesterasa)
summary(CHE)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.420 6.935 8.260 8.197 9.590 16.410
sd(CHE)
## [1] 2.205657
kurtosi(CHE)
## [1] 1.280371
skew(CHE)
## [1] -0.1096956
#Medidas de estadistica de CHOL (Colesterol)
summary(CHOL)
## Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
## 1.430 4.610 5.300 5.368 6.060 9.670 10
sd(CHOL[-c(122,320,414,434,499,425,330,591,585,604)])
## [1] 1.132728
kurtosi(CHOL[-c(122,320,414,434,499,425,330,591,585,604)])
## [1] 0.6662495
skew(CHOL)
## [1] 0.373966
#Tablas de Datos Agrupados #Tabla de Datos de AST
TFA <- as.data.frame(table(AST=factor(cut(AST,breaks = nclass.Sturges(AST)))))
TFA[["FrecuenciaRelativa"]]<-with(TFA,Freq/615)
TFA
## AST Freq FrecuenciaRelativa
## 1 (10.3,39.1] 516 0.839024390
## 2 (39.1,67.6] 55 0.089430894
## 3 (67.6,96.1] 15 0.024390244
## 4 (96.1,125] 11 0.017886179
## 5 (125,153] 7 0.011382114
## 6 (153,182] 2 0.003252033
## 7 (182,210] 5 0.008130081
## 8 (239,267] 1 0.001626016
## 9 (267,296] 1 0.001626016
## 10 (296,324] 2 0.003252033
#Tabla de Datos BIL
TFB <- as.data.frame(table(BIL=factor(cut(BIL,breaks = nclass.Sturges(BIL)))))
TFB[["FrecuenciaRelativa"]]<-with(TFB,Freq/615)
TFB
## BIL Freq FrecuenciaRelativa
## 1 (0.547,23.8] 583 0.947967480
## 2 (23.8,46.8] 20 0.032520325
## 3 (46.8,69.9] 5 0.008130081
## 4 (69.9,92.9] 1 0.001626016
## 5 (116,139] 2 0.003252033
## 6 (185,208] 2 0.003252033
## 7 (208,231] 1 0.001626016
## 8 (231,254] 1 0.001626016
#Tabla de Datos CHE
TBC <- as.data.frame(table(CHE=factor(cut(CHE, breaks = nclass.Sturges(CHE)))))
TBC[["FrecuenciaRelativa"]]<-with(TBC,Freq/615)
TBC
## CHE Freq FrecuenciaRelativa
## 1 (1.41,2.78] 14 0.022764228
## 2 (2.78,4.15] 10 0.016260163
## 3 (4.15,5.51] 31 0.050406504
## 4 (5.51,6.87] 89 0.144715447
## 5 (6.87,8.23] 162 0.263414634
## 6 (8.23,9.6] 155 0.252032520
## 7 (9.6,11] 109 0.177235772
## 8 (11,12.3] 29 0.047154472
## 9 (12.3,13.7] 6 0.009756098
## 10 (13.7,15] 5 0.008130081
## 11 (15,16.4] 5 0.008130081
#Tabla de Datos del Colesterol
TFI <- as.data.frame(table(CHOL=factor(cut(CHOL,breaks = nclass.Sturges(CHOL)))))
TFI[["FrecuenciaRelativa"]]<-with(TFI,Freq/615)
TFI
## CHOL Freq FrecuenciaRelativa
## 1 (1.42,2.18] 1 0.001626016
## 2 (2.18,2.93] 4 0.006504065
## 3 (2.93,3.68] 27 0.043902439
## 4 (3.68,4.43] 83 0.134959350
## 5 (4.43,5.18] 160 0.260162602
## 6 (5.18,5.92] 150 0.243902439
## 7 (5.92,6.67] 105 0.170731707
## 8 (6.67,7.42] 52 0.084552846
## 9 (7.42,8.17] 13 0.021138211
## 10 (8.17,8.92] 7 0.011382114
## 11 (8.92,9.68] 3 0.004878049
#Variables Cualitativas #Diagramas de barras
#Diagrama de Barras de Sexos
tabla_Sex<- table(hcvdat0$Sex)
color = c("blue","pink")
barplot(tabla_Sex,xlab="Sexo",ylab="Frecuencia Relativa",main="Diagrama de barras del sexo del paciente",
col = color)
#Diagrama de barras de las categorias
tabla_cat <- table(hcvdat0$Category)
color= c("orange","purple","blue","green","red")
barplot(tabla_cat,xlab = "Categoria",ylab = "Frecuencia", main = "Diagrama de barras de las categorias del Donador",
col = color)
#Diagrama circular del sexo del paciente
colorx= c("lightblue","pink")
pie(tab_Sexo,main = "Diagrama circular del sexo",col = colorx)
#Diagrama circular de las categorias
pie(tabla_cat, main = "Diagrama circular de las categorias de los pacientes",
col = color)
#Estadistica descriptiva bivariante o multivariante
#DIAGRAMAS DE CAJA SEGMENTADOS POR SEXO
#Diagrama de Aspartato Aminotransferasa con respecto al sexo
colorAST= c("yellow","pink")
boxplot(AST~ Sex,col=colorAST,main="Diagrama del aspartato aminotransferasa
con respecto al sexo")
#Diagrama de la Bilirrubina con respecto al sexo
colorBIL = c("orange","brown")
boxplot(BIL~ Sex , col= colorBIL, main ="Diagrama de la Bilirrubina
con respecto al sexo")
#Diagrama de Colinesterasa con respecto al sexo
colorCHE= c("green","lightblue")
boxplot(CHE~ Sex , col = colorCHE, main= "Diagrama de colineterasa
con respecto al sexo")
#Diagrama de Colesterol con respecto al sexo
colorCHOL = c("red","yellow")
boxplot(CHOL~Sex , col= colorCHOL, main= "Diagrama de colesterol
con respecto al sexo")
#DIAGRAMAS DE CAJAS CON RESPECTO A LAS CATEGORIAS DE LOS PACIENTES
#Diagrama de Aspartato Aminotransferasa con respecto a las categorias
color2 = c("red","blue","yellow","lightpink","orange")
boxplot(AST~Category, main = "Diagrama de cajas AST
con respecto a las categorias", col= color2)
#Diagrama de Bilirrubina con respecto a las categorias
boxplot(BIL~Category, main= "Diagrama de cajas BIL
con respecto a las categorias", col= color2)
#Diagrama de Colinesterasa con respecto a las categorias
boxplot(CHE~Category, main= "Diagrama de cajas CHE con
respecto a las categorias", col= color2)
#Diagrama de colesterol con respecto a las categorias
boxplot(CHOL~Category, main= "Diagrama de cajas CHOL con
respecto a las categorias", col= color2)
#PARA VARIABLES CUANTITATIVAS
AST1=hcvdat0$AST[-c(122,320,414,434,499,425,330,591,585,604)]
BIL1=hcvdat0$BIL[-c(122,320,414,434,499,425,330,591,585,604)]
CHE1=hcvdat0$CHE[-c(122,320,414,434,499,425,330,591,585,604)]
• Se recortan todas las variables de igual manera para tener el mismo número de valores para hacer la matriz de correlación y la de covarianza
hdata=data.frame(AST1,BIL1,CHE1,CHOL1)
#Matriz de correlación
mt_cor= cor(hdata)
mt_cor
## AST1 BIL1 CHE1 CHOL1
## AST1 1.0000000 0.3073030 -0.1962728 -0.2099697
## BIL1 0.3073030 1.0000000 -0.3159164 -0.1803703
## CHE1 -0.1962728 -0.3159164 1.0000000 0.4254565
## CHOL1 -0.2099697 -0.1803703 0.4254565 1.0000000
#Matriz de covarianza
mt_cov = cov(hdata)
mt_cov
## AST1 BIL1 CHE1 CHOL1
## AST1 1087.168730 174.117001 -14.212651 -7.842073
## BIL1 174.117001 295.292158 -11.922428 -3.510886
## CHE1 -14.212651 -11.922428 4.823176 1.058394
## CHOL1 -7.842073 -3.510886 1.058394 1.283074
#Matriz gráfica de correlación
pairs.panels(hdata, method = "spearman", ellipses = FALSE, smooth = FALSE, main = "MATRIZ DE CORRELACIÓN")
#MATRIZ DE DISPERSION
pairs(hdata,col=("darkblue"), main= "MATRIZ DE DISPERSION")
#Investigacion sobre la aspartato aminotransferasa
La Aspartato aminotransferesa es una encima que ayuda al hígado a transformar el alimento en energía. Una concentración alta de esta enzima puede ser un signo de que el hígado está lesionado o irritado y de que sus enzimas rebosan desde las células hepáticas.
#Investigacion sobre la Bilirrubina
La Bilirrubina es el resultado de la degradación de la hemoglobina de los globulos rojo reciclados esta degradación se produce en el bazo, y mas tarde se conjuga en el higado para despues ser expulsada del cuerpo Tener un nivel debilirrubina por encima de lo normal puede ser signos de diferentes problemas hepaticos
#Investigacion sobre la colinesterasa
Cuando se habla de colinerasa, se hace referencia dos tipos de encimas, que son acetilcolinesterasa y pseudocolinesterasa, ambos compuestos catalizan la hidrólisis del neurotransmisor acetilcolina sobrante en el espacio sináptico en colina y ácido acético La acetilcolinesterasa se encuentra en el tejido nervioso y en los glóbulos rojos. La seudocolinesterasa se encuentra principalmente en el hígado.
#Investigación sobre el colesterol
El colesterol es un lipido que necesita el cuerpo para su correcto funcionamiento, exisn de diferentes tipos El total, el lipoproteina dealta densidad (bueno), y el de lipoproteina de baja densidad (malo) Un nivel demasiado alto de colesterol LDL en la sangre puede ponerlo en riesgo de tener una enfermedad del corazón y otros problemas de salud graves.
#Conclusiones *Los pacientes que presentaron un alto indice de BIL y AST son aquellos que poseen Cirrosis, ademas de que sus niveles de CHE y CHOL eran curiosamente moderados, parecia existir una relacion inversamente proporcional.
*La existencia de un dato aberrante fue evidente en los niveles de Bilirrubina, ya que la existencia de 254 de bilirrubina en la sangre, ademas de descabellada, sale del promedio del resto de datos
#Bibliografias
Fosfatasa alcalina | Cigna. (s. f.). Cigna. https://www.cigna.com/individuals-families/health-wellness/hw-en-espanol/pruebas-medicas/fosfatasa-alcalina-hw1717#:%7E:text=La%20prueba%20de%20fosfatasa%20alcalina,placenta%20de%20una%20mujer%20embarazada.
Ward, M. T., & West, T. L. (2005). Diccionario de siglas y abreviaturas / Dictionary of Spanish-Language Abbreviations and Acronyms. Hispania, 88(2), 323. https://doi.org/10.2307/20140948
*Prueba de sangre de ALT. (s. f.). MedlinePlus. https://medlineplus.gov/spanish/pruebas-de-laboratorio/prueba-de-sangre-de-alt/#:%7E:text=La%20alanina%20aminotransferasa%20o%20ALT,de%20ALT%20en%20la%20sangre.
*Diccionario de cáncer del NCI. (s. f.). Instituto Nacional del Cáncer. https://www.cancer.gov/espanol/publicaciones/diccionario/def/vhc