#Proyecto de Estadística: Análisis de datos Virus de la hepatitis C

###Librerias necesarias

library(readr)

## Warning: package 'readr' was built under R version 4.0.3

library(fdth)

## 
## Attaching package: 'fdth'

## The following objects are masked from 'package:stats':
## 
##     sd, var

library(gapminder)

## Warning: package 'gapminder' was built under R version 4.0.3

library(moments)

## Warning: package 'moments' was built under R version 4.0.3

library(psych)

## Warning: package 'psych' was built under R version 4.0.3

library(ggplot2)

## Warning: package 'ggplot2' was built under R version 4.0.3

## 
## Attaching package: 'ggplot2'

## The following objects are masked from 'package:psych':
## 
##     %+%, alpha

library(corrplot)

## Warning: package 'corrplot' was built under R version 4.0.3

## corrplot 0.84 loaded

llamamos al archivo

data = read.csv(url("https://archive.ics.uci.edu/ml/machine-learning-databases/00571/hcvdat0.csv"), header = TRUE)

###Variables Cuantitativas

edad = data$Age #Age
ALB0 = data$ALB # cantidad de albúmina en la sangre
ALP0 = data$ALP # prueba de fosfatasa alcalina 
ALT0 = data$ALT # alanina aminotransferasa 
View(data)

Nota aclaratoria

Para las variables ALB,ALP y ALT, para ciertos pacientes no tienen una respuesta prueba sobre estos examenes. Lo cual va afectar a la desviacion estandar, la kurtosis y la covarianza POr lo cual se toman denuevo las variables pero recortando los valores no optenidos

ALB = data$ALB[-c(604)] # cantidad de albúmina en la sangre
ALP = data$ALP[-c(542,546,547,569,570,571,572,577,582,583,584,585,586,591,593,604,614,615)] # prueba de fosfatasa alcalina 
ALT = data$ALT[-c(541)] # alanina aminotransferasa

###Variables Categoricas

sexo = data$Sex
cate= data$Category # Categorizar si puede donar

1 Estadística descriptiva univariante:

Histogramas

###Histograma de Edad

hist(edad,col="deepskyblue3", main = "Histograma de Edades")

#Histograma de cantidad de albúmina en la sangre

hist(ALB,col="deepskyblue3", main = "Histograma de cantidad de albúmina en la sangre")

#Histograma de prueba de fosfatasa alcalina

hist(ALP,col="deepskyblue3", main = "Histograma de prueba de fosfatasa alcalina")

#Histograma de alanina aminotransferasa

hist(ALT,col="deepskyblue3", main = "Histograma de alanina aminotransferasa")

Diagramas de cajas

###Diagrama de caja de Edad

boxplot(edad,col="green3" ,horizontal = TRUE, main = "Diagrama de caja de Edades")

###Diagrama de caja de cantidad de albúmina en la sangre

boxplot(ALB,col="green3",horizontal = TRUE, main = "Diagrama de caja de cantidad de albúmina en la sangre")

###Diagrama de caja de prueba de fosfatasa alcalina

boxplot(ALP,col="green3",horizontal = TRUE, main = "Diagrama de caja de prueba de fosfatasa alcalina")

###Diagrama de caja de alanina aminotransferasa

boxplot(ALT,col="green3",horizontal = TRUE, main = "Diagrama de caja de alanina aminotransferasa")

Medidas estadísticas

Medidas estadísticas de Edad

summary(edad)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   19.00   39.00   47.00   47.41   54.00   77.00

sd(edad)

## [1] 10.05511

kurtosis(edad)

## [1] 2.606921

skew(edad)

## [1] 0.2658328

Medidas estadísticas de cantidad de albúmina en la sangre

summary(ALB)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   14.90   38.80   41.95   41.62   45.20   82.20

sd(ALB)

## [1] 5.780629

kurtosis(ALB)

## [1] 8.924931

skew(ALB)

## [1] -0.1759048

Medidas estadísticas de prueba de fosfatasa alcalina

summary(ALP)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   11.30   52.50   66.20   68.28   80.10  416.60

sd(ALP)

## [1] 26.02832

kurtosis(ALP)

## [1] 57.50354

skew(ALP)

## [1] 4.631555

Medidas estadísticas de alanina aminotransferasa

summary(ALT)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    0.90   16.40   23.00   28.45   33.08  325.30

sd(ALT)

## [1] 25.46969

kurtosis(ALT)

## [1] 49.73659

skew(ALT)

## [1] 5.47924

Tablas de datos agrupados

Tabla de datos agrupados sobre edad

tda.edad=fdt(edad,breaks="Sturges")
tda.edad

##   Class limits   f   rf rf(%)  cf  cf(%)
##  [18.81,24.17)   2 0.00  0.33   2   0.33
##  [24.17,29.53)   4 0.01  0.65   6   0.98
##  [29.53,34.89)  62 0.10 10.08  68  11.06
##  [34.89,40.25) 106 0.17 17.24 174  28.29
##  [40.25,45.61)  88 0.14 14.31 262  42.60
##  [45.61,50.97) 122 0.20 19.84 384  62.44
##  [50.97,56.33) 112 0.18 18.21 496  80.65
##  [56.33,61.69)  65 0.11 10.57 561  91.22
##  [61.69,67.05)  38 0.06  6.18 599  97.40
##  [67.05,72.41)  10 0.02  1.63 609  99.02
##  [72.41,77.77)   6 0.01  0.98 615 100.00

Tabla de datos agrupados sobre cantidad de albúmina en la sangre

tda.ALB=fdt(edad,breaks="Sturges")
tda.ALB

##   Class limits   f   rf rf(%)  cf  cf(%)
##  [18.81,24.17)   2 0.00  0.33   2   0.33
##  [24.17,29.53)   4 0.01  0.65   6   0.98
##  [29.53,34.89)  62 0.10 10.08  68  11.06
##  [34.89,40.25) 106 0.17 17.24 174  28.29
##  [40.25,45.61)  88 0.14 14.31 262  42.60
##  [45.61,50.97) 122 0.20 19.84 384  62.44
##  [50.97,56.33) 112 0.18 18.21 496  80.65
##  [56.33,61.69)  65 0.11 10.57 561  91.22
##  [61.69,67.05)  38 0.06  6.18 599  97.40
##  [67.05,72.41)  10 0.02  1.63 609  99.02
##  [72.41,77.77)   6 0.01  0.98 615 100.00

Tabla de datos agrupados sobre prueba de fosfatasa alcalina

tda.ALP=fdt(edad,breaks="Sturges")
tda.ALP

##   Class limits   f   rf rf(%)  cf  cf(%)
##  [18.81,24.17)   2 0.00  0.33   2   0.33
##  [24.17,29.53)   4 0.01  0.65   6   0.98
##  [29.53,34.89)  62 0.10 10.08  68  11.06
##  [34.89,40.25) 106 0.17 17.24 174  28.29
##  [40.25,45.61)  88 0.14 14.31 262  42.60
##  [45.61,50.97) 122 0.20 19.84 384  62.44
##  [50.97,56.33) 112 0.18 18.21 496  80.65
##  [56.33,61.69)  65 0.11 10.57 561  91.22
##  [61.69,67.05)  38 0.06  6.18 599  97.40
##  [67.05,72.41)  10 0.02  1.63 609  99.02
##  [72.41,77.77)   6 0.01  0.98 615 100.00

Tabla de datos agrupados sobre alanina aminotransferasa

tda.ALT=fdt(edad,breaks="Sturges")
tda.ALT

##   Class limits   f   rf rf(%)  cf  cf(%)
##  [18.81,24.17)   2 0.00  0.33   2   0.33
##  [24.17,29.53)   4 0.01  0.65   6   0.98
##  [29.53,34.89)  62 0.10 10.08  68  11.06
##  [34.89,40.25) 106 0.17 17.24 174  28.29
##  [40.25,45.61)  88 0.14 14.31 262  42.60
##  [45.61,50.97) 122 0.20 19.84 384  62.44
##  [50.97,56.33) 112 0.18 18.21 496  80.65
##  [56.33,61.69)  65 0.11 10.57 561  91.22
##  [61.69,67.05)  38 0.06  6.18 599  97.40
##  [67.05,72.41)  10 0.02  1.63 609  99.02
##  [72.41,77.77)   6 0.01  0.98 615 100.00

#Para las variables cualitativas:

variable sexo para diagramas

sx=factor(sexo)
levels(sx)=c("Masculino","Femenino")
datos.sexo=table(sx)

##Variable categorias para diagramas

ct=factor(cate)
levels(ct)=c("0=Blood Donor","0s=suspect ","1=Hepatitis","  2=Fibrosis","3=Cirrhosis")
datos.cate=table(ct)

##Diagrama de barras

Diagrama de barras de sexo

barplot(datos.sexo,col=c("lightblue","lightpink"), main= " Diagrama de barras de género")

###Diagrama de barras de categorias

barplot(datos.cate,col=c("green","lightgreen","lightblue","lightyellow","pink"),main= " Diagrama de barras de Categoria de donador")

## Diagramas circulares

Diagramas circulares de sexo

pie(datos.sexo,col=c("lightblue","lightpink"), main= " Diagrama  circular de género")

Diagramas circulares de categorias

pie(datos.cate,col=c("green","green3","lightblue","lightyellow","pink"),main= " Diagrama circular de Categoria de donador")

# Estadística descriptiva bivariante o multivariante:

##Para las variables cualitativas Para cada variable cuantitativa presente un diagrama de cajas segmentado por al menos una variable cualitativa

DIAGRAMAS DE CAJA CON LA VARIABLE SEXO

Diagrama de caja de Edad segmentado por Sexo

box_factores_c=boxplot(edad~sexo,col=c("lightpink","lightblue"),main = "Diagrama de caja de Edad segmentado por Sexo")

Diagrama de caja de cantidad de albúmina en la sangre segmentado por Sexo

box_factores_c=boxplot(ALB0~sexo,col=c("lightpink","lightblue"),main = "Diagrama de caja de cantidad de albúmina en la sangre segmentado por Sexo")

Diagrama de caja de prueba de fosfatasa alcalina segmentado por Sexo

box_factores_c=boxplot(ALP0~sexo,col=c("lightpink","lightblue"),main = "Diagrama de caja de prueba de fosfatasa alcalina segmentado por Sexo")

Diagrama de caja de alanina aminotransferasa segmentado por Sexo

box_factores_c=boxplot(ALT0~sexo,col=c("lightpink","lightblue"),main = "Diagrama de caja de alanina aminotransferasa segmentado por Sexo")

DIAGRAMA DE CAJA SEGMENTADO POR CATEGORIAS DE DONANTE

Diagrama de caja de Edad segmentado por Categoria de donante

box_factores_c=boxplot(edad~cate,col=c("green","lightgreen","lightblue","lightyellow","pink"),main = "Diagrama de caja de Edad segmentado por Categoria de donante")

Diagrama de caja de cantidad de albúmina en la sangre segmentado por Categoria de donante

box_factores_c=boxplot(ALB0~cate,col=c("green","lightgreen","lightblue","lightyellow","pink"),main = "Diagrama de caja de cantidad de albúmina en la sangre segmentado por Categoria de donante")

Diagrama de caja de prueba de fosfatasa alcalina segmentado por Categoria de donante

box_factores_c=boxplot(ALP0~cate,col=c("green","lightgreen","lightblue","lightyellow","pink"),main = "Diagrama de caja de prueba de fosfatasa alcalina segmentado por Categoria de donante")

Diagrama de caja de alanina aminotransferasa segmentado por Categoria de donante

box_factores_c=boxplot(ALT0~cate,col=c("green","lightgreen","lightblue","lightyellow","pink"),main = "Diagrama de caja de alanina aminotransferasa segmentado por Categoria de donante")

#Para las variables cuantitativas: Realizamos un recorte de todos los datos usando un data frame

edad1 = data$Age[-c(604,541,542,546,547,569,570,571,572,577,582,583,584,585,586,591,593,604,614,615)]
ALB1 = data$ALB[-c(604,541,542,546,547,569,570,571,572,577,582,583,584,585,586,591,593,604,614,615)] 
ALP1 = data$ALP[-c(604,541,542,546,547,569,570,571,572,577,582,583,584,585,586,591,593,604,614,615)] 
ALT1 = data$ALT[-c(604,541,542,546,547,569,570,571,572,577,582,583,584,585,586,591,593,604,614,615)]

• Se recortan todas las variables de igual manera para tener el mismo número de valores para hacer la matriz de correlación y la de covarianza

data2= data.frame(edad1,ALB1,ALP1,ALT1)

##Matriz de correlación y matriz de covarianzas

###Matriz de correlación

m_corr=cor(data2) #cor(x=data2)

m_corr

##             edad1        ALB1       ALP1        ALT1
## edad1  1.00000000 -0.19115736  0.1727700 -0.03916596
## ALB1  -0.19115736  1.00000000 -0.1412017  0.03314182
## ALP1   0.17277005 -0.14120174  1.0000000  0.21448003
## ALT1  -0.03916596  0.03314182  0.2144800  1.00000000

corrplot(m_corr, method="number", type="upper")

corrplot.mixed(m_corr,lower = "circle",upper = "number")

###Matriz de covarianza

m_cov=cov(data2)  # pearson es la estandar
m_cov

##            edad1       ALB1      ALP1       ALT1
## edad1  98.409768 -10.909223  44.63966  -8.080861
## ALB1  -10.909223  33.095382 -21.15715   3.965425
## ALP1   44.639660 -21.157146 678.37003 116.184961
## ALT1   -8.080861   3.965425 116.18496 432.573029

##Matriz gráfica de correlación

pairs.panels(data2, method = "spearman", ellipses = FALSE, smooth = FALSE, main = "MATRIZ DE CORRELACIÓN")

Matriz de Disperción

pairs(data2,col=("darkblue"), main= "MATRIZ DE DISPERCION")

#Investigacion sobre HCV o VHC en español.

Virus que causa la hepatitis. Se lleva y se contagia a los demás a través de la sangre y otros líquidos del cuerpo. Aunque los pacientes infectados por el VHC pueden no tener síntomas, la infección a largo plazo puede conducir a una,fibrosis hepática (cicatrización desmesurada de una herida que acumula tejido conectivo en el hígado), cirrosis (cicatrización patológica del hígado) y cáncer de hígado. Estos pacientes también pueden correr un mayor riesgo de presentar ciertos tipos de linfoma no Hodgkin. También se llama virus de la hepatitis C.

###ALB La prueba de albúmina en la sangre mide la cantidad de albúmina en la sangre. La albúmina es una proteína producida por el hígado. La albúmina ayuda a mantener el líquido dentro del torrente sanguíneo sin que se filtre a otros tejidosa prueba de albúmina en la sangre mide la cantidad de albúmina en la sangre. La albúmina es una proteína producida por el hígado. La albúmina ayuda a mantener el líquido dentro del torrente sanguíneo sin que se filtre a otros tejidos

###ALP La prueba de fosfatasa alcalina mide los niveles de fosfatasa alcalina (FA) en la sangre. La FA es una enzima que está en todo el cuerpo, pero principalmente en el hígado, los huesos, los riñones y el aparato digestivo

###ALT La alanina aminotransferasa o ALT es una enzima que se encuentra principalmente en el hígado. Cuando las células hepáticas están dañadas, liberan esta enzima en el torrente sanguíneo. La prueba de ALT mide el nivel de ALT en la sangre.

#Conclusiones

En general las personas que buscan un tratamiento o atención media con respecto a la hepatitis tienen entre 40 y 55 años.

El ALB es un índice comúnmente alto, y los individuos que poseen mayor índice de ALB tienen menor riesgo de tener una hepatitis o enfermedades que conllevan tener poca albúmina en la sangre. Encontramos un solo dato aberrante de una mujer de 62 con un caso de cirrosis con un nivel de 416.6 de ALP más cuatro veces más lo que una persona normal tiene. Los niveles alto de fosfamina en la sangre podrían indicar un posible problema hepático.

Encontramos datos aberrantes, para un solo individuo, una mujer de 59 años con un nivel muy alto de ALT con indicadores de una posible enfermedad adyacente (Hepatitis), la mayoría de las personas con un nivel alto de ALT tienen un problema hepático como cirrosis o fibrosis Observamos que en promedio los hombres tienen mayor índice de ALT elevado.

Las personas que se encuentran en 0s=suspect Blood Donor, son personas que según su prueba de sangre tienen una posible enfermedad entre las cuales podrían ser problemas en los riñones, problemas en los huesos o otras enfermedades del hígado como ictericia o síndrome de Gilbert.

———————————————————————————————————————

##Conjunto de datos

#Variables

#Cualitativas

Categoriadonante=data$Category #Category

Sexo=data$Sex#Sex

#Cuantitativas

Colesterol= data$CHOL #Cholesterol

Creatina=data$CREA #Cretin

GGT=data$GGT #GGT

Proteina=data$PROT #Protein

Edad= data$Age #Age

#Estadistica descriptive univariante:

#Histograma Cholesterol

hist(x=data$CHOL, main= "Histograma de Colesterol",ylab="Frecuencia")

#Histograma Creatina

hist(x=data$CREA, main="Histograma de Creatina",ylab="Frecuencia")

#Histograma ggt

hist(x=data$GGT,main="Histograma de GGT",ylab="Frecuencia")

#Histograma Proteina

hist(x=data$PROT, main="Histograma de Proteina", ylab="Frecuencia")

#Histograma Edad

hist(x=data$Age, main="Histograma de Edad", xlab="Edad",ylab="Frecuencia")

#Diagrama de cajas Cholesterol

boxplot(x=data$CHOL, main="Diagrama de cajas de Colesterol", col=c("yellow"))

#Diagrama de cajas Creatina

boxplot(x=data$CREA, main="Diagrama de caja de Creatina", col=c("red"))

#Diagrama de cajas GGT

boxplot(x=data$GGT, main="Diagrama de caja de GGT", col=c("blue"))

#Diagrama de cajas Proteina

boxplot(x=data$PROT, main="Diagrama de caja de Proteina", col=c("purple"))

#Diagrama de cajas Edad

boxplot(x=data$Age, main="Diagrama de caja de Edades", col=c("orange"))

#Summary Cholesterol

summary(data$CHOL)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
##   1.430   4.610   5.300   5.368   6.060   9.670      10

kurtosis(data$CHOL[-c(122,320,414,434,499,425,330,591,585,604)])

## [1] 3.678399

sd(data$CHOL[-c(122,320,414,434,499,425,330,591,585,604)])

## [1] 1.132728

skew(data$CHOL)

## [1] 0.373966

#Summary Creatina

summary(data$CREA)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    8.00   67.00   77.00   81.29   88.00 1079.10

kurtosis(data$CREA)

## [1] 280.8184

sd(data$CREA)

## [1] 49.75617

skew(data$CREA)

## [1] 15.09537

nclass.Sturges(data$CREA)

## [1] 11

#Summary GGT

summary(data$GGT)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    4.50   15.70   23.30   39.53   40.20  650.90

sd(data$GGT)

## [1] 54.66107

kurtosis(data$GGT)

## [1] 46.34826

nclass.Sturges(data$GGT)

## [1] 11

skew(data$GGT)

## [1] 5.605287

#Summary Prot

summary(data$PROT)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
##   44.80   69.30   72.20   72.04   75.40   90.00       1

sd(data$PROT[-c(591)])

## [1] 5.402636

kurtosis(data$PROT[-c(591)])

## [1] 6.505975

skew(data$PROT)

## [1] -0.9589839

#Summary Edad

summary(data$Age)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   19.00   39.00   47.00   47.41   54.00   77.00

sd(data$Age)

## [1] 10.05511

kurtosis(data$Age)

## [1] 2.606921

skew(data$Age)

## [1] 0.2658328

nclass.Sturges(data$Age)

## [1] 11

#Tabla de datos Cholesterol

tda.chol=fdt(data$CHOL,breaks="Sturges")
tda.chol

##   Class limits   f   rf rf(%)  cf  cf(%)
##  [1.416,2.175)   1 0.00  0.17   1   0.17
##  [2.175,2.934)   4 0.01  0.66   5   0.83
##  [2.934,3.693)  29 0.05  4.79  34   5.62
##  [3.693,4.452)  90 0.15 14.88 124  20.50
##  [4.452,5.212) 157 0.26 25.95 281  46.45
##  [5.212,5.971) 151 0.25 24.96 432  71.40
##   [5.971,6.73) 102 0.17 16.86 534  88.26
##   [6.73,7.489)  51 0.08  8.43 585  96.69
##  [7.489,8.248)  10 0.02  1.65 595  98.35
##  [8.248,9.008)   7 0.01  1.16 602  99.50
##  [9.008,9.767)   3 0.00  0.50 605 100.00

#Tabla de datos Creatina

tda.crea=fdt(data$CREA,breaks="Sturges")
tda.crea

##       Class limits   f   rf rf(%)  cf  cf(%)
##     [7.92,106.281) 587 0.95 95.45 587  95.45
##  [106.281,204.642)  25 0.04  4.07 612  99.51
##  [204.642,303.003)   0 0.00  0.00 612  99.51
##  [303.003,401.364)   0 0.00  0.00 612  99.51
##  [401.364,499.725)   1 0.00  0.16 613  99.67
##  [499.725,598.086)   1 0.00  0.16 614  99.84
##  [598.086,696.447)   0 0.00  0.00 614  99.84
##  [696.447,794.808)   0 0.00  0.00 614  99.84
##  [794.808,893.169)   0 0.00  0.00 614  99.84
##   [893.169,991.53)   0 0.00  0.00 614  99.84
##  [991.53,1089.891)   1 0.00  0.16 615 100.00

#Tabla de datos GGT

tda.ggt=fdt(data$GGT,breaks="Sturges")
tda.ggt

##       Class limits   f   rf rf(%)  cf  cf(%)
##    [4.455,63.8145) 523 0.85 85.04 523  85.04
##  [63.8145,123.174)  65 0.11 10.57 588  95.61
##  [123.174,182.533)  14 0.02  2.28 602  97.89
##  [182.533,241.893)   5 0.01  0.81 607  98.70
##  [241.893,301.252)   2 0.00  0.33 609  99.02
##  [301.252,360.612)   1 0.00  0.16 610  99.19
##  [360.612,419.971)   3 0.00  0.49 613  99.67
##  [419.971,479.331)   0 0.00  0.00 613  99.67
##   [479.331,538.69)   1 0.00  0.16 614  99.84
##    [538.69,598.05)   0 0.00  0.00 614  99.84
##   [598.05,657.409)   1 0.00  0.16 615 100.00

#Tabla de datos Prot

tda.prot=fdt(data$PROT,breaks="Sturges")
tda.prot

##   Class limits   f   rf rf(%)  cf  cf(%)
##  [44.35,48.58)   4 0.01  0.65   4   0.65
##  [48.58,52.82)   1 0.00  0.16   5   0.81
##  [52.82,57.05)   7 0.01  1.14  12   1.95
##  [57.05,61.28)   7 0.01  1.14  19   3.09
##  [61.28,65.51)  32 0.05  5.21  51   8.31
##  [65.51,69.74) 113 0.18 18.40 164  26.71
##  [69.74,73.97) 240 0.39 39.09 404  65.80
##  [73.97,78.21) 149 0.24 24.27 553  90.07
##  [78.21,82.44)  53 0.09  8.63 606  98.70
##  [82.44,86.67)   7 0.01  1.14 613  99.84
##   [86.67,90.9)   1 0.00  0.16 614 100.00

#PARA VARIABLES CUALITATIVAS

#Diagrama de barras del sexo del paciente

tab_Sexo<-table(data$Sex)
tab_Sexo<-prop.table(tab_Sexo)
barplot(tab_Sexo,xlab="Sexo",ylab="Frecuencia Relativa",las=1,main="Diagrama de barras del sexo del paciente")

#Diagrama de barras de la Categoria

tab_cat<-table(data$Category)
tab_cat<-prop.table(tab_cat)
barplot(tab_cat,xlab="Categoria",ylab="Frecuencia Relativa",las=1,main="Diagrama de barras de Categorias del paciente")

#Diagrama circular del sexo del paciente

pie(x=tab_Sexo,main="Diagrama circular del sexo del examinado")

#Diagrama circular de la Categoria

pie(x=tab_cat,main="Diagrama circular sobre la categoria del examinado")

#ESTADISTICA DESCRIPTIVA MULTIVARIABLE

#PARA VARIABLE CUALITATIVAS

#Diagrama de cajas del Colesterol respecto al Sexo

boxplot((data$CHOL~data$Sex),main="Diagrama de cajas del colesterol respecto al sexo",xlab="Sexo",ylab="Colesterol",col=c("lavenderblush4"))

#Diagrama de cajas de la Creatina respecto al estado del paciente

boxplot((data$CREA~data$Category),main="Diagrama de cajas de la Creatina respecto al estado del paciente",xlab="Categoria",ylab="Creatina",col=c(("goldenrod")))

#Diagrama de cajas del GGT respecto al sexo

boxplot((data$GGT~data$Sex),main="Diagrama de cajas del GGT respecto al sexo",xlab="Sexo",ylab="GGT",col=c("purple3"))

#Diagrama de cajas de la Proteina respecto al estado del paciente

boxplot((data$PROT~data$Category),main="Diagrama de cajas de la Proteina respecto a la categoria del paciente ",xlab="Categoria",ylab="Proteina",col=c(("orangered4")))

#Diagrama de cajas de la Edad respecto al estado del paciente

boxplot((data$Age~data$Category),main="Diagrama de cajas de la Edad respecto al estado del paciente",xlab="Categoria",ylab="Edad",col=c(("mistyrose2")))

#PARA VARIABLES CUANTITATIVAS

CHOL1=data$CHOL[-c(122,320,414,434,499,425,330,591,585,604,591)]
PROT1=data$PROT[-c(122,320,414,434,499,425,330,591,585,604,591)]
GGT1=data$GGT[-c(122,320,414,434,499,425,330,591,585,604,591)]
CREA1=data$CREA[-c(122,320,414,434,499,425,330,591,585,604,591)]

• Se recortan todas las variables de igual manera para tener el mismo número de valores para hacer la matriz de correlación y la de covarianza

data1=data.frame(CHOL1,PROT1,GGT1,CREA1)

#Matriz de Correlacion

m_corr=cor(data1)
m_corr

##              CHOL1       PROT1         GGT1       CREA1
## CHOL1  1.000000000  0.20707069 -0.006894795 -0.04774358
## PROT1  0.207070691  1.00000000 -0.013535775 -0.03116845
## GGT1  -0.006894795 -0.01353578  1.000000000  0.12193049
## CREA1 -0.047743578 -0.03116845  0.121930494  1.00000000

#Matriz de covarianza

m_cov=cov(data1)
m_cov

##            CHOL1     PROT1         GGT1       CREA1
## CHOL1  1.2830737  1.273383   -0.4262529   -2.708645
## PROT1  1.2733832 29.473343   -4.0106804   -8.475030
## GGT1  -0.4262529 -4.010680 2978.7938678  333.306597
## CREA1 -2.7086451 -8.475030  333.3065973 2508.549650

#Matriz grafica de correlacion Colesterol- Creatina

plot(x=data$CHOL, y=data$CREA,xlab="Colesterol",ylab="Creatina")

#Matriz grafica de correlacion

pairs.panels(data1, method= "spearman",ellipses=FALSE,smooth=FALSE,main="Matriz de Correlacion")

#Matriz Dispersion

pairs(data1,col=("darkblue"),main="Matriz de dispersion")

#Investigacion sobre CREA o Creatinina "Los examenes de Creatinina serica en la sangre nos sirven para detectar un mal funcionamiento en los riñones aunque este tambien aumentan dependiendo de la masa muscular, por deshidratacion o por el consumo de carnes.

#Investigacion sobre GGT El GGT o Gamma glutamil transferasa es un enzima presente en todo el cuerpo pero principalmente en el higado ,un elevado nivel de GGT presente en los examenes normalmente significa una enfermedad en el higado o en los conductos biliares.

#Investigacion sobre Proteina El examen de proteinas totales determina el nivel de globumina y albumina en la sangre, si estos niveles estan bajos indica una posible enfermedad en los riñones o el higado, tambien puede ser indicador de Icteria.Si sus niveles son bajos puede indicar una infecccion.

#Investigacion sobre Colesterol El examen de colesterol tambien llamado lipidograma determina el nivel de colesterol LDL o tambien llamado coles- terol malo, este normalmente es eliminado en el higado. Un alto nivel de colesterol puede derivar en problemas cardíacos graves.

#Hallazgos Segun los Resultados obtenidos se puede apreciar que los hombre son más propensos a desarrollar enfermedad del higado como Cirrosis, fibrosis y Hepatitis

Los diagrama de Cajas en algunos casos salen muy aplanados esto se debe a la presencia de algunos valores aberrantes muy grandes, por ejemplo en el caso de la creatina uno de los examinados reflejo un numero mayor a 1000, lo cual es un valor muy elevado y que refleja una mala salud hepatica.

#Conjunto de datos

r hcvdat0= data

#Variables Cuantitativas

AST=hcvdat0$AST #Aspartato aminotransferasa 
BIL=hcvdat0$BIL #Bilirrubina  
CHE=hcvdat0$CHE #Colineterasa 
CHOL=hcvdat0$CHOL #Colesterol

Variables Categoricas

Sex=sexo  #Sexo
Category=cate # categoria

#Categoria de donante

Categoria: “Tipo de sangre”,“Sexo” Cuantitatva: AST BIL CHE CHOL

#Estadistica descriptiva univariable

#Histogramas #Histograma de cantidad aspartato aminotransferasa

hist(hcvdat0$AST,
     col = "red",
     border = "black",
     main = "Histograma de cantidad de aspartato aminotransferasa",
     xlab = "variable x",
     ylab = "Frecuencia")

#Histograma de cantidad de bilirrubina en la sangre

hist(hcvdat0$BIL, col = "red",
     border = "black",
     main = "Histograma de cantidad de bilirrubina",
     ylab = "Frecuencia",
     xlab = "Variable x")

#Histograma de cantidad de colinesterasa

hist(hcvdat0$CHE, main = "Histograma de Cantidad de Colinesterasa",
     col = "red",
     border = "black",
     ylab = "Frecuencia",
     xlab = "Variable x")

#Histograma de cantidad de Colesterol

hist(hcvdat0$CHOL, main = "Histograma de Cantidad de colesterol",
     col = "red",
     border = "black",
     ylab = "Frecuencia",
     xlab = "Variable x")

#Diagramas de Cajas

#Diagrama de caja aspartato aminotransferesa

boxplot(AST, horizontal = TRUE,
        main= "Diagrama de Caja de Apartato Aminotransferasa")

#Diagrama de caja de Bilirrubina

boxplot(BIL, horizontal = TRUE,
        main = "Diagrama de Caja de Cantidad de Bilirrubina")

#Diagrama de caja de Colinesterasa

boxplot(CHE, horizontal = TRUE,
        main= "Diagrama de caja de Cantidad de Colinesterasa")

#Diagrama de caja de la cantidad de coleterol

boxplot(CHOL, horizontal = TRUE,
        main = "Diagrama de cantidad de colesterol")

#Medidas Estadisticas

#Medidas estadisticas de AST (Aspartato Aminotransferasa)

summary(AST)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   10.60   21.60   25.90   34.79   32.90  324.00

sd(AST)

## [1] 33.09069

kurtosi(AST)

## [1] 30.46766

skew(AST)

## [1] 4.916254

#Medidas estadisticas de BIL (Bilirrubina)

summary(BIL)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     0.8     5.3     7.3    11.4    11.2   254.0

sd(BIL)

## [1] 19.67315

kurtosi(BIL)

## [1] 82.22438

skew(BIL)

## [1] 8.344576

#Medidas estadisticas de CHE (Colinesterasa)

summary(CHE)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   1.420   6.935   8.260   8.197   9.590  16.410

sd(CHE)

## [1] 2.205657

kurtosi(CHE)

## [1] 1.280371

skew(CHE)

## [1] -0.1096956

#Medidas de estadistica de CHOL (Colesterol)

summary(CHOL)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
##   1.430   4.610   5.300   5.368   6.060   9.670      10

sd(CHOL[-c(122,320,414,434,499,425,330,591,585,604)])

## [1] 1.132728

kurtosi(CHOL[-c(122,320,414,434,499,425,330,591,585,604)])

## [1] 0.6662495

skew(CHOL)

## [1] 0.373966

#Tablas de Datos Agrupados #Tabla de Datos de AST

TFA <- as.data.frame(table(AST=factor(cut(AST,breaks = nclass.Sturges(AST)))))
TFA[["FrecuenciaRelativa"]]<-with(TFA,Freq/615)
TFA

##            AST Freq FrecuenciaRelativa
## 1  (10.3,39.1]  516        0.839024390
## 2  (39.1,67.6]   55        0.089430894
## 3  (67.6,96.1]   15        0.024390244
## 4   (96.1,125]   11        0.017886179
## 5    (125,153]    7        0.011382114
## 6    (153,182]    2        0.003252033
## 7    (182,210]    5        0.008130081
## 8    (239,267]    1        0.001626016
## 9    (267,296]    1        0.001626016
## 10   (296,324]    2        0.003252033

#Tabla de Datos BIL

TFB <- as.data.frame(table(BIL=factor(cut(BIL,breaks = nclass.Sturges(BIL)))))
TFB[["FrecuenciaRelativa"]]<-with(TFB,Freq/615)
TFB

##            BIL Freq FrecuenciaRelativa
## 1 (0.547,23.8]  583        0.947967480
## 2  (23.8,46.8]   20        0.032520325
## 3  (46.8,69.9]    5        0.008130081
## 4  (69.9,92.9]    1        0.001626016
## 5    (116,139]    2        0.003252033
## 6    (185,208]    2        0.003252033
## 7    (208,231]    1        0.001626016
## 8    (231,254]    1        0.001626016

#Tabla de Datos CHE

TBC <- as.data.frame(table(CHE=factor(cut(CHE, breaks = nclass.Sturges(CHE)))))
TBC[["FrecuenciaRelativa"]]<-with(TBC,Freq/615)
TBC

##            CHE Freq FrecuenciaRelativa
## 1  (1.41,2.78]   14        0.022764228
## 2  (2.78,4.15]   10        0.016260163
## 3  (4.15,5.51]   31        0.050406504
## 4  (5.51,6.87]   89        0.144715447
## 5  (6.87,8.23]  162        0.263414634
## 6   (8.23,9.6]  155        0.252032520
## 7     (9.6,11]  109        0.177235772
## 8    (11,12.3]   29        0.047154472
## 9  (12.3,13.7]    6        0.009756098
## 10   (13.7,15]    5        0.008130081
## 11   (15,16.4]    5        0.008130081

#Tabla de Datos del Colesterol

TFI <- as.data.frame(table(CHOL=factor(cut(CHOL,breaks = nclass.Sturges(CHOL)))))
TFI[["FrecuenciaRelativa"]]<-with(TFI,Freq/615)
TFI

##           CHOL Freq FrecuenciaRelativa
## 1  (1.42,2.18]    1        0.001626016
## 2  (2.18,2.93]    4        0.006504065
## 3  (2.93,3.68]   27        0.043902439
## 4  (3.68,4.43]   83        0.134959350
## 5  (4.43,5.18]  160        0.260162602
## 6  (5.18,5.92]  150        0.243902439
## 7  (5.92,6.67]  105        0.170731707
## 8  (6.67,7.42]   52        0.084552846
## 9  (7.42,8.17]   13        0.021138211
## 10 (8.17,8.92]    7        0.011382114
## 11 (8.92,9.68]    3        0.004878049

#Variables Cualitativas #Diagramas de barras

#Diagrama de Barras de Sexos

tabla_Sex<- table(hcvdat0$Sex)
color = c("blue","pink")
barplot(tabla_Sex,xlab="Sexo",ylab="Frecuencia Relativa",main="Diagrama de barras del sexo del paciente",
        col = color)

#Diagrama de barras de las categorias

tabla_cat <- table(hcvdat0$Category)
color= c("orange","purple","blue","green","red")
barplot(tabla_cat,xlab = "Categoria",ylab = "Frecuencia", main = "Diagrama de barras de las categorias del Donador",
        col = color)

#Diagrama circular del sexo del paciente

colorx= c("lightblue","pink")
pie(tab_Sexo,main = "Diagrama circular del sexo",col = colorx)

#Diagrama circular de las categorias

pie(tabla_cat, main = "Diagrama circular de las categorias de los pacientes",
    col = color)

#Estadistica descriptiva bivariante o multivariante

#DIAGRAMAS DE CAJA SEGMENTADOS POR SEXO

#Diagrama de Aspartato Aminotransferasa con respecto al sexo

colorAST= c("yellow","pink")
boxplot(AST~ Sex,col=colorAST,main="Diagrama del aspartato aminotransferasa 
        con respecto al sexo")

#Diagrama de la Bilirrubina con respecto al sexo

colorBIL = c("orange","brown")
boxplot(BIL~ Sex , col= colorBIL, main ="Diagrama de la Bilirrubina
con respecto al sexo")

#Diagrama de Colinesterasa con respecto al sexo

colorCHE= c("green","lightblue")
boxplot(CHE~ Sex , col = colorCHE, main= "Diagrama de colineterasa
con respecto al sexo")

#Diagrama de Colesterol con respecto al sexo

colorCHOL = c("red","yellow")
boxplot(CHOL~Sex , col= colorCHOL, main= "Diagrama de colesterol 
con respecto al sexo")

#DIAGRAMAS DE CAJAS CON RESPECTO A LAS CATEGORIAS DE LOS PACIENTES

#Diagrama de Aspartato Aminotransferasa con respecto a las categorias

color2 = c("red","blue","yellow","lightpink","orange")
boxplot(AST~Category, main = "Diagrama de cajas AST 
con respecto a las categorias", col= color2)

#Diagrama de Bilirrubina con respecto a las categorias

boxplot(BIL~Category, main= "Diagrama de cajas BIL 
con respecto a las categorias", col= color2)

#Diagrama de Colinesterasa con respecto a las categorias

boxplot(CHE~Category, main= "Diagrama de cajas CHE con
        respecto a las categorias", col= color2)

#Diagrama de colesterol con respecto a las categorias

boxplot(CHOL~Category, main= "Diagrama de cajas CHOL con
        respecto a las categorias", col= color2)

#PARA VARIABLES CUANTITATIVAS

AST1=hcvdat0$AST[-c(122,320,414,434,499,425,330,591,585,604)]
BIL1=hcvdat0$BIL[-c(122,320,414,434,499,425,330,591,585,604)]
CHE1=hcvdat0$CHE[-c(122,320,414,434,499,425,330,591,585,604)]

• Se recortan todas las variables de igual manera para tener el mismo número de valores para hacer la matriz de correlación y la de covarianza

hdata=data.frame(AST1,BIL1,CHE1,CHOL1)

#Matriz de correlación

mt_cor= cor(hdata)
mt_cor

##             AST1       BIL1       CHE1      CHOL1
## AST1   1.0000000  0.3073030 -0.1962728 -0.2099697
## BIL1   0.3073030  1.0000000 -0.3159164 -0.1803703
## CHE1  -0.1962728 -0.3159164  1.0000000  0.4254565
## CHOL1 -0.2099697 -0.1803703  0.4254565  1.0000000

#Matriz de covarianza

mt_cov = cov(hdata)
mt_cov

##              AST1       BIL1       CHE1     CHOL1
## AST1  1087.168730 174.117001 -14.212651 -7.842073
## BIL1   174.117001 295.292158 -11.922428 -3.510886
## CHE1   -14.212651 -11.922428   4.823176  1.058394
## CHOL1   -7.842073  -3.510886   1.058394  1.283074

#Matriz gráfica de correlación

pairs.panels(hdata, method = "spearman", ellipses = FALSE, smooth = FALSE, main = "MATRIZ DE CORRELACIÓN")

#MATRIZ DE DISPERSION

pairs(hdata,col=("darkblue"), main= "MATRIZ DE DISPERSION")

#Investigacion sobre la aspartato aminotransferasa

La Aspartato aminotransferesa es una encima que ayuda al hígado a transformar el alimento en energía. Una concentración alta de esta enzima puede ser un signo de que el hígado está lesionado o irritado y de que sus enzimas rebosan desde las células hepáticas.

#Investigacion sobre la Bilirrubina

La Bilirrubina es el resultado de la degradación de la hemoglobina de los globulos rojo reciclados esta degradación se produce en el bazo, y mas tarde se conjuga en el higado para despues ser expulsada del cuerpo Tener un nivel debilirrubina por encima de lo normal puede ser signos de diferentes problemas hepaticos

#Investigacion sobre la colinesterasa

Cuando se habla de colinerasa, se hace referencia dos tipos de encimas, que son acetilcolinesterasa y pseudocolinesterasa, ambos compuestos catalizan la hidrólisis del neurotransmisor acetilcolina sobrante en el espacio sináptico en colina y ácido acético La acetilcolinesterasa se encuentra en el tejido nervioso y en los glóbulos rojos. La seudocolinesterasa se encuentra principalmente en el hígado.

#Investigación sobre el colesterol

El colesterol es un lipido que necesita el cuerpo para su correcto funcionamiento, exisn de diferentes tipos El total, el lipoproteina dealta densidad (bueno), y el de lipoproteina de baja densidad (malo) Un nivel demasiado alto de colesterol LDL en la sangre puede ponerlo en riesgo de tener una enfermedad del corazón y otros problemas de salud graves.

#Conclusiones *Los pacientes que presentaron un alto indice de BIL y AST son aquellos que poseen Cirrosis, ademas de que sus niveles de CHE y CHOL eran curiosamente moderados, parecia existir una relacion inversamente proporcional.

*La existencia de un dato aberrante fue evidente en los niveles de Bilirrubina, ya que la existencia de 254 de bilirrubina en la sangre, ademas de descabellada, sale del promedio del resto de datos

#Bibliografias

Fosfatasa alcalina | Cigna. (s. f.). Cigna. https://www.cigna.com/individuals-families/health-wellness/hw-en-espanol/pruebas-medicas/fosfatasa-alcalina-hw1717#:%7E:text=La%20prueba%20de%20fosfatasa%20alcalina,placenta%20de%20una%20mujer%20embarazada.
Ward, M. T., & West, T. L. (2005). Diccionario de siglas y abreviaturas / Dictionary of Spanish-Language Abbreviations and Acronyms. Hispania, 88(2), 323. https://doi.org/10.2307/20140948

*Prueba de sangre de ALT. (s. f.). MedlinePlus. https://medlineplus.gov/spanish/pruebas-de-laboratorio/prueba-de-sangre-de-alt/#:%7E:text=La%20alanina%20aminotransferasa%20o%20ALT,de%20ALT%20en%20la%20sangre.

*Diccionario de cáncer del NCI. (s. f.). Instituto Nacional del Cáncer. https://www.cancer.gov/espanol/publicaciones/diccionario/def/vhc

Proyecto de Estadística: Análisis de datos Virus de la hepatitis C

Diego Berrezueta, Carlos Baquerizo, Melany Cruz

11/21/2020

###Librerias necesarias

llamamos al archivo

Nota aclaratoria

1 Estadística descriptiva univariante:

Histogramas

Diagramas de cajas

Medidas estadísticas

Medidas estadísticas de Edad

Medidas estadísticas de cantidad de albúmina en la sangre

Medidas estadísticas de prueba de fosfatasa alcalina

Medidas estadísticas de alanina aminotransferasa

Tablas de datos agrupados

Tabla de datos agrupados sobre edad

Tabla de datos agrupados sobre cantidad de albúmina en la sangre

Tabla de datos agrupados sobre prueba de fosfatasa alcalina

Tabla de datos agrupados sobre alanina aminotransferasa

variable sexo para diagramas

Diagrama de barras de sexo

Diagramas circulares de sexo

Diagramas circulares de categorias

DIAGRAMAS DE CAJA CON LA VARIABLE SEXO

Diagrama de caja de Edad segmentado por Sexo

Diagrama de caja de cantidad de albúmina en la sangre segmentado por Sexo

Diagrama de caja de prueba de fosfatasa alcalina segmentado por Sexo

Diagrama de caja de alanina aminotransferasa segmentado por Sexo

DIAGRAMA DE CAJA SEGMENTADO POR CATEGORIAS DE DONANTE

Diagrama de caja de Edad segmentado por Categoria de donante

Diagrama de caja de cantidad de albúmina en la sangre segmentado por Categoria de donante

Diagrama de caja de prueba de fosfatasa alcalina segmentado por Categoria de donante

Diagrama de caja de alanina aminotransferasa segmentado por Categoria de donante

Matriz de Disperción

———————————————————————————————————————

Variables Categoricas