#************************Base de datos****************************
corazon <- read.csv("https://archive.ics.uci.edu/ml/machine-learning-databases/heart-disease/processed.cleveland.data",header=FALSE,sep=",",na.strings = '?')
names(corazon) <- c( "age", "sex", "cp", "trestbps", "chol","fbs", "restecg","thalach","exang", "oldpeak","slope", "ca", "thal", "num")
#***************************Variables Cuantitativas****************************
edad<-corazon$age
presion<-corazon$trestbps
colst<-corazon$chol
fcar<- corazon$thalach
stdep<-corazon$oldpeak
nvas<-corazon$ca
#***************************Variables Cualitativas****************************
sexo<-corazon$sex
tdolor<-corazon$cp
gluay<-corazon$fbs
releca<-corazon$restecg
angind<-corazon$exang
pendst<-corazon$slope
tal<-corazon$thal
num<-corazon$num
#***************************Intervalos de Confianza**************************** #Variable:Edad (En años) #Intervalo de cofianza para u con sigma^2 desconocida
#Variable:edad (En años)
edad<-edad[edad<150] #Suprimir valores aberrantes
a<-0.05 #Significancia
n1<-28 #tamaño de muestra
#Prueba de normalidad
qqnorm(edad)
qqline(edad)
set.seed(5)
m1<-sample( edad , size = n1, replace = FALSE)
m_m1 <- mean(m1) # media de la muestra
sd_m1 <- sd(m1) # desviación estándar de la muestra
es_m1 <- sd_m1/sqrt(n1) ## error estándar de la media
Qt <- qt(0.95, df = n1-1) #Valor de T
Qt
## [1] 1.703288
interval_1 <- c(m_m1 - Qt * es_m1, m_m1 + Qt * es_m1 )
interval_1
## [1] 52.70994 57.79006
#CONCLUSIÓN #Se concluye que la edad media de las personas con cardiopatia se encuentra entre [52.70994, 57.79006],periodo donde tambien aparecen enfermedades de otro tipo.
#Variable:colst (colesterol sérico en mg / dl) #Intervalo de cofianza para media u con sigma^2 desconocida
a<-0.05 #Significancia
n2<-28 #tamaño de muestra
#Prueba de la normaidad de la poblacion
qqnorm(colst)
qqline(colst)
set.seed(5)
m2<-sample( colst , size = n2, replace = FALSE) # Muestra aleatoria
m_m2 <- mean(m2) # media de la muestra
sd_m2 <- sd(m2) # desviación estándar de la muestra
es_m2 <- sd_m2/sqrt(28) ## error estándar de la media
Qt <- qt(0.95, df = n2-1) #Valor de T
Qt
## [1] 1.703288
interval2 <- c(m_m2 - Qt * es_m2, m_m2 + Qt * es_m2 )
interval2
## [1] 234.4571 291.2571
#CONCLUSIÓN #La media del nivel de colesterol en la poblacion estudiada esta entre [234.4571, 291.2571],el cual para los estandares medicos es elevado y perjudicial.
#Variable:fcar(frecuencia cardíaca máxima alcanzada) #Intervalo de cofianza para varianza con sigma^2 desconocida
a<-0.05 #Significancia
n3<-28 #tamaño de la muestra 3
#Prueba de la normaidad de la poblacion
qqnorm(fcar)
qqline(fcar)
set.seed(5)
m3<-sample( fcar , size = n3, replace = FALSE) # Muestra aleatoria
var_m3 <- var(m3) #Varianza de la muestra
df <- n3 - 1 # Grados de Libertad
Qv1 <- qchisq(0.05, df = df) ##Valores de chi cuadrado
Qv1
## [1] 16.1514
Qv2 <- qchisq(0.95, df = df)
Qv2
## [1] 40.11327
interval3 <- c(df * var_m3/Qv2, df * var_m3/Qv1)
interval3
## [1] 380.6079 945.2699
#CONCLUSIÓN #La frecuencia cardiaca maxima alcanzada por algunos se encuentra alejada de los saludables 100 latidos/min.,lo que deriva en las afecciones que sufren.
#***************************Pruebas de Hipotesis**************************** #Variable:presion (presión arterial en reposo (en mmHg al ingreso en el hospital))
#1.- La presion normal de una persona saludable, segun estandares clinicos,es de 120 mm Hg ,en el contexto de el tema estudiado,se puede aseverar con el alfa= 0,05 de significancia que la presion media de la poblacion estudiada es mayor que dicho valor.
#Ho: mu > 120
#Ha: mu < 120
tm1<-28
mu0<-120
mpresion<-sample(presion,tm1)
t.test(mpresion,alternative = "less",mu=mu0,conf.level = 0.95)
##
## One Sample t-test
##
## data: mpresion
## t = 1.9552, df = 27, p-value = 0.9695
## alternative hypothesis: true mean is less than 120
## 95 percent confidence interval:
## -Inf 133.8333
## sample estimates:
## mean of x
## 127.3929
#CONCLUSIÓN #Con un valor p=0.9859 > alfa, se acepta la hipotesis nula;es decir que la presion elevada es un factor clave para las afecciones que padecen.
#Variables:sexo,fcar(frecuencia cardiaca maxima alcanzada)
#2.- La taquicardia se sucita cuando hay una frecuencia cardiaca elevada e indic severos problemas cardiovasculares,la frecuencia cardiaca tanto de hombres como mujeres esta registrada en la base de datos.Estudios realizados afirman que el corazon del hombre bombea mas sangre que el de la mujer,por lo que con una significancia de 5% se afirma que la media de frecuencia maxima del hombre es mayor que la de la mujer.
tabla <- data.frame("sexo"= sexo,"frec"=fcar)
tabla1<-tabla[tabla$sexo!=1, ]#La base de datos indica 1=hombre,0=mujer
tabla2 <-tabla[tabla$sexo!=0, ]
#H0:mu_H > mu_M
#Ha:mu_H < mu_M
set.seed(5)
tm2<-28
m_H<-sample(tabla1$frec,28)
m_M<-sample(tabla2$frec,28)
md_H<-mean(m_H)
md_M<-mean(m_M)
t.test(m_H,m_M,alternative="less",mu=0,var.equal = T,conf.level=0.95)
##
## Two Sample t-test
##
## data: m_H and m_M
## t = 0.13156, df = 54, p-value = 0.5521
## alternative hypothesis: true difference in means is less than 0
## 95 percent confidence interval:
## -Inf 10.29098
## sample estimates:
## mean of x mean of y
## 151.4286 150.6786
#CONCLUSIÓN #Como el valor p=0.5521> alfa=0.05,no se rechaza la hipotesis nula,por lo que su frecuencia cardica media mas elevada lo hace propenso de sufrir afecciones cardiovasculares.
#Variable:gluay (Gluecmia en ayunas)
#3.- De las personas que miden su glucemia en ayunas se tiene el registro de que sus niveles de glucosa
#son mayores a 120 mg/dl,esta afirmacion puede ser valida para mas del 50% de la poblacion,y la convertiria en una de
#las principales causa de la cardiopatia,esto dicho con una significancia del 5%.
#Ho: p > 0.5
#Ha: p < 0.5
tm3<-28
n<-length(gluay)
prop.test(tm3,n,alternative = 'less',p=0.5,conf.level = 0.95)
##
## 1-sample proportions test with continuity correction
##
## data: tm3 out of n, null probability 0.5
## X-squared = 199.72, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is less than 0.5
## 95 percent confidence interval:
## 0.0000000 0.1253477
## sample estimates:
## p
## 0.09240924
#CONCLUSIÓN: #Como el valor p< 0.05, se rechaza la hipótesis nula, la proporción de pacientes con glucosa elevada es menor a 0.5,y no se desarrollara una cardiopatia.
#***************************Modelos de Regresion Lineal**************************** #Variables:edad/fcar
mod1<-lm(edad~fcar)
mod1
##
## Call:
## lm(formula = edad ~ fcar)
##
## Coefficients:
## (Intercept) fcar
## 77.7187 -0.1556
plot(edad,fcar, xlab="Edad en Años", ylab="Frecuencia Cardiaca",
main=paste("Correlación=", signif(cor(edad,fcar),2)))
#Prueba de normalidad para el error aleatorio
ks.test(x=mod1$residuals, y = pnorm, mean=0, sd=1, alternative = "two.sided")
## Warning in ks.test(x = mod1$residuals, y = pnorm, mean = 0, sd = 1, alternative
## = "two.sided"): ties should not be present for the Kolmogorov-Smirnov test
##
## One-sample Kolmogorov-Smirnov test
##
## data: mod1$residuals
## D = 0.41703, p-value < 2.2e-16
## alternative hypothesis: two-sided
#CONCLUSIÓN: #Tenemos B0=77.7187,B1=-0.1556,y correlaion -0.39,lo que nos indica una correlacion negativa entre estas dos variables,y de donde concluimos que a mayor edad,la frecuencia cardiaca tiende a disminuir y afectar el estilo de vida.
#Variables:edad/presion
mod2<-lm(edad~presion)
mod2
##
## Call:
## lm(formula = edad ~ presion)
##
## Coefficients:
## (Intercept) presion
## 35.1676 0.1463
plot(edad,presion, xlab="Edad en Años", ylab="Presion en mmHg",
main=paste("Correlación=", signif(cor(edad,presion),2)))
#Prueba de normalidad para el error aleatorio
ks.test(x=mod2$residuals, y = pnorm, mean=0, sd=1, alternative = "two.sided")
## Warning in ks.test(x = mod2$residuals, y = pnorm, mean = 0, sd = 1, alternative
## = "two.sided"): ties should not be present for the Kolmogorov-Smirnov test
##
## One-sample Kolmogorov-Smirnov test
##
## data: mod2$residuals
## D = 0.41953, p-value < 2.2e-16
## alternative hypothesis: two-sided
#CONCLUSIÓN: #Para este modelo de regresion lineal creciente de pendiente 0.1463 y B0=35.1676,concluimos una relacion proporcional entre la edad y la presion arterial,ya que es bien sabido que el riesgo de presion alta aumenta con la edad.