ABSTRACT
Mishell Orozco
Mi nombre es Mishell Alejandra Orozco Vega, tengo 20 años, naci en Quito el 12 de Febrero de 1998, actualmente me encuentro cursando 5to semestre de la carrera de Ingenieria en Biotecnologia en la Universidad de las Fuerzas Armadas ESPE. Disfruto leer, ver peliculas, la danza, futbol y pasar tiempo con amigos.
Brandon Flores
Mi nombre es Brandon Alexander Flores Realpe, tengo 21 años, naci en la provincia de Imbabura especeficamente en la ciudad de Ibarra. Soy estudiante de la carrera Ingenieria en Biotecnologia de la Universidad de las Fuerzas Armadas - ESPE. En mi tiempo libre me gusta leer, ver series y cantar.
Domenica Andrade
Mi nombre es Domenica Sofia Andrade Nicolalde, tengo 20 años, naci en la provincia de Pichincha, en Quito, un hermoso 09 de Febrero de 1998. Me gusta pasar tiempo con mi perro que se llama Percy y es gordito, estudio Ingenieria en Biotecnologia en la Universidad de las Fuerzas Armadas, me apasiona mi carrera y espero especializarme en la parte medica. Saludos
ANALISIS ESTADISTICO
BASE DE DATOS
Descripcion de la base de datos
Para la realizacion del proyecto se ha escogido la base de datos “pacientes”, la cual contiene las siguientes variables:
Paciente: Caracter
Edad: Entero
Colesterol: Numerica
IMC (Indice de masa corporal):Numerico
TAD (Tension arterial distolica):Numerico
Genero:Factor
Lectura de la base de datos, nombres de columnas adecuados, definir tipo de varibles y etiquetas a las tipo factor
Los datos de “pacientes” se adecuan a los nombres correspondientes de sus variables
Analisis exploratorio de datos
Se muestra a continuacion el str de la base de datos y el resumen de la misma
'data.frame': 70 obs. of 6 variables:
$ PACIENTE : chr "1" "2" "3" "4" ...
$ EDAD : num 42 64 47 56 54 48 57 52 67 46 ...
$ COLESTEROL: num 292 235 200 200 300 215 216 254 310 237 ...
$ IMC : num 31.6 30.8 25.6 26.2 32 ...
$ TAD : num 97 90 80 75 100 67 NA 70 105 70 ...
$ GENERO : Factor w/ 2 levels "Hombre","Mujer": 1 1 1 2 1 1 2 1 1 2 ...
PACIENTE EDAD COLESTEROL IMC TAD GENERO
Length:70 Min. :42.00 Min. :175.0 Min. :19.10 Min. : 65.00 Hombre:41
Class :character 1st Qu.:49.00 1st Qu.:214.2 1st Qu.:22.36 1st Qu.: 75.00 Mujer :29
Mode :character Median :56.00 Median :230.0 Median :25.38 Median : 80.00
Mean :55.24 Mean :236.8 Mean :25.47 Mean : 81.65
3rd Qu.:60.00 3rd Qu.:254.0 3rd Qu.:27.81 3rd Qu.: 90.00
Max. :68.00 Max. :315.0 Max. :33.91 Max. :105.00
NA's :2 NA's :1
Generar diagramas de cajas y diagramas de barras para las variables
DIAGRAMA DE CAJA
Diagrama de caja para la variable EDAD:

Se puede observar que la media aproximada de la edad de los pacientes estudiados es 56 años
Diagrama de caja para la variable COLESTEROL:

El grafico ayuda determinar que la media del colesterol en los pacientes es 230 ademas posee un valor atipico el cual rebasa el cuarto cuartil y es aproximado a 320.
Diagrama de caja para variable IMC o Indice de Masa Corporal:

En el diagrama de caja se logra identificar que la media en el indice de la masa corporal de los pacientes es aproximadamente 26, adempas se observa gran variaci??n en los datos
DIAGRAMA DE BARRAS

Correlacion entre variable dependiente y variables independientes
LIMPIEZA DE DATOS
Se asigno a los datos NA, el valor de la media respectiva para cada columna de la base de datos con la finalidad de que no difieran los resultados.
Se verifica que la base de datos se encuentre libre de NA

Se comprobo que no existen datos perdidos en la base de datos que se esta empleando
Correlacion
La correlacion permite determinar la medida en que dos variables tienen una relacion lineal entre si.
corrplot(cor(select(pacientes,-c(PACIENTE,GENERO))))

La tension arterial diastolica o TAD aumenta cuando hay aumento en COLESTEROL (alto), IMC (medio) y EDAD (baja).
Graficos de densidad:
Grafico de densidad con ggplot:

Grafico de densidad con plotly:
Las visualizaciones anteriores revelan que las densidades maximas de TAD estan entre 70 y 80
Efecto de las variables

Los resultados del grafico anterior estan en correlacion con el corrplot.
Analisis ANOVA
ANOVA
Considere una variable categorica y realice un analisis ANOVA (como el revisado en clase), incluya resultados y conclusion al final
La hipotesis nula es que las medias de los valores de TAD de hombres y mujeres son iguales y la hipotesis alternativa que las medias de estos grupos son distintas.
ANOVA y pruebas post-hoc.
Peticion de un ANOVA
tad<-pacientes$TAD
genero<-pacientes$GENERO
lol=aov(lm(tad~ genero))
Resumen de la tabla del ANOVA
summary(lol)
Df Sum Sq Mean Sq F value Pr(>F)
genero 1 155 154.7 1.228 0.272
Residuals 68 8565 126.0
Elementos generados en el ANOVA:
names(lol)
[1] "coefficients" "residuals" "effects" "rank" "fitted.values" "assign"
[7] "qr" "df.residual" "contrasts" "xlevels" "call" "terms"
[13] "model"
Grados de libertad del factor: 2-1
Grados de libertad residuales: 70-2
Suma de cuadrados de los grupos: 155
Suma de cuadrados del error: 8565
Media de la suma de cuadrados de los grupos: 154.7
Media de la suma de cuadrados del error: 126.0
El valor del estadistico F: 1.228
Valor de P: 0.2272
Nivel de significancia considerado: 0.05
Cuantil buscado
qf(0.05, 2-1, 70-2, lower.tail = F)
[1] 3.981896
Valores del estadistico > 3.981896 estaran incluidos en la region de rechazo.En este caso el valor F que se obtuvo es de 1.228.
Estimacion de la varianza comun de los datos
[1] 82.90244
Intervalos de confianza para las medias de la tension arterial diastolica de los pacientes.
Limite superior
[1] 83.79638
Limite Inferior
[1] 82.0085
Test HSD de Tukey
Tukey multiple comparisons of means
95% family-wise confidence level
Fit: aov(formula = lm(tad ~ genero))
$genero
diff lwr upr p adj
Mujer-Hombre -3.017956 -8.451847 2.415934 0.2716482
plot(intervals)

Validacion del Modelo ANOVA
Independencia
plot(lol$residuals,ylab = "Residuos",xlab = "Pacientes")

Normalidad
summary(lol$residuals)
Min. 1st Qu. Median Mean 3rd Qu. Max.
-17.902 -7.902 -2.902 0.000 10.116 22.098
boxplot(lol$residuals,col = "yellow")

hist(lol$residuals, col=cm.colors(4,alpha = 1))

qqnorm(lol$residuals)
qqline(lol$residuals)

Test de Shapiro-Wilk
shapiro.test(lol$residuals)
Shapiro-Wilk normality test
data: lol$residuals
W = 0.95157, p-value = 0.008765
Los valores de p son menores a 0,05 entonces la dist. no es normal
Homocedasticidad
boxplot(lol$residuals~genero, col = terrain.colors(2,alpha=1))

desviaciones <- tapply(lol$residuals, genero, sd)
Comparando la desviacion maxima con la minima obtenemos una orientacion sobre la falta de homocedasticidad (>2 aproximadamente) para que sea homocedastica.
max(desviaciones) / min(desviaciones)
[1] 1.207771
La muestra no es homocedastica
Pruebas no parametricas puesto que no se verifico todas las condiciones del ANOVA
Prueba de Barlett
bartlett.test(lol$residuals ~ genero)
Bartlett test of homogeneity of variances
data: lol$residuals by genero
Bartlett's K-squared = 1.1247, df = 1, p-value = 0.2889
El test de Bartlett indica que tenemos evidencia suficiente para rechazar la hipotesis nula (las varianzas son iguales).
Kruskal-Wallis
Ho: la variable respuesta es la misma en todas las poblaciones valoradas.
Ha: la variable respuesta es mayor en alguna de las poblaciones.
kruskal.test(tad, genero)
Kruskal-Wallis rank sum test
data: tad and genero
Kruskal-Wallis chi-squared = 0.9036, df = 1, p-value = 0.3418
Bajo la Ho el estadistico de contraste H del test de Kruskal-Wallis se distribuye como una Chi-cuadrado de grados de libertad (2-1).
Cuantil buscado
qchisq(0.05, 2-1, lower.tail = F)
[1] 3.841459
Valores del estadistico > 3.841459 estaran incluidos en la region de rechazo.
Transformacion logaritmica de los datos de la variable Nivel de Colesterol
kruskal.test(log(tad), genero)
Kruskal-Wallis rank sum test
data: log(tad) and genero
Kruskal-Wallis chi-squared = 0.9036, df = 1, p-value = 0.3418
PMCMR Determinacion de los grupos que generan diferencias significativas en la variable respuesta para las distintas poblaciones.
library(PMCMR)
library(PMCMRplus)
posthoc.kruskal.nemenyi.test(tad, genero, method = "Chisq")
Hombre
Mujer 0.35
CONSTRUCCION DEL MODELO Y PREDICCION
Generar modelo de regresion lineal Analice la significancia de las variables y los par?metros individuales
# establecer una semilla
set.seed(123)
#Seccionar los datos , `split ()` asigna un booleano a una nueva columna basada en el SplitRatio especificado.
split <- sample.split(pacientes,SplitRatio =0.75)
train <- subset(pacientes,split==TRUE)
test <- subset(pacientes,split==FALSE)
Entrenando nuestro modelo
Vamos a construir nuestro modelo teniendo en cuenta que COLESTEROL, IMC, EDAD son los principales influyentes en la variable objetivo TAD.
model <- lm(TAD ~ COLESTEROL + IMC + EDAD, data = train)
summary(model)
Call:
lm(formula = TAD ~ COLESTEROL + IMC + EDAD, data = train)
Residuals:
Min 1Q Median 3Q Max
-16.1807 -7.1103 -0.0403 6.1576 16.3887
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 13.98084 12.72198 1.099 0.2779
COLESTEROL 0.17422 0.03964 4.395 7.13e-05 ***
IMC 0.63067 0.37086 1.701 0.0962 .
EDAD 0.18637 0.18131 1.028 0.3098
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 8.189 on 43 degrees of freedom
Multiple R-squared: 0.4724, Adjusted R-squared: 0.4356
F-statistic: 12.83 on 3 and 43 DF, p-value: 4.014e-06
Analisis detallado de los residuos
Visualizando nuestro modelo
Permite visualizar nuestro modelo de regresion lineal trazando los residuos. La diferencia entre el valor observado de la variable dependiente (y) y el valor predicho (y) se denomina residual (e).
res <- residuals(model)
res <- as.data.frame(res)
ggplot(res,aes(res)) + geom_histogram(fill='purple',alpha=0.5)

plot(model)




Predicciones
Probemos nuestro modelo prediciendo en nuestro conjunto de datos de prueba.
test$predicted.TAD <- predict(model,test)
pl1 <-test %>%
ggplot(aes(TAD,predicted.TAD)) +
geom_point(alpha=0.5) +
stat_smooth(aes(colour='red')) +
xlab('Actual value of TAD') +
ylab('Predicted value of TAD')+
theme_bw()
ggplotly(pl1)
Evaluemos nuestro modelo
usando Root Mean Square Error, una medida estandarizada de cuan lejos estabamos con nuestros valores predichos.
error <- test$TAD-test$predicted.TAD
rmse <- sqrt(mean(error)^2)
Resultados y conclusiones
FORMULA
TAD = 0.17422COLESTEROL+ 0.63067IMC + 0.18637EDAD
CONCLUSIONES
El Root Mean Square Error (RMSE) para nuestro modelo es 0.18629348 y los resultados pueden mejorarse aun mas utilizando la extraccion de variables y entrenando el modelo.
