Domenica Andrade, Brandon Flores, Mishell Orozco

Domenica Andrade, Brandon Flores, Mishell Orozco

ABSTRACT

Mishell Orozco

Mi nombre es Mishell Alejandra Orozco Vega, tengo 20 años, naci en Quito el 12 de Febrero de 1998, actualmente me encuentro cursando 5to semestre de la carrera de Ingenieria en Biotecnologia en la Universidad de las Fuerzas Armadas ESPE. Disfruto leer, ver peliculas, la danza, futbol y pasar tiempo con amigos.

Brandon Flores

Mi nombre es Brandon Alexander Flores Realpe, tengo 21 años, naci en la provincia de Imbabura especeficamente en la ciudad de Ibarra. Soy estudiante de la carrera Ingenieria en Biotecnologia de la Universidad de las Fuerzas Armadas - ESPE. En mi tiempo libre me gusta leer, ver series y cantar.

Domenica Andrade

Mi nombre es Domenica Sofia Andrade Nicolalde, tengo 20 años, naci en la provincia de Pichincha, en Quito, un hermoso 09 de Febrero de 1998. Me gusta pasar tiempo con mi perro que se llama Percy y es gordito, estudio Ingenieria en Biotecnologia en la Universidad de las Fuerzas Armadas, me apasiona mi carrera y espero especializarme en la parte medica. Saludos

ANALISIS ESTADISTICO

BASE DE DATOS

Descripcion de la base de datos

Para la realizacion del proyecto se ha escogido la base de datos “pacientes”, la cual contiene las siguientes variables:

Paciente: Caracter

Edad: Entero

Colesterol: Numerica

IMC (Indice de masa corporal):Numerico

TAD (Tension arterial distolica):Numerico

Genero:Factor

Lectura de la base de datos, nombres de columnas adecuados, definir tipo de varibles y etiquetas a las tipo factor

Los datos de “pacientes” se adecuan a los nombres correspondientes de sus variables

Analisis exploratorio de datos

Se muestra a continuacion el str de la base de datos y el resumen de la misma

'data.frame':   70 obs. of  6 variables:
 $ PACIENTE  : chr  "1" "2" "3" "4" ...
 $ EDAD      : num  42 64 47 56 54 48 57 52 67 46 ...
 $ COLESTEROL: num  292 235 200 200 300 215 216 254 310 237 ...
 $ IMC       : num  31.6 30.8 25.6 26.2 32 ...
 $ TAD       : num  97 90 80 75 100 67 NA 70 105 70 ...
 $ GENERO    : Factor w/ 2 levels "Hombre","Mujer": 1 1 1 2 1 1 2 1 1 2 ...
   PACIENTE              EDAD         COLESTEROL         IMC             TAD            GENERO  
 Length:70          Min.   :42.00   Min.   :175.0   Min.   :19.10   Min.   : 65.00   Hombre:41  
 Class :character   1st Qu.:49.00   1st Qu.:214.2   1st Qu.:22.36   1st Qu.: 75.00   Mujer :29  
 Mode  :character   Median :56.00   Median :230.0   Median :25.38   Median : 80.00              
                    Mean   :55.24   Mean   :236.8   Mean   :25.47   Mean   : 81.65              
                    3rd Qu.:60.00   3rd Qu.:254.0   3rd Qu.:27.81   3rd Qu.: 90.00              
                    Max.   :68.00   Max.   :315.0   Max.   :33.91   Max.   :105.00              
                                                    NA's   :2       NA's   :1                   

Generar diagramas de cajas y diagramas de barras para las variables

DIAGRAMA DE CAJA

Diagrama de caja para la variable EDAD:

Se puede observar que la media aproximada de la edad de los pacientes estudiados es 56 años

Diagrama de caja para la variable COLESTEROL:

El grafico ayuda determinar que la media del colesterol en los pacientes es 230 ademas posee un valor atipico el cual rebasa el cuarto cuartil y es aproximado a 320.

Diagrama de caja para variable IMC o Indice de Masa Corporal:

En el diagrama de caja se logra identificar que la media en el indice de la masa corporal de los pacientes es aproximadamente 26, adempas se observa gran variaci??n en los datos

DIAGRAMA DE BARRAS

Correlacion entre variable dependiente y variables independientes

LIMPIEZA DE DATOS

Se asigno a los datos NA, el valor de la media respectiva para cada columna de la base de datos con la finalidad de que no difieran los resultados.

Se verifica que la base de datos se encuentre libre de NA

Se comprobo que no existen datos perdidos en la base de datos que se esta empleando

Correlacion

La correlacion permite determinar la medida en que dos variables tienen una relacion lineal entre si.

corrplot(cor(select(pacientes,-c(PACIENTE,GENERO))))

La tension arterial diastolica o TAD aumenta cuando hay aumento en COLESTEROL (alto), IMC (medio) y EDAD (baja).

Graficos de densidad:

Grafico de densidad con ggplot:

Grafico de densidad con plotly:

Las visualizaciones anteriores revelan que las densidades maximas de TAD estan entre 70 y 80

Efecto de las variables

Los resultados del grafico anterior estan en correlacion con el corrplot.

Analisis ANOVA

ANOVA

Considere una variable categorica y realice un analisis ANOVA (como el revisado en clase), incluya resultados y conclusion al final

La hipotesis nula es que las medias de los valores de TAD de hombres y mujeres son iguales y la hipotesis alternativa que las medias de estos grupos son distintas.

ANOVA y pruebas post-hoc.

Peticion de un ANOVA

tad<-pacientes$TAD
genero<-pacientes$GENERO
lol=aov(lm(tad~ genero))

Resumen de la tabla del ANOVA

summary(lol)
            Df Sum Sq Mean Sq F value Pr(>F)
genero       1    155   154.7   1.228  0.272
Residuals   68   8565   126.0               

Elementos generados en el ANOVA:

names(lol)
 [1] "coefficients"  "residuals"     "effects"       "rank"          "fitted.values" "assign"       
 [7] "qr"            "df.residual"   "contrasts"     "xlevels"       "call"          "terms"        
[13] "model"        
  1. Grados de libertad del factor: 2-1

  2. Grados de libertad residuales: 70-2

  3. Suma de cuadrados de los grupos: 155

  4. Suma de cuadrados del error: 8565

  5. Media de la suma de cuadrados de los grupos: 154.7

  6. Media de la suma de cuadrados del error: 126.0

  7. El valor del estadistico F: 1.228

  8. Valor de P: 0.2272

  9. Nivel de significancia considerado: 0.05

Cuantil buscado

qf(0.05, 2-1, 70-2, lower.tail = F)
[1] 3.981896

Valores del estadistico > 3.981896 estaran incluidos en la region de rechazo.En este caso el valor F que se obtuvo es de 1.228.

Estimacion de la varianza comun de los datos

[1] 82.90244

Intervalos de confianza para las medias de la tension arterial diastolica de los pacientes.

Limite superior

[1] 83.79638

Limite Inferior

[1] 82.0085

Test HSD de Tukey

  Tukey multiple comparisons of means
    95% family-wise confidence level

Fit: aov(formula = lm(tad ~ genero))

$genero
                  diff       lwr      upr     p adj
Mujer-Hombre -3.017956 -8.451847 2.415934 0.2716482
plot(intervals)

Validacion del Modelo ANOVA

Independencia

plot(lol$residuals,ylab = "Residuos",xlab = "Pacientes")

Normalidad

summary(lol$residuals)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
-17.902  -7.902  -2.902   0.000  10.116  22.098 
boxplot(lol$residuals,col = "yellow")

hist(lol$residuals, col=cm.colors(4,alpha = 1))

qqnorm(lol$residuals) 
qqline(lol$residuals)

Test de Shapiro-Wilk

shapiro.test(lol$residuals)

    Shapiro-Wilk normality test

data:  lol$residuals
W = 0.95157, p-value = 0.008765

Los valores de p son menores a 0,05 entonces la dist. no es normal

Homocedasticidad

boxplot(lol$residuals~genero, col = terrain.colors(2,alpha=1))

desviaciones <- tapply(lol$residuals, genero, sd)

Comparando la desviacion maxima con la minima obtenemos una orientacion sobre la falta de homocedasticidad (>2 aproximadamente) para que sea homocedastica.

max(desviaciones) / min(desviaciones)  
[1] 1.207771

La muestra no es homocedastica

Pruebas no parametricas puesto que no se verifico todas las condiciones del ANOVA

Prueba de Barlett

bartlett.test(lol$residuals ~ genero)

    Bartlett test of homogeneity of variances

data:  lol$residuals by genero
Bartlett's K-squared = 1.1247, df = 1, p-value = 0.2889

El test de Bartlett indica que tenemos evidencia suficiente para rechazar la hipotesis nula (las varianzas son iguales).

Kruskal-Wallis

Ho: la variable respuesta es la misma en todas las poblaciones valoradas.

Ha: la variable respuesta es mayor en alguna de las poblaciones.

kruskal.test(tad, genero)

    Kruskal-Wallis rank sum test

data:  tad and genero
Kruskal-Wallis chi-squared = 0.9036, df = 1, p-value = 0.3418

Bajo la Ho el estadistico de contraste H del test de Kruskal-Wallis se distribuye como una Chi-cuadrado de grados de libertad (2-1).

Cuantil buscado

qchisq(0.05, 2-1, lower.tail = F)
[1] 3.841459

Valores del estadistico > 3.841459 estaran incluidos en la region de rechazo.

Transformacion logaritmica de los datos de la variable Nivel de Colesterol

kruskal.test(log(tad), genero) 

    Kruskal-Wallis rank sum test

data:  log(tad) and genero
Kruskal-Wallis chi-squared = 0.9036, df = 1, p-value = 0.3418

PMCMR Determinacion de los grupos que generan diferencias significativas en la variable respuesta para las distintas poblaciones.

library(PMCMR)
library(PMCMRplus)
posthoc.kruskal.nemenyi.test(tad, genero, method = "Chisq")
      Hombre
Mujer 0.35  

CONSTRUCCION DEL MODELO Y PREDICCION

Generar modelo de regresion lineal Analice la significancia de las variables y los par?metros individuales

# establecer una semilla
set.seed(123)
#Seccionar los datos , `split ()` asigna un booleano a una nueva columna basada en el SplitRatio especificado.
split <- sample.split(pacientes,SplitRatio =0.75)
train <- subset(pacientes,split==TRUE)
test <- subset(pacientes,split==FALSE)

Entrenando nuestro modelo

Vamos a construir nuestro modelo teniendo en cuenta que COLESTEROL, IMC, EDAD son los principales influyentes en la variable objetivo TAD.

model <- lm(TAD ~ COLESTEROL + IMC + EDAD, data = train)
summary(model)

Call:
lm(formula = TAD ~ COLESTEROL + IMC + EDAD, data = train)

Residuals:
     Min       1Q   Median       3Q      Max 
-16.1807  -7.1103  -0.0403   6.1576  16.3887 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 13.98084   12.72198   1.099   0.2779    
COLESTEROL   0.17422    0.03964   4.395 7.13e-05 ***
IMC          0.63067    0.37086   1.701   0.0962 .  
EDAD         0.18637    0.18131   1.028   0.3098    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 8.189 on 43 degrees of freedom
Multiple R-squared:  0.4724,    Adjusted R-squared:  0.4356 
F-statistic: 12.83 on 3 and 43 DF,  p-value: 4.014e-06

Analisis detallado de los residuos

Visualizando nuestro modelo

Permite visualizar nuestro modelo de regresion lineal trazando los residuos. La diferencia entre el valor observado de la variable dependiente (y) y el valor predicho (y) se denomina residual (e).

res <- residuals(model)
res <- as.data.frame(res)
ggplot(res,aes(res)) +  geom_histogram(fill='purple',alpha=0.5)

plot(model)

Predicciones

Probemos nuestro modelo prediciendo en nuestro conjunto de datos de prueba.

test$predicted.TAD <- predict(model,test)
pl1 <-test %>% 
  ggplot(aes(TAD,predicted.TAD)) +
  geom_point(alpha=0.5) + 
  stat_smooth(aes(colour='red')) +
  xlab('Actual value of TAD') +
  ylab('Predicted value of TAD')+
  theme_bw()
ggplotly(pl1)

Evaluemos nuestro modelo

usando Root Mean Square Error, una medida estandarizada de cuan lejos estabamos con nuestros valores predichos.

error <- test$TAD-test$predicted.TAD
rmse <- sqrt(mean(error)^2)

Resultados y conclusiones

FORMULA

TAD = 0.17422COLESTEROL+ 0.63067IMC + 0.18637EDAD

CONCLUSIONES

El Root Mean Square Error (RMSE) para nuestro modelo es 0.18629348 y los resultados pueden mejorarse aun mas utilizando la extraccion de variables y entrenando el modelo.

