##Pep 2 Cristopher Angulo , Carlos Mora
library("plyr")
tabla=read.csv("pregunta1.csv",header=T,sep=";")
tabla
## algoritmo rmsd
## 1 LS1 2.1846363
## 2 LS1 3.0838441
## 3 LS1 1.9524522
## 4 LS1 4.6507617
## 5 LS1 3.2457536
## 6 LS1 1.9692801
## 7 LS1 3.4210462
## 8 LS1 3.6995404
## 9 LS1 3.5191173
## 10 LS1 2.5410189
## 11 LS1 4.5580771
## 12 LS1 3.3127260
## 13 LS1 2.1904230
## 14 LS1 0.4216831
## 15 LS1 4.1286733
## 16 LS1 2.8301237
## 17 LS1 2.8620288
## 18 LS1 3.9276582
## 19 LS1 3.7915555
## 20 LS1 3.5392305
## 21 LS1 3.9000649
## 22 LS1 3.7481713
## 23 LS1 2.9627671
## 24 LS1 0.6718196
## 25 LS1 3.5680066
## 26 LS1 2.8176971
## 27 LS1 2.7070670
## 28 LS1 1.2474649
## 29 LS1 2.3492534
## 30 LS1 3.3439151
## 31 LS1 4.3881343
## 32 LS2 3.4392680
## 33 LS2 3.9199182
## 34 LS2 3.4872711
## 35 LS2 2.1904816
## 36 LS2 3.1333053
## 37 LS2 3.1535958
## 38 LS2 3.4818729
## 39 LS2 4.6180249
## 40 LS2 4.2879122
## 41 LS2 3.3787669
## 42 LS2 3.2917056
## 43 LS2 4.2230241
## 44 LS2 4.0855299
## 45 LS2 2.8650194
## 46 LS2 2.8466547
## 47 LS2 3.8972903
## 48 LS2 4.2931623
## 49 LS2 3.4299007
## 50 LS2 4.4034856
## 51 LS2 3.9301438
## 52 LS2 2.9402141
## 53 LS2 3.8742973
## 54 LS2 2.4332242
## 55 LS2 4.9443632
## 56 LS2 5.4807919
## 57 LS2 3.1801230
## 58 LS2 2.5167481
## 59 LS2 4.0983252
## 60 LS2 3.4076465
## 61 LS2 5.8935854
## 62 LS2 3.5015448
algoritmo <- tabla$algoritmo
rmsd <- tabla$rmsd
#Construcción de Gráfico de Caja
library("ggplot2")
g=ggplot(tabla, aes(algoritmo,rmsd)) + geom_boxplot(fill = "paleturquoise", color = "cadetblue4") +
labs(x="Algoritmo", y="Rmsd") +
theme_bw() +
theme(panel.grid.major = element_blank(), panel.grid.minor = element_blank()) + theme(text = element_text(size = 12))
plot(g)
Utilizamos estadistica descriptiva para observar los datos y analizar alguna hipotesis, recordar que con estadistica descriptiva no se concluye nada, para eso analizaremos los datos recopilados y con estadistica inferencial determinaremos una posible hipotesis.
El trabajo desarrollado por (Inostroza-Ponta et al. 2020) propuso varios algoritmos para lidiar con este problema, dos de ellos son LS1 y LS2. En su trabajo estos algoritmos fueron ejecutados 31 veces para predecir la estructura de la proteína 3P7K, registrando los errores entre a la estructura original de la proteína y su estimación para cada ejecución (RMSD). Los resultados simulados basados en la media y desviación estándar de la publicación se pueden descargar desde este sitio.
Analice los datos y determine si uno de los dos algoritmos logró predicciones con menor error para la proteína 3P7K. Contextualice su respuesta para el problema.
Analizamos el conjunto de datos
library("psych")
##
## Attaching package: 'psych'
## The following objects are masked from 'package:ggplot2':
##
## %+%, alpha
estadisticos=describeBy(tabla$rmsd,tabla$algoritmo, mat = F)
print(estadisticos)
##
## Descriptive statistics by group
## group: LS1
## vars n mean sd median trimmed mad min max range skew kurtosis se
## X1 1 31 3.02 1.04 3.25 3.1 0.81 0.42 4.65 4.23 -0.71 0.02 0.19
## ------------------------------------------------------------
## group: LS2
## vars n mean sd median trimmed mad min max range skew kurtosis se
## X1 1 31 3.7 0.84 3.49 3.65 0.81 2.19 5.89 3.7 0.58 0.15 0.15
Aplicamos los test de normalidad
#Normalidad
library("nortest")
# Conjunto completo
t1a=lillie.test(tabla$rmsd)
t1b=shapiro.test(tabla$rmsd)
print(t1a)
##
## Lilliefors (Kolmogorov-Smirnov) normality test
##
## data: tabla$rmsd
## D = 0.084635, p-value = 0.3295
print(t1b)
##
## Shapiro-Wilk normality test
##
## data: tabla$rmsd
## W = 0.9729, p-value = 0.1858
Test normalidad
t1a=lillie.test(tabla$rmsd[which(tabla$algoritmo=="LS1")])
t1b=shapiro.test(tabla$rmsd[which(tabla$algoritmo=="LS1")])
print(t1a)
##
## Lilliefors (Kolmogorov-Smirnov) normality test
##
## data: tabla$rmsd[which(tabla$algoritmo == "LS1")]
## D = 0.10308, p-value = 0.5483
print(t1b)
##
## Shapiro-Wilk normality test
##
## data: tabla$rmsd[which(tabla$algoritmo == "LS1")]
## W = 0.95131, p-value = 0.1696
Test normalidad
t1a=lillie.test(tabla$rmsd[which(tabla$algoritmo=="LS2")])
t1b=shapiro.test(tabla$rmsd[which(tabla$algoritmo=="LS2")])
print(t1a)
##
## Lilliefors (Kolmogorov-Smirnov) normality test
##
## data: tabla$rmsd[which(tabla$algoritmo == "LS2")]
## D = 0.14078, p-value = 0.1216
print(t1b)
##
## Shapiro-Wilk normality test
##
## data: tabla$rmsd[which(tabla$algoritmo == "LS2")]
## W = 0.96629, p-value = 0.4232
Podemos complementar el análisis con un gráfico QQ.
#QQplot
qqnorm(tabla$rmsd, pch = 19, col = "red")
qqline(tabla$rmsd)
LS1 =(tabla$rmsd[which(tabla$algoritmo=="LS1")])
LS2 =(tabla$rmsd[which(tabla$algoritmo=="LS2")])
t.test(LS1,LS2,alternative ='two.sided')
##
## Welch Two Sample t-test
##
## data: LS1 and LS2
## t = -2.8348, df = 57.43, p-value = 0.006319
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -1.1609879 -0.1998641
## sample estimates:
## mean of x mean of y
## 3.017226 3.697652
Hipotesis Nula son distintos. La hipotesis alternativa el rendimiento algoritmo 1 (LS1) es igual al LS2
LS1 =(tabla$rmsd[which(tabla$algoritmo=="LS1")])
LS2 =(tabla$rmsd[which(tabla$algoritmo=="LS2")])
t.test(LS1,LS2,alternative ='less')
##
## Welch Two Sample t-test
##
## data: LS1 and LS2
## t = -2.8348, df = 57.43, p-value = 0.00316
## alternative hypothesis: true difference in means is less than 0
## 95 percent confidence interval:
## -Inf -0.2791485
## sample estimates:
## mean of x mean of y
## 3.017226 3.697652
Conclusion determinamos que en base a la hipotesis nula,el algoritmo LS1 modela de mejor manera la proteina 3P7K.
LS1 =(tabla$rmsd[which(tabla$algoritmo=="LS1")])
LS2 =(tabla$rmsd[which(tabla$algoritmo=="LS2")])
t.test(LS1,LS2,alternative ='greater')
##
## Welch Two Sample t-test
##
## data: LS1 and LS2
## t = -2.8348, df = 57.43, p-value = 0.9968
## alternative hypothesis: true difference in means is greater than 0
## 95 percent confidence interval:
## -1.081703 Inf
## sample estimates:
## mean of x mean of y
## 3.017226 3.697652
2)b. Pregunta 2 - (20 puntos) Un estudio desarrollado en Cuba analizó la relación entre la enfermedad renal quística adquirida (ERQA) (Bacallao 2014), y su relación con variables clínicas, demográficas y antropométricas en pacientes dialíticos.
Los autores indicaron como parte de los resultados de su estudio, la existencia de una relación “directa” y “moderada” entre el tiempo de duración de las sesiones de hemodiálisis (meses) y número de quistes en los pacientes. Al capturar los datos originales del estudio (Descarga) usando la herramienta WebPlotDigitizer y la biblioteca ggplot2, se obtuvo el siguiente gráfico:
tabla2=read.csv("pregunta2.csv",header=T,sep=";")
tabla2
## Tiempo Quistes
## 1 4.620396 1.3164532
## 2 5.049079 3.9352753
## 3 8.640541 2.6390862
## 4 9.917782 0.8157218
## 5 10.041642 4.0088321
## 6 13.114726 3.4055535
## 7 14.680481 1.1791109
## 8 17.858746 0.9292822
## 9 25.135082 1.2191531
## 10 27.479735 5.8164147
## 11 37.288605 1.2022243
## 12 42.628569 0.9534868
## 13 48.256577 1.1704088
## 14 48.945405 5.9817460
## 15 49.080463 15.6198155
## 16 51.214961 1.0077153
## 17 61.450143 5.8147945
## 18 61.480860 2.8791075
## 19 61.502253 0.8345347
## 20 66.609588 8.7273225
## 21 73.758939 1.8283937
## 22 73.898562 6.0201328
## 23 77.717863 6.7474010
## 24 86.037419 8.2547082
## 25 86.220830 5.7564333
## 26 86.353977 15.5771455
## 27 86.395869 11.5734758
## 28 86.886631 9.7623565
## 29 98.169345 13.6568653
## 30 98.508754 3.7648810
## 31 110.488062 8.7223188
## 32 122.464995 13.9068126
## 33 122.642199 19.5170096
## 34 147.401211 20.5744661
## 35 147.740168 10.7256474
## 36 152.396168 16.6615666
## 37 160.183105 16.4651442
## 38 172.161852 21.4762271
## 39 172.306174 7.6832031
## 40 172.356913 25.3797620
## 41 172.469267 14.6420126
## 42 184.448969 28.5801040
## 43 184.541870 10.6831386
## 44 209.157518 25.4420483
## 45 233.394532 31.2960353
## 46 258.174931 52.8553143
## 47 258.421071 29.3313218
## 48 332.476497 8.5916193
#QQplot
plot(tabla2$Quistes~tabla2$Tiempo,data=iris)
Grafico 1
library(Rarity)
##
## Attaching package: 'Rarity'
## The following object is masked from 'package:psych':
##
## corPlot
corPlot(tabla2,method='pearson')
Grafico 2
cor.test(tabla2$Tiempo, tabla2$Quistes, method=c("pearson"))
##
## Pearson's product-moment correlation
##
## data: tabla2$Tiempo and tabla2$Quistes
## t = 7.7424, df = 46, p-value = 7.107e-10
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.5953051 0.8538496
## sample estimates:
## cor
## 0.7522064
regresion= lm(tabla2$Quistes~tabla2$Tiempo,tabla2)
print(regresion)
##
## Call:
## lm(formula = tabla2$Quistes ~ tabla2$Tiempo, data = tabla2)
##
## Coefficients:
## (Intercept) tabla2$Tiempo
## 0.4155 0.1024
print(summary(regresion))
##
## Call:
## lm(formula = tabla2$Quistes ~ tabla2$Tiempo, data = tabla2)
##
## Residuals:
## Min 1Q Median 3Q Max
## -25.8814 -3.4532 0.0344 2.6901 25.9934
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.41550 1.67406 0.248 0.805
## tabla2$Tiempo 0.10244 0.01323 7.742 7.11e-10 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 7.026 on 46 degrees of freedom
## Multiple R-squared: 0.5658, Adjusted R-squared: 0.5564
## F-statistic: 59.95 on 1 and 46 DF, p-value: 7.107e-10
confint(regresion,level = 0.95)
## 2.5 % 97.5 %
## (Intercept) -2.9541954 3.7852028
## tabla2$Tiempo 0.0758044 0.1290673
en base al resultado el intercepto no incide en la regresion (p-value= 0.85) en base al resultado la pendiente incide en ls regresion (p.value = 7.11e-10 )
## Warning: Use of `tabla2$Quistes` is discouraged. Use `Quistes` instead.
## Warning: Use of `tabla2$Tiempo` is discouraged. Use `Tiempo` instead.
## Warning: Use of `tabla2$Quistes` is discouraged. Use `Quistes` instead.
## Warning: Use of `tabla2$Tiempo` is discouraged. Use `Tiempo` instead.
## Warning: Use of `tabla2$Quistes` is discouraged. Use `Quistes` instead.
## Warning: Use of `tabla2$Tiempo` is discouraged. Use `Tiempo` instead.
3)c.Pregunta 3 - (20 puntos) El trabajo desarrollado por (Navarrete-Mejía 2020) evaluó si la diabetes e hipertensión arterial son factores de riesgo de mortalidad en pacientes con Covid-19. Para ello, los autores analizaron datos de pacientes mayores a 30 años atendidos en el Hospital de Emergencia Ate Vitarte (HEAV) en los meses de marzo y agosto 2020. La totalidad de pacientes tenía diagnóstico confirmado COVID-19.
El resumen de pacientes fallecidos y no fallecidos (alta médica) para cada comorbilidad es el siguiente:
Factor de riesgo Paciente fallecido Paciente alta Con diabetes 111 169 Sin diabetes 542 1125 Factor de riesgo Paciente fallecido Paciente alta Con hipertensión 157 186 Sin hipertensión 496 1108 Determine si la diabetes e hipertensión son factores de riesgo para la mortalidad en pacientes COVID-19. Estudie ambas comorbilidades de manera independiente. Analice los resultados obtenidos contextualizando su respuesta al problema.
Prueba No pareada.
diabeticos=c(111,169)
nodiabeticos=c(542,1125)
muestra1= cbind(diabeticos,nodiabeticos)
hipertension=c(157,186)
nohipertension=c(496,1108)
muestra2= cbind(hipertension,nohipertension)
rownames(muestra1) <- c("Con diabetes", "Sin diabetes")
rownames(muestra2) <- c("Con hipertension", "Sin hipertension")
colnames(muestra1) <- c("Paciente fallecido", "Paciente alta")
colnames(muestra2) <- c("Paciente fallecido", "Paciente alta")
muestra1
## Paciente fallecido Paciente alta
## Con diabetes 111 542
## Sin diabetes 169 1125
muestra2
## Paciente fallecido Paciente alta
## Con hipertension 157 496
## Sin hipertension 186 1108
chisq.test(muestra1,correct = F)
##
## Pearson's Chi-squared test
##
## data: muestra1
## X-squared = 5.4665, df = 1, p-value = 0.01938
chisq.test(muestra2,correct = F)
##
## Pearson's Chi-squared test
##
## data: muestra2
## X-squared = 27.955, df = 1, p-value = 1.242e-07
Cita: el caso particular de la diabetes y la HTA son considerados factores de riesgo para un resultado desfavorable, sin embargo, aun la evidencia científica (6) es contradictoria
Link : http://www.scielo.org.pe/pdf/rcmhnaaa/v13n4/2227-4731-rcmhnaaa-13-04-361.pdf
Podemos concluir que la la diabetes no es un factor de riesgo, ya que, su p-value=0.01938, por ende rechazamos nuestra hipotesis nula que es :una enfermedad que es un factor de riesgo mortalidad de los pacientes con COVID19.
hipertension P-value cercano a 1.242e-07 , por ende rechazamos la hipotesis nula: una enfermedad que es un factor de riesgo mortalidad de los pacientes con COVID19.
Por ende aceptamos la hipotesis altenativa : No es un factor de riesgo.