##Pep 2 Cristopher Angulo , Carlos Mora

library("plyr")          
tabla=read.csv("pregunta1.csv",header=T,sep=";")
tabla
##    algoritmo      rmsd
## 1        LS1 2.1846363
## 2        LS1 3.0838441
## 3        LS1 1.9524522
## 4        LS1 4.6507617
## 5        LS1 3.2457536
## 6        LS1 1.9692801
## 7        LS1 3.4210462
## 8        LS1 3.6995404
## 9        LS1 3.5191173
## 10       LS1 2.5410189
## 11       LS1 4.5580771
## 12       LS1 3.3127260
## 13       LS1 2.1904230
## 14       LS1 0.4216831
## 15       LS1 4.1286733
## 16       LS1 2.8301237
## 17       LS1 2.8620288
## 18       LS1 3.9276582
## 19       LS1 3.7915555
## 20       LS1 3.5392305
## 21       LS1 3.9000649
## 22       LS1 3.7481713
## 23       LS1 2.9627671
## 24       LS1 0.6718196
## 25       LS1 3.5680066
## 26       LS1 2.8176971
## 27       LS1 2.7070670
## 28       LS1 1.2474649
## 29       LS1 2.3492534
## 30       LS1 3.3439151
## 31       LS1 4.3881343
## 32       LS2 3.4392680
## 33       LS2 3.9199182
## 34       LS2 3.4872711
## 35       LS2 2.1904816
## 36       LS2 3.1333053
## 37       LS2 3.1535958
## 38       LS2 3.4818729
## 39       LS2 4.6180249
## 40       LS2 4.2879122
## 41       LS2 3.3787669
## 42       LS2 3.2917056
## 43       LS2 4.2230241
## 44       LS2 4.0855299
## 45       LS2 2.8650194
## 46       LS2 2.8466547
## 47       LS2 3.8972903
## 48       LS2 4.2931623
## 49       LS2 3.4299007
## 50       LS2 4.4034856
## 51       LS2 3.9301438
## 52       LS2 2.9402141
## 53       LS2 3.8742973
## 54       LS2 2.4332242
## 55       LS2 4.9443632
## 56       LS2 5.4807919
## 57       LS2 3.1801230
## 58       LS2 2.5167481
## 59       LS2 4.0983252
## 60       LS2 3.4076465
## 61       LS2 5.8935854
## 62       LS2 3.5015448
algoritmo <- tabla$algoritmo
rmsd <- tabla$rmsd

#Construcción de Gráfico de Caja
library("ggplot2")
g=ggplot(tabla, aes(algoritmo,rmsd)) +  geom_boxplot(fill = "paleturquoise", color = "cadetblue4") + 
  labs(x="Algoritmo", y="Rmsd") +
  theme_bw() +
  theme(panel.grid.major = element_blank(), panel.grid.minor = element_blank()) + theme(text = element_text(size = 12)) 
plot(g)

Utilizamos estadistica descriptiva para observar los datos y analizar alguna hipotesis, recordar que con estadistica descriptiva no se concluye nada, para eso analizaremos los datos recopilados y con estadistica inferencial determinaremos una posible hipotesis.

Including Plots

  1. Pregunta 1 - (20 puntos) Uno de los principales desafíos en el campo de la Bioinformática es la predicción de la estructuras tridimensional de proteínas usando como base su estructura primaria (secuencias de aminoácidos). Este problema complejo, NP-hard, es abordado en ciencia de la computación como un problema de optimización usando algoritmos de aproximación estocásticos.

El trabajo desarrollado por (Inostroza-Ponta et al. 2020) propuso varios algoritmos para lidiar con este problema, dos de ellos son LS1 y LS2. En su trabajo estos algoritmos fueron ejecutados 31 veces para predecir la estructura de la proteína 3P7K, registrando los errores entre a la estructura original de la proteína y su estimación para cada ejecución (RMSD). Los resultados simulados basados en la media y desviación estándar de la publicación se pueden descargar desde este sitio.

Analice los datos y determine si uno de los dos algoritmos logró predicciones con menor error para la proteína 3P7K. Contextualice su respuesta para el problema.

Analizamos el conjunto de datos

library("psych")
## 
## Attaching package: 'psych'
## The following objects are masked from 'package:ggplot2':
## 
##     %+%, alpha
estadisticos=describeBy(tabla$rmsd,tabla$algoritmo, mat = F)
print(estadisticos)
## 
##  Descriptive statistics by group 
## group: LS1
##    vars  n mean   sd median trimmed  mad  min  max range  skew kurtosis   se
## X1    1 31 3.02 1.04   3.25     3.1 0.81 0.42 4.65  4.23 -0.71     0.02 0.19
## ------------------------------------------------------------ 
## group: LS2
##    vars  n mean   sd median trimmed  mad  min  max range skew kurtosis   se
## X1    1 31  3.7 0.84   3.49    3.65 0.81 2.19 5.89   3.7 0.58     0.15 0.15

Aplicamos los test de normalidad

#Normalidad
library("nortest")
# Conjunto completo
t1a=lillie.test(tabla$rmsd)
t1b=shapiro.test(tabla$rmsd)
print(t1a)
## 
##  Lilliefors (Kolmogorov-Smirnov) normality test
## 
## data:  tabla$rmsd
## D = 0.084635, p-value = 0.3295
print(t1b)
## 
##  Shapiro-Wilk normality test
## 
## data:  tabla$rmsd
## W = 0.9729, p-value = 0.1858

Test normalidad

t1a=lillie.test(tabla$rmsd[which(tabla$algoritmo=="LS1")])
t1b=shapiro.test(tabla$rmsd[which(tabla$algoritmo=="LS1")])
print(t1a)
## 
##  Lilliefors (Kolmogorov-Smirnov) normality test
## 
## data:  tabla$rmsd[which(tabla$algoritmo == "LS1")]
## D = 0.10308, p-value = 0.5483
print(t1b)
## 
##  Shapiro-Wilk normality test
## 
## data:  tabla$rmsd[which(tabla$algoritmo == "LS1")]
## W = 0.95131, p-value = 0.1696

Test normalidad

t1a=lillie.test(tabla$rmsd[which(tabla$algoritmo=="LS2")])
t1b=shapiro.test(tabla$rmsd[which(tabla$algoritmo=="LS2")])
print(t1a)
## 
##  Lilliefors (Kolmogorov-Smirnov) normality test
## 
## data:  tabla$rmsd[which(tabla$algoritmo == "LS2")]
## D = 0.14078, p-value = 0.1216
print(t1b)
## 
##  Shapiro-Wilk normality test
## 
## data:  tabla$rmsd[which(tabla$algoritmo == "LS2")]
## W = 0.96629, p-value = 0.4232

Podemos complementar el análisis con un gráfico QQ.

#QQplot
qqnorm(tabla$rmsd, pch = 19, col = "red")
qqline(tabla$rmsd)

LS1 =(tabla$rmsd[which(tabla$algoritmo=="LS1")])
LS2 =(tabla$rmsd[which(tabla$algoritmo=="LS2")])
      
t.test(LS1,LS2,alternative ='two.sided') 
## 
##  Welch Two Sample t-test
## 
## data:  LS1 and LS2
## t = -2.8348, df = 57.43, p-value = 0.006319
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -1.1609879 -0.1998641
## sample estimates:
## mean of x mean of y 
##  3.017226  3.697652

Hipotesis Nula son distintos. La hipotesis alternativa el rendimiento algoritmo 1 (LS1) es igual al LS2

LS1 =(tabla$rmsd[which(tabla$algoritmo=="LS1")])
LS2 =(tabla$rmsd[which(tabla$algoritmo=="LS2")])
      
t.test(LS1,LS2,alternative ='less') 
## 
##  Welch Two Sample t-test
## 
## data:  LS1 and LS2
## t = -2.8348, df = 57.43, p-value = 0.00316
## alternative hypothesis: true difference in means is less than 0
## 95 percent confidence interval:
##        -Inf -0.2791485
## sample estimates:
## mean of x mean of y 
##  3.017226  3.697652

Conclusion determinamos que en base a la hipotesis nula,el algoritmo LS1 modela de mejor manera la proteina 3P7K.

LS1 =(tabla$rmsd[which(tabla$algoritmo=="LS1")])
LS2 =(tabla$rmsd[which(tabla$algoritmo=="LS2")])
      
t.test(LS1,LS2,alternative ='greater') 
## 
##  Welch Two Sample t-test
## 
## data:  LS1 and LS2
## t = -2.8348, df = 57.43, p-value = 0.9968
## alternative hypothesis: true difference in means is greater than 0
## 95 percent confidence interval:
##  -1.081703       Inf
## sample estimates:
## mean of x mean of y 
##  3.017226  3.697652

2)b. Pregunta 2 - (20 puntos) Un estudio desarrollado en Cuba analizó la relación entre la enfermedad renal quística adquirida (ERQA) (Bacallao 2014), y su relación con variables clínicas, demográficas y antropométricas en pacientes dialíticos.

Los autores indicaron como parte de los resultados de su estudio, la existencia de una relación “directa” y “moderada” entre el tiempo de duración de las sesiones de hemodiálisis (meses) y número de quistes en los pacientes. Al capturar los datos originales del estudio (Descarga) usando la herramienta WebPlotDigitizer y la biblioteca ggplot2, se obtuvo el siguiente gráfico:

tabla2=read.csv("pregunta2.csv",header=T,sep=";")
tabla2
##        Tiempo    Quistes
## 1    4.620396  1.3164532
## 2    5.049079  3.9352753
## 3    8.640541  2.6390862
## 4    9.917782  0.8157218
## 5   10.041642  4.0088321
## 6   13.114726  3.4055535
## 7   14.680481  1.1791109
## 8   17.858746  0.9292822
## 9   25.135082  1.2191531
## 10  27.479735  5.8164147
## 11  37.288605  1.2022243
## 12  42.628569  0.9534868
## 13  48.256577  1.1704088
## 14  48.945405  5.9817460
## 15  49.080463 15.6198155
## 16  51.214961  1.0077153
## 17  61.450143  5.8147945
## 18  61.480860  2.8791075
## 19  61.502253  0.8345347
## 20  66.609588  8.7273225
## 21  73.758939  1.8283937
## 22  73.898562  6.0201328
## 23  77.717863  6.7474010
## 24  86.037419  8.2547082
## 25  86.220830  5.7564333
## 26  86.353977 15.5771455
## 27  86.395869 11.5734758
## 28  86.886631  9.7623565
## 29  98.169345 13.6568653
## 30  98.508754  3.7648810
## 31 110.488062  8.7223188
## 32 122.464995 13.9068126
## 33 122.642199 19.5170096
## 34 147.401211 20.5744661
## 35 147.740168 10.7256474
## 36 152.396168 16.6615666
## 37 160.183105 16.4651442
## 38 172.161852 21.4762271
## 39 172.306174  7.6832031
## 40 172.356913 25.3797620
## 41 172.469267 14.6420126
## 42 184.448969 28.5801040
## 43 184.541870 10.6831386
## 44 209.157518 25.4420483
## 45 233.394532 31.2960353
## 46 258.174931 52.8553143
## 47 258.421071 29.3313218
## 48 332.476497  8.5916193
#QQplot
plot(tabla2$Quistes~tabla2$Tiempo,data=iris)

Grafico 1

library(Rarity)
## 
## Attaching package: 'Rarity'
## The following object is masked from 'package:psych':
## 
##     corPlot
corPlot(tabla2,method='pearson')

Grafico 2

cor.test(tabla2$Tiempo, tabla2$Quistes, method=c("pearson"))
## 
##  Pearson's product-moment correlation
## 
## data:  tabla2$Tiempo and tabla2$Quistes
## t = 7.7424, df = 46, p-value = 7.107e-10
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.5953051 0.8538496
## sample estimates:
##       cor 
## 0.7522064
regresion= lm(tabla2$Quistes~tabla2$Tiempo,tabla2)
print(regresion)
## 
## Call:
## lm(formula = tabla2$Quistes ~ tabla2$Tiempo, data = tabla2)
## 
## Coefficients:
##   (Intercept)  tabla2$Tiempo  
##        0.4155         0.1024
print(summary(regresion))
## 
## Call:
## lm(formula = tabla2$Quistes ~ tabla2$Tiempo, data = tabla2)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -25.8814  -3.4532   0.0344   2.6901  25.9934 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)    0.41550    1.67406   0.248    0.805    
## tabla2$Tiempo  0.10244    0.01323   7.742 7.11e-10 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 7.026 on 46 degrees of freedom
## Multiple R-squared:  0.5658, Adjusted R-squared:  0.5564 
## F-statistic: 59.95 on 1 and 46 DF,  p-value: 7.107e-10
confint(regresion,level = 0.95)
##                    2.5 %    97.5 %
## (Intercept)   -2.9541954 3.7852028
## tabla2$Tiempo  0.0758044 0.1290673

en base al resultado el intercepto no incide en la regresion (p-value= 0.85) en base al resultado la pendiente incide en ls regresion (p.value = 7.11e-10 )

## Warning: Use of `tabla2$Quistes` is discouraged. Use `Quistes` instead.
## Warning: Use of `tabla2$Tiempo` is discouraged. Use `Tiempo` instead.
## Warning: Use of `tabla2$Quistes` is discouraged. Use `Quistes` instead.
## Warning: Use of `tabla2$Tiempo` is discouraged. Use `Tiempo` instead.
## Warning: Use of `tabla2$Quistes` is discouraged. Use `Quistes` instead.
## Warning: Use of `tabla2$Tiempo` is discouraged. Use `Tiempo` instead.

3)c.Pregunta 3 - (20 puntos) El trabajo desarrollado por (Navarrete-Mejía 2020) evaluó si la diabetes e hipertensión arterial son factores de riesgo de mortalidad en pacientes con Covid-19. Para ello, los autores analizaron datos de pacientes mayores a 30 años atendidos en el Hospital de Emergencia Ate Vitarte (HEAV) en los meses de marzo y agosto 2020. La totalidad de pacientes tenía diagnóstico confirmado COVID-19.

El resumen de pacientes fallecidos y no fallecidos (alta médica) para cada comorbilidad es el siguiente:

Factor de riesgo Paciente fallecido Paciente alta Con diabetes 111 169 Sin diabetes 542 1125 Factor de riesgo Paciente fallecido Paciente alta Con hipertensión 157 186 Sin hipertensión 496 1108 Determine si la diabetes e hipertensión son factores de riesgo para la mortalidad en pacientes COVID-19. Estudie ambas comorbilidades de manera independiente. Analice los resultados obtenidos contextualizando su respuesta al problema.

Prueba No pareada.

diabeticos=c(111,169)
nodiabeticos=c(542,1125)

muestra1= cbind(diabeticos,nodiabeticos)


hipertension=c(157,186)
nohipertension=c(496,1108)
muestra2= cbind(hipertension,nohipertension)

rownames(muestra1) <- c("Con diabetes", "Sin diabetes")
rownames(muestra2) <- c("Con hipertension", "Sin hipertension")
colnames(muestra1) <- c("Paciente fallecido", "Paciente alta")
colnames(muestra2) <- c("Paciente fallecido", "Paciente alta")
muestra1
##              Paciente fallecido Paciente alta
## Con diabetes                111           542
## Sin diabetes                169          1125
muestra2
##                  Paciente fallecido Paciente alta
## Con hipertension                157           496
## Sin hipertension                186          1108
chisq.test(muestra1,correct = F)
## 
##  Pearson's Chi-squared test
## 
## data:  muestra1
## X-squared = 5.4665, df = 1, p-value = 0.01938
chisq.test(muestra2,correct = F)
## 
##  Pearson's Chi-squared test
## 
## data:  muestra2
## X-squared = 27.955, df = 1, p-value = 1.242e-07

Cita: el caso particular de la diabetes y la HTA son considerados factores de riesgo para un resultado desfavorable, sin embargo, aun la evidencia científica (6) es contradictoria

Link : http://www.scielo.org.pe/pdf/rcmhnaaa/v13n4/2227-4731-rcmhnaaa-13-04-361.pdf

Podemos concluir que la la diabetes no es un factor de riesgo, ya que, su p-value=0.01938, por ende rechazamos nuestra hipotesis nula que es :una enfermedad que es un factor de riesgo mortalidad de los pacientes con COVID19.

hipertension P-value cercano a 1.242e-07 , por ende rechazamos la hipotesis nula: una enfermedad que es un factor de riesgo mortalidad de los pacientes con COVID19.

Por ende aceptamos la hipotesis altenativa : No es un factor de riesgo.