##Taller 4

polinizadores= read.table("C:\\Users\\USUARIO\\Downloads\\pollination_ants2.txt", header=T)

polinizadores
##    Trial Colony Ants Dye_removed.ng.
## 1      1      1    1      405.214447
## 2      2      3    1      729.537431
## 3      3      1    1      485.047679
## 4      4      3    1      148.824901
## 5      5      1    1      203.493025
## 6      6      3    1      316.606466
## 7      8      1    1      281.743693
## 8      9      3    1     1222.641268
## 9     13      5    1      147.134368
## 10    14      6    1      101.239414
## 11    15      5    1      647.975522
## 12    16      6    1      115.203838
## 13    17      5    1      557.397279
## 14    18      6    1      380.888806
## 15    19      5    1     1062.947136
## 16    20      6    1        1.693226
## 17     1      1    0     1034.427010
## 18     2      3    0     1439.745270
## 19     3      1    0      801.913037
## 20     4      3    0      392.883216
## 21     5      1    0      219.558082
## 22     6      3    0      263.043091
## 23     8      1    0      406.926551
## 24     9      3    0     1657.380260
## 25    13      5    0      213.508142
## 26    14      6    0      477.160034
## 27    15      5    0     1269.296556
## 28    16      6    0      231.970716
## 29    17      5    0      454.201661
## 30    18      6    0      922.499053
## 31    19      5    0     1332.391825
## 32    20      6    0        2.141238

Punto 1a:

hormigas= subset(polinizadores, Ants==1)
hormigas_no= subset(polinizadores, Ants==0)

hormigas_mean= mean(hormigas$Dye_removed.ng.)
hormigas_sd= sd(hormigas$Dye_removed.ng.)
hormigas_var= var(hormigas$Dye_removed.ng.)
hormigas_mediana= median(hormigas$Dye_removed.ng.)

hormigas_no_mean= mean(hormigas_no$Dye_removed.ng.)
hormigas_no_var= var(hormigas_no$Dye_removed.ng.)
hormigas_no_sd= sd(hormigas_no$Dye_removed.ng.)
hormigas_no_mediana= median(hormigas_no$Dye_removed.ng.)

Tabla_datos= data.frame("Tratamiento"=c("Presencia de Hormigas", "Sin presencia de hormigas"), "media"= c(hormigas_mean, hormigas_no_mean), "mediana"=c(hormigas_mediana, hormigas_no_mediana), "Desviacion estandar"=c(hormigas_sd, hormigas_no_sd), "Varianza"=c(hormigas_var, hormigas_no_var))

Tabla_datos
##                 Tratamiento    media  mediana Desviacion.estandar Varianza
## 1     Presencia de Hormigas 425.4743 348.7476            348.7062 121596.0
## 2 Sin presencia de hormigas 694.9404 465.6808            517.2954 267594.5
library(ggplot2)
ggplot(hormigas, aes(x=Dye_removed.ng.)) + geom_histogram(bins=6, color="black") + theme_classic() + ggtitle("Histograma tratamiento con hormigas")+ xlab("Cantidad de tinta removida (ng)") + ylab("Frecuencia")+ geom_vline(aes(xintercept=hormigas_mean, color="red")) +geom_vline(aes(xintercept=hormigas_mediana, color="blue")) + theme(legend.position = "none")

ggplot(hormigas_no, aes(x=Dye_removed.ng.)) + geom_histogram(bins=10, color="black") + theme_classic() + ggtitle("Histograma tratamiento sin  hormigas")+ xlab("Cantidad de tinta removida (ng)") + ylab("Frecuencia")+ geom_vline(aes(xintercept=hormigas_no_mean, color="red")) +geom_vline(aes(xintercept=hormigas_no_mediana, color="blue")) + theme(legend.position = "none")

#lineas rojas media y linea azul mediana 

Lineas rojas media y linea azul mediana

Punto 2 Una parte significativa de los datos del tratamiento sin hormigas se sobrepone a la gráfica del tratamiento con hormigas, esto significa que una parte de su distribución coincide. Sin embargo, como los histogramas no se sobreponen por completo, se logra observar que la primera distribución, es decir en la que hay presencia de hormigas, está más sesgada a la izquierda en comparación a la distribución sin hormigas que está ligeramente más centrada.

n_boot= 10^6
mediana_bootstrap_h= numeric(length=n_boot)

for (i in 1:n_boot) {bootstrap_h= sample(hormigas$Dye_removed.ng, replace=T)
mediana_bootstrap_h[i]= median(bootstrap_h)
}
  
#Bootstrap sin hormigas

mediana_bootstrap= numeric(length=n_boot)
  
for (a in 1:n_boot) {bootstrap= sample(hormigas_no$Dye_removed.ng, replace=T)
mediana_bootstrap[a]= median(bootstrap)
}
  
group= c(mediana_bootstrap, mediana_bootstrap_h)
library(ggplot2)
ggplot()+aes(mediana_bootstrap_h) + geom_histogram(bins=14, color="black")+ theme_classic()+ xlab("Medianas calculadas por Bootstrap")+ ylab("Frecuencia")+ theme(legend.position = "none")+ ggtitle("Bootstrap con Hormigas")

ggplot()+aes(mediana_bootstrap) + geom_histogram(bins=12, color="black")+ theme_classic()+ xlab("Medianas calculadas por Bootstrap")+ ylab("Frecuencia")+ ggtitle("Bootstrap sin Hormigas")+ theme(legend.position = "none")

datos= c(mediana_bootstrap_h, mediana_bootstrap)
tratamientos= c(rep("Con hormigas", 10^6), rep("Sin hormigas", 10^6))
datos_graficar= data.frame(datos, tratamientos)

library(ggplot2)
ggplot(datos_graficar, aes(x=datos, color=tratamientos))+ geom_histogram(bins=25 ,fill="white")+ ggtitle("Bootstrap Hormigas")

Punto 3:

sd_hormigas= sd(mediana_bootstrap_h)
sd_sin_hormigas=sd(mediana_bootstrap)

se=function(x)sqrt(sum((x-mean(x))^2))/length(x)
se_hormigas= se(hormigas$Dye_removed.ng)
se_sin_hormigas= se(hormigas_no$Dye_removed.ng)

datos= data.frame("Hormigas"=c("si","no"), "Error estándar Bootstrap"=c(sd_hormigas,sd_sin_hormigas), "Error estándar del estimado"= c(se_hormigas, se_sin_hormigas))
datos
##   Hormigas Error.estándar.Bootstrap Error.estándar.del.estimado
## 1       si                 101.0365                    84.40832
## 2       no                 219.1206                   125.21727

Punto 4: No, ninguno de los intervalos de confianza coincide entre las dos gráficas y esto ocurre porque las distribuciones de las medianas por Bootstrap difieren lo suficiente entre sí como para ni siquiera compartir el valor de la mediana observada.

#Punto 4 CON HORMIGAS

#Intervalo 99%
IC_99_inf_h= quantile(mediana_bootstrap_h, 0.001)
IC_99_inf_h
##     0.1% 
## 124.1869
IC_99_sup_h= quantile(mediana_bootstrap_h, 0.995)
IC_99_sup_h
##    99.5% 
## 647.9755
#Intervalo 70%
IC_70_inf_h= quantile(mediana_bootstrap_h, 0.15)
IC_70_inf_h
##      15% 
## 242.6184
IC_70_sup_h= quantile(mediana_bootstrap_h, 0.85)
IC_70_sup_h
##      85% 
## 445.1311
#Punto 4 SIN HORMIGAS

#Intervalo 99%
IC_99_inf= quantile(mediana_bootstrap, 0.001)
IC_99_inf
##     0.1% 
## 225.7644
IC_99_sup= quantile(mediana_bootstrap, 0.995)
IC_99_sup
##    99.5% 
## 1269.297
#Intervalo 70%
IC_70_inf= quantile(mediana_bootstrap, 0.15)
IC_70_inf
##      15% 
## 399.9049
IC_70_sup= quantile(mediana_bootstrap,0.85 )
IC_70_sup
##     85% 
## 862.206
#GRAFICAS


library(cowplot)
library(ggplot2)
#CON HORMIGAS
ggplot()+ aes(mediana_bootstrap_h)+ geom_histogram(bins=20, color='#FFFFFF', fill='#a387a2')+ggtitle("Medianas Bootstrap con hormigas") +geom_vline(aes(xintercept=hormigas_mediana, color="mediana_observado"), linetype="dotted", size=1)+ geom_vline(aes(xintercept= IC_99_inf_h, color="IC_99"), linetype="longdash",size=1)+ geom_vline(aes(xintercept= IC_99_sup_h, color="IC_99"), linetype="longdash",size=1)+ geom_vline(aes(xintercept= IC_70_inf_h, color="IC_70"), linetype="longdash",size=1)+ geom_vline(aes(xintercept= IC_70_sup_h, color="IC_70"), linetype="longdash",size=1)+ labs(x="Medianas Calculadas por Bootstrap", y="Frecuencia")+scale_color_manual(name='', breaks=c("mediana_observado", "IC_99", "IC_70"), labels=c("Mediana del Observado", "IC 99%", "IC 70%"), values=c(mediana_observado='#e7298a', IC_99='#1b9e77', IC_70='#7570b3'))+ cowplot::theme_half_open()+ theme(legend.position = "bottom")

#SIN HORMIGAS
ggplot()+ aes(mediana_bootstrap)+ geom_histogram(bins=14, color='#FFFFFF', fill='#a387a2')+ggtitle("Medianas Bootstrap sin hormigas") +geom_vline(aes(xintercept=hormigas_no_mediana, color="mediana_observado"), linetype="dotted", size=1)+ geom_vline(aes(xintercept= IC_99_inf, color="IC_99"), linetype="longdash",size=1)+ geom_vline(aes(xintercept= IC_99_sup, color="IC_99"), linetype="longdash",size=1)+ geom_vline(aes(xintercept= IC_70_inf, color="IC_70"), linetype="longdash",size=1)+ geom_vline(aes(xintercept= IC_70_sup, color="IC_70"), linetype="longdash",size=1)+ labs(x="Medianas Calculadas por Bootstrap", y="Frecuencia")+scale_color_manual(name='', breaks=c("mediana_observado", "IC_99", "IC_70"), labels=c("Mediana del Observado", "IC 99%", "IC 70%"), values=c(mediana_observado='#e7298a', IC_99='#1b9e77', IC_70='#7570b3'))+ cowplot::theme_half_open()+ theme(legend.position = "bottom")

Punto 5: Según los datos y la información registrada en graficas con la herramienta de bootstrap y las permutaciones es posible afirmar que existe cierta diferencia entre ambas, ya que, en la gráfica de las permutaciones el punto más alto para la frecuencia de las medianas se encuentra en el centro,mientras que , en la gráfica para medianas de la herramienta bootstrap este punto se encuentra hacia la izquierda dando a entender que la mediana con mayor frecuencia tiende más hacia 300.