Taller Inferencia estadística y simulación

Paola Andrea León Acosta

1. El Teorema del Limite Central es uno de los mas importantes en la inferencia estadística y habla sobre la convergencia de los estimadores como la proporción muestral a la distribución normal. Algunos autores afirman que esta aproximación es bastante buena a partir del umbral n>30.

a. Realice una simulación en la cual genere una población de N=1000 (Lote) y además que el porcentaje de individuos (plantas) enfermas es del 50%.

Generador_poblacion=function(n,porcentaje_sanas,porcentaje_enfermas)
{
Poblacion=c(rep("enferma",n*porcentaje_enfermas),rep("sana",n*porcentaje_sanas))
return(Poblacion)
}
poblacion1=1000
p_sanas=0.5
p_enfermas=0.5
Poblacion=Generador_poblacion(poblacion1,p_sanas,p_enfermas)

b. Genere una función que permita obtener una muestra aleatoria de la población y calcule el estimador de la proporción muestral para un tamaño de muestra dado n

Generador_muestra=function(n_muestra)
{
muestra1=sample(Poblacion,size=n_muestra)
return(sum(muestra1=="enferma")/n_muestra)
}

generador_multmuestras=function(n_muestra,numero_muestras)
{
return(sapply(rep(n_muestra,numero_muestras),Generador_muestra))
}
generador_multmuestras(100,1)

## [1] 0.52

c. Repita el escenario anterior (b) 500 veces y analice los resultados en cuanto al comportamiento de los 500 estimadores. ¿Qué tan simétricos son los datos?, ¿Son sesgados y que pasa en cuanto a variabilidad?.

Respuesta: Los estimadores calculados en las 500 muestras de tamaño 100, tienen un comportamiento simétrico con respecto a la media de 0.497, se puede evidenciar que el estimador cumple con la propiedad de ser un estimador insesgado, ya que el promedio de los estimadores obtenidos en las 500 muestras se acerca al parámetro de la población que corresponde al 0.5. El intervalo de confianza para este estimador seria de 0.398 a 0.596 con un nivel de confianza del 95%

En cuanto a la variabilidad de los estimadores de las 500 muestras obtenidas de tamaño 100, se obtuvo una desviación estándar de 0.0465, muy cercana a la desviación calculada para el parámetro de propoción para una muestra de 100 que corresponde a 0.05, es una variabilidad mínima ya que en su mayoría lo estimadores se obtuvieron en el rango de 0.44 a 0.53, que son valores muy cercanos al parámetro de la población de 0.5. Se puede concluir que el estimador cumple con las propiedades de ser insesgado y de eficiencia, lo que indica que es un estimador correcto para estimar el parámetro de proporción de la población

require(ggplot2)

## Loading required package: ggplot2

require(ggpubr)

## Loading required package: ggpubr

require(psych)

## Loading required package: psych

## 
## Attaching package: 'psych'

## The following objects are masked from 'package:ggplot2':
## 
##     %+%, alpha

n=100
n_repeticiones=500
estimadores=generador_multmuestras(n,n_repeticiones)
estimadores_graf=data.frame(estimadores)
table1::table1(~estimadores, data = estimadores_graf)

	Overall (N=500)
estimadores
Mean (SD)	0.497 (0.0480)
Median [Min, Max]	0.500 [0.330, 0.650]

g1=ggplot(estimadores_graf,aes(x=estimadores))+geom_histogram(bins=30)+theme_bw()
g2=ggplot(estimadores_graf,aes(y=estimadores))+geom_boxplot(width=0.5)+theme_bw()
ggarrange(g1, g2,ncol = 2, nrow = 1)

d. Realice los ejercicios completos b y c para tamaños de muestra n=5, 10, 15, 20, 30, 50, 60, 100, 200,500. Y compare los resultados de los estimadores en cuanto a la normalidad. Investigue y utilice pruebas de bondad y ajuste (shapiro wilks) y métodos gráficos (grafico qq de normalidad).

Respuesta: En este ejercicio se puede validar la propiedad de consistencia del estimador, en el cual a un mayor tamaño de la muestra se obtienen valores del estimador mas cercanos al valor del parámetro de proporción de la población, también se evidencia que el estimador de proporción es insesgado y tiene una menor variabilidad cuando el tamaño de la muestra es mayor.

Con respecto a la normalidad de los estimadores, se rechazó la hipótesis nula de la prueba de Shapiro wilk para los tamaños de muestra desde 5 hasta 100 con un nivel de confianza del 95%, lo que indica que los estimadores para estos tamaños de muestra no tienen una distribución normal. A partir del tamaño de muestra 200 no se rechaza la hipótesis nula, lo que significa que los estimadores siguen una distribución normal; cabe recalcar, que mediante los gráficos de normalidad se identifica que entre más grade sea el tamaño de la muestra, los valores de los estimadores se ajustan más a una distribución normal.

library(tidyverse)

## ── Attaching packages ─────────────────────────────────────── tidyverse 1.3.2 ──
## ✔ tibble  3.1.8     ✔ dplyr   1.0.9
## ✔ tidyr   1.2.0     ✔ stringr 1.4.0
## ✔ readr   2.1.2     ✔ forcats 0.5.1
## ✔ purrr   0.3.4     
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ psych::%+%()    masks ggplot2::%+%()
## ✖ psych::alpha()  masks ggplot2::alpha()
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag()    masks stats::lag()

library(DT)
library(kableExtra)

## 
## Attaching package: 'kableExtra'
## 
## The following object is masked from 'package:dplyr':
## 
##     group_rows

funcion_puntod=function(n_repeticiones){
tamano_muestra=c(5,10,15,20,30,50,60,100,200,500)
result_estimadores=matrix(0,nrow=n_repeticiones,ncol=length(tamano_muestra))
i=1
for (i in 1:length(tamano_muestra)){
result_estimadores[,i]=generador_multmuestras(tamano_muestra[i],n_repeticiones)
}
colnames(result_estimadores)=c("n5","n10","n15","n20","n30","n50","n60","n100","n200","n500")
return(result_estimadores)
}
resultados_puntod=data.frame(funcion_puntod(n_repeticiones))
tabla1=describe(resultados_puntod)
tabla1%>%kbl(digits = 5)%>%kable_styling(font_size = 11,full_width = FALSE)

	vars	n	mean	sd	median	trimmed	mad	min	max	range	skew	kurtosis	se
n5	1	500	0.50160	0.21506	0.40000	0.50400	0.29652	0.00000	1.00000	1.00000	-0.03032	-0.40053	0.00962
n10	2	500	0.50380	0.15980	0.50000	0.50225	0.14826	0.00000	1.00000	1.00000	0.07043	-0.17901	0.00715
n15	3	500	0.49413	0.12771	0.46667	0.49483	0.09884	0.06667	0.86667	0.80000	-0.07290	-0.03029	0.00571
n20	4	500	0.49960	0.10855	0.50000	0.49950	0.11120	0.20000	0.85000	0.65000	0.02198	-0.10236	0.00485
n30	5	500	0.49313	0.09354	0.50000	0.49325	0.09884	0.23333	0.76667	0.53333	-0.02100	-0.12991	0.00418
n50	6	500	0.50540	0.06525	0.50000	0.50535	0.05930	0.26000	0.70000	0.44000	-0.04703	0.22074	0.00292
n60	7	500	0.50363	0.06254	0.51667	0.50317	0.07413	0.33333	0.71667	0.38333	0.07532	-0.14992	0.00280
n100	8	500	0.49888	0.04687	0.50000	0.49873	0.04448	0.36000	0.66000	0.30000	0.04518	0.24290	0.00210
n200	9	500	0.49905	0.03227	0.50000	0.49862	0.02965	0.38000	0.62000	0.24000	0.16125	0.44653	0.00144
n500	10	500	0.49929	0.01658	0.50000	0.49903	0.01483	0.44000	0.55200	0.11200	0.08268	0.14912	0.00074

boxplot(resultados_puntod)
abline(h=p_enfermas,col="red",lwd=3)

funcion_graficas=function(datos_finales, perc_enfermas){
nombres=c("n=5","n=10","n=15","n=20","n=30","n=50","n=60","n=100","n=200","n=500")
for (i in 1:ncol(datos_finales)){
par(mfrow=c(1,2))
hist(datos_finales[,i],main =c("Tamaño de la muestra",nombres[i]),xlab = "")
abline(v=perc_enfermas,col="red",lwd=3)
qqnorm(datos_finales[,i])
qqline(datos_finales[,i])
print(paste0("El tamaño de la muestra es ",nombres[i]),quote = FALSE)
print(shapiro.test(datos_finales[,i]))
}
}
funcion_graficas(resultados_puntod,p_enfermas)

## [1] El tamaño de la muestra es n=5
## 
##  Shapiro-Wilk normality test
## 
## data:  datos_finales[, i]
## W = 0.92247, p-value = 2.263e-15

## [1] El tamaño de la muestra es n=10
## 
##  Shapiro-Wilk normality test
## 
## data:  datos_finales[, i]
## W = 0.96648, p-value = 2.878e-09

## [1] El tamaño de la muestra es n=15
## 
##  Shapiro-Wilk normality test
## 
## data:  datos_finales[, i]
## W = 0.9754, p-value = 1.883e-07

## [1] El tamaño de la muestra es n=20
## 
##  Shapiro-Wilk normality test
## 
## data:  datos_finales[, i]
## W = 0.98157, p-value = 5.775e-06

## [1] El tamaño de la muestra es n=30
## 
##  Shapiro-Wilk normality test
## 
## data:  datos_finales[, i]
## W = 0.98803, p-value = 0.000405

## [1] El tamaño de la muestra es n=50
## 
##  Shapiro-Wilk normality test
## 
## data:  datos_finales[, i]
## W = 0.98957, p-value = 0.001278

## [1] El tamaño de la muestra es n=60
## 
##  Shapiro-Wilk normality test
## 
## data:  datos_finales[, i]
## W = 0.99003, p-value = 0.001819

## [1] El tamaño de la muestra es n=100
## 
##  Shapiro-Wilk normality test
## 
## data:  datos_finales[, i]
## W = 0.9937, p-value = 0.0355

## [1] El tamaño de la muestra es n=200
## 
##  Shapiro-Wilk normality test
## 
## data:  datos_finales[, i]
## W = 0.99397, p-value = 0.04466

## [1] El tamaño de la muestra es n=500
## 
##  Shapiro-Wilk normality test
## 
## data:  datos_finales[, i]
## W = 0.99572, p-value = 0.1898

e. Repita toda la simulación (puntos a – d) pero ahora con lotes con 10% y 90% de plantas enfermas.Concluya todo el ejercicio.

Respuesta: Se puede concluir que el estimador de proporción cumple con las propiedades de ser insesgado, consistencia y eficiencia cuando el tamaño de la muestra n es mayor, ya que el promedio de los estimadores se acerca al valor del parámetro de proporción de la población. También se valida el teorema del limite central que explica la convergencia del estimador de proporción a la distribución normal cuando la muestra es significativa.

En el primer ejercicio donde se tenía una proporción de plantas enfermas de 0.5 se obtuvo que los estimadores siguen una distribución normal a partir de un tamaño de muestra de 200. Sin embargo, en el segundo ejercicio donde se tenía una proporción de plantas enfermas de 0.9, en todas las pruebas de hipótesis se rechaza la hipótesis nula de normalidad; cabe recalcar, que mediante los gráficos de normalidad se identifica que entre más grade sea el tamaño de la muestra, los valores de los estimadores se ajustan más a una distribución normal.

poblacion2=1000
p_sanas2=0.1
p_enfermas2=0.9
Poblacion=Generador_poblacion(poblacion2,p_sanas2,p_enfermas2)

x=generador_multmuestras(100,1)
x

## [1] 0.87

n=100
n_repeticiones=500
estimadores_p2=generador_multmuestras(n,n_repeticiones)
estimadores_p2_graf=data.frame(estimadores_p2)
table1::table1(~estimadores_p2, data = estimadores_p2_graf)

	Overall (N=500)
estimadores_p2
Mean (SD)	0.899 (0.0296)
Median [Min, Max]	0.900 [0.810, 0.990]

g3=ggplot(estimadores_p2_graf,aes(x=estimadores_p2))+geom_histogram(bins=30)+theme_bw()
g4=ggplot(estimadores_p2_graf,aes(y=estimadores_p2))+geom_boxplot(width=0.5)+theme_bw()
ggarrange(g3, g4,ncol = 2, nrow = 1)

resultados_puntoe=data.frame(funcion_puntod(n_repeticiones))
tabla2=describe(resultados_puntoe)
tabla2%>%kbl(digits = 5)%>%kable_styling(font_size = 11,full_width = FALSE)

	vars	n	mean	sd	median	trimmed	mad	min	max	range	skew	kurtosis	se
n5	1	500	0.90240	0.12436	1.00000	0.91900	0.00000	0.40000	1.000	0.60000	-0.99371	0.40933	0.00556
n10	2	500	0.90340	0.09689	0.90000	0.91450	0.14826	0.50000	1.000	0.50000	-0.92534	0.77436	0.00433
n15	3	500	0.90280	0.07621	0.93333	0.90883	0.09884	0.66667	1.000	0.33333	-0.68938	0.24952	0.00341
n20	4	500	0.90230	0.06617	0.90000	0.90612	0.07413	0.65000	1.000	0.35000	-0.56058	0.17631	0.00296
n30	5	500	0.89940	0.05804	0.90000	0.90367	0.04942	0.70000	1.000	0.30000	-0.59078	0.15550	0.00260
n50	6	500	0.89808	0.04089	0.90000	0.89920	0.02965	0.78000	1.000	0.22000	-0.28068	-0.19371	0.00183
n60	7	500	0.90197	0.03741	0.90000	0.90304	0.04942	0.76667	1.000	0.23333	-0.32114	0.19773	0.00167
n100	8	500	0.90098	0.02894	0.90000	0.90178	0.02965	0.80000	0.970	0.17000	-0.30524	-0.00565	0.00129
n200	9	500	0.90071	0.01888	0.90000	0.90114	0.01853	0.84000	0.955	0.11500	-0.20535	-0.03551	0.00084
n500	10	500	0.90105	0.00927	0.90000	0.90108	0.00890	0.87000	0.932	0.06200	-0.04570	0.08461	0.00041

boxplot(resultados_puntoe)
abline(h=p_enfermas2,col="red",lwd=3)

funcion_graficas(resultados_puntoe,p_enfermas2)

## [1] El tamaño de la muestra es n=5
## 
##  Shapiro-Wilk normality test
## 
## data:  datos_finales[, i]
## W = 0.70824, p-value < 2.2e-16

## [1] El tamaño de la muestra es n=10
## 
##  Shapiro-Wilk normality test
## 
## data:  datos_finales[, i]
## W = 0.83125, p-value < 2.2e-16

## [1] El tamaño de la muestra es n=15
## 
##  Shapiro-Wilk normality test
## 
## data:  datos_finales[, i]
## W = 0.89157, p-value < 2.2e-16

## [1] El tamaño de la muestra es n=20
## 
##  Shapiro-Wilk normality test
## 
## data:  datos_finales[, i]
## W = 0.92473, p-value = 3.974e-15

## [1] El tamaño de la muestra es n=30
## 
##  Shapiro-Wilk normality test
## 
## data:  datos_finales[, i]
## W = 0.94564, p-value = 1.416e-12

## [1] El tamaño de la muestra es n=50
## 
##  Shapiro-Wilk normality test
## 
## data:  datos_finales[, i]
## W = 0.97214, p-value = 3.749e-08

## [1] El tamaño de la muestra es n=60
## 
##  Shapiro-Wilk normality test
## 
## data:  datos_finales[, i]
## W = 0.97643, p-value = 3.232e-07

## [1] El tamaño de la muestra es n=100
## 
##  Shapiro-Wilk normality test
## 
## data:  datos_finales[, i]
## W = 0.98188, p-value = 6.974e-06

## [1] El tamaño de la muestra es n=200
## 
##  Shapiro-Wilk normality test
## 
## data:  datos_finales[, i]
## W = 0.99083, p-value = 0.003375

## [1] El tamaño de la muestra es n=500
## 
##  Shapiro-Wilk normality test
## 
## data:  datos_finales[, i]
## W = 0.99211, p-value = 0.009442

2. La comparación de tratamientos es una practica fundamental en las ciencias agropecuarias y para esto a nivel estadístico se cuenta con algunas herramientas para apoyar el proceso de toma de decisiones y lograr concluir con algún grado de confianza que los resultados observados en una muestra son representativos y se pueden asociar a los tratamientos y no se deben únicamente al azar. Por medio una simulación validemos algunos de estos resultados.

a. Suponga un escenario en el cual usted aplicó tratamientos diferentes a dos lotes y desea analizar si alguno de los dos presenta un mejor desempeño en el control de una plaga presente en ambos al momento inicial. Para ello utilizara como criterio de desempeño el tratamiento que menor % de plantas enfermas presente después de un tiempo de aplicación (es decir si se presentan o no diferencias en las proporciones de enfermos P1 y P2). Realice una simulación en la cual genere dos poblaciones de N1=1000 (Lote1) y N2=1500 (Lote2) además asuma que el porcentaje de individuos (plantas) enfermas en ambos lotes sea la misma 10% (es decir sin diferencias entre los tratamientos).

poblacionL1=1000
p_sanasL1=0.9
p_enfermasL1=0.1
Poblacion_L1=Generador_poblacion(poblacionL1,p_sanasL1,p_enfermasL1)

poblacionL2=1500
p_sanasL2=0.9
p_enfermasL2=0.1
Poblacion_L2=Generador_poblacion(poblacionL2,p_sanasL2,p_enfermasL2)

b. Genere una función que permita obtener una muestra aleatoria de los lotes y calcule el estimador de la proporción muestral para cada lote (p1 y p2) para un tamaño de muestra dado n1=n2. Calcule la diferencia entre los estimadores p1-p2.

Generador_muestra2=function(n_muestra)
{
muestraL1=sample(Poblacion_L1,size=n_muestra)
muestraL2=sample(Poblacion_L2,size=n_muestra)
Lote_1=(sum(muestraL1=="enferma")/n_muestra)
Lote_2=(sum(muestraL2=="enferma")/n_muestra)
dif_P=(Lote_1-Lote_2)
v1=data.frame(Lote_1,Lote_2,dif_P)
return(v1)
}

generador_multmuestras2=function(n_muestra,numero_muestras)
{
return(data.frame(t(sapply(rep(n_muestra,numero_muestras),Generador_muestra2))))
}
generador_multmuestras2(100,1)

##   Lote_1 Lote_2 dif_P
## 1   0.08   0.12 -0.04

c. Repita el escenario anterior (b) 500 veces y analice los resultados en cuanto al comportamiento de los 500 estimadores (diferencias p1-p2). ¿Qué tan simétricos son los datos?, ¿Son siempre cero las diferencias?.

Respuesta: Los estimadores calculados en las 500 muestras con tamaño 100, tienen un comportamiento simétrico con respecto a la media de 0, se puede evidenciar que el estimador cumple con la propiedad de ser un estimador insesgado, ya que el promedio de los estimadores (P1-P2) obtenidos en las 500 muestras se acerca al parámetro de la población que corresponde a 0.

La diferencia de P1 y P2 no son siempre 0, la variabilidad de estos estimadores es mínima y se identifica una desviación estándar de 0.0418, que indica que la mayoría de los estimadores se obtuvieron en el rango de -0.0418 a 0.0418, que son valores muy cercanos a la diferencia de proporción de enfermos de las poblaciones (P1-P2=0). Se puede concluir que el estimador cumple con las propiedades de ser insesgado y de eficiencia, lo que indica que es un estimador correcto para estimar el parámetro de la población.

n=100
n_repeticiones=500
estimadores_P=generador_multmuestras2(n,n_repeticiones)
table1::table1(~as.numeric(dif_P), data = estimadores_P)

	Overall (N=500)
as.numeric(dif_P)
Mean (SD)	-0.00174 (0.0443)
Median [Min, Max]	0 [-0.130, 0.120]

g5=ggplot(estimadores_P,aes(x=as.numeric(dif_P)))+geom_histogram(bins=30)+theme_bw()
g6=ggplot(estimadores_P,aes(y=as.numeric(dif_P)))+geom_boxplot(width=0.5)+theme_bw()
ggarrange(g5, g6,ncol = 2, nrow = 1)

d. Realice los puntos b y c para tamaños de muestra n1=n2=5, 10, 15, 20, 30, 50, 60, 100, 200, 500. Y compare los resultados de los estimadores (p1-p2) en cuanto a la normalidad. También analice el comportamiento de las diferencias y evalué si. ¿Considera que es mas probable concluir que existen diferencias entre los tratamientos con muestras grandes que pequeñas, es decir cual considera usted que es el efecto del tamaño de muestra en el caso de la comparación de proporciones?.

Respuesta: Con respecto a la normalidad de los estimadores (P1-P2), se rechazó la hipótesis nula de la prueba de Shapiro wilk para los tamaños de muestra desde 5 hasta 100 con un nivel de confianza del 95%, lo que indica que los estimadores para estos tamaños de muestra no tienen una distribución normal. Para los tamaños de muestra desde 200 no se rechaza la hipótesis nula, lo que significa que los estimadores siguen una distribución normal. Es importante mencionar, que mediante los gráficos de normalidad se identifica que entre mas grade sea el tamaño de la muestra, los valores de los estimadores (P1-P2) se ajustan más a una distribución normal.

En este ejercicio se puede validar la propiedad de consistencia del estimador, en el cual a un mayor tamaño de la muestra se obtienen valores del estimador (P1-P2) más cercanos al valor del parámetro de la población, también se evidencia que el estimador de proporción es insesgado y tiene una menor variabilidad cuando el tamaño de la muestra es mayor. En particular, en muestras más grandes se puede concluir que no hay diferencia entre los tratamientos aplicados a cada población, en cambio, se presenta una mayor variabilidad en la efectividad de los tratamientos en muestras más pequeñas.

funcion_punto2d=function(n_repeticiones){
tamano_muestra=c(5,10,15,20,30,50,60,100,200,500)
result_estimadoresP=matrix(0,nrow=n_repeticiones,ncol=length(tamano_muestra))
i=1
for (i in 1:length(tamano_muestra)){
valor=generador_multmuestras2(tamano_muestra[i],n_repeticiones)
result_estimadoresP[,i]=as.numeric(valor[,3])
}
colnames(result_estimadoresP)=c("n5","n10","n15","n20","n30","n50","n60","n100","n200","n500")
return(result_estimadoresP)
}
resultados_punto2d=data.frame(funcion_punto2d(n_repeticiones))
tabla3=describe(resultados_punto2d)
tabla3%>%kbl(digits = 5)%>%kable_styling(font_size = 11,full_width = FALSE)

	vars	n	mean	sd	trimmed	mad	min	max	range	skew	kurtosis	se
n5	1	500	0.01280	0.19326	0.00700	0.29652	-0.60000	0.60000	1.20000	0.13832	0.26761	0.00864
n10	2	500	-0.00540	0.13367	-0.00750	0.14826	-0.40000	0.40000	0.80000	0.06826	0.25236	0.00598
n15	3	500	0.00773	0.10881	0.00767	0.09884	-0.33333	0.40000	0.73333	0.06193	0.15608	0.00487
n20	4	500	0.00650	0.09956	0.00588	0.07413	-0.35000	0.30000	0.65000	-0.04857	0.11599	0.00445
n30	5	500	-0.00040	0.07514	-0.00083	0.09884	-0.20000	0.23333	0.43333	0.06621	-0.03039	0.00336
n50	6	500	-0.00120	0.06109	-0.00165	0.05930	-0.18000	0.16000	0.34000	-0.00349	-0.32686	0.00273
n60	7	500	-0.00087	0.05154	-0.00025	0.04942	-0.18333	0.18333	0.36667	-0.14655	0.24453	0.00231
n100	8	500	-0.00004	0.04132	-0.00087	0.04448	-0.11000	0.14000	0.25000	0.20576	0.23577	0.00185
n200	9	500	-0.00176	0.02778	-0.00190	0.02965	-0.07500	0.07500	0.15000	0.03443	-0.04444	0.00124
n500	10	500	-0.00070	0.01511	-0.00068	0.01483	-0.05000	0.03800	0.08800	-0.05521	-0.17695	0.00068

boxplot(resultados_punto2d)
abline(h=p_enfermasL1-p_enfermasL2,col="red",lwd=3)

funcion_graficas(resultados_punto2d,p_enfermasL1-p_enfermasL2)

## [1] El tamaño de la muestra es n=5
## 
##  Shapiro-Wilk normality test
## 
## data:  datos_finales[, i]
## W = 0.90518, p-value < 2.2e-16

## [1] El tamaño de la muestra es n=10
## 
##  Shapiro-Wilk normality test
## 
## data:  datos_finales[, i]
## W = 0.94895, p-value = 4.103e-12

## [1] El tamaño de la muestra es n=15
## 
##  Shapiro-Wilk normality test
## 
## data:  datos_finales[, i]
## W = 0.96678, p-value = 3.272e-09

## [1] El tamaño de la muestra es n=20
## 
##  Shapiro-Wilk normality test
## 
## data:  datos_finales[, i]
## W = 0.97503, p-value = 1.559e-07

## [1] El tamaño de la muestra es n=30
## 
##  Shapiro-Wilk normality test
## 
## data:  datos_finales[, i]
## W = 0.98114, p-value = 4.466e-06

## [1] El tamaño de la muestra es n=50
## 
##  Shapiro-Wilk normality test
## 
## data:  datos_finales[, i]
## W = 0.98732, p-value = 0.0002443

## [1] El tamaño de la muestra es n=60
## 
##  Shapiro-Wilk normality test
## 
## data:  datos_finales[, i]
## W = 0.98813, p-value = 0.0004357

## [1] El tamaño de la muestra es n=100
## 
##  Shapiro-Wilk normality test
## 
## data:  datos_finales[, i]
## W = 0.99084, p-value = 0.003407

## [1] El tamaño de la muestra es n=200
## 
##  Shapiro-Wilk normality test
## 
## data:  datos_finales[, i]
## W = 0.99285, p-value = 0.01751

## [1] El tamaño de la muestra es n=500
## 
##  Shapiro-Wilk normality test
## 
## data:  datos_finales[, i]
## W = 0.99644, p-value = 0.3318

e. Ahora realice nuevamente los puntos a-d bajo un escenario con dos lotes pero de proporciones de enfermos diferentes (P1=0.1 y P2=0.15), es decir el tratamiento del lote 1 si presento un mejor desempeño reduciendo en un 5% el porcentaje de enfermos. Bajo este nuevo escenario compare la distribución de estas diferencias (p1-p2) con las observadas bajo igualdad de condiciones en los lotes. ¿Qué puede concluir? ¿Existen puntos en los cuales es posible que se observen diferencias de p1- p2 bajo ambos escenarios (escenario 1: sin diferencias entre P1 y P2, escenario 2: diferencia de 5%)?.

Respuesta: Se puede validar la propiedad de consistencia del estimador, en el cual a un mayor tamaño de la muestra se obtienen valores del estimador (P1-P2) más cercanos al valor del parámetro de la población, que en este ejercicio la diferencia de la efectividad de los tratamientos corresponde a 0.05, también se evidencia que el estimador de proporción es insesgado y tiene una menor variabilidad cuando el tamaño de la muestra es mayor.

Escenario 1 sin diferencias entre P1 y P2: Es posible observar una mayor ocurrencia de este escenario en las muestras mas pequeñas, por ejemplo, en los tamaños de muestra de 5, 10 y 15; ya que al ser muestras más pequeñas se presenta una mayor variabilidad en los estimadores, lo que disminuye la eficiencia de este estimador.
Escenario 2 diferencia de 5%: La ocurrencia de este evento se presenta más veces en los tamaños de muestra mas grandes, en especifico en tamaños de muestra de 200 y 500; debido a que en muestras más grandes hay una menor variabilidad en los estimadores, y el valor de los estimadores es más cercano al parámetro (P1-P2), lo que significa que en este caso el estimador es insesgado y eficiente.

poblacionL1=1000
p_sanasL1_2=0.9
p_enfermasL1_2=0.1
Poblacion_L1=Generador_poblacion(poblacionL1,p_sanasL1_2,p_enfermasL1_2)

poblacionL2=1500
p_sanasL2_2=0.85
p_enfermasL2_2=0.15
Poblacion_L2=Generador_poblacion(poblacionL2,p_sanasL2_2,p_enfermasL2_2)

generador_multmuestras2(100,1)

##   Lote_1 Lote_2 dif_P
## 1    0.1   0.18 -0.08

n=100
n_repeticiones=500
estimadores_P2=generador_multmuestras2(n,n_repeticiones)
table1::table1(~as.numeric(dif_P), data = estimadores_P2)

	Overall (N=500)
as.numeric(dif_P)
Mean (SD)	-0.0457 (0.0446)
Median [Min, Max]	-0.0400 [-0.190, 0.0600]

g7=ggplot(estimadores_P2,aes(x=as.numeric(dif_P)))+geom_histogram(bins=30)+theme_bw()
g8=ggplot(estimadores_P2,aes(y=as.numeric(dif_P)))+geom_boxplot(width=0.5)+theme_bw()
ggarrange(g7, g8,ncol = 2, nrow = 1)

resultados_punto2e=data.frame(funcion_punto2d(n_repeticiones))
tabla4=describe(resultados_punto2e)
tabla4%>%kbl(digits = 5)%>%kable_styling(font_size = 11,full_width = FALSE)

	vars	n	mean	sd	median	trimmed	mad	min	max	range	skew	kurtosis	se
n5	1	500	-0.04360	0.20519	0.00000	-0.03300	0.29652	-0.60000	0.60000	1.20000	-0.18949	0.13538	0.00918
n10	2	500	-0.05140	0.14581	0.00000	-0.04925	0.14826	-0.50000	0.40000	0.90000	-0.04593	-0.06290	0.00652
n15	3	500	-0.05013	0.11701	-0.06667	-0.05350	0.09884	-0.46667	0.33333	0.80000	0.14376	0.00708	0.00523
n20	4	500	-0.05550	0.10463	-0.05000	-0.05438	0.07413	-0.40000	0.25000	0.65000	-0.18844	0.11031	0.00468
n30	5	500	-0.05227	0.08959	-0.06667	-0.05183	0.09884	-0.36667	0.20000	0.56667	-0.12567	0.04925	0.00401
n50	6	500	-0.05164	0.06298	-0.04000	-0.05055	0.05930	-0.28000	0.16000	0.44000	-0.13195	0.33895	0.00282
n60	7	500	-0.04937	0.06189	-0.05000	-0.05004	0.04942	-0.26667	0.13333	0.40000	0.06339	0.21055	0.00277
n100	8	500	-0.04940	0.04657	-0.05000	-0.04878	0.04448	-0.20000	0.08000	0.28000	-0.10963	0.06599	0.00208
n200	9	500	-0.05067	0.03053	-0.05000	-0.05096	0.02965	-0.16500	0.04000	0.20500	0.05158	0.20269	0.00137
n500	10	500	-0.05072	0.01628	-0.05200	-0.05090	0.01779	-0.09400	-0.00600	0.08800	0.07999	-0.32920	0.00073

boxplot(resultados_punto2e)
abline(h=p_enfermasL1_2-p_enfermasL2_2,col="red",lwd=3)

3. Con base a los artículos “Statistical Errors: P values, the gold standard of statistical validity, are not as reliable as many scientists assume” escriba un resumen (máximo 2 páginas) sobre el artículo e incluya en este sus opiniones en cuanto al uso del valor P.

El valor P se define como la probabilidad mínima con la que se puede rechazar la hipótesis nula, fue introducido por el estadístico británico Ronald Fisher en la década de 1920, que en un principio no pretendía que fuera una prueba definitiva, y que lo pensó simplemente como una forma informal de juzgar si la evidencia era significativa. Inicialmente los investigadores establecerían una hipótesis nula que querían refutar, y cuanto más pequeño era el valor de P mayor era la probabilidad de que la hipótesis nula fuera falsa, se pretendía que fuera solo una parte de un proceso fluido y no numérico que combinara datos y conocimientos previos para realizar conclusiones científicas, pero pronto tomó gran relevancia para hacer que la toma de decisiones basada en evidencia sea lo más rigurosa y objetiva posible.

Posteriormente se sumó un marco alternativo para el análisis de datos que incluía poder estadístico, falsos positivos, falsos negativos y muchos otros conceptos, que fueron introducidos por el estadístico polaco Jerzy Neyman y el estadístico británico Egon Pearson. Con todos estos nuevos conceptos, muchos autores que no eran especialistas en estadistica y sin un conocimiento profundo en los dos enfoques crearon un sistema hibrido que introdujo el valor P fácil de calcular de Fisher en el sistema basado en reglas y riguroso de Neyman y Pearson, fue cuando un valor P de 0.05 se consagro como estadísticamente significativo.

Desde la implementación del valor P, se han recibido múltiples críticas de su aplicación y de lo que en verdad significa, ya que la naturaleza del valor P no es tan fiable ni tan objetivo como suponen la mayoría. Por ejemplo, en el año 2010, el estudiante de doctorado en psicología Matt Motyl había descubierto que los extremistas ven el mundo de blanco y negro, había hecho un estudio con datos de casi 2,000 personas en donde parecía mostrar que los políticos moderados veían los tonos grises con mayor precisión que los extremistas políticos. El valor P fue de 0.01 que se consideraba muy significativo y daba solidez a su hipótesis. A punto de realizar una publicación, con su asesor decidieron replicar su estudio, con resultado de un valor P de 0.59 muy alejado del nivel de significancia convencional de 0.05.

El problema no estaba en los datos ni en los análisis del estudiante, la mayoría de los científicos verían su valor P de 0,01 y dirían que solo había un 1% de probabilidad de que su resultado fuera una falsa alarma, pero ellos podrían estar equivocados. El valor P no puede decir esto, todo lo que puede hacer es resumir los datos asumiendo una hipótesis nula específica, y no puede trabajar hacia atrás, ni hacer afirmaciones sobre la realidad subyacente. Eso requiere otra información las probabilidades de que hubiera un efecto real en primer lugar, cuanto más inverosímil sea la hipótesis mayor es la posibilidad de que un hallazgo sea una falsa alarma.

Según un cálculo ampliamente utilizado, un valor de P de 0,01 corresponde a una probabilidad de falsa alarma de al menos un 11%, según la probabilidad subyacente de que se produzca un efecto real; un valor de P de 0,05 eleva esa posibilidad al menos al 29%. Entonces, el hallazgo de Motyl tenía más de uno en diez posibilidades de ser una falsa alarma. Asimismo, la probabilidad de replicar su resultado original no era del 99%, como la mayoría supondría, sino algo más cercano al 73% o al 50%. Los críticos también critican la forma en que los valores P pueden fomentar el pensamiento confuso, un buen ejemplo es su tendencia a desviar la atención del tamaño real de un efecto.

Considero que, aunque se han presentado muchas críticas sobre el uso y utilidad del valor P, no se ha visto un cambio en el marco de la estadistica, lo cual implica que siga siendo muy importante para determinar la significancia en las investigaciones, aunque desde un inicio el valor P se está utilizando de forma incorrecta. Es necesario hacer un ajuste en la forma en que se informan e interpretan los resultados, por ejemplo, informar los tamaños reales del efecto y los intervalos de confianza, además de recurrir a múltiples métodos en el conjunto de datos. Es necesario recalcar que también se debe informar en las investigaciones la forma en que obtuvieron el valor P, ya que es susceptible a manipulaciones que hayan realizado en la muestra para obtener cierto valor significativo. También estoy de acuerdo con el ultimo enfoque explicado de dos etapas ya que los análisis exploratorios y confirmatorios se abordan de forma independiente y claramente etiquetada.

Taller_inferencia

paola leon

2022-08-24

Taller Inferencia estadística y simulación