TALLER DE SIMULACION ESTADISTICA EN R
                                Alumno: Oscar Andres Ramirez Avendaño
                                         codigo: 1118863919
                                     Maestria en Ciencia de datos
                                   Pontificia Universidad Javeriana
                                
  1. El Teorema del Límite Central es uno de los más importantes en la inferencia estadística y habla sobre la convergencia de los estimadores como la proporción muestral a la distribución normal. Algunos autores afirman que esta aproximación es bastante buena a partir del umbral n>30.

A. Realice una simulación en la cual genere una población de N=1000 (Lote) y además que el porcentaje de individuos (plantas) enfermas sea del 50%.

poblacion=c(rep("sanas",500),rep("enfermas",500))

B. Genere una función que permita obtener una muestra aleatoria de la población y calcule el estimador de la proporción muestral para un tamaño de muestra dado n.

probabilidad_muestral=function(n){
muestra_aleaetoria=sample(poblacion,n)
probabilidad=sum(muestra_aleaetoria=="sanas")/n
return(probabilidad)
}
probabilidad_muestral(n=10)
## [1] 0.8

C.Repita el escenario anterior (b) 500 veces y analice los resultados en cuanto al comportamiento de los 500 estimadores. ¿Qué tan simétricos son los datos?, ¿Son sesgados y qué pasa en cuanto a variabilidad?

simulaciones=sapply(rep(200,500),probabilidad_muestral)
summary(simulaciones)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.4000  0.4750  0.4950  0.4992  0.5200  0.5900
boxplot(simulaciones)

hist(simulaciones,main = "distribucion de la media muestral",xlab = "probabilidad ",ylab = "Probabilidad")

ANALISIS Se observa que entre mayor es el tamaño de la muestra y mayor es el numero muestras tomadas a la poblacion,mayor es la probabilidad de obtener datos normalizados y simietricos, el sesgo es minimo, ya que el estimador casi coincide con el parametro y los indicadores de dispersion son reducidos.

Min. 1st Qu. Median Mean 3rd Qu. Max. 0.4100 0.4750 0.5000 0.4991 0.5200 0.6200

D. Realice los ejercicios completos b y c para tamaños de muestra n=5, 10, 15, 20, 30, 50, 60, 100, 200, 500. Y compare los resultados de los estimadores en cuanto a la normalidad. Investigue y utilice pruebas de bondad y ajuste (shapiro wilks) y métodos gráficos (grafico qq de normalidad).

simulacion_5=sapply(rep(5,500),probabilidad_muestral)
valor_5=mean(simulacion_5)
hist(simulacion_5)

test_Normalidad5=shapiro.test(simulacion_5)
test_Normalidad5
## 
##  Shapiro-Wilk normality test
## 
## data:  simulacion_5
## W = 0.92473, p-value = 3.977e-15
qqnorm(simulacion_5)
qqline(simulacion_5)

simulacion_10=sapply(rep(10,500),probabilidad_muestral)
valor_10=mean(simulacion_10)
hist(simulacion_10)

test_Normalidad10=shapiro.test(simulacion_10)
test_Normalidad10
## 
##  Shapiro-Wilk normality test
## 
## data:  simulacion_10
## W = 0.96402, p-value = 1.023e-09
qqnorm(simulacion_10)
qqline(simulacion_10)

simulacion_15=sapply(rep(15,500),probabilidad_muestral)
valor_15=mean(simulacion_15)
hist(simulacion_15)

test_Normalidad15=shapiro.test(simulacion_15)
test_Normalidad15
## 
##  Shapiro-Wilk normality test
## 
## data:  simulacion_15
## W = 0.97192, p-value = 3.368e-08
qqnorm(simulacion_15)
qqline(simulacion_15)

simulacion_20=sapply(rep(20,500),probabilidad_muestral)
valor_20=mean(simulacion_20)
hist(simulacion_20)

test_Normalidad20=shapiro.test(simulacion_20)
test_Normalidad20
## 
##  Shapiro-Wilk normality test
## 
## data:  simulacion_20
## W = 0.9796, p-value = 1.834e-06
qqnorm(simulacion_20)
qqline(simulacion_20)

simulacion_30=sapply(rep(30,500),probabilidad_muestral)
valor_30=mean(simulacion_30)
hist(simulacion_30)

test_Normalidad30=shapiro.test(simulacion_30)
test_Normalidad30
## 
##  Shapiro-Wilk normality test
## 
## data:  simulacion_30
## W = 0.98724, p-value = 0.0002316
qqnorm(simulacion_30)
qqline(simulacion_30)

simulacion_50=sapply(rep(50,500),probabilidad_muestral)
valor_50=mean(simulacion_50)
hist(simulacion_50)

test_Normalidad50=shapiro.test(simulacion_50)
test_Normalidad50
## 
##  Shapiro-Wilk normality test
## 
## data:  simulacion_50
## W = 0.98882, p-value = 0.000725
qqnorm(simulacion_50)
qqline(simulacion_50)

simulacion_60=sapply(rep(60,500),probabilidad_muestral)
valor_60=mean(simulacion_60)
hist(simulacion_60)

test_Normalidad60=shapiro.test(simulacion_60)
test_Normalidad60
## 
##  Shapiro-Wilk normality test
## 
## data:  simulacion_60
## W = 0.99205, p-value = 0.009005
qqnorm(simulacion_60)
qqline(simulacion_60)

simulacion_100=sapply(rep(100,500),probabilidad_muestral)
valor_100=mean(simulacion_100)
hist(simulacion_100)

test_Normalidad100=shapiro.test(simulacion_100)
qqnorm(simulacion_100)
qqline(simulacion_100)

simulacion_200=sapply(rep(200,500),probabilidad_muestral)
valor_200=mean(simulacion_200)
hist(simulacion_200)

test_Normalidad200=shapiro.test(simulacion_200)
test_Normalidad200
## 
##  Shapiro-Wilk normality test
## 
## data:  simulacion_200
## W = 0.99405, p-value = 0.04767
qqnorm(simulacion_200)
qqline(simulacion_200)

simulacion_500=sapply(rep(500,500),probabilidad_muestral)
valor_500=mean(simulacion_500)
hist(simulacion_500)

test_Normalidad500=shapiro.test(simulacion_500)
test_Normalidad500
## 
##  Shapiro-Wilk normality test
## 
## data:  simulacion_500
## W = 0.99515, p-value = 0.12
qqnorm(simulacion_500)
qqline(simulacion_500)

datos1 = list(c(5,10,15,20,30,50,60,100,200,500))
resultados=list(c(valor_5,valor_10,valor_15,valor_20,valor_30,valor_50,valor_60, valor_100,valor_200,valor_500))
nombres=c("tamaño de la muestra observada","media de las 500 muestras tomadas")
tabla_resultados=data.frame(datos1,resultados)
colnames(tabla_resultados)=nombres
shapiro.test(tabla_resultados$`media de las 500 muestras tomadas`)
## 
##  Shapiro-Wilk normality test
## 
## data:  tabla_resultados$`media de las 500 muestras tomadas`
## W = 0.71144, p-value = 0.001212
tabla_resultados
##    tamaño de la muestra observada media de las 500 muestras tomadas
## 1                               5                         0.5324000
## 2                              10                         0.5094000
## 3                              15                         0.5040000
## 4                              20                         0.4953000
## 5                              30                         0.5038667
## 6                              50                         0.4989200
## 7                              60                         0.4991333
## 8                             100                         0.5036000
## 9                             200                         0.5021200
## 10                            500                         0.5007400

Analisis de resultados:

Con Base en los resultados obtenidos se evidencia que para obtener una distribucion muestral normal, se debe tomar un numero significativo de individuos de la muestra, para este ejercicio, se obtuvo la distribucion normal apartir de una muestra de 200 individuos los cuales representan el 20 % del total de la muestra.

Entre mas se acerque el tamaño de la muestra al tamaño de la poblacion, el estimador de igual forma sera mas similar al parametro.

Para este ejercicio cuando el tamaño de la muestra fue igual a 500 es decir el 50 % de la poblacion, la distribucion dio normal con un alto nivel de confianza y con un estimador casi igual al parametro, una media de 0.500368 vs 0.50 del parametro.

D. Repita toda la simulación (puntos a – d) pero ahora con lotes con 10% y 90% de plantas enfermas. Concluya todo el ejercicio.

### A
poblacion2=c(rep("sanas",100),rep("enfermas",900))

### B
probabilidad_muestral2=function(n){
muestra_aleaetoria2=sample(poblacion2,n)
probabilidad2=sum(muestra_aleaetoria2=="sanas")/n
return(probabilidad2)
}

### C
simulaciones2=sapply(rep(200,500),probabilidad_muestral2)
summary(simulaciones2)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0550  0.0850  0.1000  0.1007  0.1150  0.1750
boxplot(simulaciones2)

hist(simulaciones2,main = "distribucion de la media muestral",xlab = "probabilidad ",ylab = "Probabilidad")

###D
simulacion_5_2=sapply(rep(5,500),probabilidad_muestral2)
hist(simulacion_5_2)

test_Normalidad5_2=shapiro.test(simulacion_5_2)
test_Normalidad5_2
## 
##  Shapiro-Wilk normality test
## 
## data:  simulacion_5_2
## W = 0.73879, p-value < 2.2e-16
qqnorm(simulacion_5_2)
qqline(simulacion_5_2)

simulacion_10_2=sapply(rep(10,500),probabilidad_muestral2)
test_Normalidad10_2=shapiro.test(simulacion_10_2)
test_Normalidad10_2
## 
##  Shapiro-Wilk normality test
## 
## data:  simulacion_10_2
## W = 0.84688, p-value < 2.2e-16
qqnorm(simulacion_10_2)
qqline(simulacion_10_2)

simulacion_15_2=sapply(rep(15,500),probabilidad_muestral2)
test_Normalidad15_2=shapiro.test(simulacion_15_2)
test_Normalidad15_2
## 
##  Shapiro-Wilk normality test
## 
## data:  simulacion_15_2
## W = 0.89638, p-value < 2.2e-16
qqnorm(simulacion_15_2)
qqline(simulacion_15_2)

simulacion_20_2=sapply(rep(20,500),probabilidad_muestral2)
test_Normalidad20_2=shapiro.test(simulacion_20_2)
test_Normalidad20_2
## 
##  Shapiro-Wilk normality test
## 
## data:  simulacion_20_2
## W = 0.92491, p-value = 4.16e-15
qqnorm(simulacion_20_2)
qqline(simulacion_20_2)

simulacion_30_2=sapply(rep(30,500),probabilidad_muestral2)
test_Normalidad30_2=shapiro.test(simulacion_30_2)
test_Normalidad30_2
## 
##  Shapiro-Wilk normality test
## 
## data:  simulacion_30_2
## W = 0.94433, p-value = 9.398e-13
qqnorm(simulacion_30_2)
qqline(simulacion_30_2)

simulacion_50_2=sapply(rep(50,500),probabilidad_muestral2)
test_Normalidad50_2=shapiro.test(simulacion_50_2)
test_Normalidad50_2
## 
##  Shapiro-Wilk normality test
## 
## data:  simulacion_50_2
## W = 0.97254, p-value = 4.537e-08
qqnorm(simulacion_50_2)
qqline(simulacion_50_2)

simulacion_60_2=sapply(rep(60,500),probabilidad_muestral2)
test_Normalidad60_2=shapiro.test(simulacion_60_2)
test_Normalidad60_2
## 
##  Shapiro-Wilk normality test
## 
## data:  simulacion_60_2
## W = 0.97439, p-value = 1.129e-07
qqnorm(simulacion_60_2)
qqline(simulacion_60_2)

simulacion_100_2=sapply(rep(100,500),probabilidad_muestral2)
test_Normalidad100_2=shapiro.test(simulacion_100_2)
test_Normalidad100_2
## 
##  Shapiro-Wilk normality test
## 
## data:  simulacion_100_2
## W = 0.98723, p-value = 0.0002296
qqnorm(simulacion_100_2)
qqline(simulacion_100_2)

simulacion_200_2=sapply(rep(200,500),probabilidad_muestral2)
test_Normalidad200_2=shapiro.test(simulacion_200_2)
test_Normalidad200_2
## 
##  Shapiro-Wilk normality test
## 
## data:  simulacion_200_2
## W = 0.99105, p-value = 0.004015
qqnorm(simulacion_200_2)
qqline(simulacion_200_2)

simulacion_500_2=sapply(rep(500,500),probabilidad_muestral2)
test_Normalidad500_2=shapiro.test(simulacion_500_2)
test_Normalidad500_2
## 
##  Shapiro-Wilk normality test
## 
## data:  simulacion_500_2
## W = 0.98939, p-value = 0.001109
qqnorm(simulacion_500_2)
qqline(simulacion_500_2)

simulacion_900_2=sapply(rep(900,500),probabilidad_muestral2)
summary(simulacion_900_2)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## 0.09000 0.09778 0.10000 0.10001 0.10222 0.10889
test_Normalidad900_2=shapiro.test(simulacion_900_2)
test_Normalidad900_2
## 
##  Shapiro-Wilk normality test
## 
## data:  simulacion_900_2
## W = 0.98064, p-value = 3.332e-06
qqnorm(simulacion_900_2)
qqline(simulacion_900_2)

Para el caso en el que de la poblacion total solo el 10% es diferente se observa que es dificil conseguir una distribucion normal,el p_value tiende a ser menor a 0,05 e incluso comprobar la hipotesis por medio de los graficos es desfavorable. incluso tomando tamaños de muestras casi iguales al tamaño de poblacion.

                                              PUNTO 2.

La comparación de tratamientos es una práctica fundamental en las ciencias agropecuarias y para esto a nivel estadístico se cuenta con algunas herramientas para apoyar el proceso de toma de decisiones y lograr concluir con algún grado de confianza que los resultados observados en una muestra son representativos y se pueden asociar a los tratamientos y no se deben únicamente al azar. Por medio una simulación validemos algunos de estos resultados.

A.Suponga un escenario en el cual usted aplicó tratamientos diferentes a dos lotes y desea analizar si alguno de los dos presenta un mejor desempeño en el control de una plaga presente en ambos al momento inicial. Para ello utilizará como criterio de desempeño el tratamiento que menor % de plantas enfermas presente después de un tiempo de aplicación (es decir, si se presentan o no diferencias en las proporciones de enfermos P1 y P2). Realice una simulación en la cual genere dos poblaciones de N1=1000 (Lote1) y N2=1500 (Lote2), además asuma que el porcentaje de individuos (plantas) enfermas en ambos lotes sea la misma 10% (es decir, sin diferencias entre los tratamientos).

poblacion_1=c(rep("sanas",900),rep("enfermas",100))
poblacion_2=c(rep("sanas",1350),rep("enfermas",150))

B.Genere una función que permita obtener una muestra aleatoria de los lotes y calcule el estimador de la proporción muestral para cada lote (p1 y p2) para un tamaño de muestra dado n1=n2. Calcule la diferencia entre los estimadores p1-p2.

calcula_estimadores=function(n1){
muestra1=sample(poblacion_1,n1)
prob_1=sum(muestra1=="enfermas")/n1

muestra2=sample(poblacion_2,n1)
prob_2=sum(muestra2=="enfermas")/n1

diferencia_estimadores=prob_1-prob_2
return(diferencia_estimadores)

}
diferencias=sapply(rep(200,50),calcula_estimadores)
diferencias
##  [1] -0.005  0.025  0.010  0.015 -0.080  0.005 -0.015 -0.030 -0.005 -0.010
## [11] -0.005  0.020 -0.005  0.030  0.055  0.000 -0.015  0.015  0.010  0.000
## [21]  0.010  0.025  0.045  0.020  0.020  0.050 -0.015  0.000 -0.005 -0.015
## [31]  0.040 -0.015 -0.025  0.020 -0.015 -0.035 -0.005 -0.020  0.000  0.055
## [41]  0.035 -0.015  0.030  0.025  0.000 -0.070  0.055  0.010  0.005  0.015
summary(diferencias)
##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
## -0.08000 -0.01375  0.00250  0.00480  0.02000  0.05500
sd(diferencias)
## [1] 0.02782892
hist(diferencias)

shapiro.test(diferencias)
## 
##  Shapiro-Wilk normality test
## 
## data:  diferencias
## W = 0.95307, p-value = 0.04565
qqnorm(diferencias)
qqline(diferencias,col="red")

C. Repita el escenario anterior (b) 500 veces y analice los resultados en cuanto al comportamiento de los 500 estimadores (diferencias p1-p2). ¿Qué tan simétricos son los datos?, ¿Son siempre cero las diferencias?

luego de analizar los resultados de la simulacion donde se tomaron 5000 muestras de un tamaño igual a 650. se identifico que los datos de media y mediana reflejan la realidad del parametro, tendiendo la diferencia a 0. Sin embargo, las diferencias entre probabilidades no fueron 0 para todos los casos, escenarios que son normales, debido a que se esta trabajando con muestras y estimadores, mas no con parametros. Mediante el shapiro test se rechaza la hipotesis de normalidad de los datos, pero mediante las graficas de QQ e Histograma, se observa que los datos si tienden a la normalidad.

D. Realice los puntos b y c para tamaños de muestra n1=n2=5, 10, 15, 20, 30, 50, 60, 100, 200, 500. Y compare los resultados de los estimadores (p1-p2) en cuanto a la normalidad. También analice el comportamiento de las diferencias y evalúe. ¿Considera que es más probable concluir que existen diferencias entre los tratamientos con muestras grandes que pequeñas, es decir, cuál considera usted que es el efecto del tamaño de muestra en el caso de la comparación de proporciones?

Con muestras de n1 inferiores al 10 % del tamaño de la muestras, las diferencias entre estimadores tienden a ser mayores, y las distribuciones tienden a ser NO normales, se evidencian claramente que entre mayor es el tamaño de la muestras y el numero de veces que se realizan los muestreos, mas normales y confiables son los datos.

De igual forma con el test de normalidad de shapiro se observa que se acepta la hipotesis de normalidad para numero de simulaciones pequeños inferiores a 50 muestras, para este tamaño el p_value tienden a ser alto en casi todos los datos, pero graficamente no se refleja tanto la normalidad. A diferencia de cuando el numero de muestras tomados es alto, los graficos tienden a reflejar mas la normalidad que el test de shapiro o el test de Kolmogorov smirnof.

Mediante los analisis de media y mediana, si se refleja el teorema del limite central ya que la media de la distribucion muestras tiende a coincidir con el parametro.

D. Ahora realice nuevamente los puntos a-d bajo un escenario con dos lotes, pero de proporciones de enfermos diferentes (P1=0.1 y P2=0.15), es decir, el tratamiento del lote 1 si presentó un mejor desempeño reduciendo en un 5% el porcentaje de enfermos. Bajo este nuevo escenario compare la distribución de estas diferencias (p1-p2) con las observadas bajo igualdad de condiciones en los lotes. ¿Qué puede concluir? ¿Existen puntos en los cuales es posible que se observen diferencias de p1- p2 bajo ambos escenarios (escenario 1: sin diferencias entre P1 y P2, escenario 2: diferencia de 5%)?

Con respecto a la normalidad de los datos se observa que en ambos casos se tiende a reflejar la distribucion normal cuando se tiene un tamaño de muestra significativo, la diferencia esta en las medias de las distribuciones, debido a que para ambos escenarios tiende a estar situada en el valor de las diferencias probabilisticas reales, es decir para el escenario 1 la media se situa en 0 y para escenario 2 en -0.05.

El test de normalidad de shapiro tambien refleja la normalidad de los datos cuando se realizan con numero de muestras inferiores a 50 y los graficos reflejan la normalidad en ambos casos para muestras de gran tamaño.

los indicadores de media, mediana en ambos casos tienden a ser iguales al parametro, lo cual comprueba el teorema del limite central.

La desviacion estandar tiende a ser similar para las diferentes veces que se realizo la simulacion, con esto se evidencia la normalidades de los datos, cuando se tiene un tamaño de muestra representativo y un numero de veces que se extrae la muestra tambien es significativo.

  1. Con base a los artículos “Statistical Errors: P values, the gold standard of statistical validity, are not as reliable as many scientists assume” & “Statisticians issue warning on P values: Statement aims to halt missteps in the quest for certainty” escriba un resumen (máximo 2 páginas) sobre ambos artículos e incluya en este sus opiniones en cuanto al uso del valor p como criterio de decisión en inferencia estadística.

                                                El Valor P

se define como la probabilidad de que un valor estadístico calculado sea posible dada una hipótesis nula cierta. En términos simples, el valor p ayuda a diferenciar resultados que son producto del azar del muestreo, de resultados que son estadísticamente significativos. Fáciles de calcular con los paquetes estadísticos modernos, los valores P ejercen un poderoso atractivo sobre el investigador por la exigua reflexión que exigen y la falsa sensación de seguridad que confieren. Un solo número encierra la clave que determina si los resultados de un estudio han de sumarse a las pruebas a favor o en contra de una hipótesis, y el investigador que obtiene resultados significativos suele sentirse satisfecho de haber logrado su meta, sin darse cuenta de que no ha conseguido mejorar en modo alguno su comprensión del fenómeno que estudia. Para entender a fondo esta afirmación, conviene examinar qué es un valor P. Ventajas:

  1. El p-valor se usa en todas las pruebas estadísticas, desde las pruebas thasta el análisis de regresión.

  2. Los valores p pueden indicar cómo son los datos de incompatibles con cierto modeloestadístico.

3)El p-valor es una ventaja en cuanto a la relación de la fiabilidad del estudio, cuyo resultado será más fiable cuanto menor sea la p.

  1. El p-valor nos indicara la probabilidad de obtener un valor semejante si se realiza elexperimento en las mismas condiciones.

                                                 Desventajas:
  2. El valor p no nos informa la probabilidad de que la hipótesis alternativa sea cierta.

2).Un valor p no es una medida apropiada de la evidencia de un modelo o hipótesis.

  1. Los valores p no miden la probabilidad de que la hipótesis nula sea cierta, ni tampocola probabilidad de que los de que los datos hayan sido producidos enteramente al azar.

Desde mi punto de vista Para las pruebas de significancia estadistica me ofrecen mas criterios para la toma de decisiones los intervalos de confianza, ya que me muestran en realidad sobre que intervalos se pueden mover mis estimadores debido al azar.