El Teorema del LĂmite Central es uno de los mĂ¡s importantes en la inferencia estadĂstica y habla sobre la convergencia de los estimadores como la proporciĂ³n muestral a la distribution normal. Algunos autores afirman que esta aproximaciĂ³n es bastante buena a partir del umbral n > 30
A continuaciĂ³n se describen los siguientes pasos para su verificaciĂ³n:
## [1] "En todas las poblaciones el 1 representa poblacion sana, el 0 a poblaciĂ³n enferma"
## [1] "Se generĂ³ una poblacion de 1000 con porcentaje de enfermedad 0.5 Enfermos: 500 Sanos: 500"
## [1] 0 0 0 1 1 0 0 1 1 0 0 1 1 0 1 1 1 1 0 0 0 0 1 1 0 1 0 1 0 0
Se hace la generaciĂ²n de los primeros 500 individual con valor de CERO y se hace una repeticiĂ³n de la generaciĂ³n de los otros 500 individuos con valor de UNO
Ahora, b. Genere una funciĂ³n que permita: Obtener una muestra aleatoria de la poblaciĂ³n y Calcule el estimador de la proporciĂ³n muestral para un tamaño de muestra dado
## [1] 1 0 0 1 0 0 0 1 1 1 0 1 1 1 1 0 1 0 1 0
## phat
## 0.5
Repita el escenario anterior (b) n = 500 veces y analice los resultados encuanto al comportamiento de los 500 resultados del estimador. ¿QuĂ© tan simĂ©tricos o sesgados son los resultados obtenidos? y ¿quĂ© se puede observaren cuanto a la variabilidad?. Realice en su informe un comentario sobre los resultados obtenidos.
Esta es un estimador DISCRETO Para determinar si es simĂ©trica o se encuentra sesgada, inicialmente trazamos una linea en la media. Para este caso la lĂnea se encuentra en 0.5
Las principales mĂ©tricas para el estimador, se muestran a continuaciĂ³n
## V1 V2 V3 V4 V5 V6
## metricas MĂnimo Media Mediana Varianza DesviaciĂ³n MĂ¡ximo
## datos 0 0.486 0.4 0.0489 0.2212 1
Para poder calcular el coheficiente de simetrìa se necesita tener los datos de los percentiles 25 y 75
Coheficiente de SimetrĂa =
Donde:
Q1 es el primer cuartil (25º percentil) Q2 es el segundo cuartil (la mediana) Q3 es el tercer cuartil (75º percentil)
## V1 V2 V3 V4
## metricas Q1 Mediana Q3 Coheficiente
## datos 0.4 0.4 0.6 1
Al tener un Coheficiente de simetrĂa diferente a CERO, se establece que no es simetria. Se aprecia igualmente que la varianza es muy pequeña, lo que indica que no es sesgado.
Continuando, Repita los puntos b y c para tamaños de muestra n = 5, 10, 15, 20, 30, 50, 60, 100, 200, 500. Compare los resultados obtenidos para los diferentes tamaños de muestra en cuanto a la normalidad. Utilice pruebas de bondad yajuste (shapiro wilks : shspiro.test()) y mĂ©todos grĂ¡ficos (grĂ¡fico denormalidad: qqnorm() ). Comente en su informe los resultados obtenidos
## [1] 46 113
## [1] 185 102
## [1] 336 95
## [1] 23 240
## [1] 329 110
## [1] 223 111
## [1] 147 161
## [1] 305 164
## [1] 431 28
## [1] 247 363
ANALISIS De lo anterior se evidencia que, en la medidda en que se aumenta el tamaño de la muestra hacia el parametro establecido 0.5, el valor de los estimadores disminuye el error, asà como la varianza. En la grafica de normalidad se observa como al aumentar la muestra, la grafica se va ajustando. De igual manera en el grà fico de qq normal, los valores se van acercando a la diagonal.
Repita toda la simulaciĂ³n (puntos a – d), pero ahora para lotes con 10% deplantas enfermas y de nuevo para lotes con un 90% de plantas enfermas. Concluya sobre los resultados del ejercicio.
Inicialmente se realiza el proceso con el 10% de la poblaciĂ³n enferma
## [1] "Tomamos la muestra para el 10% de la poblaciĂ³n enferma"
## [1] "Se generĂ³ una poblacion de 1000 con porcentaje de enfermedad 0.1 Enfermos: 100 Sanos: 900"
## [1] "y para la muestra del 90% de la poblaciĂ³n enferma"
## [1] "Se generĂ³ una poblacion de 1000 con porcentaje de enfermedad 0.9 Enfermos: 900 Sanos: 100"
## [1] "Muestra 10%"
## [1] 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 0 1 1 0 1
## [1] 1 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
## phat_10
## 0.9
## [1] "Muestra 90%"
## [1] 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 1 0 0 0 0 0 0 0 0 0 1 0 0 0 0
## [1] 0 1 0 1 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0
## phat_90
## 0.1
Como ya se habia descrito anteriormente, para determinar si es o no simétrica cada una de las evaluaciones, se traza la linea en la media
## [1] "Muestra 10%"
## V1 V2 V3 V4 V5 V6
## metricas2 MĂnimo Media Mediana Varianza DesviaciĂ³n MĂ¡ximo
## datos2 0.2 0.8948 1 0.0198 0.1406 1
## V1 V2 V3 V4
## metricas2 Q1 Mediana Q3 Coheficiente
## datos2 0.8 1 1 -1
## [1] "Muestra 90%"
## V1 V2 V3 V4 V5 V6
## metricas3 MĂnimo Media Mediana Varianza DesviaciĂ³n MĂ¡ximo
## datos3 0 0.1012 0 0.0195 0.1396 0.6
## V1 V2 V3 V4
## metricas3 Q1 Mediana Q3 Coheficiente
## datos3 0 0 0.2 1
Se concluye nuevamente que no es simetrĂca la grafica para ninguno de los dos casos, pero que la tener una varianza muy pequeña, se establece que no son comportamientos sesgados.
## [1] 7 78
## [1] 41 62
## [1] 64 281
## [1] 77 160
## [1] 553 349
## [1] 113 204
## [1] 55 67
## [1] 281 484
## [1] 1153 68
## [1] 391 428
## [1] 127 152
## [1] 234 148
## [1] 4561 5456
## [1] 234 300
## [1] 479 593
## [1] 141 39
## [1] 3341 3926
## [1] 331 163
## [1] 9310 2372
## [1] 137 305
Se evidencia el mismo comportamento presentado cuando el porcentaje de la poblacion establa para el 50% de la poblacion enferma.