Teorema del LĂ­mite Central

El Teorema del LĂ­mite Central es uno de los mĂ¡s importantes en la inferencia estadĂ­stica y habla sobre la convergencia de los estimadores como la proporciĂ³n muestral a la distribution normal. Algunos autores afirman que esta aproximaciĂ³n es bastante buena a partir del umbral n > 30

A continuaciĂ³n se describen los siguientes pasos para su verificaciĂ³n:

  1. Realice una simulaciĂ³n en la cual genere una poblaciĂ³n de N = 1000 (Lote), donde el porcentaje de individuos (supongamos plantas) enfermas sea del 50%.
## [1] "En todas las poblaciones el 1 representa poblacion sana, el 0 a poblaciĂ³n enferma"
## [1] "Se generĂ³ una poblacion de  1000 con porcentaje de enfermedad  0.5 Enfermos:  500  Sanos:  500"
##  [1] 0 0 0 1 1 0 0 1 1 0 0 1 1 0 1 1 1 1 0 0 0 0 1 1 0 1 0 1 0 0

Se hace la generaciĂ²n de los primeros 500 individual con valor de CERO y se hace una repeticiĂ³n de la generaciĂ³n de los otros 500 individuos con valor de UNO

Ahora, b. Genere una funciĂ³n que permita: Obtener una muestra aleatoria de la poblaciĂ³n y
Calcule el estimador de la proporciĂ³n muestral para un tamaño de muestra dado

##  [1] 1 0 0 1 0 0 0 1 1 1 0 1 1 1 1 0 1 0 1 0
## phat 
##  0.5

Repita el escenario anterior (b) n = 500 veces y analice los resultados encuanto al comportamiento de los 500 resultados del estimador. ¿QuĂ© tan simĂ©tricos o sesgados son los resultados obtenidos? y ¿quĂ© se puede observaren cuanto a la variabilidad?. Realice en su informe un comentario sobre los resultados obtenidos.

Esta es un estimador DISCRETO Para determinar si es simétrica o se encuentra sesgada, inicialmente trazamos una linea en la media. Para este caso la línea se encuentra en 0.5

Las principales mĂ©tricas para el estimador, se muestran a continuaciĂ³n

##              V1    V2      V3       V4         V5     V6
## metricas MĂ­nimo Media Mediana Varianza DesviaciĂ³n MĂ¡ximo
## datos         0 0.486     0.4   0.0489     0.2212      1

Para poder calcular el coheficiente de simetrìa se necesita tener los datos de los percentiles 25 y 75

Coheficiente de SimetrĂ­a = Q3-2Q2+Q1 Q3-Q1

Donde:

Q1 es el primer cuartil (25º percentil) Q2 es el segundo cuartil (la mediana) Q3 es el tercer cuartil (75º percentil)

##           V1      V2  V3           V4
## metricas  Q1 Mediana  Q3 Coheficiente
## datos    0.4     0.4 0.6            1

Al tener un Coheficiente de simetría diferente a CERO, se establece que no es simetria. Se aprecia igualmente que la varianza es muy pequeña, lo que indica que no es sesgado.

Continuando,
Repita los puntos b y c para tamaños de muestra n = 5, 10, 15, 20, 30, 50, 60, 100, 200, 500. Compare los resultados obtenidos para los diferentes tamaños de muestra en cuanto a la normalidad. Utilice pruebas de bondad yajuste (shapiro wilks : shspiro.test()) y mĂ©todos grĂ¡ficos (grĂ¡fico denormalidad: qqnorm() ). Comente en su informe los resultados obtenidos

## [1]  46 113

## [1] 185 102

## [1] 336  95

## [1]  23 240

## [1] 329 110

## [1] 223 111

## [1] 147 161

## [1] 305 164

## [1] 431  28

## [1] 247 363

ANALISIS De lo anterior se evidencia que, en la medidda en que se aumenta el tamaño de la muestra hacia el parametro establecido 0.5, el valor de los estimadores disminuye el error, así como la varianza.
En la grafica de normalidad se observa como al aumentar la muestra, la grafica se va ajustando.
De igual manera en el grĂ fico de qq normal, los valores se van acercando a la diagonal.

Repita toda la simulaciĂ³n (puntos a – d), pero ahora para lotes con 10% deplantas enfermas y de nuevo para lotes con un 90% de plantas enfermas.
Concluya sobre los resultados del ejercicio.

Inicialmente se realiza el proceso con el 10% de la poblaciĂ³n enferma

## [1] "Tomamos la muestra para el 10% de la poblaciĂ³n enferma"
## [1] "Se generĂ³ una poblacion de  1000 con porcentaje de enfermedad  0.1 Enfermos:  100  Sanos:  900"
## [1] "y para la muestra del 90% de la poblaciĂ³n enferma"
## [1] "Se generĂ³ una poblacion de  1000 con porcentaje de enfermedad  0.9 Enfermos:  900  Sanos:  100"
## [1] "Muestra 10%"
##  [1] 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 0 1 1 0 1
##  [1] 1 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
## phat_10 
##     0.9
## [1] "Muestra 90%"
##  [1] 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 1 0 0 0 0 0 0 0 0 0 1 0 0 0 0
##  [1] 0 1 0 1 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0
## phat_90 
##     0.1

Como ya se habia descrito anteriormente, para determinar si es o no simétrica cada una de las evaluaciones, se traza la linea en la media

## [1] "Muestra 10%"
##               V1     V2      V3       V4         V5     V6
## metricas2 MĂ­nimo  Media Mediana Varianza DesviaciĂ³n MĂ¡ximo
## datos2       0.2 0.8948       1   0.0198     0.1406      1
##            V1      V2 V3           V4
## metricas2  Q1 Mediana Q3 Coheficiente
## datos2    0.8       1  1           -1
## [1] "Muestra 90%"
##               V1     V2      V3       V4         V5     V6
## metricas3 MĂ­nimo  Media Mediana Varianza DesviaciĂ³n MĂ¡ximo
## datos3         0 0.1012       0   0.0195     0.1396    0.6
##           V1      V2  V3           V4
## metricas3 Q1 Mediana  Q3 Coheficiente
## datos3     0       0 0.2            1

Se concluye nuevamente que no es simetríca la grafica para ninguno de los dos casos, pero que la tener una varianza muy pequeña, se establece que no son comportamientos sesgados.

## [1]  7 78

## [1] 41 62

## [1]  64 281

## [1]  77 160

## [1] 553 349

## [1] 113 204

## [1] 55 67

## [1] 281 484

## [1] 1153   68

## [1] 391 428

## [1] 127 152

## [1] 234 148

## [1] 4561 5456

## [1] 234 300

## [1] 479 593

## [1] 141  39

## [1] 3341 3926

## [1] 331 163

## [1] 9310 2372

## [1] 137 305

Se evidencia el mismo comportamento presentado cuando el porcentaje de la poblacion establa para el 50% de la poblacion enferma.