Pruebas de hipótesis para proporciones sobre datos geo-referenciados de El Salvador

Introducción:

Tenemos un conjunto de 527.575 observaciones, las cuales son datos georeferenciados, agrupadas en cuatro categorías distribuídas en cierta proporción:

Bosque Bosque
Bosque no Bosque
No Bosque Bosque
No Bosque no Bosque

Sospechamos que podemos extraer una muestra que mantenga las proporciones de la población original, con un 99% de significación estadística. Nuestra tarea será determinar, o aproximarnos según un criterio estadístico, a tal tamaño muestral.

Para ello, utilizaremos pruebas de hipótesis estadísticas para proporciones poblacionales.

Aplicaremos experimentos, que consisten en extraer muestras y aplicarles un estadístico para que al compararlos con un valor límite de una distribución normal asociado al 0.01% para dos colas, decidamos el no rechazar una hipótesis nula o aceptar la alternativa.

Nuestra hipótesis nula será que la muestra que extraemos contendrá categorías que mantienen las mismas proporciones que la población con un 99% de presición.

Por el carácter experimental de las pruebas de hipótesis, no se puede determinar un tamaño muestral óptimo n exacto, sin embargo, podemos estimar su tamaño graficando el momento en el que el estadístico p-value (asociado a las pruebas de hipótesis para proporciones poblacionales) de las muestras excede el valor límite asociado al nivel de significación (y por lo tanto rechazamos nuestra hipótesis nula). Las pruebas de hipótesis son experimentos, por lo que la solución es un problema eminentemente empirico.

El problema de investigación es encontrar una muestra aleatoria que satisfaga estas cuatro proporciones utilizando un criterio estadístico con una significación del 99%.

Aplicaremos un test de hipótesis para proporciones poblacionales en el que nuestra hipótesis cero será el que la muestra que obtengamos satisface la proporción de la data original con un 99% de significación. Para ello utilizaremos el estadístico p-value y lo compararemos con el valor z asociado a un 0.01% de error (dos colas).

La relación error considerado y tamaño de la muestra:

Las muestras comienzan siendo iguales a la poblacion, donde existe certeza de que la proporcion muestral sera igual a la poblacional. A medida que las muestras van siendo cada vez mas pequenas, mas se acercan al valor limite z. si el error varia del 0.01% al 0.05%, aceptamos mayor error, el intervalo vertical se va a hacer mas pequeno, lo que implica que el tamano muestral podra ser mayor y estar mas a la izquierda para no violar los limites.

Análisis de la población:

# Leemos los datos, construímos un dataframe y obtenemos el número de observaciones:
data <- read_excel("datossalvador.xlsx")
data <- data.frame(data)
nrow(data)

## [1] 527575

# Obtenemos el nombre de las columnas del dataset  que cargamos:
colnames(data)

## [1] "OBJECTID"      "SAMPLE_ID"     "PLOT_ID"       "LON"          
## [5] "LAT"           "ClaveCob1Cob2"

## Obtenemos las frecuencias de la variable nominal "ClaveCob1Cob2":
count(data, 'ClaveCob1Cob2')

##        ClaveCob1Cob2   freq
## 1       BosqueBosque 158729
## 2    BosqueNo Bosque  15397
## 3    No BosqueBosque  16901
## 4 No BosqueNo Bosque 336548

## Obtenemos las proporciones de la variable nominal "ClaveCob1Cob2":
prop.table(table(data$ClaveCob1Cob2))

## 
##       BosqueBosque    BosqueNo Bosque    No BosqueBosque No BosqueNo Bosque 
##         0.30086528         0.02918448         0.03203526         0.63791499

## Obtenemos los porcentajes de la variable nominal "ClaveCob1Cob2":
prop.table(table(data$ClaveCob1Cob2))*100

## 
##       BosqueBosque    BosqueNo Bosque    No BosqueBosque No BosqueNo Bosque 
##          30.086528           2.918448           3.203526          63.791499

Hipótesis estadísticas:

\(H_0:\) Las categorías de nuestra muestra se distribuyen en la misma proporción que la población con un nivel de significación del 99%.

\(H_1:\) Las categorías de nuestra muestra NO se distribuyen en la misma proporción que la población con un nivel de significación del 99%.

Cálculo de los límites del estadístico Z para distintos niveles de significación:

Valor del \(\alpha =\) 0.01 para dos colas:

alpha = .01
z.half.alpha = qnorm(1-alpha / 2)
c(-z.half.alpha , z.half.alpha)

## [1] -2.575829  2.575829

Valor del \(\alpha =\) 0.05 para dos colas:

alpha = .05
z.half.alpha = qnorm(1-alpha / 2)
c(-z.half.alpha , z.half.alpha)

## [1] -1.959964  1.959964

Cálculo del estadístico p-value:

Como ejercicio consideremos una muestra que sea el total de la población y apliquemos el estadístico p-value. Observaremos que éste tiende a 0 para todas las categorías (y no es cero exacto por el problema del redondeo computacional).

\(Z=\frac{{\hat{p}}-{p}_{0}}{\sqrt{\frac{{p}_{0}(1-{p}_{0})}{n}}}\)

Muestra igual a la población total:

## [1] 527575

##        OBJECTID SAMPLE_ID PLOT_ID       LON      LAT      ClaveCob1Cob2
## 238387   238387        22    1807 -89.91456 13.76762 No BosqueNo Bosque
## 262421   262421        21   19562 -88.28727 13.73619 No BosqueNo Bosque
## 33576     33576        16    4725 -89.60530 14.19555    No BosqueBosque
## 515654   515654        14   16190 -88.14635 13.22193       BosqueBosque
## 281750   281750        20   12239 -88.85119 13.70598       BosqueBosque

## 
##       BosqueBosque    BosqueNo Bosque    No BosqueBosque No BosqueNo Bosque 
##         0.30086528         0.02918448         0.03203526         0.63791499

Observamos que el estadistico p-value tiende a cero:

##  BosqueBosque 
## -2.881792e-07

## BosqueNo Bosque 
##   -1.665296e-05

## No BosqueBosque 
##   -1.793916e-05

## No BosqueNo Bosque 
##      -2.432802e-06

Mientras menor sea la muestra cada vez será mayor el estadístico p-value hasta que alcance el valor límite para \(\alpha\) = .01, z = [-2.575829; 2.575829].

Como hemos señalado, no puede ser alcanzado un tamaño muestral óptimo por la naturaleza aleatoria de la extracción, en cada extracción muestral obtendremos un p-value distinto aunque aproximado a los límites z a medida que disminuya su tamaño.

Cálculo para una muestra de 500:

Podemos creer que una muestra de 500 es aproximadamente siempre válida:

## [1] 527

##        OBJECTID SAMPLE_ID PLOT_ID       LON      LAT      ClaveCob1Cob2
## 312140   312140        25     901 -89.81164 13.66079 No BosqueNo Bosque
## 415898   415898         8   14558 -88.48955 13.49123 No BosqueNo Bosque
## 514502   514502        17   10644 -88.65377 13.22795 No BosqueNo Bosque
## 515878   515878        13   16199 -88.06330 13.22217 No BosqueNo Bosque
## 76768     76768         3    9006 -89.03017 14.04774 No BosqueNo Bosque

## 
##       BosqueBosque    BosqueNo Bosque    No BosqueBosque No BosqueNo Bosque 
##         0.27324478         0.03225806         0.03415560         0.66034156

## BosqueBosque 
##    -1.382517

## BosqueNo Bosque 
##       0.4191854

## No BosqueBosque 
##       0.2764181

## No BosqueNo Bosque 
##           1.071227

Gráfica de los p-values por categoria versus el tamano muestral para 10 extracciones aleatorias:

Grafiquemos los p_value contra el tamaño muestral para cada una de nuestras categorías para determinar cuando se acerca al valor límite en el que se rechaza la hipótesis nula (línea punteada roja). ```

Tenemos 53 muestras que comienzan con un tamaño de 527574, disminuyen de 10.000 en 10.000 y llegan al tamaño 7574.

Realizemos ahora un muestreo a partir de una cantidad muestral de 227575 restándole 5000 observaciones cada vez:

Tenemos 46 muestras que comienzan con un tamaño de 227575, disminuyen de 5.000 en 5.000 y llegan al tamaño 2575.

Conclusión:

Obtenemos experimentalmente que una muestra de 200.000 observaciones contiene proporciones que mantienen las proporciones de la población original estadísticamente significante al 99%.