1. Introducción.

Tenemos un conjunto de 527.575 observaciones que representan datos georeferenciados agrupados en cuatro categorías distribuídas en proporciones.

Observemos los primeros 5 registros de la base de datos y las proporciones asociadas a cada categoría:

OBJECTID SAMPLE_ID PLOT_ID LON LAT ClaveCob1Cob2
136808 136808 8 3128 -89.57464 13.91608 No BosqueNo Bosque
265147 265147 2 7199 -89.23076 13.72959 No BosqueNo Bosque
491453 491453 23 16715 -87.90646 13.30415 No BosqueNo Bosque
512663 512663 18 13744 -88.50620 13.23802 BosqueBosque
168429 168429 19 2694 -90.05455 13.86551 No BosqueNo Bosque
Categoría Proporción
BosqueBosque 0.3008653
BosqueNo Bosque 0.0291845
No BosqueBosque 0.0320353
No BosqueNo Bosque 0.6379150

Resulta ineficiente trabajar con la población total cuando podemos extraer una muestra que conserve éstas proporciones con un nivel de confianza del 99%. La tarea de éste documento consiste en aproximarnos a un tamaño muestral que garantice éstas premisas. Decimos “aproximarnos” pues por la naturaleza aleatoria de la extracción de muestras independientes, nunca podremos obtener un valor exacto. Nuestra aproximación al problema será experimental.

Cuando se trabaja con variables dicotómicas o de Bernoulli, variables cuyo resultado es verdadero con una probabilidad p, podemos realizar un test de hipótesis para proporciones poblacionales para determinar si el estadístico “proporción” obtenido de una muestra extraída se corresponde a la existente en la población a cierto nivel de confianza.

2. Pruebas de hipótesis.

El test de hipótesis puede ser resuelto aplicando el teorema del límite central a la distribución binomial, que es la distribución que explica el comportamiento de una sucesión de variables de Bernoulli, dentro de la que se encuentran las distribuciones de proporciones.

Hemos señalado que por el carácter experimental de las pruebas de hipótesis, no se puede determinar un tamaño muestral n óptimo exacto, sin embargo, podemos estimar su tamaño graficando el momento en el que el estadístico \(p\_value\) (adecuado para las pruebas de hipótesis para proporciones poblacionales) de las muestras excede el valor límite asociado al nivel de significación (y que por lo tanto nos permite rechazar una hipótesis nula). Las pruebas de hipótesis se aplican sobre experimentos, muestras, por lo que la solución es un problema eminentemente empírico.

2.1 Las hipótesis estadísticas.

Nuestra hipótesis nula (\(H_0\)) será:

“La muestra que extraemos contendrá categorías que mantienen las mismas proporciones que la población con un 99% de precisión.”

Nuestra hipótesis alternativa (\(H_1\)) será:

“Las categorías de nuestra muestra NO se distribuyen en la misma proporción que la población con un nivel de significación del 99%.”

Ó en términos formales:

\[ \begin{aligned} H_0: \hat{p} = p_0 \\ H_1: \hat{p} \not= p_0 \end{aligned} \] Donde \(\hat{p}\) son las proporciones de nuestra muestra y \(p_0\) las proporciones de la población.

2.2 El estadístico p-value.

Supongamos que nuestra \(H_0\) es cierta, ésto es, que las proporciones en nuestra muestra no difieren en forma estadísticamente significativa de las proporciones en la población. El p-value es la probabilidad de obtener por azar, una diferencia estadísticamente significativa entre las proporciones de nuestro muestreo y la población, lo que implica que a mayor p-value, menos evidencia tendremos para rechazar la \(H_0\).

Ahora, ¿cómo y quién define este límite?, pues nosotros mismos y por convención lo establecemos en 0,05 ó 0,01.

Entonces, si el p-value es menor a 0,05 (recordemos que estamos hablando de áreas bajo la curva normal) es lo suficientemente improbable que la diferencia entre las proporciones de la muestra y la población se deban al azar, rechazamos con una seguridad razonable la \(H_0\) y afirmamos que \(H_1\) es verdadera. Si es mayor del 5%, no tendremos la evidencia suficiente como para poder negar que la diferencia observada sea obra del azar y no podremos rechazar \(H_0\).

2.3 El estadístico p-value. Ejemplo.

Supongamos que establecemos nuestras hipótesis estadísticas como: \[ \begin{aligned} H_0: \hat{p} < p_0 \\ H_1: \hat{p} \geq p_0 \end{aligned} \] Definamos el estadístico T para nuestro contraste como:

\[ \begin{aligned} T=\frac{{\hat{p}}-{p}_{0}}{\sqrt{\frac{{p}_{0}(1-{p}_{0})}{n}}}=1.28 \end{aligned} \] y supongamos que vale 1,28. Éste valor es la proyección sobre el eje X del límite izquierdo del área bajo la curva normal que define a la probabilidad p-value, en otras palabras, el p-value es el area bajo la curva normal definida por la diferencia del area total bajo la curva normal, menos el area de la misma que inicia en el menos infinito y cuyo eje derecho lo limita y = 1,28.

Ésta área la calculamos en R como:

1-pnorm(1.28)
## [1] 0.1002726

y es éste valor el que debemos comparar con nuestro nivel de significación estadística, digamos un 0,01%. Como \(0,1002726 > 0,01\) no tenemos evidencia suficiente para rechazar \(H_0\).

Un método equivalente y que utilizaremos en éste trabajo es el comparar el puntaje \(Z\) asociado a la probabilidad \(0,01\) con el estadístico \(T\).

Éste puntaje Z lo calculamos en R con:

qnorm <- qnorm(1-.01)
qnorm
## [1] 2.326348

Como \(1,28 < 2,326348\) no tenemos evidencia suficiente para rechazar \(H_0\).

El p-value para el estadístico \(T\) es el area marcada por la área roja de la siguiente figura (incluyendo el área azul):

2.4 \(H_0\) como una igualdad: la necesidad de dos colas.

En el caso de que: \[ \begin{aligned} H_0: \hat{p} = p_0 \end{aligned} \] como lo es nuestro caso de estudio, es necesario considerar en la zona de rechazo de \(H_0\) dos colas, pues es como si estuviésemos considerando dos desigualdades a la vez.

qnorm <- qnorm(1-.05/2)
qnorm
## [1] 1.959964

3. Solución de las hipótesis estadísticas: el método.

Podemos extraer una muestra aleatoria y aplicarle un test de hipótesis. Para ello calculamos el estadístico T asociado a cada categoría muestral y lo comparamos con el valor Z para el nivel de significación elegido.

Tomanos la decisión de no rechazar \(H_0\) si el estadístico \(T\) es menor al valor Z al nivel de significación elegido y al contrario, rechazamos \(H_0\) si es mayor.

Ésto resultaría concluyente a nivel experimental para una muestra, pero no es lo que buscamos.

Lo que deseamos es obtener un tamaño muestral que sea independiente de la muestra aleatoria específica extraída y que represente las proporciones de la población a un nivel de significación del 99%.

Para ello, nuestra metodología será aplicar dos conjuntos de experimentos, que consisten en extraer muestras que comiencen con cierto tamaño muestral y que prosigan extrayendo muestras de tamaño decreciente fijo hasta llegar a un tamaño muestral mínimo. De la observación de las gráficas generadas concluiremos el tamaño de una muestra óptima.

En ambos experimentos el procedimiento de extracción aleatoria se realizará 10 veces.

En el primer experimento se extraerán 53 muestras comenzando con una de tamaño igual a la población total (\(n = 527.574\)) que irá disminuyendo en tamaño a una tasa constante de \(10.000\) hasta llegar a una muestra final de (\(n = 7574\)).

Corroboraremos empíricamente que la probabilidad de que la primera muestra se corresponda con la hipótesis nula será de un 100% (\(T = 0\)) y veremos que a medida que la muestra se hace menor se irá aproximando a los valores extremos límites en los que la hipótesis nula deberá ser rechazada.

En el segundo experimento extraeremos 46 muestras, iniciando con una de tamaño (\(n = 227.575\)) disminuyendo en tamaño a una tasa constante de \(5.000\) hasta llegar a una muestra final de (\(n = 2575\)).

Éstos resultados estarán expresados en forma de gráfica que indique el tamaño muestral en el eje de las X y la proximidad de éstos tamaños muestrales al valor límite Z en el que la hipótesis nula deberá ser rechazada.

En ambos experimentos utilizaremos diferentes colores que indicarán una categoría específica y distintas tonalidades del mismo color, que indicarán la extracción muestral aleatoria (haremos 10).

Concluiremos con la entrega de un tamaño muestral estimativo, el que se podrá afirmar contendrá las proporciones de la población original con una significación estadística del 99%.

4. Las gráficas.

Las muestras comienzan siendo iguales a la población; existe certeza de que la proporción muestral será igual a la poblacional. A medida que las muestras van siendo cada vez mas pequeñas, más se acercan al valor límite Z.

Mientras menor sea la muestra cada vez será mayor el estadístico T hasta alcanzar el valor límite para \(\alpha\) = .01, z = [-2.575829; 2.575829].

Como hemos señalado, no puede ser alcanzado un tamaño muestral óptimo por la naturaleza aleatoria de la extracción, En cada extracción muestral obtendremos un estadístico T distinto aunque aproximado a los límites z a medida que disminuya su tamaño.

4.1 Gráfica del estadístico T por categoría versus el tamaño muestral para 10 extracciones aleatorias:

Grafiquemos los estadísticos T contra el tamaño muestral para cada una de nuestras categorías para determinar cuando se acerca al valor límite en el que se rechaza la hipótesis nula (línea punteada roja).

4.2 Tenemos 53 muestras que comienzan con un tamaño de 527574, disminuyen de 10.000 en 10.000 y llegan al tamaño 7574.

4.3 Extraemos ahora 46 muestras que comienzan con un tamaño de 227575, disminuyen de 5.000 en 5.000 y llegan al tamaño 2575.

5. Conclusión:

Para cada categoría extraemos muestras de tamaño decreciente a intervalos regulares. En las 10 extracciones aleatorias en el segundo experimento para cada categoría obtenemos que 200.000 observaciones contienen proporciones que se corresponden con las de la población total. Con 200.000 observaciones es suficiente para obtener resultados estadísticamente significativos al 99%.

6. Referencias:

https://www.cienciadedatos.net/documentos/15_inferencia_para_proporciones

http://msenux2.redwoods.edu/MathDept/R/StandardNormal.php

https://blog.minitab.com/blog/adventures-in-statistics-2/understanding-hypothesis-tests-significance-levels-alpha-and-p-values-in-statistics