Tenemos un conjunto de 527.575 observaciones, las cuales son datos georeferenciados, agrupadas en cuatro categorías distribuídas en cierta proporción:
Sospechamos que podemos extraer una muestra que mantenga las proporciones de la población original, con un 99% de significación estadística. Nuestra tarea será determinar, o aproximarnos según un criterio estadístico, a tal tamaño muestral.
Para ello, utilizaremos pruebas de hipótesis estadísticas para proporciones poblacionales.
Aplicaremos experimentos, que consisten en extraer muestras y aplicarles un estadístico para que al compararlos con un valor límite de una distribución normal asociado al 0.01% para dos colas, decidamos el no rechazar una hipótesis nula o aceptar la alternativa.
Nuestra hipótesis nula será que la muestra que extraemos contendrá categorías que mantienen las mismas proporciones que la población con un 99% de presición.
Por el carácter experimental de las pruebas de hipótesis, no se puede determinar un tamaño muestral óptimo n exacto, sin embargo, podemos estimar su tamaño graficando el momento en el que el estadístico p-value (asociado a las pruebas de hipótesis para proporciones poblacionales) de las muestras excede el valor límite asociado al nivel de significación (y por lo tanto rechazamos nuestra hipótesis nula). Las pruebas de hipótesis son experimentos, por lo que la solución es un problema eminentemente empirico.
El problema de investigación es encontrar una muestra aleatoria que satisfaga estas cuatro proporciones utilizando un criterio estadístico con una significación del 99%.
Aplicaremos un test de hipótesis para proporciones poblacionales en el que nuestra hipótesis cero será el que la muestra que obtengamos satisface la proporción de la data original con un 99% de significación. Para ello utilizaremos el estadístico p-value y lo compararemos con el valor z asociado a un 0.01% de error (dos colas).
Las muestras comienzan siendo iguales a la poblacion, donde existe certeza de que la proporcion muestral sera igual a la poblacional. A medida que las muestras van siendo cada vez mas pequenas, mas se acercan al valor limite z. si el error varia del 0.01% al 0.05%, aceptamos mayor error, el intervalo vertical se va a hacer mas pequeno, lo que implica que el tamano muestral podra ser mayor y estar mas a la izquierda para no violar los limites.
# Leemos los datos, construímos un dataframe y obtenemos el número de observaciones:
data <- read_excel("datossalvador.xlsx")
data <- data.frame(data)
nrow(data)
## [1] 527575
# Obtenemos el nombre de las columnas del dataset que cargamos:
colnames(data)
## [1] "OBJECTID" "SAMPLE_ID" "PLOT_ID" "LON"
## [5] "LAT" "ClaveCob1Cob2"
## Obtenemos las frecuencias de la variable nominal "ClaveCob1Cob2":
count(data, 'ClaveCob1Cob2')
## ClaveCob1Cob2 freq
## 1 BosqueBosque 158729
## 2 BosqueNo Bosque 15397
## 3 No BosqueBosque 16901
## 4 No BosqueNo Bosque 336548
## Obtenemos las proporciones de la variable nominal "ClaveCob1Cob2":
prop.table(table(data$ClaveCob1Cob2))
##
## BosqueBosque BosqueNo Bosque No BosqueBosque No BosqueNo Bosque
## 0.30086528 0.02918448 0.03203526 0.63791499
## Obtenemos los porcentajes de la variable nominal "ClaveCob1Cob2":
prop.table(table(data$ClaveCob1Cob2))*100
##
## BosqueBosque BosqueNo Bosque No BosqueBosque No BosqueNo Bosque
## 30.086528 2.918448 3.203526 63.791499
\(H_0:\) Las categorías de nuestra muestra se distribuyen en la misma proporción que la población con un nivel de significación del 99%.
\(H_1:\) Las categorías de nuestra muestra NO se distribuyen en la misma proporción que la población con un nivel de significación del 99%.
alpha = .01
z.half.alpha = qnorm(1-alpha / 2)
c(-z.half.alpha , z.half.alpha)
## [1] -2.575829 2.575829
alpha = .05
z.half.alpha = qnorm(1-alpha / 2)
c(-z.half.alpha , z.half.alpha)
## [1] -1.959964 1.959964
Como ejercicio consideremos una muestra que sea el total de la población y apliquemos el estadístico p-value. Observaremos que éste tiende a 0 para todas las categorías (y no es cero exacto por el problema del redondeo computacional).
\(Z=\frac{{\hat{p}}-{p}_{0}}{\sqrt{\frac{{p}_{0}(1-{p}_{0})}{n}}}\)
## [1] 527575
## OBJECTID SAMPLE_ID PLOT_ID LON LAT ClaveCob1Cob2
## 238387 238387 22 1807 -89.91456 13.76762 No BosqueNo Bosque
## 262421 262421 21 19562 -88.28727 13.73619 No BosqueNo Bosque
## 33576 33576 16 4725 -89.60530 14.19555 No BosqueBosque
## 515654 515654 14 16190 -88.14635 13.22193 BosqueBosque
## 281750 281750 20 12239 -88.85119 13.70598 BosqueBosque
##
## BosqueBosque BosqueNo Bosque No BosqueBosque No BosqueNo Bosque
## 0.30086528 0.02918448 0.03203526 0.63791499
Observamos que el estadistico p-value tiende a cero:
## BosqueBosque
## -2.881792e-07
## BosqueNo Bosque
## -1.665296e-05
## No BosqueBosque
## -1.793916e-05
## No BosqueNo Bosque
## -2.432802e-06
Mientras menor sea la muestra cada vez será mayor el estadístico p-value hasta que alcance el valor límite para \(\alpha\) = .01, z = [-2.575829; 2.575829].
Como hemos señalado, no puede ser alcanzado un tamaño muestral óptimo por la naturaleza aleatoria de la extracción, en cada extracción muestral obtendremos un p-value distinto aunque aproximado a los límites z a medida que disminuya su tamaño.
Podemos creer que una muestra de 500 es aproximadamente siempre válida:
## [1] 527
## OBJECTID SAMPLE_ID PLOT_ID LON LAT ClaveCob1Cob2
## 312140 312140 25 901 -89.81164 13.66079 No BosqueNo Bosque
## 415898 415898 8 14558 -88.48955 13.49123 No BosqueNo Bosque
## 514502 514502 17 10644 -88.65377 13.22795 No BosqueNo Bosque
## 515878 515878 13 16199 -88.06330 13.22217 No BosqueNo Bosque
## 76768 76768 3 9006 -89.03017 14.04774 No BosqueNo Bosque
##
## BosqueBosque BosqueNo Bosque No BosqueBosque No BosqueNo Bosque
## 0.27324478 0.03225806 0.03415560 0.66034156
## BosqueBosque
## -1.382517
## BosqueNo Bosque
## 0.4191854
## No BosqueBosque
## 0.2764181
## No BosqueNo Bosque
## 1.071227
Grafiquemos los p_value contra el tamaño muestral para cada una de nuestras categorías para determinar cuando se acerca al valor límite en el que se rechaza la hipótesis nula (línea punteada roja). ```
Tenemos 53 muestras que comienzan con un tamaño de 527574, disminuyen de 10.000 en 10.000 y llegan al tamaño 7574.
Tenemos 46 muestras que comienzan con un tamaño de 227575, disminuyen de 5.000 en 5.000 y llegan al tamaño 2575.
Obtenemos experimentalmente que una muestra de 200.000 observaciones contiene proporciones que mantienen las proporciones de la población original estadísticamente significante al 99%.