METODOLOGÍA DE LA INVESTIGACIÓN - UNINORTE

MÓDULO 2.1.6 - Selección de la Muestra - Material adicional (2)

Prof. Dr. Alcides Chaux

En este material veremos que el hecho de que un elemento muestral sea seleccionado al azar de una población no implica necesariamente que todos los elementos de esa población tengan la misma probabilidad de ser seleccionados.

Recuerden que para que la muestra pueda considerarse representativa de la población se requiere que los elementos muestrales sean seleccionados al azar de la población y que cada elemento muestra tenga la misma probablidad de ser elegido que el resto.

Muestreo aleatorio a partir de una distribución normal

Esta primera función extrae un número aleatorio x de elementos muestrales a partir de una distribución normal (una distribución normal es una con promedio 0 y desviación estándar de 1)

muestreo.normal <- function(x, graf = 0, linea = 0, imprimir = 0) {
    prob <- round(rnorm(n = x, mean = 0, sd = 1), digits = 2)
    if (graf == 1) 
        plot(prob, ylab = "Valor de la Muestra", xlab = "No. de Muestras")
    if (linea == 1) 
        abline(h = c(1, 0, -1), col = c("blue", "red", "blue"), lwd = 2)
    if (imprimir == 1) 
        print(prob)
}

Si graf = 1 entonces se mostrará el gráfico, mientras que si linea = 1 se mostrarán las líneas de promedio (rojo) y desviación estándar (azules). Si se quiere imprimir la lista de números obtenidos mediante el muestreo se tiene que indicar imprimir = 1.

Si extraemos muestras de 10 elementos cada vez el muestreo arrojará números distintos, como se ve a continuación:

muestreo.normal(10, imprimir = 1)
##  [1] -1.18 -0.86  1.52 -1.09  0.76  0.58  0.36 -0.50 -0.27  0.44
muestreo.normal(10, imprimir = 1)
##  [1] -0.10  0.79  2.82  1.30 -0.02  0.51 -0.31  1.01  2.59 -0.13
muestreo.normal(10, imprimir = 1)
##  [1]  0.58 -0.49  0.59 -0.44 -1.16  0.21  0.35  1.01 -0.69  1.52

Si aumentamos el tamaño de la muestra a 100 y colocamos los valores en un gráfico es algo evidente que los valores tienden a concentrarse en la zona central:

muestreo.normal(100, graf = 1)

plot of chunk unnamed-chunk-3

Esto se hace más evidente si aumentamos el tamaño de la muestra a 1000:

muestreo.normal(1000, graf = 1)

plot of chunk unnamed-chunk-4

Y más aún si aumentamos el tamaño de la muestra a 10000:

muestreo.normal(10000, graf = 1)

plot of chunk unnamed-chunk-5

Si dibujamos una línea roja para indicar el valor del promedio y 2 líneas azules para mostrar los valores de +/- 1 desviación estándar inmediatamente notamos que los valores de los números tienden a concentrarse alrededor del promedio, y la mayoría se ubica dentro de +/- 1 desviación estándar:

muestreo.normal(10000, graf = 1, linea = 1)

plot of chunk unnamed-chunk-6

CONCLUSIÓN: El muestreo es aleatorio pero no todos los elementos tienen la misma probabilidad de ser elegidos, por lo que no se considera que el muestreo sea probabilístico.

Muestro aleatorio probabilistico

Esta segunda función extrae una muestra de m elementos a partir de una población de x elementos.

muestreo.prob <- function(x, m, graf = 0, linea = 0, imprimir = 0) {
    muestra <- sample(x, size = m)
    desv.pos <- mean(muestra) + sd(muestra)
    desv.neg <- mean(muestra) - sd(muestra)
    if (graf == 1) 
        plot(muestra, ylab = "Valor de la Muestra", xlab = "No. de Muestras")
    if (linea == 1) 
        abline(h = c(desv.pos, mean(muestra), desv.neg), col = c("blue", "red", 
            "blue"), lwd = 2)
    if (imprimir == 1) 
        print(muestra)
}

Si graf = 1 entonces se mostrará el gráfico, mientras que si linea = 1 se mostrarán las líneas de promedio (rojo) y desviación estándar (azules). Si se quiere imprimir la lista de números obtenidos mediante el muestreo se tiene que indicar imprimir = 1.

En primer lugar creemos una población de 1000 elementos consistentes en los números del 1 al 1000. Luego, extraigamos una muestra de 10 elementos muestrales a partir de esta población:

muestreo.prob(1:1000, 10, imprimir = 1)
##  [1] 286 448 813 762 364 712 351 293  45 178

Al igual que con la función anterior, si extraemos muestras de 10 elementos cada vez el muestreo arrojará números distintos, como se ve a continuación:

muestreo.prob(1:1000, 10, imprimir = 1)
##  [1]  84  48 770 948 902 469 681 278 217 276
muestreo.prob(1:1000, 10, imprimir = 1)
##  [1] 731 881 778 803 986 807 550 970 431 977

Si aumentamos el tamaño de la muestra a 100 y colocamos los valores en un gráfico no es evidente que los valores tienden a concentrarse en alguna zona en particular:

muestreo.prob(1:1000, 100, graf = 1)

plot of chunk unnamed-chunk-10

Esto se hace más evidente si aumentamos el tamaño de la población a 10000 y el tamaño de la muestra a 1000:

muestreo.prob(1:10000, 1000, graf = 1)

plot of chunk unnamed-chunk-11

Y más aún si aumentamos el tamaño de la muestra a 5000:

muestreo.prob(1:10000, 5000, graf = 1)

plot of chunk unnamed-chunk-12

Si dibujamos una línea roja para indicar el valor del promedio y 2 líneas azules para mostrar los valores de +/- 1 desviación estándar notamos que los valores de los números no tienden a concentrarse alrededor del promedio, sino que se encuentran distribuidos homogéneamente a través de todo el espacio muestral:

muestreo.prob(1:10000, 5000, graf = 1, linea = 1)

plot of chunk unnamed-chunk-13

CONCLUSIÓN: El muestreo es aleatorio y aparentemente todos los elementos tienen la misma probabilidad de ser elegidos, por lo que consideramos que el muestreo es probabilístico. Los resultados obtenidos en la muestra podrán ser generalizables a la población, con un determinado nivel de error estándar.