Muestreo Aleatorio
En toda investigación estadística, existe un conjunto de elementos de donde se recoge información, al cual se le conoce como población. Un estudio que se efectúa utilizando la información de toda la población se denomina como censo. Sin embargo, muchas veces es difícil conseguir la información de todas y cada unidad de la población, ya sea por acceso difícil o por carecer del presupuesto necesario.
En ese sentido, una manera de conocer los diferentes estimadores en la población es seleccionar muestras que la representen lo mejor posible. Para lograr esto, hay técnicas de selección muestral que miden a su vez los errores cometidos en el proceso de muestreo con la finalidad de encontrar el menor error de muestreo que significaría mayor precisión en el análisis.
1.- Conceptos Básicos de Muestreo
1.1.- Población
Conjunto formado por todos los individuos, objetos o eventos que tienen las mismas características, del cual se busca obtener conclusiones.
1.2.- Muestreo
Proceso de selección efectuado para obtener información de solo una parte de la población en estudio.
1.3.- Muestra
Parte representativa de una población, la cual es seleccionada con el fin de obtener información.
1.4.- Tamaño Muestral
Número de elementos que componen la muestra.
1.5.- Población Objetiva
Conjunto formado por todas las unidades de análisis, con el que se efectúan las extrapolaciones e inferencias para generalizar los hallazgos alcanzados.
2.- Tipos de Muestreo
2.1.- Muestreo No Probabilístico
En este muestreo, todos los individuos de una población no presentan la misma probabilidad de ser seleccionados como sujetos de la investigación. Entonces, no es seguro suponer que la muestra representa por completo a la población.
Entonces, este tipo de muestreoe s cuando los elementos son elegidos a criterio del ivnestigador, y este tipo es utilizado cuando la muestra no se puede obtener de manera sencilla.
2.2.- Muestreo Probabilístico
Un muestreo es probabilístico cuando hay probabilidad de obtener la muestra que se seleccionará mediante un procedimiento de muestreo dado, el cual garantice el proceso de selección al azar (aleatorio). Es decir, el muestreo es aleatorio. Dentro de este muestreo se trataran los estimadores.
2.2.1- Estimadores de un Muestreo Probabilístico
Luego de obtener la muestra seleccionada, se estiman las características poblacionales, teniendo en cuenta un error cuantificable y controlable. El estimador es, de manera sencilla, una variable aleatoria unidimensional. Las estimaciones serán hechas a partir de funciones matemáticas, las cuales serán denominadas estimadores. Los estimadores de un muestreo probabilístico son:
- Promedio
- Total
- Proporción
- Total de clase
2.4.- Muestreo con Reposición
En un muestreo con reposición, cada unidad de la muestra que es extraída para ser analizada y para obtener información reingresa a la población antes de realizar la siguiente extracción; es decir, el tamaño de la población permanecerá constante.
2.5.- Muestreo sin Reposición
En un muestreo sin reposición, la unidad extraída para el análisis respectivo podrá aparecer en la muestra a lo mucho una sola vez, ya que esta no vuelve a ingresar a la población; y en comparación con un muestreo con reposición, la estructura poblacional cambiará según cada extracción realizada.
3.- Muestreo Aleatorio Simple (M.A.S)
En un muestreo aleatorio simple, se selecciona un subconjunto posible de n unidades de la población, teniendo en cuenta que todos los elementos tienen la misma probabilidad de ser seleccionados para la muestra. Uno de los ejemplos más clásicos es la extracción aleatoria de números en una lotería.
3.1.- Muestreo Aleatorio Simple con Reposición
En este tipo de muestreo se seleccionan las unidades con probabilidades iguales. La muestra se obtiene unidad por unidad en forma aleatoria con reposición a la población de las unidades previamente seleccionadas. Las unidades de la muestra pueden estar repetidas en la muestra desde 1,2,…,n veces. Las muestras van a estar repetidas porque como es un muestreo con reposición al seleccionar una unidad este ingresa a la población y de esa forma no se ve afectada el tamaño de la población, por eso se dice que va desde 1 hasta n.
La probabilidad viene dada por \(P_i=\frac{1}{n}\) y todas las muestras tienen la misma probabilidad de ser elegidas, es decir, son equiprobables.
3.1.1.- Estimadores lineales insesgados en un muestreo aleatorio simple con reposición:
El estimador lineal insesgado de un muestreo aleatorio simple con reposición es el estimador de Hansen y Hurwitz (HH). Como se puede observar, el estimador de HH es la sumatoria de todos los \(X_i\) entre el tamaño de la muestra multiplicado por la probabilidad de seleccionar la unidad, lo cual viene dado por el parámetro \(\theta\) que es igual a la sumatoria de todos los \(X_i\). Al referirnos a este parámetro, estamos teniendo en cuenta el tamaño poblacional en diferencia al estimador, donde se hace referencia al tamaño muestral.
\(θ_{HH}=\sum_{i=1}^{n} \frac{X_i}{nP_i}\) del parámetro \(θ=\sum_{i=1}^{N} X_i\)
Entonces, decimos que es un estimador lineal insesgado porque cumple que la esperanza de la estimación de HH es igual al parámetro, teniendo en cuenta que la probabilidad de seleccionar la unidad es igual a 1 entre el tamaño de la población (N).
\[ E(\overlineθ)=θ \]
Donde:
\(P_i\) es la probabilidad de seleccionar la unidad \(U_i\) de la población para la muestra.
\[ P_i=\frac{1}{N} \]
3.1.2.- Estimación del promedio**
Promedio estimado:
\[ \overline{X} = \frac{\sum_{i=1}^{n}X_i}{n} \ = \overline{X} \]
varianza del promedio estimado:
\[ V(\overline X) = \frac{\sigma ^2}{n} \]
Intervalo de confianza del promedio estimado al 95%:
\[ IC(\bar{X})=\bar{X}\pm 1.96 \sqrt{V(\bar{X})} \]
3.1.3.- Estimación total
Total estimado:
\[ \bar{X}=N*\bar{X} \]
Donde N es el tamaño de la población.
Varianza del total estimado:
\(V=\bar{X}=N^2\frac{\sigma^2}{n}\)
Donde:
\(\sigma^2=\frac{N-1}{N}S^2\) y \(S^2=\sum_{i=1}^{n}\frac{(X_i-\bar{X})^2}{n-1}\) son las varianzas poblacional y muestral respectivamente y n es el tamaño de la muestra.
Intervalo de confianza del total estimado al 95%:
\[ IC(\bar{X})=\bar{X}\pm1.96\sqrt{V(\bar{X})} \]
Donde 1.96 es \(Z_\alpha\) a un \(\alpha\) = 1 - 0.95
3.1.4.- Estimación de la proporción
Sea A el total de elementos de la muestra que tienen el atributo o clase.
Proporción estimada:
\[ \bar{P}=\frac{\sum_{i=1}^{n}A_i}{n} \]
Donde:
\(\bar{P}\) es la proporción estimada.
Ejemplo:
Suponga que debe realizar un estudio a las familias de una ciudad que tengan casa propia. Para ello, se sabe que la ciudad tiene en total 15,000 familias, de las cuales se toma una muestra de 400 familias.
Varianza de la proporción estimada:
\[ V(\bar{P})=\frac{\bar{P}(1-\bar{P})}{n} \]
Intervalo de confianza de la proporción estimada al 95%:
\[ IC(\bar{P})=\bar{P}\pm1.96\sqrt{V(\bar{P})} \]
3.1.5.- Estimación del total de clase:
Total de clase estimado:
\[ \bar{A}=N*\bar{P} \]
Varianza del total de clase estimado:
\[ V(\bar{A}=N^2\frac{\bar{P}(1-\bar{P})}{n}) \]
Intervalo de confianza del total de clase estimado al 95%:
\[ IC(\bar{A})=\bar{A}\pm1.96\sqrt{V(\bar{A})} \]
Tamaño de Muestra
El tamaño de muestra se obtiene mediante los errores, y el error de muestreo puede ser error absoluto o error relativo.
Donde:
\[ El-error-absoluto (e_a)=\sigma(\bar{\theta}) \]
\[ El-error-relativo (e_r) = CV(\bar{\theta}) = \frac{\sigma(\bar{\theta})}{E(\bar\theta)} \]
3.1.6.- Tamaño de muestra según el error absoluto y relativo para un muestreo con reposición:
Parámetro | Error Absoluto (\(e_a\)) | Error relativo (\(e_r\)) |
---|---|---|
Media | \(\frac{\sigma^2}{e^2}\) | \(\frac{CV^2}{e_r^2}\) |
Total Poblacional | \(\frac{N\sigma^2}{e^2}\) | \(\frac{CV^2}{e_r^2}\) |
Proporción | \(\frac{P(1-P)}{e^2}\) | \(\frac{(1-P)}{Pe_r^2}\) |
Total de clase | \(\frac{N^2´(1-P)}{e^2}\) | \(\frac{(1-P)}{Pe_r^2}\) |
3.2.- Muestreo Aleatorio Simple sin Reposición
La probabilidad de una muestra cualquiera está dada por el número total de muestras posibles \(C_n^N={N\choose n}\).Como el procedimiento es con probabilidades iguales, entonces:
\[P(U_1,U_2,...,U_n)=\frac{casos favorables}{casos posibles}=\frac{1}{N\choose n}\]
Para obtener la probabilidad de que una unidad de la población pertenezca a la muestra se emplea los siguiente:
\[\pi_i=\frac{n}{N}\]
Donde:
n es el tamaño de la muestra.
N es el tamaño de la población.
3.2.1.- Estimadores lineales insesgados en un muestreo aleatorio simple sin reposición:
El estimador lineal insesgado de un muestreo aleatorio simple sin reposición es el estimador de Horvitz y Thompson (HT).
\(\theta_{HT}=\sum_{i=1}^{n}\frac{X_i}{n_i}\) del parámetro \(\theta=\sum_{i=1}^{N}X_i (Característica-poblacional)\)
\[E(\overlineθ)=θ\]
Donde:
\(\pi_i:\) probabilidad de que la unidad \(U_i\) pertenezca a la muestra de tamaño n.
3.2.2.- Estimación del Promedio:
Promedio estimado:
\[\bar{X}=\frac{\sum_{i=!}^{n}}{n}=\bar{X}\]
Donde:
n es el tamaño de la muestra.
Varianza del promedio estimado:
\[V(\bar{X})=\frac{S^2}{n}(1-\frac{n}{N})\]
Intervalo de confianza del promedio estimado al 95%:
\[IC(\bar{X})=\bar{x}\pm1.96\sqrt{V(\bar{x})}\]
3.2.3.- Estimación del total:
Total estimado:
\[\bar{X}=N*\bar{X}\]
Donde:
N es el tamaño de la población.
Varianza del total estimado:
\[V(\bar{X})=\frac{N^2S^2}{n}(1-\frac{n}{N})\]
Donde: \[S^2=\sum_{i=1}^{n}\frac{(X_i-\bar{X})^2}{n-1}\]
Intervalo de confianza del total estimado al 95%:
\[IC(\bar{X})=\bar{X}\pm1.96\sqrt{V(\bar{X})}\]
3.2.4.- Estimación de la Proporción:
Sea A el total de elementos de la muestra que tienen el atributo de clase.
Proporción estimada:
\[\bar{P}=\frac{\sum_{i=1}^{n}A_i}{n}\]
Varianza de la proporción estimada:
\[V(\bar{P})=\frac{\bar{P}(1-\bar{P})}{n-1}(1-\frac{n}{N})\]
Intervalo de confianza de la proporción estimada al 95%
\[IC(\bar{P})=\bar{P}\pm1.96\sqrt{V(\bar{P})}\]
3.2.5.- Esimtación del total de clase:
Total de clase estimado:
\[\bar{A}=N*\bar{P}\]
Varianza del total de clase estimado:
\[V(\bar{A})=N^2V(\bar{P})\]
Intervalo de confianza del total de clase estimado al 95%:
\[IC(\bar{A})=\bar{A}\pm1.96\sqrt{V(\bar{A})}\]
3.2.6.- Tamaño de muestra según el error absoluto y relativo para un muestreo sin reposición:
Parámetro | Error Absoluto (\(e_a\)) | Error relativo (\(e_r\)) |
---|---|---|
Media | \(\frac{NS^2}{Ne^2+S^2}\) | \(\frac{N(CV)^2}{Ne_r^2+(CV)^2}\) |
Total Poblacional | \(\frac{NS^2}{e^2+NS^2}\) | \(\frac{N^2(CV)^2}{Ne_r^2+(CV)^2}\) |
Proporción | \(\frac{NP(1-P)}{e^2(N-1)+P(1-P)}\) | \(\frac{N(1-P)}{P(N-1)e_r^2+(1-P)}\) |
Total de clase | \(\frac{N^2P(1-P)}{e^2(N-1)+N^2P(1-P)}\) | \(\frac{N(1-P)}{P(N-1)e_r2+(1-P)}\) |
Ejemplo:
Con la base de datos iris de R, la cual contiene información sobre tres tipos de especies de plantas (setosa, virginica y versicolor); dicho dataset también contiene los datos del ancho y largo de pétalos, ancho y largo de sépalos en cm. Se extrae una muestra aleatoria simple de 15 plantas considerando únicamente el ancho de los pétalos. Calcular:
- la media muestral
- la varianza del estimador calculado
- el intervalo de confianza a un 95 %.
Los datos de iris son los siguientes
## Sepal.Length Sepal.Width Petal.Length Petal.Width Species
## 1 5.1 3.5 1.4 0.2 setosa
## 2 4.9 3.0 1.4 0.2 setosa
## 3 4.7 3.2 1.3 0.2 setosa
## 4 4.6 3.1 1.5 0.2 setosa
## 5 5.0 3.6 1.4 0.2 setosa
## 6 5.4 3.9 1.7 0.4 setosa
Extrayendo solamente los anchos de pétalos con iris[,4] ya que solo hacemos referencia a la 4ta columna; haciendo eso se obtendrá:
## Data
## 1 0.2
## 2 0.2
## 3 0.2
## 4 0.2
## 5 0.2
## 6 0.4
Con nrow vemos la cantidad de filas, que es a su vez la cantidad de datos y vemos que hay 150 plantas iris; sin embargo, solo se extraeran 15.
## [1] 150
## [1] 15
Para realizar ello, se utilizará sample(N,tamaño):
## [1] 2.1 2.0 0.2 1.4 1.4 1.5 1.2 2.1 2.3 1.6 0.2 1.3 0.3 1.8 0.4
Hallando el Promedio estimado:
Con ello, se estima que en promedio el ancho de los pétalos es de 0.96 cm.
## [1] 1.32
Hallando la Varianza del Promedio Estimado:
Se puede observar que el promedio estimado del ancho de los pétalos tendrá una varianza del 4.4% aproximadamente.
## [1] 0.03173143
El intervalo de confianza o límite de confianza al 95% es:
## [1] 1.96
Hallamos el límite inferior:
## [1] 0.970859
Hallamos el límite superior:
## [1] 1.669141
Por lo tanto, en este muestreo aleatorio simple sin reposición el promedio estimado del ancho de los pétalos se encuentra entre 0.60 y 1.44 al 95% de confianza.
## [1] "El intervalo de confianza es [ 0.970859 , 1.66914 ] al 95%"
Ejemplo 1: M.A.S con Reposición: Proporción
Suponer que un auditor muestrea aleatoriamente con reposición 20 cuentas impagadas de una empresa, además de verificar en 12 de ellas la cantidad adeudada y si los documentos respectivos cumplen (1) o no cumplen (0) con los procedimientos establecidos. Se tiene la siguiente estructura poblacional:
## # A tibble: 20 x 3
## Cuenta `Cantidad Adeudada` Cumplimiento
## <dbl> <dbl> <dbl>
## 1 1 278 1
## 2 2 192 1
## 3 3 310 1
## 4 4 94 0
## 5 5 86 1
## 6 6 335 1
## 7 7 310 0
## 8 8 290 1
## 9 9 221 1
## 10 10 168 1
## 11 11 188 0
## 12 12 212 0
## 13 13 92 1
## 14 14 56 1
## 15 15 142 1
## 16 16 37 1
## 17 17 186 0
## 18 18 221 1
## 19 19 229 0
## 20 20 305 1
Con ello estimamos la proporción de cuentas cuyos documentos cumplen el procedimiento establecido.Además, se hallará sus correspondientes errores absoluto y relativo. Los datos son los siguientes: N que son las cuentas impagadas, y n que es la muestra.
Almacenamos las cantidades adeudadas de las 20 cuentas:
cantidad_adeudada<-c(278,192,310,94,86,335,310,290,221,168,188,212,92,56,142,37,186,221,229,305)
cantidad_adeudada
## [1] 278 192 310 94 86 335 310 290 221 168 188 212 92 56 142 37 186 221 229
## [20] 305
Luego, se almacena el cumplimiento con los procedimientos establecidos de cada cuenta, respectivamente, siendo cumplen (𝟏) o no cumplen (𝟎).
## [1] 1 1 1 0 1 1 0 1 1 1 0 0 1 1 1 1 0 1 0 1
Ahora, se extrae una muestra de 12 cuentas de las 20 cuentas impagadas de la empresa son sample, que recibe como primer parámetro el vector de elementos a escoger (1:N) y como segundo parámetro el tamaño de la muestra (n) del cual extraeremos las posiciones aleatorias. Para saber que estos datos son aleatorios, volvemos a correr los datos y se verán que los resultados son distintos.
## [1] 16 17 11 3 19 7 9 12 20 2 10 8
Las 12 cuentas impagadas generadas aleatoriamente y su cumplimiento respectivo con los procedimientos establecidos son: Donde la cantidad de 1 significara aquelas que cumplen con los procedimientos, y con ese valor se puede estimar la proporción de cuentas cuyos documentos cumplen el procedimiento establecido.
## [1] 1 0 0 1 0 0 1 0 1 1 1 1
## [1] 37 186 188 310 229 310 221 212 305 192 168 290
## [1] 7
Proporción estimada:
\[ \bar{P}=\frac{\sum_{i=1}^{n}A_i}{n} \]
\[ \bar{P}=p=\frac{1+1+1+1+1+1+1+1}{12}=0.666667 \] En R:
## [1] 0.5833333
\(\bar{P}:\) Proporción de cuentas cuyos documentos concuerdan
Error Absoluto:
Calculamos la varianza estimada de la proporción: \[ V(\bar{P})=\frac{\bar{P}(1-\bar{P})}{n}=\frac{0.66667*0.33333}{12}=0.018519 \] En R:
## [1] 0.02025463
## [1] "La varianza estimada de la proporción es: 0.0202546296296296"
Error Relativo:
\[ CV(\bar{P})=\frac{\sigma\bar(P)}{E(\bar{P})}=\frac{\sqrt{V(\bar{P})}}{\bar{P}} \]
\[ CV(\bar{P})=\frac{\sqrt{0.018519}}{0.666667} \]
\[ CV(\bar{P})=0.20412 \] En R:
## [1] 0.243975
## [1] "Coeficiente de variación de la proporción: 24.3975 %"
Finalmente, si se observa que el coeficiente de variación de la proporción de impago es mayor al 10 %, significaría que la muestra no es representativa a la población.
Ejemplo 2: M.A.S con Reposición: Promedio
Suponer que un auditor muestrea aleatoriamente con reposición 20 cuentas impagadas de una empresa, además de verificar en 12 de ellas la cantidad adeudada y si los documentos respectivos cumplen (1) o no cumplen (0) con los procedimientos establecidos. Se tiene la siguiente estructura poblacional:
## # A tibble: 20 x 3
## Cuenta `Cantidad Adeudada` Cumplimiento
## <dbl> <dbl> <dbl>
## 1 1 278 1
## 2 2 192 1
## 3 3 310 1
## 4 4 94 0
## 5 5 86 1
## 6 6 335 1
## 7 7 310 0
## 8 8 290 1
## 9 9 221 1
## 10 10 168 1
## 11 11 188 0
## 12 12 212 0
## 13 13 92 1
## 14 14 56 1
## 15 15 142 1
## 16 16 37 1
## 17 17 186 0
## 18 18 221 1
## 19 19 229 0
## 20 20 305 1
Con ello se estima el promedio adecuado y sus correspondientes errores absoluto y relativo.
Se almacenan las cantidades adeudadas de las 20 cuentas:
cantidad_adeudada<-c(278,192,310,94,86,335,310,290,221,168,188,212,92,56,142,37,186,221,229,305)
cantidad_adeudada
## [1] 278 192 310 94 86 335 310 290 221 168 188 212 92 56 142 37 186 221 229
## [20] 305
Luego, se almacena el cumplimiento con los procedimientos establecidos de cada cuenta, respectivamente, siendo 1 los que cumplen y 0 los que no cumplen.
## [1] 1 1 1 0 1 1 0 1 1 1 0 0 1 1 1 1 0 1 0 1
Ahora, se extrae una muestra aleatoria de 12 de las 20 cuentas impagadas de la empresa:
## [1] 7 6 1 11 8 16 3 15 13 18 19 2
Las 12 cuentas impagadas generadas aleatoriamente y su cumplimiento respectivo con los procedimientos establecidos son:
## [1] 0 1 1 0 1 1 1 1 1 1 0 1
## [1] 310 335 278 188 290 37 310 142 92 221 229 192
Se halla el promedio estimado de las 12 cuentas seleccionadas:
## [1] 218.6667
Error Absoluto de la muestra:
Calculando la varianza poblacional de las 20 cuentas impagadas:
## [1] 655.745
## [1] "La varianza poblacional es: 655.745"
Error Relativo o coeficiente de variación:
Una vez obtenida la varianza, se halla el coeficiente de variación para el promedio de las cantidades adeudadas de las cuentas impagadasseleccionadas:
## [1] 11.71076
## [1] "Coeficiente de Variación del promedio: 11.711 %"
Si es mayor al 10% decimos que la muestra no es representativa a la población.
Ejemplo 3: M.A.S sin Reposición: Promedio
Asumri que mediante un M.A.S sin reposición se desea estimar el metraje utilizado para realizar las pruebas de calidad en cierta empresa textil, teniendo una población de 750 unidades , de la cual se extrae una muestra de 50. Los datos son los siguientes:
library(readxl)
ejercicio3<- read_excel("D:/Renzo Villegas Tello/Cursos/Estadistica Aplicada con R/Sesión 3 AER - Archivos y tarea/01-ARCHIVOS UTILIZADOS/ejercicio3.xlsx")
## New names:
## * i -> i...1
## * Xi -> Xi...2
## * i -> i...3
## * Xi -> Xi...4
## * i -> i...5
## * ...
## # A tibble: 10 x 10
## i...1 Xi...2 i...3 Xi...4 i...5 Xi...6 i...7 Xi...8 i...9 Xi...10
## <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 1 9.4 11 9.9 21 8.7 31 8.7 41 9.8
## 2 2 8.7 12 9.8 22 10 32 10 42 9.9
## 3 3 9.3 13 8.6 23 9.4 33 9.7 43 9.9
## 4 4 9.9 14 8.7 24 9.7 34 9.8 44 9
## 5 5 9.8 15 9.7 25 8.8 35 9.4 45 8.7
## 6 6 9.3 16 9.6 26 9.5 36 9.6 46 8.5
## 7 7 9.1 17 8.7 27 9.1 37 8.5 47 8.5
## 8 8 8.9 18 9.6 28 9.1 38 8.5 48 9.7
## 9 9 9.6 19 9.7 29 9.8 39 9.1 49 9.9
## 10 10 9.1 20 8.9 30 9.4 40 9.6 50 9.5
Creamos el vector “xi” correspondiente al metraje del ejemplo.
xi<-c(9.4,8.7,9.3,9.9,9.8,9.3,9.1,8.9,8.6,9.1,9.9,9.8,8.6,8.7,9.7,9.6,8.7,9.6,9.7,8.9,8.7,10,9.4,9.7,8.8,9.5,9.1,9.1,9.8,9.4,8.7,10,9.7,9.8,9.4,9.6,8.5,8.5,9.1,9.6,9.8,9.9,9.9,9,8.7,8.5,8.7,9.7,9.9,9.5)
xi
## [1] 9.4 8.7 9.3 9.9 9.8 9.3 9.1 8.9 8.6 9.1 9.9 9.8 8.6 8.7 9.7
## [16] 9.6 8.7 9.6 9.7 8.9 8.7 10.0 9.4 9.7 8.8 9.5 9.1 9.1 9.8 9.4
## [31] 8.7 10.0 9.7 9.8 9.4 9.6 8.5 8.5 9.1 9.6 9.8 9.9 9.9 9.0 8.7
## [46] 8.5 8.7 9.7 9.9 9.5
Declaramos los datos:
El promedio estimado es la media del vector “xi”:
\[ \bar{X}=\frac{\sum_{i=1}^{n}X_i}{50}=9.3 \]
En R:
## [1] 9.306
El total estimado, que es el promedio estimado por el tamaño de la población: \[ \bar{X}=N*\bar{X} \] En R:
## [1] 6979.5
Hallamos el error absoluto de los dos estimadores hallados anteriormente: \[ V(\bar{X})=\frac{S^2}{n}(1-\frac{n}{N}) \] Donde: \[ s^2=\sum_{i=1}^{n}\frac{(X_i-\bar{X})^2}{n-1} \] Para ello, se calcula la cuasi-varianza \(S^2\):
\[ S^2=\frac{(9.40-9.3)^2+(8.7-9.3)^2+...(9.5-9.3)^2}{50-1}=0.23 \] En R:
## [1] 0.2364939
Calculando el error absoluto \(VAR(\bar{X})\):
\[ V(\bar{X})=\frac{S^2}{n}(1-\frac{n}{N})=\frac{0.23}{50}(1-\frac{50}{750})=0.004 \] En R:
## [1] 0.004414552
El error absoluto del total estimado:
\[ V(\bar{X})=\frac{N^2S^2}{n}(1-\frac{n}{N})=\frac{750^2*0.23^2}{50}(1-\frac{50}{750})=2483.18 \] En R:
## [1] 2483.186
El error relativo para el promedio estimado:
\[ CV(\bar{X})=\frac{\sqrt{V(\bar{X})}}{\bar{X}}=\frac{\sqrt{0.004}}{9.32}=0.0070 \] En R:
## [1] 0.007139705
El error relativo para el total estimado:
\[ CV(\bar{X})=\frac{\sqrt{V(\bar{X})}}{\bar{X}}=\frac{\sqrt{2452.67}}{6991.5}=0.0070 \] En R:
## [1] 0.007139705
Ejemplo 4: M.A.S con Reposición: Tamaño de Muestra
En una región con 1000 viviendas, determinar el tamaño de muestra necesario para que, con un grado de confianza del 95 %, la estimación de la proporción de viviendas sin agua corriente no difiera en más del 0.1 del valor verdadero. Comentar los resultados para un muestreo con reposición.
\[ \begin{align} P(|\beta-P|≤0.1)=0.95 \\ P(-0.1≤\beta) - P ≤.1)=0.95 \\ P(\frac{-0.1}{\alpha(\beta)}≤\frac{\beta-P}{\alpha(\beta)}≤\frac{0.1}{\alpha(\beta)})=0.95 \\ P=(\frac{-0.1}{\alpha(\beta)}≤N(0,1)≤\frac{0.1}{\alpha(\beta)}) \end{align} \] En R:
De esto se infiero que: \[ \frac{0.1}{\alpha(\beta)}=Z_\alpha \] Con \(\alpha\) = 0.05 \[ \frac{0.1}{\alpha(\beta)}=Z_\alpha=1.96 \] \[ \frac{0.1}{\alpha(\beta)}a=1.96 -> \alpha(\beta) = 0.05102 \] En R:
## [1] -0.05102041
Como no se indica el valor de la proporción P, este es 0.5: \[ \begin{align} n=\frac{P(1-P)}{\theta^2} \\ n=\frac{0.5*0.5}{0.05102^2}=96.04 \end{align} \] En R:
## [1] 0.5
## [1] 96
Ejemplo 5: M.A.S sin Reposición: Total Estimado
Un dentista efectuó una encuesta para investigar el estado de los dientes de 200 niños en una ciudad.El doctor seleccionó una muestra aleatoria simple de 20 niños y contó el número de dientes con caries para cada uno de los siguientes resultados:
N° de Dientes con caries por niño | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
---|---|---|---|---|---|---|---|---|---|---|---|
N° de niños | 8 | 4 | 2 | 2 | 1 | 1 | 0 | 0 | 0 | 1 | 1 |
Estimar el número total de dientes con caries en los niños del pueblo tanto con el error absoluto como en el relativo.
## [1] 0 1 2 3 4 5 6 7 8 9 10
## [1] 8 4 2 2 1 1 0 0 0 1 1
Calculo de la media estimada:
\[ \bar{X}=\frac{0*8+1*4++2*2+3*2+4*1+...+9*1+10*1}{20}=2.1 \] En R:
## [1] 2.1
Cálculo del total estimado: \[ \bar{X}=N\bar{X}=200*2.1=420 \] En R:
## [1] 420
El número total de dientes con caries en los niños del pueblo es 420.
Error Absoluto:
\[ \begin{align} V(\bar{X})=\frac{N^2S^2}{n}(1-f) \\ f=\frac{n}{N}=\frac{20}{200}=0.1 \\ S^2=\frac{1}{n-1}[\sum(\bar{X_i-\bar{X}})^2n_i] \\ S^2=\frac{1}{20-1}[(0-2.1)^2*8+(1-2.1)^2*4+...+(10-2.1)^2*1] S^2=8.62 \\ V(\bar{X})=\frac{200^2*8.62}{20}(1-0.1) \\ V(\bar{X})=15517.895 \end{align} \] En R:
## [1] 8.621053
## [1] 0.1
## [1] 15517.89
La varianza del total estimado es 15517.89
Error Relativo:
\[ \begin{align} CV(\bar{X}=\frac{\sqrt{V(\bar{X})}}{\bar{X}}=\frac{\sqrt{15517.89}}{420} \\ CV(\bar{X})= 0.296597 (29.6597\%) \end{align} \] En R:
## [1] 0.2965972
## [1] "El error relativo es 29.6597 %"
Ejemplo 3: M.A.S sin Reposición: Intervalo de Confianza
En una muestra aleatoria simple sin reposición de 200 obtenida de una población de 2000 colegios, 120 de estos estuvieron a favor de una propuesta, 57 se opusieron y 23 se abstuvieron de opinar. Estimar los límites de confian za al 95 % para el número de colegios que favorecieron la propuesta en tal población.
Proporción estimada:
\[ \begin{align} \bar{P}=\frac{\sum_{i=1}^{n}A_i}{n} \\ \bar{P}=\frac{120}{200}=60\% a favor \end{align} \]
## [1] 0.6
Error Absoluto:
\[ \begin{align} V(\bar{P})=\frac{\bar{P}(1-\bar{P})}{n-1}(1-\frac{n}{N}) \\ V(\bar{P})=\frac{0.6*0.4}{200-1}(1-0.1) \\ V(\bar{P})=0.00108543 \end{align} \] En R:
## [1] 0.001085427
Error relativo:
\[ \begin{align} CV(\bar{P})=\frac{\sqrt{V(\bar{P})}}{\bar{P}} \\ CV(\bar{P})=\frac{0.0329458}{0.6} \\ CV(\bar{P})= 0.054909 \end{align} \] En R:
## [1] 0.0549097
Intervalo de Confianza:
\[ \begin{align} IC=\bar{P}\pm1.96\sqrt{V(\bar{P})} \\ IC=0.6\pm1.96\sqrt{0.001085} \\ IC=0.6\pm0.0645739 \\ IC=[0.5354261,0.6645739] \end{align} \]
IC_inf<-P-1.96*sqrt(V_P)
IC_sup<-P+1.96+sqrt(V_P)
paste('El intervalo de confianza es [',format(IC_inf,digits = 4),',',format(IC_sup,digits = 4),']')
## [1] "El intervalo de confianza es [ 0.5354 , 2.593 ]"
Bibliografía
- Blanco, C. (2011). Métodos de Investigación Cuantitativa en Ciencias Sociales y Comunicación. Edit: Brujas. Córdova - Argentina.
- Freedman, D., Pisani, R. & Purves, R. (1993). Estadística. 2da Edición. Edit: Universidad de California, Berkeley.
- Salinas, J. (). Análisis Estadísticos para la toma de desiciones en administración y economía. Edit: Universidad del Pacífico, Lima - Perú.
- Walpole, R., Myers, R., Myers, S. & Ye, K. (2012). Probabilidad y Estadística para Ingeniería y Ciencias. Edit: Pearson. México.
- CRAN. (s. f.). The Comprehensive R Archive Network. Recuperado de https://cran.r-project.org/, el 27 de agosto del 2020.
- López, C. P. (2000). Técnicas de muestreo estadístico. México D. F., México: Alfaomega Grupo Editor.
- Pérez, C. (2005). Muestreo estadístico. Madrid, España: Pearson Educación.
- Rubio, A. (s. f.). Muestreo. Criterios básicos para el diseño de muestras probabilísticas. Lima, Perú: Universidad Nacional Agraria La Molina.
- Zamora, M. C. (2009). Estadística descriptiva e inferencial. Lima, Perú: Moshera S.R. L.