U3A3

Felipe Escarrega

26/11/2020

MUESTREO EN ESTADÍSTICA

Introducción

MUESTREO En ocasiones en que no es posible o conveniente realizar un censo(analizar a todos los elementos de una población), se selecciona una muestra, entendiendo por tal una parte representativa de la población.

El muestreo es por lo tanto una herramienta de la investigación científica, cuya función básica es determinar que parte de una población debe examinarse, con la finalidad de hacer inferencias sobre dicha población.

La muestra debe lograr una representación adecuada la población, en la quese reproduzca de la mejor manera los rasgos esenciales de dicha población que son importantes para la investigación. Para que una muestra sea representativa, y por lo tanto útil, debe de reflejar las similitudes y diferencias encontradas en la población, es decir ejemplificar las características de ésta

Los errores más comunes que se pueden cometerson:

1.-Hacer conclusiones muy generales a partir de la observación de sólo una parte de laPoblación, se denomina error de muestreo.

2.-Hacer conclusiones hacia una Población mucho más grandes de la que originalmente se tomo la muestra. Error de Inferencia.En la estadística se usala palabra población para referirse no sólo a personas si no a todos los elementos que han sido escogidos para su estudio y el término muestra se usa para describir una porción escogida de la población.

Tipos de muestreo

I.Muestreo probabilístico Los métodos de muestreo probabilísticos son aquellos que se basan en el principio de equiprobabilidad. Es decir, aquellos en los que todos los individuos tienen la misma probabilidad de ser elegidos para formar parte de una muestra y, consiguientemente, todas las posibles muestras de tamaño n tienen la misma probabilidad de ser seleccionadas.Sólo estos métodos de muestreo probabilísticos nos aseguran la representatividad de la muestra extraída y son, por tanto, los más recomendables.

Dentro de los métodos de muestreo probabilísticos encontramos los siguientes tipos:

1.-Muestreo aleatorio simple:

El procedimiento empleado es el siguiente: 1) se asigna un número a cada individuo de la población y 2) a través de algún medio mecánico (bolas dentro de una bolsa, tablas de números aleatorios, números aleatorios generados con una calculadora u ordenador, etc.) se eligen tantos sujetos como sea necesario para completar el tamaño de muestra requerido Este procedimiento, atractivo por su simpleza, tiene poca o nula utilidad práctica cuando la población que estamos manejando es muy grande.

2.-Muestreo aleatorio sistemático:

Este procedimiento exige, como el anterior, numerar todos los elementos de la población, pero en lugar de extraer n números aleatorios sólo se extrae uno. Se parte de ese número aleatorio i, que es un número elegido al azar, y los elementos que integran la muestra son los que ocupa los lugares i, i+k, i+2k, i+3k,…,i+(n-1)k, es decir se toman los individuos de k en k, siendo k el resultado de dividir el tamaño de la población entre el tamaño de la muestra: k= N/n. El número i que empleamos como punto de partida será un número al azar entre 1 y k. Elriesgo este tipo de muestreo está en los casos en que se dan periodicidades en la población ya que al elegir a los miembros de la muestra con una periodicidad constante (k) podemos introducir una homogeneidad que no se da en la población. Imaginemos que estamos seleccionando una muestra sobre listas de 10 individuos en los que los 5 primeros son varones y los 5 últimos mujeres, si empleamos un muestreo aleatorio sistemático con k=10 siempre seleccionaríamos o sólo hombres o sólo mujeres, no podría haber una representación de los dos sexos.

3.-Muestreo aleatorio estratificado: Trata de obviar las dificultades que presentan los anteriores ya que simplifican los procesos y suelen reducir el error muestral para un tamaño dado de la muestra. Consiste en considerar categorías típicas diferentes entre sí (estratos) que poseen gran homogeneidad respecto a alguna característica (se puede estratificar, por ejemplo, según la profesión, el municipio de residencia, el sexo, el estado civil, etc.). Lo que se pretende con este tipo de muestreo es asegurarse de que todos los estratos de interés estarán representados adecuadamente en la muestra. Cada estrato funciona independientemente, pudiendo aplicarse dentro de ellos el muestreo aleatorio simple o el estratificado paraelegir los elementos concretos que formarán parte de la muestra. En ocasiones las dificultades que plantean son demasiado grandes, pues exige un conocimiento detallado de la población. (Tamaño geográfico, sexos, edades,…)

Ejercicio de muesteo en R

library(tidyverse)
## -- Attaching packages --------------------------------------- tidyverse 1.3.0 --
## v ggplot2 3.3.2     v purrr   0.3.4
## v tibble  3.0.3     v dplyr   1.0.2
## v tidyr   1.1.1     v stringr 1.4.0
## v readr   1.3.1     v forcats 0.5.0
## -- Conflicts ------------------------------------------ tidyverse_conflicts() --
## x dplyr::filter() masks stats::filter()
## x dplyr::lag()    masks stats::lag()
library(dplyr)
library(DT)

Para este ejercicio se utilizarán datos de crímenes cometidos en reino unido con la función “crimtab”

Primer acercamiento a los datos

Student’s 3000 Criminals Data Description Data of 3000 male criminals over 20 years old undergoing their sentences in the chief prisons of England and Wales. A table object of integer counts, of dimension 42 * 22 with a total count, sum(crimtab) of 3000. The 42 rownames (“9.4”, “9.5”, …) correspond to midpoints of intervals of finger lengths whereas the 22 column names (colnames) (“142.24”, “144.78”, …) correspond to (body) heights of 3000 criminals, see also below.

crime <- data.frame(crimtab)
dim(crime)
## [1] 924   3
datatable(crime)

1.- Selección de la muestrea con M.A.S.

#Tamaño de la muestra
n <- 30
muestramia <-sample(1:nrow(crime), size=n, replace=FALSE)
muestramia
##  [1] 545  58 383 243 797 803 536 550 221  31 546 583 618 898  51 812 690 857 612
## [20] 832 168  90 835 598  15 167 636 222 524 626

Asignar los elementos de la muaestra al data frame de los datos

crimemuestramia <- crime[muestramia, ]
head(crimemuestramia)
##     Var1   Var2 Freq
## 545 13.4 172.72    0
## 58  10.9 144.78    0
## 383  9.8  165.1    0
## 243 12.6 154.94    0
## 797 13.4 187.96    0
## 803  9.8  190.5    0

Asignación: Terminar el ejercicio: https://rpubs.com/Felipe1986/MuestreoTutorialR explicado por ustedes lo más importante es: que importen datos de ustedes y realicen un muestreo de algún tipo a ellos

library(readr)
encuesta <- read_csv("encuesta felipe.csv", 
    col_types = cols(`Indique su edad` = col_number()))
## Warning: The following named parsers don't match the column names: Indique su
## edad
dim(encuesta)
## [1] 17  5
datatable(encuesta)

Tamaño de la muestra

n <- 10
muestramia <-sample(1:nrow(encuesta), size=n, replace=FALSE)
muestramia
##  [1]  4 13 15 16  8 14  9  3 10  7
encuestamuestramia <- encuesta[muestramia, ]
head(encuestamuestramia)
## # A tibble: 6 x 5
##   `Ciudad donde vive:` `Colonia:`             Genero `Edad:` Pregunta 
##   <chr>                <chr>                  <chr>    <dbl> <chr>    
## 1 Los Mochis           Jardines Plaza del Sol Hombre      20 1000-1500
## 2 El Fuerte            Villa Owen             Mujer       21 1000-1500
## 3 Los mochis           Tabachines             Mujer       20 1000-1500
## 4 Los Mochis           Inf. Macapule          Mujer       18 1000-1500
## 5 Guaymas              FOVISSSTE TABACHINES 4 Hombre      20 600-1000 
## 6 Los Mochis, Sinaloa  Mochicahui             Hombre      22 1000-1500
library(dplyr)

#Muestra sin reemplazo
encuestamuestramia2<- encuesta %>%
  sample_n(size=n,replace=FALSE)

head(encuestamuestramia2)
## # A tibble: 6 x 5
##   `Ciudad donde vive:` `Colonia:`             Genero `Edad:` Pregunta 
##   <chr>                <chr>                  <chr>    <dbl> <chr>    
## 1 Los Mochis           Jardines Plaza del Sol Hombre      20 1000-1500
## 2 Los Mochis Sinaloa   Heroes del 47          Hombre      21 600-1000 
## 3 Los Mochis           <NA>                   Mujer       19 1000-1500
## 4 Los Mochis           12 de Oct              Mujer       19 500-600  
## 5 Los Mochis           Santa Cecilia          Mujer       19 1000-1500
## 6 Los mochis           Tabachines             Mujer       20 1000-1500
#Muestra con pesos
encuestamuestramia3 <- encuesta %>%
  sample_n(size=n,replace=FALSE)

head(encuestamuestramia3)
## # A tibble: 6 x 5
##   `Ciudad donde vive:` `Colonia:`    Genero `Edad:` Pregunta  
##   <chr>                <chr>         <chr>    <dbl> <chr>     
## 1 El Fuerte            Villa Owen    Mujer       21 1000-1500 
## 2 Los Mochis           12 de Oct     Mujer       19 500-600   
## 3 Los Mochis Sinaloa   Heroes del 47 Hombre      21 600-1000  
## 4 Los Mochis           Inf. Macapule Mujer       18 1000-1500 
## 5 Los Mochis           Las Fuentes   Hombre      19 1500-10000
## 6 <NA>                 Tabachines    Mujer       25 600-1000