library(dplyr)
library(mosaic)
library(readr)
library(ggplot2) # Para gráficos
library(knitr) # Para formateo de datos
library(fdth) # Para tablas de frecuencias
library(leaflet) # Para hacer mapasCaso 100 Tipos muestreo
Objetivo
Determinar y simular tipos de muestreos
Descripción
Con un conjunto de datos utilizar mecanismos de programación para determinar muestreos mediante técnicas de aleatorio simple, aleatorio sistemático, aleatorio estratificado y por conglomerados.
Sustento teórico
El propósito de la estadística inferencial consiste en determinar y conocer el comportamiento sobre una población a partir de una muestra.
Una muestra es una porción, una proporción o parte de la población de interés. En muchos casos, el muestreo resulta más accesible y sencillo que el estudio de toda la población. [@lind_estadistica_2015].
Por otra parte la importancia del muestreo como lo menciona [@anderson_estadistica_2008] es cuestión de minimizar costo de trabajo, recopilar información de una muestra es sustancialmente menor, que hacerlo de una población completa; especialmente cuando se deben realizar entrevistas personales para recopilar la información.
Finamente, los métodos de muestreo aleatorio y sin sesgos son muy importantes para realizar inferencias estadísticas válidas [@lind_estadistica_2015].
Muestreo aleatorio simple
Una muestra aleatoria simple de tamaño \(n\) de una población finita de tamaño \(N\) es una muestra seleccionada de manera que cada posible muestra de tamaño \(n\) tenga la misma probabilidad de ser seleccionada [@anderson_estadistica_2008].
De un conjunto de \(N\) elementos de una población, un muestreo aleatorio simple sería una especie de rifa o tómbola para elegir de de entre los \(N\) total de población una cantidad de \(n\) número de la muestra.
Muestreo aleatorio sistemático

Se selecciona un punto aleatorio de inicio y posteriormente se elige cada k-ésimo miembro de la población [@lind_estadistica_2015].
Suele emplearse como alternativa al muestreo aleatorio simple, en especial cuando las poblaciones son grandes se lleva mucho tiempo tomar una muestra aleatoria simple en la que primero hay que hallar un número aleatorio y después contar o buscar en el marco el elemento correspondiente [@anderson_estadistica_2008].
El primer elemento se elige aleatoriamente, lo que permite suponer que una muestra sistemática tiene las propiedades de una muestra aleatoria simple. Esta suposición suele ser correcta cuando el marco es un ordenamiento aleatorio de los elementos de la población [@anderson_estadistica_2008]
Muestreo aleatorio estratificado

Cuando una población se divide en grupos a partir de ciertas características, el muestreo aleatorio estratificado garantiza que cada grupo o estrato se encuentre representado en la muestra [@lind_estadistica_2015].
[@anderson_estadistica_2008] describe el muestreo aleatorio estratificado en donde los elementos de la población primero se dividen en grupos, a los que se les llama estratos, de manera que cada elemento pertenezca a uno y sólo un estrato. La base para la formación de los estratos, que puede ser departamento, edad, tipo de industria, entre otros, está a discreción de la persona que diseña la muestra.
Por otra parte, para asegurar que la muestra sea una representación imparcial de las \(N\) observaciones, se debe determinar la frecuencia relativa y a partir de ahí generar las cantidad de muestra de cada estrato. [@lind_estadistica_2015].
Muestreo por conglomerados

La población se divide en conglomerados a partir de los límites naturales geográficos u otra clase. A continuación, estos se seleccionan al azar y se toma una muestra de forma aleatoria con elementos de cada grupo [@lind_estadistica_2015].
Desarrollo
Cargar librerías
Cargar datos
Cargar datos de nombres de personas
- Se carga un conjunto de 100 nombres de personas con sus atributo de género y la actividad deportiva o cultura que practican,
- Cargando un datos llamando a una función que construye los datos de personas.
- El argumento encoding significa que acepte acentos en los datos o caracteres que lo permite la codificación UTF-8.
source("https://raw.githubusercontent.com/rpizarrog/Libro-Analisis-de-datos-con-R-2022/main/funciones/f_construir_datos_y_funciones.r", encoding = "UTF-8")
kable(x = head(personas, 10), row.names = TRUE, caption = "Los primeros diez registros de nombres en el conjunto de datos")| nombres | generos | ajedrez | beisbol | tiro.arco | pesas | futbol | softbol | atletismo | folklorico | tahitiano | teatro | rondalla | pantomima | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 1 | JUAN | M | NO | NO | NO | SI | NO | SI | NO | NO | NO | NO | NO | SI |
| 2 | JOSÉ LUIS | M | NO | NO | NO | NO | NO | NO | NO | SI | NO | NO | NO | NO |
| 3 | JOSÉ | M | NO | SI | NO | SI | NO | NO | NO | NO | NO | NO | SI | SI |
| 4 | MARÍA GUADALUPE | F | NO | SI | NO | NO | NO | NO | NO | NO | NO | NO | SI | SI |
| 5 | FRANCISCO | M | NO | NO | NO | NO | NO | NO | SI | NO | NO | NO | NO | NO |
| 6 | GUADALUPE | F | NO | NO | NO | NO | NO | NO | NO | NO | NO | NO | NO | NO |
| 7 | MARÍA | F | NO | SI | NO | NO | SI | NO | NO | NO | NO | NO | NO | NO |
| 8 | JUANA | F | NO | NO | NO | NO | SI | NO | NO | SI | NO | NO | NO | NO |
| 9 | ANTONIO | M | NO | NO | NO | NO | NO | NO | NO | NO | NO | NO | NO | NO |
| 10 | JESÚS | M | NO | NO | SI | NO | NO | SI | NO | NO | SI | NO | NO | NO |
kable(x = tail(personas, 10), row.names = TRUE, caption = "Los primeros diez registros de nombres en el conjunto de datos")| nombres | generos | ajedrez | beisbol | tiro.arco | pesas | futbol | softbol | atletismo | folklorico | tahitiano | teatro | rondalla | pantomima | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 91 | ANDREA | F | NO | NO | NO | NO | NO | NO | NO | NO | NO | NO | NO | SI |
| 92 | ISABEL | F | NO | NO | NO | NO | NO | NO | NO | NO | NO | NO | NO | NO |
| 93 | MARÍA TERESA | F | NO | SI | NO | NO | SI | NO | NO | SI | NO | NO | NO | NO |
| 94 | IRMA | F | SI | SI | NO | NO | NO | NO | NO | NO | NO | NO | NO | NO |
| 95 | CARMEN | F | NO | NO | NO | NO | NO | NO | NO | NO | NO | NO | NO | NO |
| 96 | LUCÍA | F | NO | SI | NO | SI | NO | NO | NO | SI | NO | NO | SI | SI |
| 97 | ADRIANA | F | NO | NO | NO | NO | NO | NO | SI | NO | NO | NO | NO | NO |
| 98 | AGUSTÍN | M | NO | SI | NO | NO | NO | NO | NO | NO | SI | NO | NO | NO |
| 99 | MARÍA DE LA LUZ | F | NO | NO | NO | NO | NO | NO | SI | NO | NO | NO | NO | NO |
| 100 | GUSTAVO | M | NO | NO | NO | NO | NO | NO | NO | SI | NO | NO | NO | NO |
Se presenta el resumen de los datos de personas como parte del análisis descriptivo no sin antes convertir todas las variables a tipo factor para categorizar y describir mas cómodamente la cantidad de observaciones con respecto a cada variable.
personas$nombres <- as.factor(personas$nombres)
personas$generos <- as.factor(personas$generos)
personas$ajedrez <- as.factor(personas$ajedrez)
personas$beisbol <- as.factor(personas$beisbol)
personas$tiro.arco <- as.factor(personas$tiro.arco)
personas$pesas <- as.factor(personas$pesas)
personas$futbol <- as.factor(personas$futbol)
personas$softbol <- as.factor(personas$softbol)
personas$atletismo <- as.factor(personas$folklorico)
personas$folklorico <- as.factor(personas$folklorico)
personas$tahitiano <- as.factor(personas$tahitiano)
personas$teatro <- as.factor(personas$teatro)
personas$rondalla <- as.factor(personas$rondalla)
personas$pantomima <- as.factor(personas$pantomima)
kable(summary(select(personas, generos, ajedrez, beisbol, tiro.arco, pesas, futbol, softbol, atletismo, folklorico, tahitiano, teatro, rondalla, pantomima)), caption="Descripción de las variables personas")| generos | ajedrez | beisbol | tiro.arco | pesas | futbol | softbol | atletismo | folklorico | tahitiano | teatro | rondalla | pantomima | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| F:43 | NO:87 | NO:85 | NO:87 | NO:86 | NO:89 | NO:87 | NO:77 | NO:77 | NO:90 | NO:89 | NO:79 | NO:88 | |
| M:57 | SI:13 | SI:15 | SI:13 | SI:14 | SI:11 | SI:13 | SI:23 | SI:23 | SI:10 | SI:11 | SI:21 | SI:12 |
Hay 43 personas del género femenino y 57 del género masculino. Con respecto a las actividades deportivas o culturales hay por ejemplo 13 personas que practican ajedrez y 14 de las 100 realizan pesas; 23 realizan baile folklórico y 21 van a rondalla.
Cargar datos de alumnos
Se cargan los datos de alumnos inscritos en una Institución de educación superior en un semestre con los atributos o variables siguientes:
alumno: número (caracter) consecutivo de alumno que distingue a cada estudiante
semestre: valor numérico del semestre que cursa el alumno
aprobado: valor numérico de créditos los que ha cursado el alumno
carga: valor numérico de créditos lo que actualmente cursa en valor numérico
promedio: el valor numérico del promedio aritmético
carrera: la carrera profesional que cursa para la muestra estratificada
latitud: datos geográficos para distinguir conglomerado
longitud: datos geográficos para distinguir conglomerado
alumnos <- read.csv("https://raw.githubusercontent.com/rpizarrog/Libro-Analisis-de-datos-con-R-2022/main/datos/datos_alumnos_lat_long.csv", stringsAsFactors = TRUE)
kable(head(alumnos, 10), row.names = TRUE, caption = "Los primeros diez registros de alumnos")| alumno | semestre | aprobados | carga | promedio | carrera | localidad | latitud | longitud | |
|---|---|---|---|---|---|---|---|---|---|
| 1 | 1 | 11 | 198 | 19 | 80.21 | SISTEMAS | Victoria de Durango | 24.02399 | -104.6702 |
| 2 | 2 | 11 | 235 | 10 | 84.33 | SISTEMAS | Los Arroyos (Las Colonias) | 23.69142 | -105.0328 |
| 3 | 3 | 9 | 235 | 10 | 95.25 | SISTEMAS | Victoria de Durango | 24.02399 | -104.6702 |
| 4 | 4 | 9 | 226 | 19 | 95.00 | SISTEMAS | Victoria de Durango | 24.02399 | -104.6702 |
| 5 | 5 | 10 | 231 | 14 | 82.32 | SISTEMAS | Victoria de Durango | 24.02399 | -104.6702 |
| 6 | 6 | 9 | 212 | 23 | 95.02 | SISTEMAS | Victoria de Durango | 24.02399 | -104.6702 |
| 7 | 7 | 12 | 221 | 10 | 79.06 | SISTEMAS | La Criba (Don Toño) | 24.18015 | -104.5482 |
| 8 | 8 | 9 | 226 | 9 | 92.47 | SISTEMAS | Victoria de Durango | 24.02399 | -104.6702 |
| 9 | 9 | 9 | 231 | 4 | 91.08 | SISTEMAS | Los Arroyos (Las Colonias) | 23.69142 | -105.0328 |
| 10 | 10 | 11 | 222 | 13 | 80.42 | SISTEMAS | Victoria de Durango | 24.02399 | -104.6702 |
kable(tail(alumnos, 10), row.names = TRUE, caption = "Las útimos diez registros de alumnos")| alumno | semestre | aprobados | carga | promedio | carrera | localidad | latitud | longitud | |
|---|---|---|---|---|---|---|---|---|---|
| 5920 | 5920 | 7 | 169 | 23 | 89.14 | ADMINISTRACION | Victoria de Durango | 24.02399 | -104.6702 |
| 5921 | 5921 | 5 | 109 | 26 | 87.83 | ADMINISTRACION | Victoria de Durango | 24.02399 | -104.6702 |
| 5922 | 5922 | 3 | 55 | 29 | 92.83 | ADMINISTRACION | Victoria de Durango | 24.02399 | -104.6702 |
| 5923 | 5923 | 2 | 23 | 23 | 88.60 | ADMINISTRACION | Los Arroyos (Las Colonias) | 23.69142 | -105.0328 |
| 5924 | 5924 | 2 | 27 | 28 | 92.83 | ADMINISTRACION | La Esperanza | 23.92139 | -105.2973 |
| 5925 | 5925 | 7 | 94 | 13 | 80.95 | ADMINISTRACION | Victoria de Durango | 24.02399 | -104.6702 |
| 5926 | 5926 | 5 | 103 | 32 | 92.68 | ADMINISTRACION | La Esperanza | 23.92139 | -105.2973 |
| 5927 | 5927 | 4 | 79 | 34 | 86.18 | ADMINISTRACION | Victoria de Durango | 24.02399 | -104.6702 |
| 5928 | 5928 | 5 | 108 | 32 | 90.48 | ADMINISTRACION | La Criba (Don Toño) | 24.18015 | -104.5482 |
| 5929 | 5929 | 7 | 169 | 32 | 92.33 | ADMINISTRACION | La Criba (Don Toño) | 24.18015 | -104.5482 |
alumnos <- as.data.frame(alumnos)kable(summary(select(alumnos, carrera, localidad), caption="Descripción de la variable personas"))| carrera | localidad | |
|---|---|---|
| INDUSTRIAL : 707 | La Criba (Don Toño) : 750 | |
| ARQUITECTURA : 675 | La Esperanza : 419 | |
| CIVIL : 648 | Las Curras : 303 | |
| GESTION EMPRESARIAL: 585 | Los Arroyos (Las Colonias): 575 | |
| QUIMICA : 568 | Los Caballos de Don Cruz : 355 | |
| ADMINISTRACION : 497 | Victoria de Durango :3527 | |
| (Other) :2249 | NA |
La carrera de ARQUITECTURA es la que mas alumnos tiene y las carrera que menos tiene es TIC; con respecto a las localidades hay 3527 alumnos que viven en Victoria de Durango y 303 que viven en la localidad de las Curras,
Sembrar una semilla
set.seed(2023)Simular muestreos
Muestreo aleatorio simple
Se simula realizar una encuesta a diez personas de las 100 que existen, la pregunta es: ¿a que personas encuestar?
Con el conjunto de datos seleccionar 10 personas aleatoriamente con la función sample(). Con el argumento replace=FALSE significa que no se repita el elemento seleccionado en la muestra.
N <- nrow(personas)
n <- 10
muestra <- sample(x = personas, size = n, replace = FALSE)
kable(muestra, row.names = TRUE, caption = "La muestra de personas")| nombres | generos | ajedrez | beisbol | tiro.arco | pesas | futbol | softbol | atletismo | folklorico | tahitiano | teatro | rondalla | pantomima | orig.id | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 80 | MARÍA LUISA | F | SI | NO | NO | NO | NO | NO | NO | NO | NO | NO | NO | NO | 80 |
| 47 | ALICIA | F | NO | SI | NO | NO | NO | SI | NO | NO | NO | SI | NO | NO | 47 |
| 72 | ÓSCAR | M | SI | NO | NO | NO | NO | NO | NO | NO | NO | NO | NO | NO | 72 |
| 26 | JAVIER | F | NO | NO | NO | NO | NO | SI | NO | NO | NO | NO | SI | NO | 26 |
| 44 | FRANCISCA | F | NO | NO | SI | NO | NO | NO | NO | NO | NO | NO | NO | NO | 44 |
| 65 | SALVADOR | M | SI | NO | NO | NO | NO | NO | NO | NO | NO | NO | SI | NO | 65 |
| 29 | RAÚL | M | NO | SI | NO | SI | NO | NO | SI | SI | NO | NO | SI | NO | 29 |
| 49 | SERGIO | M | SI | NO | NO | NO | NO | NO | NO | NO | NO | NO | NO | NO | 49 |
| 81 | LUIS ÁNGEL | M | NO | NO | NO | NO | NO | NO | NO | NO | SI | NO | NO | NO | 81 |
| 5 | FRANCISCO | M | NO | NO | NO | NO | NO | NO | NO | NO | NO | NO | NO | NO | 5 |
Con el conjunto de datos alumnos, se extrae una muestra por decir de 100 alumnos de los 5929 que hay en la población, ¿a cuáles alumnos seleccionar?. Por el muestreo aleatorio simple nuevamente se utiliza la función sample(). Se presenta solo los primeros 10 y últimos 10 registros de los 100 registros de la muestra extraida con las funcions head() y tail() respetivamente.
N <- nrow(alumnos)
n <- 100
registros <- sample(x = 1:N, size = n, replace = FALSE) # Genera los números
muestra <- alumnos[registros, ]
kable(head(muestra, 10), row.names = TRUE, caption = "La muestra de alumnos")| alumno | semestre | aprobados | carga | promedio | carrera | localidad | latitud | longitud | |
|---|---|---|---|---|---|---|---|---|---|
| 959 | 959 | 4 | 80 | 30 | 84.17 | ARQUITECTURA | Los Caballos de Don Cruz | 23.95737 | -104.5519 |
| 4578 | 4578 | 5 | 90 | 34 | 84.11 | QUIMICA | La Criba (Don Toño) | 24.18015 | -104.5482 |
| 5507 | 5507 | 9 | 262 | 10 | 93.96 | ADMINISTRACION | Victoria de Durango | 24.02399 | -104.6702 |
| 207 | 207 | 6 | 137 | 28 | 87.30 | SISTEMAS | Victoria de Durango | 24.02399 | -104.6702 |
| 4141 | 4141 | 4 | 70 | 28 | 79.73 | QUIMICA | Victoria de Durango | 24.02399 | -104.6702 |
| 5892 | 5892 | 5 | 113 | 27 | 93.38 | ADMINISTRACION | Victoria de Durango | 24.02399 | -104.6702 |
| 3808 | 3808 | 4 | 76 | 24 | 89.29 | MECATRONICA | Victoria de Durango | 24.02399 | -104.6702 |
| 5765 | 5765 | 3 | 55 | 29 | 92.58 | ADMINISTRACION | Los Caballos de Don Cruz | 23.95737 | -104.5519 |
| 384 | 384 | 3 | 50 | 33 | 86.91 | SISTEMAS | La Criba (Don Toño) | 24.18015 | -104.5482 |
| 1527 | 1527 | 8 | 189 | 24 | 82.90 | BIOQUIMICA | La Esperanza | 23.92139 | -105.2973 |
kable(tail(muestra, 10), row.names = TRUE, caption = "La muestra de alumnos")| alumno | semestre | aprobados | carga | promedio | carrera | localidad | latitud | longitud | |
|---|---|---|---|---|---|---|---|---|---|
| 5335 | 5335 | 13 | 230 | 5 | 79.74 | INFORMATICA | Victoria de Durango | 24.02399 | -104.6702 |
| 4464 | 4464 | 7 | 123 | 28 | 84.42 | QUIMICA | Las Curras | 24.01172 | -104.4686 |
| 1975 | 1975 | 4 | 57 | 28 | 80.50 | CIVIL | Victoria de Durango | 24.02399 | -104.6702 |
| 12 | 12 | 10 | 179 | 23 | 82.69 | SISTEMAS | La Esperanza | 23.92139 | -105.2973 |
| 4305 | 4305 | 2 | 11 | 25 | 91.67 | QUIMICA | Los Arroyos (Las Colonias) | 23.69142 | -105.0328 |
| 4917 | 4917 | 3 | 49 | 33 | 89.36 | GESTION EMPRESARIAL | Victoria de Durango | 24.02399 | -104.6702 |
| 2956 | 2956 | 6 | 145 | 33 | 85.18 | INDUSTRIAL | Los Caballos de Don Cruz | 23.95737 | -104.5519 |
| 3430 | 3430 | 5 | 50 | 24 | 79.50 | MECANICA | Victoria de Durango | 24.02399 | -104.6702 |
| 440 | 440 | 3 | 13 | 29 | 84.00 | SISTEMAS | Los Arroyos (Las Colonias) | 23.69142 | -105.0328 |
| 5455 | 5455 | 7 | 187 | 29 | 90.00 | ADMINISTRACION | Victoria de Durango | 24.02399 | -104.6702 |
Muestreo aleatorio sistemático
Con el conjunto de datos de las 100 personas, iniciar en un valor aleatorio e identificar los siguientes registros de 10 en 10 hasta tener diez personas.
N <- nrow(personas)
n = 10
saltos <- round(N / n, 0)
inicio <- round(sample(N, 1) / n, 0)
paste("Se inicia en el registro", inicio, " se recorre de ", saltos, "en", saltos)[1] "Se inicia en el registro 7 se recorre de 10 en 10"
#inicio
cuales <- seq(from = inicio, to =N, by= saltos)
kable(personas[cuales, ], row.names = TRUE, caption = "La muestra sistematizada de personas")| nombres | generos | ajedrez | beisbol | tiro.arco | pesas | futbol | softbol | atletismo | folklorico | tahitiano | teatro | rondalla | pantomima | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 7 | MARÍA | F | NO | SI | NO | NO | SI | NO | NO | NO | NO | NO | NO | NO |
| 17 | JUAN CARLOS | M | SI | NO | NO | NO | NO | NO | NO | NO | SI | NO | NO | NO |
| 27 | RAFAEL | M | NO | NO | NO | NO | NO | NO | SI | SI | NO | NO | NO | NO |
| 37 | ENRIQUE | F | NO | NO | NO | NO | NO | NO | NO | NO | SI | NO | SI | NO |
| 47 | ALICIA | F | NO | SI | NO | NO | NO | SI | NO | NO | NO | SI | NO | NO |
| 57 | PATRICIA | F | NO | NO | NO | NO | NO | NO | NO | NO | NO | NO | NO | NO |
| 67 | SILVIA | F | NO | NO | NO | NO | NO | NO | NO | NO | NO | SI | NO | NO |
| 77 | PABLO | M | NO | NO | SI | NO | NO | NO | SI | SI | NO | NO | NO | NO |
| 87 | JULIO CESAR | M | SI | NO | NO | NO | NO | NO | SI | SI | NO | NO | NO | NO |
| 97 | ADRIANA | F | NO | NO | NO | NO | NO | NO | NO | NO | NO | NO | NO | NO |
Con el conjunto de datos alumnos, hay que encontrar a 100 alumnos, ¿a cuáles alumnos?, bajo el muestreo sistematizado. Se presentan solo los primeros 10 y últimos 10 registros de la muestra.
N <- nrow(alumnos)
n = 100
saltos <- round(N / n, 0)
inicio <- round(sample(N, 1) / n, 0)
paste("Se inicia en el registro", inicio, " se recorre de ", saltos, "en", saltos)[1] "Se inicia en el registro 57 se recorre de 59 en 59"
cuales <- seq(from = inicio, to =N, by= saltos)
kable(alumnos[head(cuales, 10), ], row.names = TRUE, caption = "La muestra de alumnos")| alumno | semestre | aprobados | carga | promedio | carrera | localidad | latitud | longitud | |
|---|---|---|---|---|---|---|---|---|---|
| 57 | 57 | 9 | 226 | 4 | 89.10 | SISTEMAS | Victoria de Durango | 24.02399 | -104.6702 |
| 116 | 116 | 7 | 165 | 34 | 93.67 | SISTEMAS | Victoria de Durango | 24.02399 | -104.6702 |
| 175 | 175 | 3 | 50 | 33 | 90.91 | SISTEMAS | La Criba (Don Toño) | 24.18015 | -104.5482 |
| 234 | 234 | 7 | 105 | 22 | 84.00 | SISTEMAS | La Criba (Don Toño) | 24.18015 | -104.5482 |
| 293 | 293 | 4 | 83 | 33 | 86.28 | SISTEMAS | Victoria de Durango | 24.02399 | -104.6702 |
| 352 | 352 | 8 | 176 | 32 | 80.47 | SISTEMAS | Victoria de Durango | 24.02399 | -104.6702 |
| 411 | 411 | 7 | 165 | 34 | 82.78 | SISTEMAS | Victoria de Durango | 24.02399 | -104.6702 |
| 470 | 470 | 9 | 198 | 29 | 83.33 | ARQUITECTURA | La Criba (Don Toño) | 24.18015 | -104.5482 |
| 529 | 529 | 10 | 172 | 12 | 79.97 | ARQUITECTURA | Victoria de Durango | 24.02399 | -104.6702 |
| 588 | 588 | 4 | 80 | 30 | 90.28 | ARQUITECTURA | Victoria de Durango | 24.02399 | -104.6702 |
kable(alumnos[tail(cuales, 10), ], row.names = TRUE, caption = "La muestra de alumnos")| alumno | semestre | aprobados | carga | promedio | carrera | localidad | latitud | longitud | |
|---|---|---|---|---|---|---|---|---|---|
| 5367 | 5367 | 7 | 85 | 18 | 82.58 | INFORMATICA | Victoria de Durango | 24.02399 | -104.6702 |
| 5426 | 5426 | 7 | 156 | 33 | 90.29 | INFORMATICA | Victoria de Durango | 24.02399 | -104.6702 |
| 5485 | 5485 | 9 | 262 | 10 | 92.09 | ADMINISTRACION | La Criba (Don Toño) | 24.18015 | -104.5482 |
| 5544 | 5544 | 5 | 89 | 28 | 85.63 | ADMINISTRACION | La Esperanza | 23.92139 | -105.2973 |
| 5603 | 5603 | 1 | NA | 27 | 0.00 | ADMINISTRACION | Victoria de Durango | 24.02399 | -104.6702 |
| 5662 | 5662 | 1 | NA | 27 | 0.00 | ADMINISTRACION | Victoria de Durango | 24.02399 | -104.6702 |
| 5721 | 5721 | 8 | 180 | 34 | 85.00 | ADMINISTRACION | Victoria de Durango | 24.02399 | -104.6702 |
| 5780 | 5780 | 4 | 84 | 33 | 89.94 | ADMINISTRACION | Victoria de Durango | 24.02399 | -104.6702 |
| 5839 | 5839 | 6 | 140 | 28 | 91.93 | ADMINISTRACION | Los Caballos de Don Cruz | 23.95737 | -104.5519 |
| 5898 | 5898 | 2 | 23 | 28 | 87.80 | ADMINISTRACION | La Esperanza | 23.92139 | -105.2973 |
Muestreo aleatorio estratificado
Con el conjunto de datos de personas se trata de simular una muestra de 10 registros, que sea representativa de acuerdo y conforme al género femenino y masculino.
¿Cuál es la frecuencia relativa del género femenino? ¿Cuál es la frecuencia relativa del género masculino? ¿Cuál es la proporción de muestra por cada género?
El tamaño de la población es \(N = 100\) y el tamaño de la muestra es \(n=10\).
Se extrae la proporción de la muestra por cada género dividiendo la frecuencia de cada género entre el tamaño de la población.
Luego de esa proporción utilizar un muestreo simple para seleccionar los elementos de cada estrato, con ello se garantiza la imparcialidad y proporcionalidad en la muestra.
N <- nrow(personas) # Tamaño población
n <- 10 # Tamaño muestra
femeninos <- filter(personas, generos=='F')
masculinos <- filter(personas, generos=='M')
frfem <- nrow(femeninos) / N
frmas <- nrow(masculinos) / N
paste("La propoción de personas del género femenino es: ", round(frfem * N), "%") [1] "La propoción de personas del género femenino es: 43 %"
paste("La propoción de personas del género masculino es: ", round(frmas * N), "%") [1] "La propoción de personas del género masculino es: 57 %"
Aquí las muestras estratificadas de acuerdo al género, son \(4\) del género femenino. Redondeando la proporción multiplicado por el tamaño de la muestra.
muestraFem <- sample(x = femeninos, size = round(frfem * n), replace = FALSE)
kable(muestraFem, caption = "La muestra de personas del género [F] femenino")| nombres | generos | ajedrez | beisbol | tiro.arco | pesas | futbol | softbol | atletismo | folklorico | tahitiano | teatro | rondalla | pantomima | orig.id | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 24 | ROSA MARÍA | F | NO | NO | NO | NO | NO | SI | SI | SI | NO | NO | NO | NO | 24 |
| 42 | ADRIANA | F | NO | NO | NO | NO | NO | NO | NO | NO | NO | NO | NO | NO | 42 |
| 18 | MARÍA FERNANDA | F | NO | SI | SI | NO | NO | NO | SI | SI | NO | SI | NO | NO | 18 |
| 4 | JUANA | F | NO | NO | NO | NO | SI | NO | SI | SI | NO | NO | NO | NO | 4 |
Son \(6\) registros el género masculino. De igual manera, redondeando la proporción multiplicado por el tamaño de la muestra.
muestraMas <- sample(x = masculinos, size = round(frmas * n), replace = FALSE)
kable(muestraMas, row.names=TRUE, caption = "La muestra de personas del género [M] masculino")| nombres | generos | ajedrez | beisbol | tiro.arco | pesas | futbol | softbol | atletismo | folklorico | tahitiano | teatro | rondalla | pantomima | orig.id | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 40 | GABRIEL | M | SI | NO | SI | NO | NO | SI | NO | NO | NO | NO | NO | NO | 40 |
| 36 | JUAN MANUEL | M | NO | NO | NO | NO | NO | NO | SI | SI | NO | SI | SI | NO | 36 |
| 7 | MIGUEL ÁNGEL | M | NO | NO | NO | NO | NO | NO | NO | NO | SI | NO | NO | NO | 7 |
| 17 | RICARDO | M | NO | NO | NO | NO | SI | NO | NO | NO | NO | SI | NO | NO | 17 |
| 5 | ANTONIO | M | NO | NO | NO | NO | NO | NO | NO | NO | NO | NO | NO | NO | 5 |
| 12 | ROBERTO | M | NO | SI | NO | NO | NO | NO | NO | NO | NO | NO | SI | NO | 12 |
Simular muestreo estratificado por carreras de alumnos determinando las frecuencias relativas por medio de la función fdt_cat()
La columna muestra de la tabla construida indica la cantidad de alumnos de acuerdo a la frecuencia de estudiantes que existen por carrera.
Se garantiza con ello proporcionalidad y proporcionalidad en el muestreo, con ello simula la técnica del muestreo estratificado.
Se observa que existen más alumnos de la carrera de INDUSTRIAL con el 11.92%, seguido de alumnos de ARQUITECTURA con el 11.38%, se tiene un porcentaje del 1.36% de alumnos de la carrera de TIC.
N <- nrow(alumnos)
n <- 100
tabla_frec <- data.frame(fdt_cat(alumnos$carrera))
tabla_frec$muestra <- round(tabla_frec$rf * n, 0)
kable(tabla_frec, row.names = TRUE, caption = "Tabla de frecuencia de alumnos")| Category | f | rf | rf… | cf | cf… | muestra | |
|---|---|---|---|---|---|---|---|
| 1 | INDUSTRIAL | 707 | 0.1192444 | 11.924439 | 707 | 11.92444 | 12 |
| 2 | ARQUITECTURA | 675 | 0.1138472 | 11.384719 | 1382 | 23.30916 | 11 |
| 3 | CIVIL | 648 | 0.1092933 | 10.929330 | 2030 | 34.23849 | 11 |
| 4 | GESTION EMPRESARIAL | 585 | 0.0986676 | 9.866757 | 2615 | 44.10525 | 10 |
| 5 | QUIMICA | 568 | 0.0958003 | 9.580030 | 3183 | 53.68528 | 10 |
| 6 | ADMINISTRACION | 497 | 0.0838253 | 8.382527 | 3680 | 62.06780 | 8 |
| 7 | SISTEMAS | 452 | 0.0762355 | 7.623545 | 4132 | 69.69135 | 8 |
| 8 | BIOQUIMICA | 441 | 0.0743802 | 7.438016 | 4573 | 77.12936 | 7 |
| 9 | MECATRONICA | 432 | 0.0728622 | 7.286220 | 5005 | 84.41558 | 7 |
| 10 | MECANICA | 301 | 0.0507674 | 5.076741 | 5306 | 89.49233 | 5 |
| 11 | ELECTRICA | 280 | 0.0472255 | 4.722550 | 5586 | 94.21488 | 5 |
| 12 | ELECTRONICA | 161 | 0.0271547 | 2.715466 | 5747 | 96.93034 | 3 |
| 13 | INFORMATICA | 101 | 0.0170349 | 1.703491 | 5848 | 98.63383 | 2 |
| 14 | TIC | 81 | 0.0136617 | 1.366166 | 5929 | 100.00000 | 1 |
La pregunta es ¿cuáles alumnos seleccionar de cada carrera?, la respuesta es dependiendo de la carrera y de su proporcionalidad.
Aquí se simula extraer alumnos de las carreras SISTEMAS Y CIVIL de acuerdo con la cantidad cada carrera de manera proporcional $frecuencia * n $, luego de manera aleatoria simple se extraen los elementos de cada estrato.
N <- nrow(alumnos) # Población
n <- 100 # Muestra
sistemas <- filter(alumnos, carrera =='SISTEMAS')
civil <- filter(alumnos, carrera == 'CIVIL')
frsistemas <- nrow(sistemas) / N
frcivil <- nrow(civil) / N
frsistemas[1] 0.07623545
frcivil [1] 0.1092933
Se describen en las muestras que contienen los registros de cada estrato. Ver TABLA y TABLA
De sistemas:
muestrasistemas <- sample(sistemas, round(frsistemas * n, 0))
kable(muestrasistemas, row.names = TRUE, caption = "La muestra de alumnos de SISTEMAS")| alumno | semestre | aprobados | carga | promedio | carrera | localidad | latitud | longitud | orig.id | |
|---|---|---|---|---|---|---|---|---|---|---|
| 356 | 356 | 3 | 55 | 28 | 91.67 | SISTEMAS | La Esperanza | 23.92139 | -105.2973 | 356 |
| 336 | 336 | 3 | 45 | 33 | 82.80 | SISTEMAS | Victoria de Durango | 24.02399 | -104.6702 | 336 |
| 438 | 438 | 5 | 83 | 30 | 85.06 | SISTEMAS | Los Arroyos (Las Colonias) | 23.69142 | -105.0328 | 438 |
| 31 | 31 | 11 | 226 | 9 | 86.88 | SISTEMAS | Los Arroyos (Las Colonias) | 23.69142 | -105.0328 | 31 |
| 249 | 249 | 5 | 112 | 25 | 92.00 | SISTEMAS | Victoria de Durango | 24.02399 | -104.6702 | 249 |
| 138 | 138 | 8 | 199 | 27 | 87.93 | SISTEMAS | La Criba (Don Toño) | 24.18015 | -104.5482 | 138 |
| 280 | 280 | 1 | NA | 27 | 0.00 | SISTEMAS | Victoria de Durango | 24.02399 | -104.6702 | 280 |
| 70 | 70 | 11 | 212 | 14 | 83.59 | SISTEMAS | Los Arroyos (Las Colonias) | 23.69142 | -105.0328 | 70 |
De civil:
muestracivil <- sample(civil, round(frcivil * n, 0))
kable(muestracivil, row.names = TRUE, caption = "La muestra de alumnos de CIVIL, primeros 10")| alumno | semestre | aprobados | carga | promedio | carrera | localidad | latitud | longitud | orig.id | |
|---|---|---|---|---|---|---|---|---|---|---|
| 634 | 2202 | 1 | NA | 27 | 0.00 | CIVIL | Los Caballos de Don Cruz | 23.95737 | -104.5519 | 634 |
| 621 | 2189 | 2 | 23 | 25 | 78.80 | CIVIL | La Esperanza | 23.92139 | -105.2973 | 621 |
| 638 | 2206 | 7 | 165 | 35 | 87.00 | CIVIL | Los Caballos de Don Cruz | 23.95737 | -104.5519 | 638 |
| 284 | 1852 | 5 | 98 | 35 | 82.10 | CIVIL | Victoria de Durango | 24.02399 | -104.6702 | 284 |
| 322 | 1890 | 6 | 94 | 28 | 80.70 | CIVIL | Victoria de Durango | 24.02399 | -104.6702 | 322 |
| 485 | 2053 | 5 | 108 | 29 | 86.61 | CIVIL | Los Arroyos (Las Colonias) | 23.69142 | -105.0328 | 485 |
| 135 | 1703 | 4 | 71 | 28 | 86.47 | CIVIL | Las Curras | 24.01172 | -104.4686 | 135 |
| 38 | 1606 | 12 | 196 | 9 | 78.76 | CIVIL | Victoria de Durango | 24.02399 | -104.6702 | 38 |
| 325 | 1893 | 8 | 188 | 28 | 86.08 | CIVIL | Victoria de Durango | 24.02399 | -104.6702 | 325 |
| 142 | 1710 | 2 | 27 | 30 | 88.50 | CIVIL | La Criba (Don Toño) | 24.18015 | -104.5482 | 142 |
| 163 | 1731 | 8 | 187 | 25 | 86.03 | CIVIL | Los Caballos de Don Cruz | 23.95737 | -104.5519 | 163 |
Muestreo por conglomerados
Para mejor comprensión de los datos, se muestran los primeros 10 los primeros diez y últimos diez alumnos únicamente con las tres columnas de alumno, localidad, latitud y longitud.
kable(head(alumnos[, c('alumno', 'localidad', 'latitud', 'longitud')], 10), row.names = TRUE, caption = "Los primeros diez registros de alumnos")| alumno | localidad | latitud | longitud | |
|---|---|---|---|---|
| 1 | 1 | Victoria de Durango | 24.02399 | -104.6702 |
| 2 | 2 | Los Arroyos (Las Colonias) | 23.69142 | -105.0328 |
| 3 | 3 | Victoria de Durango | 24.02399 | -104.6702 |
| 4 | 4 | Victoria de Durango | 24.02399 | -104.6702 |
| 5 | 5 | Victoria de Durango | 24.02399 | -104.6702 |
| 6 | 6 | Victoria de Durango | 24.02399 | -104.6702 |
| 7 | 7 | La Criba (Don Toño) | 24.18015 | -104.5482 |
| 8 | 8 | Victoria de Durango | 24.02399 | -104.6702 |
| 9 | 9 | Los Arroyos (Las Colonias) | 23.69142 | -105.0328 |
| 10 | 10 | Victoria de Durango | 24.02399 | -104.6702 |
kable(tail(alumnos[, c('alumno', 'localidad', 'latitud', 'longitud')], 10), row.names = TRUE, caption = "Las útimos diez registros de alumnos")| alumno | localidad | latitud | longitud | |
|---|---|---|---|---|
| 5920 | 5920 | Victoria de Durango | 24.02399 | -104.6702 |
| 5921 | 5921 | Victoria de Durango | 24.02399 | -104.6702 |
| 5922 | 5922 | Victoria de Durango | 24.02399 | -104.6702 |
| 5923 | 5923 | Los Arroyos (Las Colonias) | 23.69142 | -105.0328 |
| 5924 | 5924 | La Esperanza | 23.92139 | -105.2973 |
| 5925 | 5925 | Victoria de Durango | 24.02399 | -104.6702 |
| 5926 | 5926 | La Esperanza | 23.92139 | -105.2973 |
| 5927 | 5927 | Victoria de Durango | 24.02399 | -104.6702 |
| 5928 | 5928 | La Criba (Don Toño) | 24.18015 | -104.5482 |
| 5929 | 5929 | La Criba (Don Toño) | 24.18015 | -104.5482 |
Ahora bien, se muestra la cantidad de alumnos por localidad usando nuevamente la función fdt_cat() que determina la tabla de frecuencias.
Del total de la población la tabla muestra el estimado de la muestra utilizando el parámetro de localidad haciendo hincapié en la técnica de muestreo por conglomerado.
El 59% representa la localidad de Victoria de Durango seguido del 12% la localidad de la Criba (Don Toño), al final la localidad de Las Curras con el 5.11%.
En la tabla construida tabla_frec, se agrega la columna muestra que indica la cantidad de alumnos que hay de cada localidad por lo que sería en este caso utiliZar este valor para encontrar la proporción tanto de la pobLación como del total de la muestra.
tabla_frec <- data.frame(fdt_cat(alumnos$localidad))
tabla_frec$muestra <- round(tabla_frec$rf * n, 0)
kable(tabla_frec, row.names = TRUE, caption = "Tabla de frecuencia de alumnos por localidad")| Category | f | rf | rf… | cf | cf… | muestra | |
|---|---|---|---|---|---|---|---|
| 1 | Victoria de Durango | 3527 | 0.5948727 | 59.487266 | 3527 | 59.48727 | 59 |
| 2 | La Criba (Don Toño) | 750 | 0.1264969 | 12.649688 | 4277 | 72.13695 | 13 |
| 3 | Los Arroyos (Las Colonias) | 575 | 0.0969809 | 9.698094 | 4852 | 81.83505 | 10 |
| 4 | La Esperanza | 419 | 0.0706696 | 7.066959 | 5271 | 88.90201 | 7 |
| 5 | Los Caballos de Don Cruz | 355 | 0.0598752 | 5.987519 | 5626 | 94.88953 | 6 |
| 6 | Las Curras | 303 | 0.0511047 | 5.110474 | 5929 | 100.00000 | 5 |
Usando funciones de dplyr() que muestran las variables de interés del conjunto de datos alumnos, destacando la cantidad de registros de cada localidad los valores de latitud y longitud. Se usa min() ya que para efectos de la función de agregado es funcional, ya que es la misma latitud y longitud por cada localidad diferente.
alumnos %>%
group_by(localidad) %>%
summarise(n(), min(latitud), min(longitud))# A tibble: 6 × 4
localidad `n()` `min(latitud)` `min(longitud)`
<fct> <int> <dbl> <dbl>
1 La Criba (Don Toño) 750 24.2 -105.
2 La Esperanza 419 23.9 -105.
3 Las Curras 303 24.0 -104.
4 Los Arroyos (Las Colonias) 575 23.7 -105.
5 Los Caballos de Don Cruz 355 24.0 -105.
6 Victoria de Durango 3527 24.0 -105.
Determinar el porcentaje que le corresponde a cada conglomerado (lugar en donde vive) conforme a la frecuencia relativa.
¿cuáles alumnos?, de acuerdo al conglomerado o la localidad
Simular por las seis localidades
localidades <- tabla_frec$Category
localidades[1] "Victoria de Durango" "La Criba (Don Toño)"
[3] "Los Arroyos (Las Colonias)" "La Esperanza"
[5] "Los Caballos de Don Cruz" "Las Curras"
Se calcula la frecuencia por cada localidad, y se dejan en variables diferentes nombradas frloc1, frloc2, frloc3, frloc4, frloc5 y frloc; deben ser los mismos valores que la tabla de distribución.
N <- nrow(alumnos)
n <- 100
# Determinar cada conglomerado
loc1 <- filter(alumnos, localidad == tabla_frec$Category[1])
loc2 <- filter(alumnos, localidad == tabla_frec$Category[2])
loc3 <- filter(alumnos, localidad == tabla_frec$Category[3])
loc4 <- filter(alumnos, localidad == tabla_frec$Category[4])
loc5 <- filter(alumnos, localidad == tabla_frec$Category[5])
loc6 <- filter(alumnos, localidad == tabla_frec$Category[6])
# Determinar frecuencias de cada conglomerado similar a la tabla tabla_frec
frloc1 <- nrow(loc1) / N
frloc2 <- nrow(loc2) / N
frloc3 <- nrow(loc3) / N
frloc4 <- nrow(loc4) / N
frloc5 <- nrow(loc5) / N
frloc6 <- nrow(loc6) / NSe crean las muestras de cada localidad y se presentan a manera de tablas con solo las variables de interés alumno, localidad, latitud y longitud. De la localidad de “Victoria de Durango” por ser bastantes, sólo se presentan los primero y últimos 10 registros, de las demás localidades si se distinguen todos sus registros.
# Crear muestras
muestraloc1 <- sample(x = loc1, size = round(n * frloc1, 0), replace = FALSE)
kable(head(muestraloc1[,c('alumno', 'localidad', 'latitud', 'longitud')], 10), caption = paste("Los primeros 10 registros de la muestra de alumnos de Localidad ",tabla_frec$Category[1] ))| alumno | localidad | latitud | longitud | |
|---|---|---|---|---|
| 1129 | 1916 | Victoria de Durango | 24.02399 | -104.6702 |
| 2996 | 5100 | Victoria de Durango | 24.02399 | -104.6702 |
| 1981 | 3366 | Victoria de Durango | 24.02399 | -104.6702 |
| 793 | 1344 | Victoria de Durango | 24.02399 | -104.6702 |
| 2064 | 3508 | Victoria de Durango | 24.02399 | -104.6702 |
| 1908 | 3236 | Victoria de Durango | 24.02399 | -104.6702 |
| 1246 | 2121 | Victoria de Durango | 24.02399 | -104.6702 |
| 2005 | 3410 | Victoria de Durango | 24.02399 | -104.6702 |
| 322 | 568 | Victoria de Durango | 24.02399 | -104.6702 |
| 2053 | 3495 | Victoria de Durango | 24.02399 | -104.6702 |
kable(tail(muestraloc1[,c('alumno', 'localidad', 'latitud', 'longitud')], 10), caption = paste("Los últimos 10 registros de la muestra de alumnos de Localidad ",tabla_frec$Category[1] ))| alumno | localidad | latitud | longitud | |
|---|---|---|---|---|
| 61 | 100 | Victoria de Durango | 24.02399 | -104.6702 |
| 2897 | 4913 | Victoria de Durango | 24.02399 | -104.6702 |
| 800 | 1354 | Victoria de Durango | 24.02399 | -104.6702 |
| 1277 | 2175 | Victoria de Durango | 24.02399 | -104.6702 |
| 948 | 1610 | Victoria de Durango | 24.02399 | -104.6702 |
| 2217 | 3742 | Victoria de Durango | 24.02399 | -104.6702 |
| 851 | 1432 | Victoria de Durango | 24.02399 | -104.6702 |
| 792 | 1342 | Victoria de Durango | 24.02399 | -104.6702 |
| 1105 | 1872 | Victoria de Durango | 24.02399 | -104.6702 |
| 72 | 119 | Victoria de Durango | 24.02399 | -104.6702 |
muestraloc2 <- sample(loc2, round(n * frloc2, 0))
kable(muestraloc2[,c('alumno', 'localidad', 'latitud', 'longitud')], caption = paste("La muestra de alumnos de Localidad ",tabla_frec$Category[2] ))| alumno | localidad | latitud | longitud | |
|---|---|---|---|---|
| 119 | 844 | La Criba (Don Toño) | 24.18015 | -104.5482 |
| 113 | 807 | La Criba (Don Toño) | 24.18015 | -104.5482 |
| 433 | 3240 | La Criba (Don Toño) | 24.18015 | -104.5482 |
| 189 | 1256 | La Criba (Don Toño) | 24.18015 | -104.5482 |
| 427 | 3176 | La Criba (Don Toño) | 24.18015 | -104.5482 |
| 205 | 1359 | La Criba (Don Toño) | 24.18015 | -104.5482 |
| 499 | 3756 | La Criba (Don Toño) | 24.18015 | -104.5482 |
| 180 | 1216 | La Criba (Don Toño) | 24.18015 | -104.5482 |
| 358 | 2602 | La Criba (Don Toño) | 24.18015 | -104.5482 |
| 125 | 881 | La Criba (Don Toño) | 24.18015 | -104.5482 |
| 400 | 2936 | La Criba (Don Toño) | 24.18015 | -104.5482 |
| 228 | 1533 | La Criba (Don Toño) | 24.18015 | -104.5482 |
| 644 | 5086 | La Criba (Don Toño) | 24.18015 | -104.5482 |
muestraloc3 <- sample(loc3, round(n * frloc3, 0))
kable(muestraloc3[,c('alumno', 'localidad', 'latitud', 'longitud')], caption = paste("La muestra de alumnos de Localidad ",tabla_frec$Category[3] ))| alumno | localidad | latitud | longitud | |
|---|---|---|---|---|
| 2 | 9 | Los Arroyos (Las Colonias) | 23.69142 | -105.0328 |
| 149 | 1615 | Los Arroyos (Las Colonias) | 23.69142 | -105.0328 |
| 370 | 3802 | Los Arroyos (Las Colonias) | 23.69142 | -105.0328 |
| 390 | 3980 | Los Arroyos (Las Colonias) | 23.69142 | -105.0328 |
| 116 | 1358 | Los Arroyos (Las Colonias) | 23.69142 | -105.0328 |
| 543 | 5533 | Los Arroyos (Las Colonias) | 23.69142 | -105.0328 |
| 446 | 4507 | Los Arroyos (Las Colonias) | 23.69142 | -105.0328 |
| 304 | 3043 | Los Arroyos (Las Colonias) | 23.69142 | -105.0328 |
| 288 | 2866 | Los Arroyos (Las Colonias) | 23.69142 | -105.0328 |
| 545 | 5555 | Los Arroyos (Las Colonias) | 23.69142 | -105.0328 |
muestraloc4 <- sample(loc4, round(n * frloc4, 0))
kable(muestraloc4[,c('alumno', 'localidad', 'latitud', 'longitud')], caption = paste("La muestra de alumnos de Localidad ",tabla_frec$Category[4] ))| alumno | localidad | latitud | longitud | |
|---|---|---|---|---|
| 244 | 3470 | La Esperanza | 23.92139 | -105.2973 |
| 36 | 367 | La Esperanza | 23.92139 | -105.2973 |
| 138 | 1897 | La Esperanza | 23.92139 | -105.2973 |
| 104 | 1421 | La Esperanza | 23.92139 | -105.2973 |
| 14 | 112 | La Esperanza | 23.92139 | -105.2973 |
| 179 | 2529 | La Esperanza | 23.92139 | -105.2973 |
| 294 | 4181 | La Esperanza | 23.92139 | -105.2973 |
muestraloc5 <- sample(loc5, round(n * frloc5, 0))
kable(muestraloc5[,c('alumno', 'localidad', 'latitud', 'longitud')], caption = paste("La muestra de alumnos de Localidad ",tabla_frec$Category[5] ))| alumno | localidad | latitud | longitud | |
|---|---|---|---|---|
| 46 | 721 | Los Caballos de Don Cruz | 23.95737 | -104.5519 |
| 147 | 2429 | Los Caballos de Don Cruz | 23.95737 | -104.5519 |
| 44 | 665 | Los Caballos de Don Cruz | 23.95737 | -104.5519 |
| 39 | 615 | Los Caballos de Don Cruz | 23.95737 | -104.5519 |
| 128 | 2145 | Los Caballos de Don Cruz | 23.95737 | -104.5519 |
| 304 | 5009 | Los Caballos de Don Cruz | 23.95737 | -104.5519 |
muestraloc6 <- sample(loc6, round(n * frloc6, 0))
kable(muestraloc6[,c('alumno', 'localidad', 'latitud', 'longitud')], caption = paste("La muestra de alumnos de Localidad ",tabla_frec$Category[6] ))| alumno | localidad | latitud | longitud | |
|---|---|---|---|---|
| 292 | 5614 | Las Curras | 24.01172 | -104.4686 |
| 194 | 3933 | Las Curras | 24.01172 | -104.4686 |
| 171 | 3475 | Las Curras | 24.01172 | -104.4686 |
| 91 | 1958 | Las Curras | 24.01172 | -104.4686 |
| 234 | 4627 | Las Curras | 24.01172 | -104.4686 |
Visualizar con mapas
Con la función leatflet() de la librería leaflet se presenta el mapa que ubica visualmente las seis localidades simuladas de toda la población, en cada leyenda se muestra la cantidad de elementos que hay de cada muestra.
El mapa por cuestión técnica solo se muestra en formato web de manera dinámica, verificar el enlace https://rpubs.com/rpizarro/1051225 para manipuar el mapa, aquí en la figura siguiente ¿CUAL? se visualiza el mapa de manera estática.
map<-leaflet() %>%
addTiles() %>%
addMarkers(lat = unique(muestraloc1$latitud ), lng = unique(muestraloc1$longitud), popup = paste(unique(muestraloc1$localidad), "Muestra de:", nrow(muestraloc1), "alumnos")) %>%
addMarkers(lat = unique(muestraloc2$latitud ), lng = unique(muestraloc2$longitud), popup = paste(unique(muestraloc2$localidad), "Muestra de:", nrow(muestraloc2), "alumnos")) %>%
addMarkers(lat = unique(muestraloc3$latitud ), lng = unique(muestraloc3$longitud), popup = paste(unique(muestraloc3$localidad), "Muestra de:", nrow(muestraloc3), "alumnos")) %>%
addMarkers(lat = unique(muestraloc4$latitud ), lng = unique(muestraloc4$longitud), popup = paste(unique(muestraloc4$localidad), "Muestra de:", nrow(muestraloc4), "alumnos")) %>%
addMarkers(lat = unique(muestraloc5$latitud ), lng = unique(muestraloc5$longitud), popup = paste(unique(muestraloc5$localidad), "Muestra de:", nrow(muestraloc5), "alumnos")) %>%
addMarkers(lat = unique(muestraloc6$latitud ), lng = unique(muestraloc6$longitud), popup = paste(unique(muestraloc6$localidad), "Muestra de:", nrow(muestraloc6), "alumnos"))Se muetra el mapa únicamente llamando a la variable previamente creada que contiene el mapa map
# Mostrar el mapa
mapInterpretación del caso
Pendiente