Tipos de muestreos
Generar un conjunto de datos aleatorios de personas con variables: * nombre * paterno * materno * genero * entidad
Cargar las librerías
library(readr) # Cargar datos
library(knitr) # Visualizar amigables tablas
Cargar datos
Cargar el conjunto de datos hombre.csv
hombres <- read.csv("../Datos/hombres.csv", encoding = "UTF-8")
kable(head(hombres,10))
| JOSE LUIS |
7028 |
45.13 |
| MIGUEL ANGEL |
5137 |
41.78 |
| FRANCISCO |
4853 |
46.73 |
| JUAN |
4655 |
47.27 |
| JESUS |
4198 |
44.66 |
| ALEJANDRO |
4042 |
41.72 |
| ANTONIO |
3961 |
46.33 |
| JORGE |
3847 |
45.30 |
| PEDRO |
3830 |
46.09 |
| CARLOS |
3765 |
45.34 |
kable(tail(hombres, 10))
| 5350 |
WALTERIO |
5 |
44.2 |
| 5351 |
WBALDO |
5 |
39.4 |
| 5352 |
WILBERT FERNANDO |
5 |
53.6 |
| 5353 |
WILBERT MANUEL |
5 |
47.8 |
| 5354 |
WILIULFO |
5 |
48.0 |
| 5355 |
WILLY |
5 |
29.4 |
| 5356 |
YASSER |
5 |
30.8 |
| 5357 |
YEUDIEL |
5 |
35.4 |
| 5358 |
YOSIMAR |
5 |
23.0 |
| 5359 |
ZOZIMO |
5 |
46.2 |
Cargar el conjunto de datos hombre.csv
mujeres <- read.csv("../Datos/mujeres.csv", encoding = "UTF-8")
kable(head(mujeres,10))
| MARIA GUADALUPE |
7105 |
42.81 |
| LETICIA |
5848 |
43.66 |
| PATRICIA |
5422 |
42.41 |
| GUADALUPE |
5348 |
43.38 |
| MARIA DEL CARMEN |
4881 |
44.04 |
| VERONICA |
4772 |
38.18 |
| MARGARITA |
4674 |
45.41 |
| ELIZABETH |
4661 |
38.18 |
| SILVIA |
4223 |
45.43 |
| ROSA MARIA |
4107 |
46.97 |
kable(tail(mujeres, 10))
| 10752 |
ZAIRA GUADALUPE |
5 |
28.0 |
| 10753 |
ZAIRA LIZETH |
5 |
26.6 |
| 10754 |
ZARAHI |
5 |
30.6 |
| 10755 |
ZAYURI |
5 |
25.6 |
| 10756 |
ZENDY |
5 |
32.5 |
| 10757 |
ZENIA |
5 |
35.2 |
| 10758 |
ZITLALLY |
5 |
30.2 |
| 10759 |
ZOILA LIBERTAD |
5 |
44.2 |
| 10760 |
ZOILA LUZ |
5 |
41.2 |
| 10761 |
ZUGEY |
5 |
32.6 |
Cargar el conjunto de datos apellidos.csv
apellidos <- read.csv("../Datos/apellidos.csv", encoding = "UTF-8")
kable(head(apellidos, 10))
| HERNANDEZ |
44095 |
44333 |
| GARCIA |
33010 |
33351 |
| MARTINEZ |
31080 |
31087 |
| LOPEZ |
30288 |
30188 |
| GONZALEZ |
25356 |
25362 |
| RODRIGUEZ |
22642 |
22490 |
| PEREZ |
22470 |
22353 |
| SANCHEZ |
21801 |
21782 |
| RAMIREZ |
18806 |
18632 |
| FLORES |
14160 |
13907 |
kable(tail(apellidos, 10))
| 7914 |
Y TINOCO |
0 |
5 |
| 7915 |
Y TORRES |
0 |
6 |
| 7916 |
Y TUN |
0 |
7 |
| 7917 |
Y VARGAS |
0 |
7 |
| 7918 |
Y VAZQUEZ |
0 |
16 |
| 7919 |
Y YAM |
0 |
5 |
| 7920 |
Y ZAPATA |
0 |
5 |
| 7921 |
YOLANDA |
0 |
6 |
| 7922 |
ZACATECO |
0 |
6 |
| 7923 |
ZASUETA |
0 |
5 |
Cargar datos de entidades federativas, e estados de la Repúblca Mexicana
entidades <- read.csv("../Datos/entidades.csv", encoding = "UTF-8")
kable(head(entidades, 10))
| Aguascalientes |
| Baja California |
| Baja California Sur |
| Campeche |
| Coahuila de Zaragoza |
| Colima |
| Chiapas |
| Chihuahua |
| Ciudad de México |
| Durango |
kable(tail(entidades, 10))
| 23 |
Quintana Roo |
| 24 |
San Luis Potosí |
| 25 |
Sinaloa |
| 26 |
Sonora |
| 27 |
Tabasco |
| 28 |
Tamaulipas |
| 29 |
Tlaxcala |
| 30 |
Veracruz de Ignacio de la Llave |
| 31 |
Yucatán |
| 32 |
Zacatecas |
Simular y crear conjunto de datos personas
Simular generar un conjunto de datos de 10000 registros con las variables…
- nombre
- paterno
- materno
- genero
- entidad
Utilizar la función sample() para generar aleatorios
- sample() Genera valores aleatorios
- sample() Genera muestras
Los conjuntos de datos a generar:
- personasM son una emulación de personas del género ‘M’ Masculino
- personasF son una emulación de personas del género ‘F’ Masculino
set.seed(2020)
personasM <- data.frame(sample(hombres$nombre, 4800, replace = TRUE), sample(apellidos$apellido, 4800, replace = TRUE), sample(apellidos$apellido, 4800, replace = TRUE), rep("M", 4800), sample(18:60, 4800, replace= TRUE), sample(entidades$entidades, 4800, replace = TRUE))
colnames(personasM) <- c("nombre", "paterno", "materno", "genero", "edad", "entidad")
personasF <- data.frame(sample(mujeres$nombre, 5200, replace = TRUE), sample(apellidos$apellido, 5200, replace = TRUE), sample(apellidos$apellido, 5200, replace = TRUE), rep("F", 5200), sample(18:60, 5200, replace= TRUE), sample(entidades$entidades, 5200, replace = TRUE))
colnames(personasF) <- c("nombre", "paterno", "materno", "genero", "edad", "entidad")
- Unir los conjunto de datos personasM y personasF
- Utilizar rbind() para unir
datos <- rbind(personasM, personasF)
kable(head(datos))
| GALILEO |
CARCAÑO |
SAMUDIO |
M |
41 |
Baja California |
| EDUARDO JAVIER |
BELMONT |
ZEMPOALTECATL |
M |
19 |
Chihuahua |
| GASTON |
CERROS |
ABNAL |
M |
39 |
Sinaloa |
| ROBERTO OMAR |
ROGEL |
BALLEZA |
M |
26 |
Guanajuato |
| LUIS ARMANDO |
FRAIJO |
CONCHAS |
M |
33 |
Baja California Sur |
| JOSE DE LA CRUZ |
CECILIO |
ALAYOLA |
M |
37 |
Tamaulipas |
kable(tail(datos))
| 9995 |
NAVIDAD |
BOBADILLA |
MORANTE |
F |
22 |
Sinaloa |
| 9996 |
BETZABE |
ORGANIS |
GRACIA |
F |
23 |
Colima |
| 9997 |
MARIA ELVIA |
OLIVEROS |
MADRAZO |
F |
51 |
Puebla |
| 9998 |
SELENE ELIZABETH |
LEGASPI |
ABUNDES |
F |
20 |
Chiapas |
| 9999 |
ARIANA |
LARRAGOITI |
CAPRISTO |
F |
22 |
Durango |
| 10000 |
ITZEL |
AHUACTZIN |
LETECHIPIA |
F |
27 |
Baja California |
summary(datos)
## nombre paterno materno genero
## IVANHOE : 6 FITTA : 7 CORDERO : 8 M:4800
## JOSE ABEL : 6 QUEMADA : 7 MONTEAGUDO: 7 F:5200
## FIDEL JESUS : 5 TECO : 7 ROJERO : 7
## HUMBERTO RENE: 5 VARGAZ : 7 ANDON : 6
## JESUS A : 5 AGIS : 6 BARQUERA : 6
## JORGE MARIO : 5 BALCAZAR: 6 CHONGO : 6
## (Other) :9968 (Other) :9960 (Other) :9960
## edad entidad
## Min. :18.00 Guanajuato : 351
## 1st Qu.:28.00 Durango : 332
## Median :39.00 Coahuila de Zaragoza: 330
## Mean :38.93 Oaxaca : 329
## 3rd Qu.:50.00 Baja California Sur : 327
## Max. :60.00 Querétaro : 326
## (Other) :8005
- Crear el archivo csv o exportar a archivo csv Ejecutar en consola
# write.csv(datos, file = "../Datos/personas.csv")
# dir()