Las librerías
library(readr) # Leer datos
library(knitr) # Tablas amigables
library(fdth) # Crear tablas de ditribución
library(dplyr) # Comandos select, filter, mutate, group
Los datos
datos <- read.csv("../Datos/personas.csv")
kable(head(datos))
| 1 |
ALFONSO ALBERTO |
Y ALONZO |
TEXON |
M |
48 |
Puebla |
| 2 |
ANGEL ARMANDO |
TEPATO |
VEYNA |
M |
49 |
Chihuahua |
| 3 |
J. MATILDE |
ZAMORANO |
MADUEÑO |
M |
28 |
Aguascalientes |
| 4 |
OSCAR GABRIEL |
MACEGOZA |
GERMES |
M |
40 |
Zacatecas |
| 5 |
PEDRO ROBERTO |
ARELLANES |
GURRION |
M |
31 |
Colima |
| 6 |
ISRAEL ANTONIO |
BUENAVENTURA |
PALOMO |
M |
42 |
Colima |
kable(tail(datos))
| 9995 |
9995 |
GLORIA DE LOS ANGELES |
TORREJON |
FERRARA |
F |
52 |
Chiapas |
| 9996 |
9996 |
MARIA CONCEPCIO |
PEÐALOZA |
CORIA |
F |
56 |
Quintana Roo |
| 9997 |
9997 |
EUDELIA |
SANDRA |
ALTUZAR |
F |
43 |
Chiapas |
| 9998 |
9998 |
LETICIA MAGDALENA |
TAGLE |
RIESTRA |
F |
58 |
México |
| 9999 |
9999 |
MARTHA SOCORRO |
LULE |
RODRÍGUEZ |
F |
55 |
Quintana Roo |
| 10000 |
10000 |
FRANCISCA GUADALUPE |
DE LA PARRA |
SANMARTIN |
F |
57 |
Querétaro |
Explorando los datos
summary(datos)
## X nombre paterno materno
## Min. : 1 Length:10000 Length:10000 Length:10000
## 1st Qu.: 2501 Class :character Class :character Class :character
## Median : 5000 Mode :character Mode :character Mode :character
## Mean : 5000
## 3rd Qu.: 7500
## Max. :10000
## genero edad entidad
## Length:10000 Min. :18.00 Length:10000
## Class :character 1st Qu.:28.00 Class :character
## Mode :character Median :39.00 Mode :character
## Mean :38.99
## 3rd Qu.:50.00
## Max. :60.00
¿ Cuales son los estados?
- Con la función unique() se determina los valores unicos
estados <- unique(datos$entidad)
estados
## [1] "Puebla" "Chihuahua"
## [3] "Aguascalientes" "Zacatecas"
## [5] "Colima" "Hidalgo"
## [7] "Nayarit" "Baja California"
## [9] "México" "San Luis Potosí"
## [11] "Morelos" "Sonora"
## [13] "Campeche" "Nuevo León"
## [15] "Veracruz de Ignacio de la Llave" "Jalisco"
## [17] "Chiapas" "Querétaro"
## [19] "Baja California Sur" "Tlaxcala"
## [21] "Sinaloa" "Yucatán"
## [23] "Guanajuato" "Ciudad de México"
## [25] "Quintana Roo" "Michoacán de Ocampo"
## [27] "Oaxaca" "Durango"
## [29] "Tabasco" "Tamaulipas"
## [31] "Coahuila de Zaragoza" "Guerrero"
Elegir por aleatoriedad 5 estados
set.seed(2020)
N <- length(estados) # 32
n <- 5 # cuantas estados
estados.Elegidos <- sample(1:N, n, replace = FALSE)
muestra.Estados <- estados[estados.Elegidos]
#muestra.Estados <- estados[sample(1:N, n, replace = FALSE)]
muestra.Estados
## [1] "Durango" "Sonora" "Guanajuato" "Yucatán"
## [5] "Ciudad de México"
Determinar la muestra de todos los datos
De la población datos generar una subPoblación de solo observaciones que pertenecen a los estados que se construyeron en la muestra.Estados * Determinar el valor de N de toda la subpoblación
datos.SubPoblacion <- datos[datos$entidad %in% muestra.Estados, ] # Filas, Columnas
kable(head(datos.SubPoblacion))
| 14 |
14 |
ROBERTO JOSE |
YELADAQUI |
MATURIN |
M |
22 |
Sonora |
| 16 |
16 |
JOSE BLADIMIR |
CAMEY |
TENDERO |
M |
30 |
Sonora |
| 32 |
32 |
NECTAR |
SCHULTZ |
CHUMACERO |
M |
58 |
Yucatán |
| 34 |
34 |
VICENTE EDUARDO |
MAYTORENA |
NOCEDAL |
M |
29 |
Guanajuato |
| 35 |
35 |
EDGAR AUGUSTO |
LABARIEGA |
PERERA |
M |
44 |
Ciudad de México |
| 44 |
44 |
LUIS CARLOS |
CUADRADO |
GIRON |
M |
36 |
Durango |
N <- nrow(datos.SubPoblacion)
N
## [1] 1602
transform(table(datos.SubPoblacion$entidad))
## Var1 Freq
## 1 Ciudad de México 328
## 2 Durango 318
## 3 Guanajuato 319
## 4 Sonora 342
## 5 Yucatán 295