Objetivo Determinar y simular muestreos

Descripción Con un conjunto de datos utilizar mecanismos de programación para determinar muestreos mediante técnicas de aleatorio simple, aleatorio sistemático, aleatorio estratificado y por conglomerados.

  1. Cargar librerias
library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
library(mosaic)
## Registered S3 method overwritten by 'mosaic':
##   method                           from   
##   fortify.SpatialPolygonsDataFrame ggplot2
## 
## The 'mosaic' package masks several functions from core packages in order to add 
## additional features.  The original behavior of these functions should not be affected by this.
## 
## Attaching package: 'mosaic'
## The following object is masked from 'package:Matrix':
## 
##     mean
## The following object is masked from 'package:ggplot2':
## 
##     stat
## The following objects are masked from 'package:dplyr':
## 
##     count, do, tally
## The following objects are masked from 'package:stats':
## 
##     binom.test, cor, cor.test, cov, fivenum, IQR, median, prop.test,
##     quantile, sd, t.test, var
## The following objects are masked from 'package:base':
## 
##     max, mean, min, prod, range, sample, sum
library(readr)
library(ggplot2)  # Para gráficos
library(knitr)    # Para formateo de datos
library(fdth)
## 
## Attaching package: 'fdth'
## The following objects are masked from 'package:mosaic':
## 
##     sd, var
## The following objects are masked from 'package:stats':
## 
##     sd, var
  1. Cargar datos 2.1. Cargar datos de nombres de personas Se carga un conjunto de 100 nombres de personas con sus atributo de género y la actividad deportiva o cultura que practican, Cargando un datos llamando a una función que construye los datos. El argumento encoding significa que acepte acentos en los datos.
source("https://raw.githubusercontent.com/rpizarrog/probabilidad-y-estad-stica/master/construir%20datos%20y%20funciones%20caso%209.r", encoding = "UTF-8")

kable(head(personas, 10), caption = "Los primeros diez registros de nombres en el conjunto de datos")
Los primeros diez registros de nombres en el conjunto de datos
nombres generos ajedrez beisbol tiro.arco pesas futbol softbol atletismo folklorico tahitiano teatro rondalla pantomima
JUAN M NO NO NO SI NO SI NO NO NO NO NO SI
JOSÉ LUIS M NO NO NO NO NO NO NO SI NO NO NO NO
JOSÉ M NO SI NO SI NO NO NO NO NO NO SI SI
MARÍA GUADALUPE F NO SI NO NO NO NO NO NO NO NO SI SI
FRANCISCO M NO NO NO NO NO NO SI NO NO NO NO NO
GUADALUPE F NO NO NO NO NO NO NO NO NO NO NO NO
MARÍA F NO SI NO NO SI NO NO NO NO NO NO NO
JUANA F NO NO NO NO SI NO NO SI NO NO NO NO
ANTONIO M NO NO NO NO NO NO NO NO NO NO NO NO
JESÚS M NO NO SI NO NO SI NO NO SI NO NO NO
kable(tail(personas, 10), caption = "Las útimos diez registros de nombres en el conjunto de datos")
Las útimos diez registros de nombres en el conjunto de datos
nombres generos ajedrez beisbol tiro.arco pesas futbol softbol atletismo folklorico tahitiano teatro rondalla pantomima
91 ANDREA F NO NO NO NO NO NO NO NO NO NO NO SI
92 ISABEL F NO NO NO NO NO NO NO NO NO NO NO NO
93 MARÍA TERESA F NO SI NO NO SI NO NO SI NO NO NO NO
94 IRMA F SI SI NO NO NO NO NO NO NO NO NO NO
95 CARMEN F NO NO NO NO NO NO NO NO NO NO NO NO
96 LUCÍA F NO SI NO SI NO NO NO SI NO NO SI SI
97 ADRIANA F NO NO NO NO NO NO SI NO NO NO NO NO
98 AGUSTÍN M NO SI NO NO NO NO NO NO SI NO NO NO
99 MARÍA DE LA LUZ F NO NO NO NO NO NO SI NO NO NO NO NO
100 GUSTAVO M NO NO NO NO NO NO NO SI NO NO NO NO

2.2. Cargar datos de alumnos Se cargan os datos de alumnos inscritos en una Institución de educación superior en el semetre septiembre 2020 a enero 2021, con los atributos siguientes: No de control (modificado y no real), Número Conesucutivo de alumno Semestre que cursa Créditos aprobados Carga académica que cursa Promedio aritmético Carrera

alumnos <- alumnos <- read_csv("https://raw.githubusercontent.com/rpizarrog/probabilidad-y-estad-stica/master/datos/promedios%20alumnos/datos%20alumnos%20promedios%20SEP%202020.csv")
## ! curl package not installed, falling back to using `url()`
## 
## -- Column specification --------------------------------------------------------
## cols(
##   `No. Control` = col_double(),
##   Alumno = col_double(),
##   Semestre = col_double(),
##   `Cr. Apr.` = col_double(),
##   Carga = col_double(),
##   Promedio = col_double(),
##   Carrera = col_character()
## )
kable(head(alumnos, 10), caption = "Los primeros diez registros de alumnos")
Los primeros diez registros de alumnos
No. Control Alumno Semestre Cr. Apr. Carga Promedio Carrera
20190001 1 11 198 19 80.21 SISTEMAS
20190002 2 11 235 10 84.33 SISTEMAS
20190003 3 9 235 10 95.25 SISTEMAS
20190004 4 9 226 19 95.00 SISTEMAS
20190005 5 10 231 14 82.32 SISTEMAS
20190006 6 9 212 23 95.02 SISTEMAS
20190007 7 12 221 10 79.06 SISTEMAS
20190008 8 9 226 9 92.47 SISTEMAS
20190009 9 9 231 4 91.08 SISTEMAS
20190010 10 11 222 13 80.42 SISTEMAS
kable(tail(alumnos, 10), caption = "Las útimos diez registros de alumnos")
Las útimos diez registros de alumnos
No. Control Alumno Semestre Cr. Apr. Carga Promedio Carrera
20195920 5920 7 169 23 89.14 ADMINISTRACION
20195921 5921 5 109 26 87.83 ADMINISTRACION
20195922 5922 3 55 29 92.83 ADMINISTRACION
20195923 5923 2 23 23 88.60 ADMINISTRACION
20195924 5924 2 27 28 92.83 ADMINISTRACION
20195925 5925 7 94 13 80.95 ADMINISTRACION
20195926 5926 5 103 32 92.68 ADMINISTRACION
20195927 5927 4 79 34 86.18 ADMINISTRACION
20195928 5928 5 108 32 90.48 ADMINISTRACION
20195929 5929 7 169 32 92.33 ADMINISTRACION
  1. Simular muestreos 3.1 Muestreo aleatorio simple Hay que encuestar a diez personas de 100 para hacerles alguna entrevist, ¿a quienes? Con el conjunto de datos seleccionar 10 personas aleatoriamente con al funcón sample()
N <- nrow(personas)
n <- 10
muestra <- sample(personas$nombres, n)
kable(muestra, caption = "La muestra de personas")
La muestra de personas
x
PEDRO
ELIZABETH
JESÚS
ALEJANDRO
RAFAEL
MARÍA TERESA
DIEGO
PATRICIA
FELIPE
JOSÉ LUIS

Con el conjunto de datos alumnos, hay que encontrar a 100 alumnos, ¿A cuáles?

N <- nrow(alumnos)
n <- 100
muestra <- sample(N, n) # Genera los números
kable(alumnos[muestra, ], caption = "La muestra de alumnos")
La muestra de alumnos
No. Control Alumno Semestre Cr. Apr. Carga Promedio Carrera
20195041 5041 7 140 35 82.27 GESTION EMPRESARIAL
20190395 395 1 NA 27 0.00 SISTEMAS
20193795 3795 4 66 29 86.47 MECATRONICA
20195683 5683 1 NA 27 0.00 ADMINISTRACION
20191577 1577 9 165 16 78.86 CIVIL
20192306 2306 5 89 27 86.33 ELECTRICA
20193510 3510 3 41 24 76.80 MECANICA
20191415 1415 6 123 29 82.48 BIOQUIMICA
20190830 830 5 97 26 93.50 ARQUITECTURA
20190200 200 7 107 17 79.26 SISTEMAS
20195484 5484 11 257 5 87.44 ADMINISTRACION
20190025 25 11 230 15 84.02 SISTEMAS
20192596 2596 3 52 25 92.67 ELECTRONICA
20193863 3863 1 NA 25 0.00 MECATRONICA
20190074 74 10 230 15 83.94 SISTEMAS
20191933 1933 1 NA 27 0.00 CIVIL
20191691 1691 4 75 32 84.19 CIVIL
20192587 2587 5 90 20 83.50 ELECTRONICA
20190886 886 1 NA 26 0.00 ARQUITECTURA
20194827 4827 7 150 25 88.75 GESTION EMPRESARIAL
20194756 4756 9 230 15 91.77 GESTION EMPRESARIAL
20190663 663 7 151 23 85.22 ARQUITECTURA
20192503 2503 10 202 23 81.25 ELECTRONICA
20194892 4892 1 NA 27 0.00 GESTION EMPRESARIAL
20194549 4549 6 133 23 83.25 QUIMICA
20190308 308 4 83 29 91.00 SISTEMAS
20192139 2139 6 143 30 84.77 CIVIL
20191319 1319 7 124 34 83.15 BIOQUIMICA
20195755 5755 4 84 29 87.44 ADMINISTRACION
20192521 2521 9 222 23 86.40 ELECTRONICA
20193632 3632 1 NA 26 0.00 MECANICA
20193546 3546 3 48 22 78.64 MECANICA
20191619 1619 9 225 10 84.85 CIVIL
20191632 1632 9 159 15 80.15 CIVIL
20194890 4890 7 170 35 87.44 GESTION EMPRESARIAL
20192090 2090 4 78 33 83.59 CIVIL
20191764 1764 1 NA 27 0.00 CIVIL
20190612 612 1 NA 26 0.00 ARQUITECTURA
20191097 1097 7 139 24 84.62 ARQUITECTURA
20190796 796 7 116 34 81.12 ARQUITECTURA
20190240 240 2 27 28 92.33 SISTEMAS
20191202 1202 1 NA 23 0.00 BIOQUIMICA
20194673 4673 12 219 16 89.93 GESTION EMPRESARIAL
20195370 5370 5 41 4 81.44 INFORMATICA
20191901 1901 5 117 31 87.08 CIVIL
20193696 3696 11 231 4 83.33 MECATRONICA
20193370 3370 11 225 10 81.86 MECANICA
20191197 1197 3 57 27 82.54 BIOQUIMICA
20193032 3032 3 55 29 89.00 INDUSTRIAL
20194867 4867 1 NA 27 0.00 GESTION EMPRESARIAL
20191967 1967 1 NA 27 0.00 CIVIL
20193638 3638 7 170 27 86.59 MECANICA
20190934 934 7 170 28 88.58 ARQUITECTURA
20194100 4100 9 225 5 87.96 QUIMICA
20195193 5193 6 138 33 86.21 GESTION EMPRESARIAL
20195450 5450 10 262 10 88.60 ADMINISTRACION
20191067 1067 1 NA 26 0.00 ARQUITECTURA
20193404 3404 10 172 18 81.13 MECANICA
20194217 4217 12 225 10 78.46 QUIMICA
20191449 1449 1 NA 23 0.00 BIOQUIMICA
20192720 2720 9 202 24 82.28 INDUSTRIAL
20195151 5151 1 NA 27 0.00 GESTION EMPRESARIAL
20193110 3110 1 NA 27 0.00 INDUSTRIAL
20191051 1051 6 127 24 88.19 ARQUITECTURA
20194783 4783 1 NA 27 0.00 GESTION EMPRESARIAL
20195643 5643 2 27 28 92.67 ADMINISTRACION
20194482 4482 2 25 30 82.00 QUIMICA
20194046 4046 1 NA 25 0.00 MECATRONICA
20192183 2183 2 27 30 83.50 CIVIL
20190659 659 1 NA 26 0.00 ARQUITECTURA
20195318 5318 1 NA 26 0.00 TIC
20192101 2101 2 23 25 80.80 CIVIL
20191758 1758 4 80 34 85.94 CIVIL
20192297 2297 5 94 33 84.77 ELECTRICA
20193793 3793 7 128 31 84.46 MECATRONICA
20190822 822 3 48 32 90.45 ARQUITECTURA
20190352 352 8 176 32 80.47 SISTEMAS
20193467 3467 3 42 32 82.30 MECANICA
20190443 443 7 160 34 90.34 SISTEMAS
20190241 241 5 112 25 91.63 SISTEMAS
20194569 4569 3 51 30 88.64 QUIMICA
20193456 3456 6 89 32 78.30 MECANICA
20195534 5534 8 177 34 86.89 ADMINISTRACION
20193666 3666 12 190 5 78.35 MECATRONICA
20192155 2155 2 22 26 93.40 CIVIL
20193527 3527 1 NA 26 0.00 MECANICA
20191607 1607 10 231 4 83.15 CIVIL
20194038 4038 5 105 24 88.57 MECATRONICA
20190090 90 4 49 32 82.64 SISTEMAS
20195706 5706 4 84 30 86.94 ADMINISTRACION
20190058 58 9 200 25 83.66 SISTEMAS
20190724 724 4 70 28 87.56 ARQUITECTURA
20195727 5727 7 164 28 91.86 ADMINISTRACION
20190762 762 1 NA 26 0.00 ARQUITECTURA
20191647 1647 9 221 14 86.43 CIVIL
20194142 4142 9 151 26 81.06 QUIMICA
20193919 3919 3 53 27 79.92 MECATRONICA
20192247 2247 11 190 31 81.70 ELECTRICA
20193102 3102 6 139 34 78.16 INDUSTRIAL
20194148 4148 5 108 29 84.91 QUIMICA

3.2. Muestreo aleatorio sistemático Con el conjunto de datos personas, iniciar en un valor aletorio e identificar los siguientes de 10 en 10 hasta tener diez personas.

N <- nrow(personas)
n = 10
saltos <- round(N / n, 0)
inicio <- round(sample(N, 1) / n, 0)
#inicio

cuales <- seq(from = inicio, to =N, by= saltos)
kable(personas[cuales, ], caption = "La muestra sistematizada de personas")
La muestra sistematizada de personas
nombres generos ajedrez beisbol tiro.arco pesas futbol softbol atletismo folklorico tahitiano teatro rondalla pantomima
7 MARÍA F NO SI NO NO SI NO NO NO NO NO NO NO
17 JUAN CARLOS M SI NO NO NO NO NO SI NO SI NO NO NO
27 RAFAEL M NO NO NO NO NO NO NO SI NO NO NO NO
37 ENRIQUE M NO NO NO NO NO NO NO NO SI NO SI NO
47 ALICIA F NO SI NO NO NO SI NO NO NO SI NO NO
57 PATRICIA F NO NO NO NO NO NO NO NO NO NO NO NO
67 SILVIA F NO NO NO NO NO NO NO NO NO SI NO NO
77 PABLO M NO NO SI NO NO NO SI SI NO NO NO NO
87 JULIO CESAR M SI NO NO NO NO NO NO SI NO NO NO NO
97 ADRIANA F NO NO NO NO NO NO SI NO NO NO NO NO

Con el conjunto de datos alumnos, hay que encontrar a 100 alumnos, ¿A cuáles?, bajo el muetreo sistematizado

N <- nrow(alumnos)
n = 100
saltos <- round(N / n, 0)
inicio <- round(sample(N, 1) / n, 0)

cuales <- seq(from = inicio, to =N, by= saltos)

kable(alumnos[cuales, ], caption = "La muestra de alumnos")
La muestra de alumnos
No. Control Alumno Semestre Cr. Apr. Carga Promedio Carrera
20190045 45 13 230 5 85.04 SISTEMAS
20190104 104 3 50 33 86.55 SISTEMAS
20190163 163 7 164 34 88.11 SISTEMAS
20190222 222 8 183 33 82.17 SISTEMAS
20190281 281 3 45 23 86.00 SISTEMAS
20190340 340 1 NA 27 0.00 SISTEMAS
20190399 399 7 151 33 87.00 SISTEMAS
20190458 458 9 168 25 81.83 ARQUITECTURA
20190517 517 9 166 30 84.27 ARQUITECTURA
20190576 576 4 80 33 91.56 ARQUITECTURA
20190635 635 6 130 28 86.00 ARQUITECTURA
20190694 694 8 198 25 84.85 ARQUITECTURA
20190753 753 4 52 28 86.58 ARQUITECTURA
20190812 812 8 150 20 82.48 ARQUITECTURA
20190871 871 7 166 32 87.94 ARQUITECTURA
20190930 930 6 131 31 80.50 ARQUITECTURA
20190989 989 3 48 32 87.00 ARQUITECTURA
20191048 1048 5 110 32 95.33 ARQUITECTURA
20191107 1107 2 26 26 84.50 ARQUITECTURA
20191166 1166 9 238 20 82.86 BIOQUIMICA
20191225 1225 6 99 26 85.77 BIOQUIMICA
20191284 1284 1 NA 23 0.00 BIOQUIMICA
20191343 1343 3 18 15 75.00 BIOQUIMICA
20191402 1402 1 NA 23 0.00 BIOQUIMICA
20191461 1461 6 79 28 84.11 BIOQUIMICA
20191520 1520 7 76 29 79.59 BIOQUIMICA
20191579 1579 9 124 24 80.12 CIVIL
20191638 1638 9 230 5 93.83 CIVIL
20191697 1697 6 106 20 79.78 CIVIL
20191756 1756 4 71 31 79.80 CIVIL
20191815 1815 1 NA 27 0.00 CIVIL
20191874 1874 6 76 32 81.88 CIVIL
20191933 1933 1 NA 27 0.00 CIVIL
20191992 1992 7 147 32 81.20 CIVIL
20192051 2051 4 82 35 88.24 CIVIL
20192110 2110 8 202 33 85.79 CIVIL
20192169 2169 6 143 30 90.90 CIVIL
20192228 2228 10 235 10 87.87 ELECTRICA
20192287 2287 7 128 30 84.48 ELECTRICA
20192346 2346 5 99 28 84.35 ELECTRICA
20192405 2405 1 NA 24 0.00 ELECTRICA
20192464 2464 1 NA 24 0.00 ELECTRICA
20192523 2523 11 177 5 81.51 ELECTRONICA
20192582 2582 3 38 23 88.11 ELECTRONICA
20192641 2641 1 NA 25 0.00 ELECTRONICA
20192700 2700 9 202 19 82.26 INDUSTRIAL
20192759 2759 7 171 29 86.82 INDUSTRIAL
20192818 2818 6 98 20 81.43 INDUSTRIAL
20192877 2877 1 NA 27 0.00 INDUSTRIAL
20192936 2936 5 112 30 90.08 INDUSTRIAL
20192995 2995 7 109 31 84.84 INDUSTRIAL
20193054 3054 3 34 30 82.13 INDUSTRIAL
20193113 3113 6 76 36 83.72 INDUSTRIAL
20193172 3172 2 27 24 81.00 INDUSTRIAL
20193231 3231 3 27 20 82.67 INDUSTRIAL
20193290 3290 2 27 24 88.50 INDUSTRIAL
20193349 3349 5 102 27 85.13 INDUSTRIAL
20193408 3408 9 164 32 83.67 MECANICA
20193467 3467 3 42 32 82.30 MECANICA
20193526 3526 1 NA 26 0.00 MECANICA
20193585 3585 3 43 26 81.20 MECANICA
20193644 3644 8 111 27 77.96 MECANICA
20193703 3703 9 165 24 85.94 MECATRONICA
20193762 3762 1 NA 25 0.00 MECATRONICA
20193821 3821 7 154 33 85.79 MECATRONICA
20193880 3880 3 43 17 82.90 MECATRONICA
20193939 3939 2 16 28 82.00 MECATRONICA
20193998 3998 1 NA 25 0.00 MECATRONICA
20194057 4057 3 53 27 82.75 MECATRONICA
20194116 4116 5 89 29 80.47 QUIMICA
20194175 4175 8 140 16 82.53 QUIMICA
20194234 4234 7 142 31 94.77 QUIMICA
20194293 4293 5 89 24 86.84 QUIMICA
20194352 4352 4 86 28 82.89 QUIMICA
20194411 4411 7 172 32 95.64 QUIMICA
20194470 4470 6 133 23 84.68 QUIMICA
20194529 4529 1 NA 25 0.00 QUIMICA
20194588 4588 9 220 15 86.53 QUIMICA
20194647 4647 3 50 31 89.64 QUIMICA
20194706 4706 10 164 25 84.86 GESTION EMPRESARIAL
20194765 4765 9 195 25 84.15 GESTION EMPRESARIAL
20194824 4824 6 127 34 86.04 GESTION EMPRESARIAL
20194883 4883 8 111 34 86.54 GESTION EMPRESARIAL
20194942 4942 4 78 34 86.24 GESTION EMPRESARIAL
20195001 5001 7 100 34 85.23 GESTION EMPRESARIAL
20195060 5060 7 54 33 86.50 GESTION EMPRESARIAL
20195119 5119 3 48 29 85.36 GESTION EMPRESARIAL
20195178 5178 5 117 35 87.80 GESTION EMPRESARIAL
20195237 5237 8 210 25 90.39 GESTION EMPRESARIAL
20195296 5296 3 56 23 92.75 TIC
20195355 5355 5 109 27 93.83 INFORMATICA
20195414 5414 1 NA 27 0.00 INFORMATICA
20195473 5473 9 245 11 90.54 ADMINISTRACION
20195532 5532 5 113 31 91.79 ADMINISTRACION
20195591 5591 4 79 34 95.53 ADMINISTRACION
20195650 5650 3 50 30 85.55 ADMINISTRACION
20195709 5709 3 22 28 90.60 ADMINISTRACION
20195768 5768 3 46 29 96.10 ADMINISTRACION
20195827 5827 8 164 28 87.34 ADMINISTRACION
20195886 5886 3 56 33 89.92 ADMINISTRACION

3.3. Muestreo aleatorio estratificado Con el conjunto de datos de personas se trata de encontrar 10 , pero que sea representativa de acuerdo y conforme al género femenino y masculino. ¿Cuál es la frecuencia relativa del género femenino? ¿Cuál es la frecuencia relativa del género masculino? Ambas frecuencias multiplicar por el tamaño de la muestra para garantizar imparcialidad en la muestra.

N <- nrow(personas)
n <- 10
femeninos  <- filter(personas, generos=='F')
masculinos <- filter(personas, generos=='M')

frfem <- nrow(femeninos) / N
frmas <- nrow(masculinos) / N

frfem 
## [1] 0.42
frmas
## [1] 0.58
muestraFem <- sample(femeninos, n * frfem)
kable(muestraFem, caption = "La muestra de personas Femenino")
La muestra de personas Femenino
nombres generos ajedrez beisbol tiro.arco pesas futbol softbol atletismo folklorico tahitiano teatro rondalla pantomima orig.id
34 MARÍA DEL ROSARIO F NO NO SI NO NO SI NO NO NO NO NO NO 34
23 ROSA MARÍA F NO NO NO NO NO SI NO SI NO NO NO NO 23
40 LUCÍA F NO SI NO SI NO NO NO SI NO NO SI SI 40
41 ADRIANA F NO NO NO NO NO NO SI NO NO NO NO NO 41
muestraMas <- sample(masculinos, n * frmas)
kable(muestraMas, caption = "La muestra de personas Masculino")
La muestra de personas Masculino
nombres generos ajedrez beisbol tiro.arco pesas futbol softbol atletismo folklorico tahitiano teatro rondalla pantomima orig.id
34 LUIS M NO NO NO NO NO NO NO NO SI NO NO SI 34
56 ARACELI M NO NO NO NO NO NO NO NO NO NO SI NO 56
36 SANTIAGO M NO NO NO NO NO SI NO SI SI NO NO NO 36
44 GUILLERMO M NO NO NO NO NO NO NO NO NO NO NO NO 44
31 ALFREDO M NO NO NO SI NO NO NO NO NO SI NO NO 31

Simular muestreo estratificado por carreas de alumnos determinando las frecuencias relativas por medio de la función fdt_cat()

N <- nrow(alumnos)
n <- 100

tabla_frec <- data.frame(fdt_cat(alumnos$Carrera))

tabla_frec$muestra <-  round(tabla_frec$rf * n, 0)

kable(tabla_frec, caption = "Tabla de frecuencia de alumnos")
Tabla de frecuencia de alumnos
Category f rf rf… cf cf… muestra
INDUSTRIAL 707 0.1192444 11.924439 707 11.92444 12
ARQUITECTURA 675 0.1138472 11.384719 1382 23.30916 11
CIVIL 648 0.1092933 10.929330 2030 34.23849 11
GESTION EMPRESARIAL 585 0.0986676 9.866757 2615 44.10525 10
QUIMICA 568 0.0958003 9.580030 3183 53.68528 10
ADMINISTRACION 497 0.0838253 8.382527 3680 62.06780 8
SISTEMAS 452 0.0762355 7.623545 4132 69.69135 8
BIOQUIMICA 441 0.0743802 7.438016 4573 77.12936 7
MECATRONICA 432 0.0728622 7.286220 5005 84.41558 7
MECANICA 301 0.0507674 5.076741 5306 89.49233 5
ELECTRICA 280 0.0472255 4.722550 5586 94.21488 5
ELECTRONICA 161 0.0271547 2.715466 5747 96.93034 3
INFORMATICA 101 0.0170349 1.703491 5848 98.63383 2
TIC 81 0.0136617 1.366166 5929 100.00000 1

¿Cuáles alumnos? Sólo simular carreras de SISTEMAS Y CIVIL

N <- nrow(alumnos)
n <- 100
sistemas  <- filter(alumnos, Carrera =='SISTEMAS')
civil <- filter(alumnos, Carrera == 'CIVIL')


frsistemas <- nrow(sistemas) / N
frcivil <- nrow(civil) / N

frsistemas
## [1] 0.07623545
frcivil 
## [1] 0.1092933
muestrasistemas <- sample(sistemas, round(n * frsistemas, 0))
kable(muestrasistemas, caption = "La muestra de alumnos de Sistemas")
La muestra de alumnos de Sistemas
No. Control Alumno Semestre Cr. Apr. Carga Promedio Carrera orig.id
20190441 441 4 83 29 87.78 SISTEMAS 441
20190010 10 11 222 13 80.42 SISTEMAS 10
20190337 337 1 NA 27 0.00 SISTEMAS 337
20190416 416 3 55 28 95.17 SISTEMAS 416
20190163 163 7 164 34 88.11 SISTEMAS 163
20190230 230 8 189 32 89.10 SISTEMAS 230
20190261 261 4 78 29 81.18 SISTEMAS 261
20190078 78 8 180 26 82.62 SISTEMAS 78
muestracivil <- sample(civil, round(n * frcivil, 0))
kable(muestracivil, caption = "La muestra de alumnos de Civil")
La muestra de alumnos de Civil
No. Control Alumno Semestre Cr. Apr. Carga Promedio Carrera orig.id
20192056 2056 8 172 21 88.53 CIVIL 488
20191587 1587 10 216 14 78.87 CIVIL 19
20191685 1685 2 27 30 88.67 CIVIL 117
20192037 2037 4 39 33 77.75 CIVIL 469
20191974 1974 6 133 30 87.46 CIVIL 406
20191693 1693 5 99 34 86.52 CIVIL 125
20191967 1967 1 NA 27 0.00 CIVIL 399
20191656 1656 12 179 33 77.27 CIVIL 88
20191638 1638 9 230 5 93.83 CIVIL 70
20191645 1645 10 176 19 80.84 CIVIL 77
20191868 1868 4 75 29 80.50 CIVIL 300

3.4. Muestreo por conglomerados Al conjunto de datos alumnos agregar tres columnas. Primero cargar datos de localidades de Durango

En un proceso de simulación, al conjunto de datos alumnos agregar tres columnas: la localidad, latidud y longitud Primero cargar datos de localidades de Durango

N <- nrow(alumnos)
n <- 100

locdurangomx <- read.csv("https://raw.githubusercontent.com/rpizarrog/probabilidad-y-estad-stica/master/datos/locdurangomx.csv", encoding = "UTF-8")
localidades50 <- locdurangomx[sample(nrow(locdurangomx), 5), ]
alumlocalidades <- sample(localidades50, N, replace = TRUE)

alumnos$localidad <- alumlocalidades$Nom_Loc
alumnos$latitud <- alumlocalidades$Lat_Decimal
alumnos$longitud <- alumlocalidades$Lon_Decimal


kable(head(alumnos, 10), caption = "Los primeros diez registros de alumnos")
Los primeros diez registros de alumnos
No. Control Alumno Semestre Cr. Apr. Carga Promedio Carrera localidad latitud longitud
20190001 1 11 198 19 80.21 SISTEMAS Javier Larios Mateos 24.14769 -104.6010
20190002 2 11 235 10 84.33 SISTEMAS Rancho el Durazno 24.15622 -104.6684
20190003 3 9 235 10 95.25 SISTEMAS Rancho Triple R 24.15531 -104.5130
20190004 4 9 226 19 95.00 SISTEMAS Javier Larios Mateos 24.14769 -104.6010
20190005 5 10 231 14 82.32 SISTEMAS Segovias 23.99671 -104.7030
20190006 6 9 212 23 95.02 SISTEMAS Rancho Triple R 24.15531 -104.5130
20190007 7 12 221 10 79.06 SISTEMAS Rancho Triple R 24.15531 -104.5130
20190008 8 9 226 9 92.47 SISTEMAS San Felipe 24.16364 -104.5384
20190009 9 9 231 4 91.08 SISTEMAS Rancho el Durazno 24.15622 -104.6684
20190010 10 11 222 13 80.42 SISTEMAS Rancho el Durazno 24.15622 -104.6684
kable(tail(alumnos, 10), caption = "Las útimos diez registros de alumnos")
Las útimos diez registros de alumnos
No. Control Alumno Semestre Cr. Apr. Carga Promedio Carrera localidad latitud longitud
20195920 5920 7 169 23 89.14 ADMINISTRACION Javier Larios Mateos 24.14769 -104.6010
20195921 5921 5 109 26 87.83 ADMINISTRACION San Felipe 24.16364 -104.5384
20195922 5922 3 55 29 92.83 ADMINISTRACION Javier Larios Mateos 24.14769 -104.6010
20195923 5923 2 23 23 88.60 ADMINISTRACION Rancho Triple R 24.15531 -104.5130
20195924 5924 2 27 28 92.83 ADMINISTRACION San Felipe 24.16364 -104.5384
20195925 5925 7 94 13 80.95 ADMINISTRACION Segovias 23.99671 -104.7030
20195926 5926 5 103 32 92.68 ADMINISTRACION San Felipe 24.16364 -104.5384
20195927 5927 4 79 34 86.18 ADMINISTRACION San Felipe 24.16364 -104.5384
20195928 5928 5 108 32 90.48 ADMINISTRACION Javier Larios Mateos 24.14769 -104.6010
20195929 5929 7 169 32 92.33 ADMINISTRACION Rancho el Durazno 24.15622 -104.6684
N <- nrow(alumnos)
n <- 100

tabla_frec <- data.frame(fdt_cat(alumnos$localidad))

tabla_frec$muestra <-  round(tabla_frec$rf * n, 0)

kable(tabla_frec, caption = "Tabla de frecuencia de alumnos por localidad")
Tabla de frecuencia de alumnos por localidad
Category f rf rf… cf cf… muestra
Segovias 1215 0.2049249 20.49249 1215 20.49249 20
Rancho Triple R 1209 0.2039130 20.39130 2424 40.88379 20
Javier Larios Mateos 1182 0.1993591 19.93591 3606 60.81970 20
San Felipe 1175 0.1981784 19.81784 4781 80.63754 20
Rancho el Durazno 1148 0.1936246 19.36246 5929 100.00000 19
N <- nrow(alumnos)
n <- 100


loc1 <- filter(alumnos, localidad == tabla_frec$Category[1])
loc2 <- filter(alumnos, localidad == tabla_frec$Category[2])
loc3 <- filter(alumnos, localidad == tabla_frec$Category[3])
loc4 <- filter(alumnos, localidad == tabla_frec$Category[4])
loc5 <- filter(alumnos, localidad == tabla_frec$Category[5])



frloc1 <- nrow(loc1) / N
frloc2 <- nrow(loc2) / N
frloc3 <- nrow(loc3) / N
frloc4 <- nrow(loc4) / N
frloc5 <- nrow(loc5) / N

muestraloc1 <- sample(loc1, round(n * frloc1, 0))
kable(muestraloc1, caption = paste("La muestra de alumnos de Localidad ",tabla_frec$Category[1] ))
La muestra de alumnos de Localidad Segovias
No. Control Alumno Semestre Cr. Apr. Carga Promedio Carrera localidad latitud longitud orig.id
20195406 5406 3 50 27 89.82 INFORMATICA Segovias 23.99671 -104.703 1106
20192819 2819 5 108 30 86.46 INDUSTRIAL Segovias 23.99671 -104.703 564
20193244 3244 6 120 17 82.67 INDUSTRIAL Segovias 23.99671 -104.703 665
20193658 3658 1 NA 26 0.00 MECANICA Segovias 23.99671 -104.703 752
20192011 2011 1 NA 27 0.00 CIVIL Segovias 23.99671 -104.703 384
20190996 996 7 174 28 87.59 ARQUITECTURA Segovias 23.99671 -104.703 196
20195071 5071 3 26 4 82.83 GESTION EMPRESARIAL Segovias 23.99671 -104.703 1048
20191331 1331 3 52 27 82.42 BIOQUIMICA Segovias 23.99671 -104.703 260
20191944 1944 5 118 23 94.08 CIVIL Segovias 23.99671 -104.703 372
20191316 1316 7 138 32 84.27 BIOQUIMICA Segovias 23.99671 -104.703 256
20193892 3892 6 76 20 81.18 MECATRONICA Segovias 23.99671 -104.703 800
20190536 536 11 174 17 82.68 ARQUITECTURA Segovias 23.99671 -104.703 103
20194946 4946 1 NA 27 0.00 GESTION EMPRESARIAL Segovias 23.99671 -104.703 1025
20195152 5152 2 27 27 92.67 GESTION EMPRESARIAL Segovias 23.99671 -104.703 1064
20195224 5224 2 22 27 90.00 GESTION EMPRESARIAL Segovias 23.99671 -104.703 1078
20194230 4230 1 NA 25 0.00 QUIMICA Segovias 23.99671 -104.703 879
20191835 1835 4 85 26 91.00 CIVIL Segovias 23.99671 -104.703 352
20193309 3309 4 50 30 79.55 INDUSTRIAL Segovias 23.99671 -104.703 679
20194988 4988 7 125 29 84.70 GESTION EMPRESARIAL Segovias 23.99671 -104.703 1033
20193789 3789 1 NA 25 0.00 MECATRONICA Segovias 23.99671 -104.703 780
muestraloc2 <- sample(loc2, round(n * frloc2, 0))
kable(muestraloc1, caption = paste("La muestra de alumnos de Localidad ",tabla_frec$Category[2] ))
La muestra de alumnos de Localidad Rancho Triple R
No. Control Alumno Semestre Cr. Apr. Carga Promedio Carrera localidad latitud longitud orig.id
20195406 5406 3 50 27 89.82 INFORMATICA Segovias 23.99671 -104.703 1106
20192819 2819 5 108 30 86.46 INDUSTRIAL Segovias 23.99671 -104.703 564
20193244 3244 6 120 17 82.67 INDUSTRIAL Segovias 23.99671 -104.703 665
20193658 3658 1 NA 26 0.00 MECANICA Segovias 23.99671 -104.703 752
20192011 2011 1 NA 27 0.00 CIVIL Segovias 23.99671 -104.703 384
20190996 996 7 174 28 87.59 ARQUITECTURA Segovias 23.99671 -104.703 196
20195071 5071 3 26 4 82.83 GESTION EMPRESARIAL Segovias 23.99671 -104.703 1048
20191331 1331 3 52 27 82.42 BIOQUIMICA Segovias 23.99671 -104.703 260
20191944 1944 5 118 23 94.08 CIVIL Segovias 23.99671 -104.703 372
20191316 1316 7 138 32 84.27 BIOQUIMICA Segovias 23.99671 -104.703 256
20193892 3892 6 76 20 81.18 MECATRONICA Segovias 23.99671 -104.703 800
20190536 536 11 174 17 82.68 ARQUITECTURA Segovias 23.99671 -104.703 103
20194946 4946 1 NA 27 0.00 GESTION EMPRESARIAL Segovias 23.99671 -104.703 1025
20195152 5152 2 27 27 92.67 GESTION EMPRESARIAL Segovias 23.99671 -104.703 1064
20195224 5224 2 22 27 90.00 GESTION EMPRESARIAL Segovias 23.99671 -104.703 1078
20194230 4230 1 NA 25 0.00 QUIMICA Segovias 23.99671 -104.703 879
20191835 1835 4 85 26 91.00 CIVIL Segovias 23.99671 -104.703 352
20193309 3309 4 50 30 79.55 INDUSTRIAL Segovias 23.99671 -104.703 679
20194988 4988 7 125 29 84.70 GESTION EMPRESARIAL Segovias 23.99671 -104.703 1033
20193789 3789 1 NA 25 0.00 MECATRONICA Segovias 23.99671 -104.703 780
muestraloc3 <- sample(loc3, round(n * frloc3, 0))
kable(muestraloc1, caption = paste("La muestra de alumnos de Localidad ",tabla_frec$Category[3] ))
La muestra de alumnos de Localidad Javier Larios Mateos
No. Control Alumno Semestre Cr. Apr. Carga Promedio Carrera localidad latitud longitud orig.id
20195406 5406 3 50 27 89.82 INFORMATICA Segovias 23.99671 -104.703 1106
20192819 2819 5 108 30 86.46 INDUSTRIAL Segovias 23.99671 -104.703 564
20193244 3244 6 120 17 82.67 INDUSTRIAL Segovias 23.99671 -104.703 665
20193658 3658 1 NA 26 0.00 MECANICA Segovias 23.99671 -104.703 752
20192011 2011 1 NA 27 0.00 CIVIL Segovias 23.99671 -104.703 384
20190996 996 7 174 28 87.59 ARQUITECTURA Segovias 23.99671 -104.703 196
20195071 5071 3 26 4 82.83 GESTION EMPRESARIAL Segovias 23.99671 -104.703 1048
20191331 1331 3 52 27 82.42 BIOQUIMICA Segovias 23.99671 -104.703 260
20191944 1944 5 118 23 94.08 CIVIL Segovias 23.99671 -104.703 372
20191316 1316 7 138 32 84.27 BIOQUIMICA Segovias 23.99671 -104.703 256
20193892 3892 6 76 20 81.18 MECATRONICA Segovias 23.99671 -104.703 800
20190536 536 11 174 17 82.68 ARQUITECTURA Segovias 23.99671 -104.703 103
20194946 4946 1 NA 27 0.00 GESTION EMPRESARIAL Segovias 23.99671 -104.703 1025
20195152 5152 2 27 27 92.67 GESTION EMPRESARIAL Segovias 23.99671 -104.703 1064
20195224 5224 2 22 27 90.00 GESTION EMPRESARIAL Segovias 23.99671 -104.703 1078
20194230 4230 1 NA 25 0.00 QUIMICA Segovias 23.99671 -104.703 879
20191835 1835 4 85 26 91.00 CIVIL Segovias 23.99671 -104.703 352
20193309 3309 4 50 30 79.55 INDUSTRIAL Segovias 23.99671 -104.703 679
20194988 4988 7 125 29 84.70 GESTION EMPRESARIAL Segovias 23.99671 -104.703 1033
20193789 3789 1 NA 25 0.00 MECATRONICA Segovias 23.99671 -104.703 780
muestraloc4 <- sample(loc4, round(n * frloc4, 0))
kable(muestraloc1, caption = paste("La muestra de alumnos de Localidad ",tabla_frec$Category[4] ))
La muestra de alumnos de Localidad San Felipe
No. Control Alumno Semestre Cr. Apr. Carga Promedio Carrera localidad latitud longitud orig.id
20195406 5406 3 50 27 89.82 INFORMATICA Segovias 23.99671 -104.703 1106
20192819 2819 5 108 30 86.46 INDUSTRIAL Segovias 23.99671 -104.703 564
20193244 3244 6 120 17 82.67 INDUSTRIAL Segovias 23.99671 -104.703 665
20193658 3658 1 NA 26 0.00 MECANICA Segovias 23.99671 -104.703 752
20192011 2011 1 NA 27 0.00 CIVIL Segovias 23.99671 -104.703 384
20190996 996 7 174 28 87.59 ARQUITECTURA Segovias 23.99671 -104.703 196
20195071 5071 3 26 4 82.83 GESTION EMPRESARIAL Segovias 23.99671 -104.703 1048
20191331 1331 3 52 27 82.42 BIOQUIMICA Segovias 23.99671 -104.703 260
20191944 1944 5 118 23 94.08 CIVIL Segovias 23.99671 -104.703 372
20191316 1316 7 138 32 84.27 BIOQUIMICA Segovias 23.99671 -104.703 256
20193892 3892 6 76 20 81.18 MECATRONICA Segovias 23.99671 -104.703 800
20190536 536 11 174 17 82.68 ARQUITECTURA Segovias 23.99671 -104.703 103
20194946 4946 1 NA 27 0.00 GESTION EMPRESARIAL Segovias 23.99671 -104.703 1025
20195152 5152 2 27 27 92.67 GESTION EMPRESARIAL Segovias 23.99671 -104.703 1064
20195224 5224 2 22 27 90.00 GESTION EMPRESARIAL Segovias 23.99671 -104.703 1078
20194230 4230 1 NA 25 0.00 QUIMICA Segovias 23.99671 -104.703 879
20191835 1835 4 85 26 91.00 CIVIL Segovias 23.99671 -104.703 352
20193309 3309 4 50 30 79.55 INDUSTRIAL Segovias 23.99671 -104.703 679
20194988 4988 7 125 29 84.70 GESTION EMPRESARIAL Segovias 23.99671 -104.703 1033
20193789 3789 1 NA 25 0.00 MECATRONICA Segovias 23.99671 -104.703 780
muestraloc5 <- sample(loc5, round(n * frloc5, 0))
kable(muestraloc1, caption = paste("La muestra de alumnos de Localidad ",tabla_frec$Category[5] ))
La muestra de alumnos de Localidad Rancho el Durazno
No. Control Alumno Semestre Cr. Apr. Carga Promedio Carrera localidad latitud longitud orig.id
20195406 5406 3 50 27 89.82 INFORMATICA Segovias 23.99671 -104.703 1106
20192819 2819 5 108 30 86.46 INDUSTRIAL Segovias 23.99671 -104.703 564
20193244 3244 6 120 17 82.67 INDUSTRIAL Segovias 23.99671 -104.703 665
20193658 3658 1 NA 26 0.00 MECANICA Segovias 23.99671 -104.703 752
20192011 2011 1 NA 27 0.00 CIVIL Segovias 23.99671 -104.703 384
20190996 996 7 174 28 87.59 ARQUITECTURA Segovias 23.99671 -104.703 196
20195071 5071 3 26 4 82.83 GESTION EMPRESARIAL Segovias 23.99671 -104.703 1048
20191331 1331 3 52 27 82.42 BIOQUIMICA Segovias 23.99671 -104.703 260
20191944 1944 5 118 23 94.08 CIVIL Segovias 23.99671 -104.703 372
20191316 1316 7 138 32 84.27 BIOQUIMICA Segovias 23.99671 -104.703 256
20193892 3892 6 76 20 81.18 MECATRONICA Segovias 23.99671 -104.703 800
20190536 536 11 174 17 82.68 ARQUITECTURA Segovias 23.99671 -104.703 103
20194946 4946 1 NA 27 0.00 GESTION EMPRESARIAL Segovias 23.99671 -104.703 1025
20195152 5152 2 27 27 92.67 GESTION EMPRESARIAL Segovias 23.99671 -104.703 1064
20195224 5224 2 22 27 90.00 GESTION EMPRESARIAL Segovias 23.99671 -104.703 1078
20194230 4230 1 NA 25 0.00 QUIMICA Segovias 23.99671 -104.703 879
20191835 1835 4 85 26 91.00 CIVIL Segovias 23.99671 -104.703 352
20193309 3309 4 50 30 79.55 INDUSTRIAL Segovias 23.99671 -104.703 679
20194988 4988 7 125 29 84.70 GESTION EMPRESARIAL Segovias 23.99671 -104.703 1033
20193789 3789 1 NA 25 0.00 MECATRONICA Segovias 23.99671 -104.703 780
library(leaflet)
map<-leaflet() %>%
  addTiles() %>%
  addMarkers(lat=localidades50$Lat_Decimal[1],lng=localidades50$Lon_Decimal[1] ,popup=paste(localidades50$Nom_Loc[1], " ", tabla_frec$muestra[1])) %>%
   addMarkers(lat=localidades50$Lat_Decimal[2],lng=localidades50$Lon_Decimal[2] ,popup=paste(localidades50$Nom_Loc[2], " ", tabla_frec$muestra[2])) %>%
   addMarkers(lat=localidades50$Lat_Decimal[3],lng=localidades50$Lon_Decimal[3] ,popup=paste(localidades50$Nom_Loc[3], " ", tabla_frec$muestra[3])) %>%
   addMarkers(lat=localidades50$Lat_Decimal[4],lng=localidades50$Lon_Decimal[4] ,popup=paste(localidades50$Nom_Loc[4], " ", tabla_frec$muestra[4])) %>%
   addMarkers(lat=localidades50$Lat_Decimal[5],lng=localidades50$Lon_Decimal[5] ,popup=paste(localidades50$Nom_Loc[5], " ", tabla_frec$muestra[5]))
  

map

INTERPRETACION DEL CASO Muestreo aleatorio simple Es de las 100 personas que están en el conjunto únicamente escogeremos a 10 de ellas y por ende van a ser aleatoriamente que serán ah las que entrevistaremos. El muestreo aleatorio sistemático , es cuando de los 100 alumnos escogeremos uno al azar y contaremos 10 y escogeremos el que este y así sucesivamente ir de 10 en 10 para finalmente a completar las 10 personas y como se puede observar en la tabla las personas escogidas ah la entrevista fue la 6,16,26,36,46,56,66,76,86,96, justamente se inicio en el 6 y se fue tomando de 10 en 10. El muestreo aleatorio estratificado En este muestreo es un poco mas dificil ya que de el conjunto de personas las 10 que se tomaran tienen que ser representativas en cuanto al genero, se tiene que sacar las frecuencias relativas de ambos géneros, en este problema dichas frecuencias son 0.42 y 0.58 lo cual este se multiplica por los 10 que son las personas y en Femenino tenemos que son 4 personas y en masculino 5 esto varia dependiendo de las personas que entrevistemos en el caso de este ejercicio son 10 pero puede variar. Muestreo por Conglomerados Este tipo de muestreo trata del proceso de simulación ya que se tiene que agregar una tabla con tres columnas que son la localidad, latitud y longitud, como son personas de durango se busca la localidad de dicho estado y finalmente para darle un toque mas padre en un mapa se ubican, siendo este muestreo el más difícil que el de los demás.

Referencias Bibliográficas Anderson, D. R., Sweeney, D. J., & Williams, T. A. (2008). Estadística para administración y economía (10th ed.). Cengage Learning,

Lind, D., Marchal, W., & Wathen, S. (2015). Estadística aplicada a los negocios y la economía (Decimo Sexta). McGraw-Hill.