Objetivo

Determinar y simular muestreos

Descripción

Con un conjunto de datos utilizar mecanismos de programación para determinar muestreos mediante técnicas de aleatorio simple, aleatorio sistemático, aleatorio estratificado y por conglomerados.

Sustento teórico

El propósito de la estadística inferencial consiste en determinar y conocer el comportamiento sobre una población a partir de una muestra.

Una muestra es una porción, una proporción o parte de la población de interés. En muchos casos, el muestreo resulta más accesible y sencillo que el estudio de toda la población. [@lind_estadistica_2015].

Por otra parte la importancia del muestreo como lo menciona [@anderson_estadistica_2008] es cuestión de minimizar costo de trabajo, recopilar información de una muestra es sustancialmente menor, que hacerlo de una población completa; especialmente cuando se deben realizar entrevistas personales para recopilar la información.

Finamente, los métodos de muestreo aleatorio y sin sesgos son muy importantes para realizar inferencias estadísticas válidas [@lind_estadistica_2015].

Muestreo aleatorio simple

Una muestra aleatoria simple de tamaño \(n\) de una población finita de tamaño \(N\) es una muestra seleccionada de manera que cada posible muestra de tamaño \(n\) tenga la misma probabilidad de ser seleccionada [@anderson_estadistica_2008].

De un cojunto de \(N\) elementos de una población, un muestreo aleatorio simple sería una especíe de rifa o tómbola para elegir de de entre los \(N\) total de población una cantidad de \(n\) número de la muestra.

Muestreo aleatorio sistemático

Se selecciona un punto aleatorio de inicio y posteriormente se elige cada k-ésimo miembro de la población [@lind_estadistica_2015].

Suele emplearse como alternativa al muestreo aleatorio simple, en especial cuando las poblaciones son grandes se lleva mucho tiempo tomar una muestra aleatoria simple en la que primero hay que hallar un número aleatorio y después contar o buscar en el marco el elemento correspondiente [@anderson_estadistica_2008].

El primer elemento se elige aleatoriamente, lo que permite suponer que una muestra sistemática tiene las propiedades de una muestra aleatoria simple. Esta suposición suele ser correcta cuando el marco es un ordenamiento aleatorio de los elementos de la población [@anderson_estadistica_2008]

Muestreo aleatorio estratificado

Cuando una población se divide en grupos a partir de ciertas características, el muestreo aleatorio estratificado garantiza que cada grupo o estrato se encuentre representado en la muestra [@lind_estadistica_2015].

[@anderson_estadistica_2008] describe el muestreo aleatorio estratificado en donde los elementos de la población primero se dividen en grupos, a los que se les llama estratos, de manera que cada elemento pertenezca a uno y sólo un estrato. La base para la formación de los estratos, que puede ser departamento, edad, tipo de industria, enre otros, está a discreción de la persona que diseña la muestra.

Por otra parte, para asegurar que la muestra sea una representación imparcial de las \(N\) observaciones, se debe determinar la frecuencia relativa y a partir de ahí generar las cantidad de muestra de cada estrato. [@lind_estadistica_2015].

Muestreo por conglomerados

La población se divide en conglomerados a partir de los límites naturales geográficos u otra clase. A continuación, estos se seleccionan al azar y se toma una muestra de forma aleatoria con elementos de cada grupo [@lind_estadistica_2015].

Desarrollo

Cargar librerías

library(dplyr)
library(mosaic)
library(readr)
library(ggplot2)  # Para gráficos
library(knitr)    # Para formateo de datos
library(fdth)     # Para tablas de frecuencias
library(leaflet)  # Para hacer mapas

Cargar datos

Cargar datos de nombres de personas

Se carga un conjunto de 100 nombres de personas con sus atributo de género y la actividad deportiva o cultura que practican,
Cargando un datos llamando a una función que construye los datos.
El argumento encoding significa que acepte acentos en los datos.

source("https://raw.githubusercontent.com/rpizarrog/Trabajos-en-R-AD2021/main/funciones/construir%20datos%20y%20funciones.r", encoding = "UTF-8")

kable(head(personas, 10), caption = "Los primeros diez registros de nombres en el conjunto dedatos")

Los primeros diez registros de nombres en el conjunto dedatos
nombres	generos	ajedrez	beisbol	tiro.arco	pesas	futbol	softbol	atletismo	folklorico	tahitiano	teatro	rondalla	pantomima
JUAN	M	NO	NO	NO	SI	NO	SI	NO	NO	NO	NO	NO	SI
JOSÉ LUIS	M	NO	NO	NO	NO	NO	NO	NO	SI	NO	NO	NO	NO
JOSÉ	M	NO	SI	NO	SI	NO	NO	NO	NO	NO	NO	SI	SI
MARÍA GUADALUPE	F	NO	SI	NO	NO	NO	NO	NO	NO	NO	NO	SI	SI
FRANCISCO	M	NO	NO	NO	NO	NO	NO	SI	NO	NO	NO	NO	NO
GUADALUPE	F	NO	NO	NO	NO	NO	NO	NO	NO	NO	NO	NO	NO
MARÍA	F	NO	SI	NO	NO	SI	NO	NO	NO	NO	NO	NO	NO
JUANA	F	NO	NO	NO	NO	SI	NO	NO	SI	NO	NO	NO	NO
ANTONIO	M	NO	NO	NO	NO	NO	NO	NO	NO	NO	NO	NO	NO
JESÚS	M	NO	NO	SI	NO	NO	SI	NO	NO	SI	NO	NO	NO

kable(tail(personas, 10), caption = "Las útimos diez registros de nombres en el conjunto de datos")

Las útimos diez registros de nombres en el conjunto de datos
	nombres	generos	ajedrez	beisbol	tiro.arco	pesas	futbol	softbol	atletismo	folklorico	tahitiano	teatro	rondalla	pantomima
91	ANDREA	F	NO	NO	NO	NO	NO	NO	NO	NO	NO	NO	NO	SI
92	ISABEL	F	NO	NO	NO	NO	NO	NO	NO	NO	NO	NO	NO	NO
93	MARÍA TERESA	F	NO	SI	NO	NO	SI	NO	NO	SI	NO	NO	NO	NO
94	IRMA	F	SI	SI	NO	NO	NO	NO	NO	NO	NO	NO	NO	NO
95	CARMEN	F	NO	NO	NO	NO	NO	NO	NO	NO	NO	NO	NO	NO
96	LUCÍA	F	NO	SI	NO	SI	NO	NO	NO	SI	NO	NO	SI	SI
97	ADRIANA	F	NO	NO	NO	NO	NO	NO	SI	NO	NO	NO	NO	NO
98	AGUSTÍN	M	NO	SI	NO	NO	NO	NO	NO	NO	SI	NO	NO	NO
99	MARÍA DE LA LUZ	F	NO	NO	NO	NO	NO	NO	SI	NO	NO	NO	NO	NO
100	GUSTAVO	M	NO	NO	NO	NO	NO	NO	NO	SI	NO	NO	NO	NO

Cargar datos de alumnos

Se cargan os datos de alumnos inscritos en una Institución de educación superior en el semetre septiembre 2020 a enero 2021, con los atributos siguientes:
- No de control (modificado y no real),
- Número Consecutivo de alumno
- Semestre que cursa
- Créditos aprobados
- Carga académica que cursa
- Promedio aritmético
- Carrera

alumnos <- read_csv("https://raw.githubusercontent.com/rpizarrog/Trabajos-en-R-AD2021/main/datos/datos%20alumnos.csv")

kable(head(alumnos, 10), caption = "Los primeros diez registros de alumnos")

Los primeros diez registros de alumnos
Alumno	Semestre	Cr. Apr.	Carga	Promedio	Carrera
1	11	198	19	80.21	SISTEMAS
2	11	235	10	84.33	SISTEMAS
3	9	235	10	95.25	SISTEMAS
4	9	226	19	95.00	SISTEMAS
5	10	231	14	82.32	SISTEMAS
6	9	212	23	95.02	SISTEMAS
7	12	221	10	79.06	SISTEMAS
8	9	226	9	92.47	SISTEMAS
9	9	231	4	91.08	SISTEMAS
10	11	222	13	80.42	SISTEMAS

kable(tail(alumnos, 10), caption = "Las útimos diez registros de alumnos")

Las útimos diez registros de alumnos
Alumno	Semestre	Cr. Apr.	Carga	Promedio	Carrera
5920	7	169	23	89.14	ADMINISTRACION
5921	5	109	26	87.83	ADMINISTRACION
5922	3	55	29	92.83	ADMINISTRACION
5923	2	23	23	88.60	ADMINISTRACION
5924	2	27	28	92.83	ADMINISTRACION
5925	7	94	13	80.95	ADMINISTRACION
5926	5	103	32	92.68	ADMINISTRACION
5927	4	79	34	86.18	ADMINISTRACION
5928	5	108	32	90.48	ADMINISTRACION
5929	7	169	32	92.33	ADMINISTRACION

Simular muestreos

Muestreo aleatorio simple

Hay que encuestar a diez personas de 100 para hacerles alguna entrevista, ¿a quienes?
Con el conjunto de datos seleccionar 10 personas aleatoriamente con la función sample()

N <- nrow(personas)
n <- 10
muestra <- sample(personas$nombres, n)
kable(muestra, caption = "La muestra de personas")

La muestra de personas
x
DANIEL
JUAN MANUEL
MIGUEL
GUSTAVO
FRANCISCA
RAÚL
JUAN
LUCÍA
MARÍA TERESA
JORGE

Con el conjunto de datos alumnos, hay que encontrar a 100 alumnos, ¿A cuáles?

N <- nrow(alumnos)
n <- 100
registros <- sample(N, n) # Genera los números
muestra <- alumnos[registros, ]
kable(muestra, caption = "La muestra de alumnos")

La muestra de alumnos
Alumno	Semestre	Cr. Apr.	Carga	Promedio	Carrera
2700	9	202	19	82.26	INDUSTRIAL
1164	9	129	18	83.79	BIOQUIMICA
1469	7	150	36	80.81	BIOQUIMICA
5645	3	55	29	97.67	ADMINISTRACION
3227	7	163	30	86.30	INDUSTRIAL
4973	6	133	33	85.54	GESTION EMPRESARIAL
5866	1	NA	27	0.00	ADMINISTRACION
1513	6	67	34	78.60	BIOQUIMICA
4076	7	144	32	88.52	MECATRONICA
2521	9	222	23	86.40	ELECTRONICA
5624	3	55	29	96.67	ADMINISTRACION
4985	4	55	29	80.42	GESTION EMPRESARIAL
5075	5	116	32	87.71	GESTION EMPRESARIAL
5041	7	140	35	82.27	GESTION EMPRESARIAL
395	1	NA	27	0.00	SISTEMAS
3795	4	66	29	86.47	MECATRONICA
5683	1	NA	27	0.00	ADMINISTRACION
1577	9	165	16	78.86	CIVIL
2306	5	89	27	86.33	ELECTRICA
3510	3	41	24	76.80	MECANICA
1415	6	123	29	82.48	BIOQUIMICA
830	5	97	26	93.50	ARQUITECTURA
200	7	107	17	79.26	SISTEMAS
5484	11	257	5	87.44	ADMINISTRACION
25	11	230	15	84.02	SISTEMAS
2596	3	52	25	92.67	ELECTRONICA
3863	1	NA	25	0.00	MECATRONICA
74	10	230	15	83.94	SISTEMAS
1933	1	NA	27	0.00	CIVIL
1691	4	75	32	84.19	CIVIL
2587	5	90	20	83.50	ELECTRONICA
886	1	NA	26	0.00	ARQUITECTURA
4827	7	150	25	88.75	GESTION EMPRESARIAL
4756	9	230	15	91.77	GESTION EMPRESARIAL
663	7	151	23	85.22	ARQUITECTURA
2503	10	202	23	81.25	ELECTRONICA
4892	1	NA	27	0.00	GESTION EMPRESARIAL
4549	6	133	23	83.25	QUIMICA
308	4	83	29	91.00	SISTEMAS
2139	6	143	30	84.77	CIVIL
1319	7	124	34	83.15	BIOQUIMICA
5755	4	84	29	87.44	ADMINISTRACION
5920	7	169	23	89.14	ADMINISTRACION
3632	1	NA	26	0.00	MECANICA
3546	3	48	22	78.64	MECANICA
1619	9	225	10	84.85	CIVIL
1632	9	159	15	80.15	CIVIL
4890	7	170	35	87.44	GESTION EMPRESARIAL
2090	4	78	33	83.59	CIVIL
1764	1	NA	27	0.00	CIVIL
612	1	NA	26	0.00	ARQUITECTURA
1097	7	139	24	84.62	ARQUITECTURA
796	7	116	34	81.12	ARQUITECTURA
240	2	27	28	92.33	SISTEMAS
1202	1	NA	23	0.00	BIOQUIMICA
4673	12	219	16	89.93	GESTION EMPRESARIAL
5370	5	41	4	81.44	INFORMATICA
1901	5	117	31	87.08	CIVIL
3696	11	231	4	83.33	MECATRONICA
3370	11	225	10	81.86	MECANICA
1197	3	57	27	82.54	BIOQUIMICA
3032	3	55	29	89.00	INDUSTRIAL
4867	1	NA	27	0.00	GESTION EMPRESARIAL
1967	1	NA	27	0.00	CIVIL
3638	7	170	27	86.59	MECANICA
934	7	170	28	88.58	ARQUITECTURA
4100	9	225	5	87.96	QUIMICA
5193	6	138	33	86.21	GESTION EMPRESARIAL
5450	10	262	10	88.60	ADMINISTRACION
1067	1	NA	26	0.00	ARQUITECTURA
3404	10	172	18	81.13	MECANICA
4217	12	225	10	78.46	QUIMICA
1449	1	NA	23	0.00	BIOQUIMICA
2720	9	202	24	82.28	INDUSTRIAL
5151	1	NA	27	0.00	GESTION EMPRESARIAL
3110	1	NA	27	0.00	INDUSTRIAL
1051	6	127	24	88.19	ARQUITECTURA
4783	1	NA	27	0.00	GESTION EMPRESARIAL
5643	2	27	28	92.67	ADMINISTRACION
4482	2	25	30	82.00	QUIMICA
4046	1	NA	25	0.00	MECATRONICA
2183	2	27	30	83.50	CIVIL
659	1	NA	26	0.00	ARQUITECTURA
5318	1	NA	26	0.00	TIC
2101	2	23	25	80.80	CIVIL
1758	4	80	34	85.94	CIVIL
2297	5	94	33	84.77	ELECTRICA
3793	7	128	31	84.46	MECATRONICA
822	3	48	32	90.45	ARQUITECTURA
352	8	176	32	80.47	SISTEMAS
3467	3	42	32	82.30	MECANICA
443	7	160	34	90.34	SISTEMAS
241	5	112	25	91.63	SISTEMAS
4569	3	51	30	88.64	QUIMICA
3456	6	89	32	78.30	MECANICA
5534	8	177	34	86.89	ADMINISTRACION
3666	12	190	5	78.35	MECATRONICA
2155	2	22	26	93.40	CIVIL
3527	1	NA	26	0.00	MECANICA
1607	10	231	4	83.15	CIVIL

3.2. Muestreo aleatorio sistemático

Con el conjunto de datos personas, iniciar en un valor aletorio e identificar los siguientes de 10 en 10 hasta tener diez personas.

N <- nrow(personas)
n = 10
saltos <- round(N / n, 0)
inicio <- round(sample(N, 1) / n, 0)
#inicio

cuales <- seq(from = inicio, to =N, by= saltos)
kable(personas[cuales, ], caption = "La muestra sistematizada de personas")

La muestra sistematizada de personas
	nombres	generos	ajedrez	beisbol	tiro.arco	pesas	futbol	softbol	atletismo	folklorico	tahitiano	teatro	rondalla	pantomima
6	GUADALUPE	F	NO	NO	NO	NO	NO	NO	NO	NO	NO	NO	NO	NO
16	MARÍA DEL CARMEN	F	NO	NO	NO	NO	NO	SI	NO	NO	NO	NO	NO	NO
26	JAVIER	F	NO	NO	NO	NO	NO	SI	NO	NO	NO	NO	SI	NO
36	FRANCISCO JAVIER	F	SI	NO	NO	NO	NO	NO	NO	SI	NO	NO	SI	NO
46	TERESA	F	NO	NO	NO	NO	NO	NO	NO	SI	NO	NO	NO	NO
56	YOLANDA	F	SI	NO	NO	NO	SI	NO	NO	NO	NO	NO	NO	NO
66	VÍCTOR MANUEL	M	NO	SI	SI	SI	NO	NO	NO	NO	NO	NO	NO	NO
76	MARÍA ISABEL	F	NO	SI	NO	NO	NO	NO	NO	NO	NO	NO	NO	SI
86	JOSÉ GUADALUPE	M	NO	NO	NO	NO	NO	SI	NO	NO	NO	NO	NO	SI
96	LUCÍA	F	NO	SI	NO	SI	NO	NO	NO	SI	NO	NO	SI	SI

Con el conjunto de datos alumnos, hay que encontrar a 100 alumnos, ¿A cuáles?, bajo el muetreo sistematizado

N <- nrow(alumnos)
n = 100
saltos <- round(N / n, 0)
inicio <- round(sample(N, 1) / n, 0)

cuales <- seq(from = inicio, to =N, by= saltos)

kable(alumnos[cuales, ], caption = "La muestra de alumnos")

La muestra de alumnos
Alumno	Semestre	Cr. Apr.	Carga	Promedio	Carrera
40	9	217	18	92.00	SISTEMAS
99	1	NA	27	0.00	SISTEMAS
158	1	NA	27	0.00	SISTEMAS
217	1	NA	27	0.00	SISTEMAS
276	3	8	22	80.00	SISTEMAS
335	3	50	28	92.00	SISTEMAS
394	3	50	28	88.55	SISTEMAS
453	9	219	16	89.98	ARQUITECTURA
512	9	223	4	90.24	ARQUITECTURA
571	1	NA	26	0.00	ARQUITECTURA
630	1	NA	26	0.00	ARQUITECTURA
689	1	NA	26	0.00	ARQUITECTURA
748	6	117	33	86.38	ARQUITECTURA
807	3	48	32	89.82	ARQUITECTURA
866	6	142	28	88.53	ARQUITECTURA
925	4	80	30	93.39	ARQUITECTURA
984	6	120	28	85.59	ARQUITECTURA
1043	2	26	26	88.33	ARQUITECTURA
1102	3	52	28	88.33	ARQUITECTURA
1161	9	247	11	90.62	BIOQUIMICA
1220	5	81	34	85.44	BIOQUIMICA
1279	3	52	30	97.92	BIOQUIMICA
1338	4	77	22	80.47	BIOQUIMICA
1397	4	77	28	85.71	BIOQUIMICA
1456	6	118	34	84.35	BIOQUIMICA
1515	5	99	26	86.86	BIOQUIMICA
1574	12	230	5	79.42	CIVIL
1633	11	206	29	79.65	CIVIL
1692	8	193	27	80.38	CIVIL
1751	7	175	24	87.25	CIVIL
1810	5	109	30	82.48	CIVIL
1869	3	57	24	90.83	CIVIL
1928	5	100	19	80.00	CIVIL
1987	5	101	28	83.71	CIVIL
2046	8	150	33	81.77	CIVIL
2105	8	178	30	79.41	CIVIL
2164	1	NA	27	0.00	CIVIL
2223	9	220	15	83.30	ELECTRICA
2282	5	94	26	84.09	ELECTRICA
2341	3	46	28	91.55	ELECTRICA
2400	1	NA	24	0.00	ELECTRICA
2459	1	NA	24	0.00	ELECTRICA
2518	11	192	23	83.88	ELECTRONICA
2577	3	52	25	87.67	ELECTRONICA
2636	5	105	28	92.65	ELECTRONICA
2695	9	226	4	85.18	INDUSTRIAL
2754	5	93	34	83.29	INDUSTRIAL
2813	5	98	32	83.41	INDUSTRIAL
2872	7	156	36	84.71	INDUSTRIAL
2931	2	27	24	82.83	INDUSTRIAL
2990	9	235	10	84.96	INDUSTRIAL
3049	2	27	24	81.50	INDUSTRIAL
3108	8	123	34	82.50	INDUSTRIAL
3167	2	27	28	88.33	INDUSTRIAL
3226	1	NA	27	0.00	INDUSTRIAL
3285	2	27	24	81.00	INDUSTRIAL
3344	5	55	27	86.69	INDUSTRIAL
3403	9	175	28	83.45	MECANICA
3462	7	83	30	78.05	MECANICA
3521	7	137	34	86.20	MECANICA
3580	8	175	21	85.34	MECANICA
3639	3	30	22	83.00	MECANICA
3698	9	219	16	89.63	MECATRONICA
3757	1	NA	25	0.00	MECATRONICA
3816	5	108	30	86.71	MECATRONICA
3875	4	67	23	79.07	MECATRONICA
3934	3	53	27	86.50	MECATRONICA
3993	8	151	27	79.53	MECATRONICA
4052	5	110	24	85.17	MECATRONICA
4111	9	224	6	91.26	QUIMICA
4170	10	211	24	80.44	QUIMICA
4229	3	36	30	89.25	QUIMICA
4288	13	235	10	78.98	QUIMICA
4347	7	138	24	85.07	QUIMICA
4406	4	86	28	81.44	QUIMICA
4465	9	214	21	89.05	QUIMICA
4524	10	127	13	78.89	QUIMICA
4583	7	150	22	86.16	QUIMICA
4642	2	25	31	89.17	QUIMICA
4701	9	230	5	94.75	GESTION EMPRESARIAL
4760	9	215	20	87.38	GESTION EMPRESARIAL
4819	3	54	28	87.08	GESTION EMPRESARIAL
4878	3	54	28	87.42	GESTION EMPRESARIAL
4937	7	167	33	88.00	GESTION EMPRESARIAL
4996	3	54	28	95.33	GESTION EMPRESARIAL
5055	1	NA	27	0.00	GESTION EMPRESARIAL
5114	7	185	25	95.74	GESTION EMPRESARIAL
5173	2	37	30	93.25	GESTION EMPRESARIAL
5232	3	54	28	89.08	GESTION EMPRESARIAL
5291	5	101	28	81.27	TIC
5350	9	215	16	84.57	INFORMATICA
5409	3	55	27	87.92	INFORMATICA
5468	11	240	22	84.88	ADMINISTRACION
5527	1	NA	27	0.00	ADMINISTRACION
5586	1	NA	27	0.00	ADMINISTRACION
5645	3	55	29	97.67	ADMINISTRACION
5704	5	79	29	86.06	ADMINISTRACION
5763	5	113	27	92.83	ADMINISTRACION
5822	5	113	27	95.63	ADMINISTRACION
5881	7	135	34	83.90	ADMINISTRACION

Muestreo aleatorio estratificado

Con el conjunto de datos de personas se trata de encontrar 10 , pero que sea representativa de acuerdo y conforme al género femenino y masculino.
¿Cuál es la frecuencia relativa del género femenino?
¿Cuál es la frecuencia relativa del género masculino?
Ambas frecuencias multiplicar por el tamaño de la muestra para garantizar imparcialidad en la muestra.

N <- nrow(personas)
n <- 10
femeninos  <- filter(personas, generos=='F')
masculinos <- filter(personas, generos=='M')

frfem <- nrow(femeninos) / N
frmas <- nrow(masculinos) / N

frfem

## [1] 0.43

frmas

## [1] 0.57

muestraFem <- sample(femeninos, n * frfem)
kable(muestraFem, caption = "La muestra de personas Femenino")

La muestra de personas Femenino
	nombres	generos	ajedrez	beisbol	tiro.arco	pesas	futbol	softbol	atletismo	folklorico	tahitiano	teatro	rondalla	pantomima	orig.id
26	GLORIA	F	NO	NO	NO	NO	NO	NO	NO	NO	NO	NO	NO	NO	26
36	ANDREA	F	NO	NO	NO	NO	NO	NO	NO	NO	NO	NO	NO	SI	36
39	IRMA	F	SI	SI	NO	NO	NO	NO	NO	NO	NO	NO	NO	NO	39
10	FRANCISCO JAVIER	F	SI	NO	NO	NO	NO	NO	NO	SI	NO	NO	SI	NO	10

muestraMas <- sample(masculinos, n * frmas)
kable(muestraMas, caption = "La muestra de personas Masculino")

La muestra de personas Masculino
	nombres	generos	ajedrez	beisbol	tiro.arco	pesas	futbol	softbol	atletismo	folklorico	tahitiano	teatro	rondalla	pantomima	orig.id
20	RAFAEL	M	NO	NO	NO	NO	NO	NO	NO	SI	NO	NO	NO	NO	20
3	JOSÉ	M	NO	SI	NO	SI	NO	NO	NO	NO	NO	NO	SI	SI	3
31	SERGIO	M	SI	NO	NO	NO	NO	NO	NO	NO	NO	NO	NO	NO	31
47	LUIS ÁNGEL	M	NO	NO	NO	NO	NO	NO	SI	NO	SI	NO	NO	NO	47
46	RUBEN	M	NO	SI	NO	NO	NO	NO	NO	NO	NO	NO	SI	NO	46

Simular muestreo estratificado por carreas de alumnos determinando las frecuencias relativas por medio de la función fdt_cat()

N <- nrow(alumnos)
n <- 100

tabla_frec <- data.frame(fdt_cat(alumnos$Carrera))

tabla_frec$muestra <-  round(tabla_frec$rf * n, 0)

kable(tabla_frec, caption = "Tabla de frecuencia de alumnos")

Tabla de frecuencia de alumnos
Category	f	rf	rf…	cf	cf…	muestra
INDUSTRIAL	707	0.1192444	11.924439	707	11.92444	12
ARQUITECTURA	675	0.1138472	11.384719	1382	23.30916	11
CIVIL	648	0.1092933	10.929330	2030	34.23849	11
GESTION EMPRESARIAL	585	0.0986676	9.866757	2615	44.10525	10
QUIMICA	568	0.0958003	9.580030	3183	53.68528	10
ADMINISTRACION	497	0.0838253	8.382527	3680	62.06780	8
SISTEMAS	452	0.0762355	7.623545	4132	69.69135	8
BIOQUIMICA	441	0.0743802	7.438016	4573	77.12936	7
MECATRONICA	432	0.0728622	7.286220	5005	84.41558	7
MECANICA	301	0.0507674	5.076741	5306	89.49233	5
ELECTRICA	280	0.0472255	4.722550	5586	94.21488	5
ELECTRONICA	161	0.0271547	2.715466	5747	96.93034	3
INFORMATICA	101	0.0170349	1.703491	5848	98.63383	2
TIC	81	0.0136617	1.366166	5929	100.00000	1

¿Cuáles alumnos?
Sólo simular carreras de SISTEMAS Y CIVIL

N <- nrow(alumnos)
n <- 100
sistemas  <- filter(alumnos, Carrera =='SISTEMAS')
civil <- filter(alumnos, Carrera == 'CIVIL')


frsistemas <- nrow(sistemas) / N
frcivil <- nrow(civil) / N

frsistemas

## [1] 0.07623545

frcivil

## [1] 0.1092933

muestrasistemas <- sample(sistemas, round(n * frsistemas, 0))
kable(muestrasistemas, caption = "La muestra de alumnos de Sistemas")

La muestra de alumnos de Sistemas
Alumno	Semestre	Cr. Apr.	Carga	Promedio	Carrera	orig.id
130	4	87	33	87.89	SISTEMAS	130
335	3	50	28	92.00	SISTEMAS	335
142	3	36	23	89.13	SISTEMAS	142
199	1	NA	27	0.00	SISTEMAS	199
30	11	226	9	81.78	SISTEMAS	30
52	10	138	31	79.33	SISTEMAS	52
449	1	NA	27	0.00	SISTEMAS	449
414	6	137	28	84.87	SISTEMAS	414

muestracivil <- sample(civil, round(n * frcivil, 0))
kable(muestracivil, caption = "La muestra de alumnos de Civil")

La muestra de alumnos de Civil
Alumno	Semestre	Cr. Apr.	Carga	Promedio	Carrera	orig.id
1847	5	122	30	86.00	CIVIL	279
2207	6	38	35	77.38	CIVIL	639
2128	6	118	34	78.44	CIVIL	560
2184	1	NA	27	0.00	CIVIL	616
1794	6	137	34	87.66	CIVIL	226
1740	5	113	30	88.63	CIVIL	172
2009	4	82	31	82.71	CIVIL	441
1578	10	205	25	81.95	CIVIL	10
1905	7	154	32	82.64	CIVIL	337
1984	6	133	30	86.79	CIVIL	416
1731	8	187	25	86.03	CIVIL	163

Muestreo por conglomerados

En un proceso de simulación, al conjunto de datos alumnos agregar tres columnas: la localidad, latitud y longitud
Primero cargar datos de localidades de Durango

N <- nrow(alumnos)
n <- 100

locdurangomx <- read.csv("https://raw.githubusercontent.com/rpizarrog/probabilidad-y-estad-stica/master/datos/locdurangomx.csv", encoding = "UTF-8")

Segundo por medio de función sample() generar cinco registros aleatorios de localidades y agregar un sexto registro de Victoria de Durango.

set.seed(1000)
localidades6 <- locdurangomx[sample(nrow(locdurangomx), 5), ]

localidades6 <- rbind(localidades6, locdurangomx[1,])

Tercero agregar las columnas: nombre de localidad, latitud y longitud al conjunto de datos alumnos con una probabilidad de que sean de Victoria de Durango del 60%.
Mostrar los primeros diez y últimos diez alumnos verificando las tres nuevas columnas.

registros <- locdurangomx[sample(localidades6$X, N, replace = TRUE, prob = c(.10, 0.12, 0.05, 0.07, 0.06, 0.60)),c("Nom_Loc", "Lat_Decimal", "Lon_Decimal")]

alumnos$localidad <- registros$Nom_Loc
alumnos$latitud <- registros$Lat_Decimal
alumnos$longitud <- registros$Lon_Decimal

kable(head(alumnos, 10), caption = "Los primeros diez registros de alumnos")

Los primeros diez registros de alumnos
Alumno	Semestre	Cr. Apr.	Carga	Promedio	Carrera	localidad	latitud	longitud
1	11	198	19	80.21	SISTEMAS	Las Aves	23.94883	-104.5715
2	11	235	10	84.33	SISTEMAS	Victoria de Durango	24.02399	-104.6702
3	9	235	10	95.25	SISTEMAS	Victoria de Durango	24.02399	-104.6702
4	9	226	19	95.00	SISTEMAS	Victoria de Durango	24.02399	-104.6702
5	10	231	14	82.32	SISTEMAS	Victoria de Durango	24.02399	-104.6702
6	9	212	23	95.02	SISTEMAS	Las Aves	23.94883	-104.5715
7	12	221	10	79.06	SISTEMAS	Victoria de Durango	24.02399	-104.6702
8	9	226	9	92.47	SISTEMAS	Los Fresnos	24.08339	-104.6095
9	9	231	4	91.08	SISTEMAS	Las Aves	23.94883	-104.5715
10	11	222	13	80.42	SISTEMAS	Victoria de Durango	24.02399	-104.6702

kable(tail(alumnos, 10), caption = "Las útimos diez registros de alumnos")

Las útimos diez registros de alumnos
Alumno	Semestre	Cr. Apr.	Carga	Promedio	Carrera	localidad	latitud	longitud
5920	7	169	23	89.14	ADMINISTRACION	Victoria de Durango	24.02399	-104.6702
5921	5	109	26	87.83	ADMINISTRACION	Los Fresnos	24.08339	-104.6095
5922	3	55	29	92.83	ADMINISTRACION	Victoria de Durango	24.02399	-104.6702
5923	2	23	23	88.60	ADMINISTRACION	Michel [Granja]	24.00545	-104.7152
5924	2	27	28	92.83	ADMINISTRACION	Las Brisas	23.97352	-104.5800
5925	7	94	13	80.95	ADMINISTRACION	Victoria de Durango	24.02399	-104.6702
5926	5	103	32	92.68	ADMINISTRACION	Las Aves	23.94883	-104.5715
5927	4	79	34	86.18	ADMINISTRACION	Victoria de Durango	24.02399	-104.6702
5928	5	108	32	90.48	ADMINISTRACION	Victoria de Durango	24.02399	-104.6702
5929	7	169	32	92.33	ADMINISTRACION	Microondas el Tecolote	24.05248	-104.8519

Cuarto encontrar frecuencias por localidad

N <- nrow(alumnos)
n <- 100

tabla_frec <- data.frame(fdt_cat(alumnos$localidad))

tabla_frec$muestra <-  round(tabla_frec$rf * n, 0)

kable(tabla_frec, caption = "Tabla de frecuencia de alumnos por localidad")

Tabla de frecuencia de alumnos por localidad
Category	f	rf	rf…	cf	cf…	muestra
Victoria de Durango	3564	0.6011132	60.111317	3564	60.11132	60
Las Brisas	691	0.1165458	11.654579	4255	71.76590	12
Las Aves	626	0.1055827	10.558273	4881	82.32417	11
Los Fresnos	431	0.0726935	7.269354	5312	89.59352	7
Microondas el Tecolote	329	0.0554900	5.548997	5641	95.14252	6
Michel [Granja]	288	0.0485748	4.857480	5929	100.00000	5

Quinto Determinar el porcentaje que le corresponde a cada conglomerado conforme a la frecuencia relativa.
¿Cuáles alumnos?, de acuerdo al conglomerado o la localidad
Simular por las seis localidades

N <- nrow(alumnos)
n <- 100

loc1 <- filter(alumnos, localidad == tabla_frec$Category[1])
loc2 <- filter(alumnos, localidad == tabla_frec$Category[2])
loc3 <- filter(alumnos, localidad == tabla_frec$Category[3])
loc4 <- filter(alumnos, localidad == tabla_frec$Category[4])
loc5 <- filter(alumnos, localidad == tabla_frec$Category[5])
loc6 <- filter(alumnos, localidad == tabla_frec$Category[6])



frloc1 <- nrow(loc1) / N
frloc2 <- nrow(loc2) / N
frloc3 <- nrow(loc3) / N
frloc4 <- nrow(loc4) / N
frloc5 <- nrow(loc5) / N
frloc6 <- nrow(loc6) / N

muestraloc1 <- sample(loc1, round(n * frloc1, 0))
kable(muestraloc1, caption = paste("La muestra de alumnos de Localidad ",tabla_frec$Category[1] ))

La muestra de alumnos de Localidad Victoria de Durango
Alumno	Semestre	Cr. Apr.	Carga	Promedio	Carrera	localidad	latitud	longitud	orig.id
5752	3	55	29	95.67	ADMINISTRACION	Victoria de Durango	24.02399	-104.6702	3462
1354	7	167	34	86.40	BIOQUIMICA	Victoria de Durango	24.02399	-104.6702	809
5197	8	195	25	87.88	GESTION EMPRESARIAL	Victoria de Durango	24.02399	-104.6702	3142
4694	9	230	15	92.17	GESTION EMPRESARIAL	Victoria de Durango	24.02399	-104.6702	2835
1656	12	179	33	77.27	CIVIL	Victoria de Durango	24.02399	-104.6702	995
3520	1	NA	26	0.00	MECANICA	Victoria de Durango	24.02399	-104.6702	2155
1220	5	81	34	85.44	BIOQUIMICA	Victoria de Durango	24.02399	-104.6702	728
1366	2	23	29	90.17	BIOQUIMICA	Victoria de Durango	24.02399	-104.6702	818
579	4	80	30	89.11	ARQUITECTURA	Victoria de Durango	24.02399	-104.6702	331
2440	1	NA	24	0.00	ELECTRICA	Victoria de Durango	24.02399	-104.6702	1484
5184	3	60	29	84.85	GESTION EMPRESARIAL	Victoria de Durango	24.02399	-104.6702	3132
1337	8	186	24	84.36	BIOQUIMICA	Victoria de Durango	24.02399	-104.6702	798
945	6	134	24	87.86	ARQUITECTURA	Victoria de Durango	24.02399	-104.6702	563
4561	1	NA	25	0.00	QUIMICA	Victoria de Durango	24.02399	-104.6702	2751
949	2	26	26	87.67	ARQUITECTURA	Victoria de Durango	24.02399	-104.6702	565
853	2	24	22	87.00	ARQUITECTURA	Victoria de Durango	24.02399	-104.6702	511
4009	2	25	28	80.67	MECATRONICA	Victoria de Durango	24.02399	-104.6702	2423
981	5	110	32	89.50	ARQUITECTURA	Victoria de Durango	24.02399	-104.6702	587
3423	7	102	30	80.91	MECANICA	Victoria de Durango	24.02399	-104.6702	2093
5597	8	207	27	93.09	ADMINISTRACION	Victoria de Durango	24.02399	-104.6702	3369
2461	7	150	28	82.79	ELECTRICA	Victoria de Durango	24.02399	-104.6702	1496
1351	3	52	30	85.75	BIOQUIMICA	Victoria de Durango	24.02399	-104.6702	807
343	8	165	28	81.31	SISTEMAS	Victoria de Durango	24.02399	-104.6702	201
4890	7	170	35	87.44	GESTION EMPRESARIAL	Victoria de Durango	24.02399	-104.6702	2947
1348	7	164	32	91.03	BIOQUIMICA	Victoria de Durango	24.02399	-104.6702	806
739	1	NA	26	0.00	ARQUITECTURA	Victoria de Durango	24.02399	-104.6702	433
1212	7	165	36	86.37	BIOQUIMICA	Victoria de Durango	24.02399	-104.6702	723
3020	3	55	29	92.15	INDUSTRIAL	Victoria de Durango	24.02399	-104.6702	1848
1394	2	23	29	86.83	BIOQUIMICA	Victoria de Durango	24.02399	-104.6702	836
4023	1	NA	25	0.00	MECATRONICA	Victoria de Durango	24.02399	-104.6702	2434
2358	7	98	9	81.04	ELECTRICA	Victoria de Durango	24.02399	-104.6702	1435
4165	4	53	20	77.91	QUIMICA	Victoria de Durango	24.02399	-104.6702	2522
4937	7	167	33	88.00	GESTION EMPRESARIAL	Victoria de Durango	24.02399	-104.6702	2978
2500	9	197	20	84.05	ELECTRONICA	Victoria de Durango	24.02399	-104.6702	1518
866	6	142	28	88.53	ARQUITECTURA	Victoria de Durango	24.02399	-104.6702	518
307	2	27	28	77.00	SISTEMAS	Victoria de Durango	24.02399	-104.6702	180
5480	9	228	24	86.23	ADMINISTRACION	Victoria de Durango	24.02399	-104.6702	3304
5413	1	NA	27	0.00	INFORMATICA	Victoria de Durango	24.02399	-104.6702	3267
5861	7	169	32	93.89	ADMINISTRACION	Victoria de Durango	24.02399	-104.6702	3521
661	3	52	28	83.42	ARQUITECTURA	Victoria de Durango	24.02399	-104.6702	384
1654	10	171	32	78.42	CIVIL	Victoria de Durango	24.02399	-104.6702	994
4474	8	205	20	83.76	QUIMICA	Victoria de Durango	24.02399	-104.6702	2699
4055	3	43	14	81.10	MECATRONICA	Victoria de Durango	24.02399	-104.6702	2453
746	4	76	28	89.29	ARQUITECTURA	Victoria de Durango	24.02399	-104.6702	436
3336	7	179	26	89.12	INDUSTRIAL	Victoria de Durango	24.02399	-104.6702	2038
5409	3	55	27	87.92	INFORMATICA	Victoria de Durango	24.02399	-104.6702	3266
5033	3	50	28	94.45	GESTION EMPRESARIAL	Victoria de Durango	24.02399	-104.6702	3034
549	9	218	17	88.69	ARQUITECTURA	Victoria de Durango	24.02399	-104.6702	313
2620	3	47	23	86.91	ELECTRONICA	Victoria de Durango	24.02399	-104.6702	1591
186	3	41	28	83.89	SISTEMAS	Victoria de Durango	24.02399	-104.6702	110
1297	3	52	30	87.00	BIOQUIMICA	Victoria de Durango	24.02399	-104.6702	775
3034	5	85	31	88.21	INDUSTRIAL	Victoria de Durango	24.02399	-104.6702	1858
4007	7	115	27	82.96	MECATRONICA	Victoria de Durango	24.02399	-104.6702	2421
5690	4	79	29	88.53	ADMINISTRACION	Victoria de Durango	24.02399	-104.6702	3421
4231	7	172	32	88.94	QUIMICA	Victoria de Durango	24.02399	-104.6702	2561
3544	3	48	27	82.82	MECANICA	Victoria de Durango	24.02399	-104.6702	2165
2218	11	235	10	84.19	ELECTRICA	Victoria de Durango	24.02399	-104.6702	1345
5545	7	145	29	85.77	ADMINISTRACION	Victoria de Durango	24.02399	-104.6702	3341
4135	7	172	26	85.39	QUIMICA	Victoria de Durango	24.02399	-104.6702	2500
3613	3	52	24	85.50	MECANICA	Victoria de Durango	24.02399	-104.6702	2207

muestraloc2 <- sample(loc2, round(n * frloc2, 0))
kable(muestraloc2, caption = paste("La muestra de alumnos de Localidad ",tabla_frec$Category[2] ))

La muestra de alumnos de Localidad Las Brisas
Alumno	Semestre	Cr. Apr.	Carga	Promedio	Carrera	localidad	latitud	longitud	orig.id
2268	10	216	14	83.80	ELECTRICA	Las Brisas	23.97352	-104.58	262
5323	1	NA	26	0.00	TIC	Las Brisas	23.97352	-104.58	631
2994	7	172	33	86.44	INDUSTRIAL	Las Brisas	23.97352	-104.58	344
4348	5	114	30	89.92	QUIMICA	Las Brisas	23.97352	-104.58	515
3182	2	27	24	83.00	INDUSTRIAL	Las Brisas	23.97352	-104.58	375
2346	5	99	28	84.35	ELECTRICA	Las Brisas	23.97352	-104.58	271
2814	7	163	35	84.35	INDUSTRIAL	Las Brisas	23.97352	-104.58	326
5766	1	NA	27	0.00	ADMINISTRACION	Las Brisas	23.97352	-104.58	678
2753	6	158	26	88.00	INDUSTRIAL	Las Brisas	23.97352	-104.58	321
4882	3	32	31	84.43	GESTION EMPRESARIAL	Las Brisas	23.97352	-104.58	577
3378	10	225	10	82.12	MECANICA	Las Brisas	23.97352	-104.58	391
1305	1	NA	23	0.00	BIOQUIMICA	Las Brisas	23.97352	-104.58	161

muestraloc3 <- sample(loc3, round(n * frloc3, 0))
kable(muestraloc3, caption = paste("La muestra de alumnos de Localidad ",tabla_frec$Category[3] ))

La muestra de alumnos de Localidad Las Aves
Alumno	Semestre	Cr. Apr.	Carga	Promedio	Carrera	localidad	latitud	longitud	orig.id
3085	5	NA	26	0.00	INDUSTRIAL	Las Aves	23.94883	-104.5715	320
244	5	112	25	87.54	SISTEMAS	Las Aves	23.94883	-104.5715	23
1061	8	168	32	82.86	ARQUITECTURA	Las Aves	23.94883	-104.5715	121
39	9	222	13	92.21	SISTEMAS	Las Aves	23.94883	-104.5715	6
4015	4	62	26	85.00	MECATRONICA	Las Aves	23.94883	-104.5715	439
1448	7	174	27	87.08	BIOQUIMICA	Las Aves	23.94883	-104.5715	165
4301	6	129	26	84.96	QUIMICA	Las Aves	23.94883	-104.5715	462
390	5	107	30	80.26	SISTEMAS	Las Aves	23.94883	-104.5715	41
3641	5	57	23	78.85	MECANICA	Las Aves	23.94883	-104.5715	387
3522	1	NA	26	0.00	MECANICA	Las Aves	23.94883	-104.5715	366
306	4	87	33	93.26	SISTEMAS	Las Aves	23.94883	-104.5715	34

muestraloc4 <- sample(loc4, round(n * frloc4, 0))
kable(muestraloc4, caption = paste("La muestra de alumnos de Localidad ",tabla_frec$Category[4] ))

La muestra de alumnos de Localidad Los Fresnos
Alumno	Semestre	Cr. Apr.	Carga	Promedio	Carrera	localidad	latitud	longitud	orig.id
4732	12	225	10	86.83	GESTION EMPRESARIAL	Los Fresnos	24.08339	-104.6095	310
4974	8	205	30	88.56	GESTION EMPRESARIAL	Los Fresnos	24.08339	-104.6095	332
5248	1	NA	27	0.00	GESTION EMPRESARIAL	Los Fresnos	24.08339	-104.6095	356
4853	2	32	27	94.57	GESTION EMPRESARIAL	Los Fresnos	24.08339	-104.6095	325
2243	10	226	9	82.25	ELECTRICA	Los Fresnos	24.08339	-104.6095	154
5503	10	262	10	93.87	ADMINISTRACION	Los Fresnos	24.08339	-104.6095	388
1152	11	108	17	78.00	BIOQUIMICA	Los Fresnos	24.08339	-104.6095	72

muestraloc5 <- sample(loc5, round(n * frloc5, 0))
kable(muestraloc5, caption = paste("La muestra de alumnos de Localidad ",tabla_frec$Category[5] ))

La muestra de alumnos de Localidad Microondas el Tecolote
Alumno	Semestre	Cr. Apr.	Carga	Promedio	Carrera	localidad	latitud	longitud	orig.id
2935	5	104	34	86.39	INDUSTRIAL	Microondas el Tecolote	24.05248	-104.8519	168
2340	1	NA	24	0.00	ELECTRICA	Microondas el Tecolote	24.05248	-104.8519	133
1209	5	104	30	82.91	BIOQUIMICA	Microondas el Tecolote	24.05248	-104.8519	62
236	1	NA	27	0.00	SISTEMAS	Microondas el Tecolote	24.05248	-104.8519	15
5268	5	101	28	82.55	TIC	Microondas el Tecolote	24.05248	-104.8519	294
2138	5	99	33	84.43	CIVIL	Microondas el Tecolote	24.05248	-104.8519	116

muestraloc6 <- sample(loc6, round(n * frloc6, 0))
kable(muestraloc6, caption = paste("La muestra de alumnos de Localidad ",tabla_frec$Category[6] ))

La muestra de alumnos de Localidad Michel [Granja]
Alumno	Semestre	Cr. Apr.	Carga	Promedio	Carrera	localidad	latitud	longitud	orig.id
3554	3	52	31	86.33	MECANICA	Michel [Granja]	24.00545	-104.7152	175
4555	6	133	23	83.14	QUIMICA	Michel [Granja]	24.00545	-104.7152	223
2499	11	205	15	79.93	ELECTRONICA	Michel [Granja]	24.00545	-104.7152	119
2495	3	51	28	92.50	ELECTRICA	Michel [Granja]	24.00545	-104.7152	118
2977	8	201	28	83.67	INDUSTRIAL	Michel [Granja]	24.00545	-104.7152	143

Visualizar con mapas

Cargar la librerías para mapas previamente
Usando los valores de latitud y longitud

map<-leaflet() %>%
  addTiles() %>%
  addMarkers(lat=localidades6$Lat_Decimal[1],lng=localidades6$Lon_Decimal[1] ,popup=localidades6$Nom_Loc[1]) %>%
   addMarkers(lat=localidades6$Lat_Decimal[2],lng=localidades6$Lon_Decimal[2] ,popup=localidades6$Nom_Loc[2]) %>%
   addMarkers(lat=localidades6$Lat_Decimal[3],lng=localidades6$Lon_Decimal[3] ,popup=localidades6$Nom_Loc[3]) %>%
   addMarkers(lat=localidades6$Lat_Decimal[4],lng=localidades6$Lon_Decimal[4] ,popup=localidades6$Nom_Loc[4]) %>%
   addMarkers  (lat=localidades6$Lat_Decimal[5],lng=localidades6$Lon_Decimal[5] ,popup=localidades6$Nom_Loc[5]) %>%
   addMarkers  (lat=localidades6$Lat_Decimal[6],lng=localidades6$Lon_Decimal[6] ,popup=localidades6$Nom_Loc[6])
# Mostrar el mapa 
map

Interpretación de tipos de muestreo

El muestreo como tal se puede derivar en tres tipos:

Muestreo aleatorio simple

El muestreo aleatorio simple es una técnica de muestreo en la que todos los elementos que forman el universo y que por lo tanto están incluídos en el marco muestral tienen idéntica probabilidad de ser seleccionados para la muestra. El proceso de muestreo que emplea esta técnica es equivalente a hacer un sorteo entre los individuos del universo: asignamos a cada persona un boleto, introducimos los boletos en una urna y empezamos a extraer boletos al azar. Todos los individuos que tengan un boleto extraído de la urna formarían la muestra. Obviamente, en la práctica, estos métodos pueden automatizarse mediante el uso de programas informático; Dependiendo de si los individuos del universo pueden ser seleccionados más de una vez en la muestra o no, hablaremos de muestreo aleatorio simple con reposición o sin reposición.

Muestreo aleatorio sistemático

El muestreo sistemático es un tipo de muestreo probabilístico que se basa en enlistar a toda una población, elegir de forma aleatoria al primer individuo para la muestra y luego, a partir de un intervalo definido por el investigador, seleccionar al resto de los individuos que conformarán la muestra.

Muestreo aleatorio estratificado

Una muestra aleatoria estratificada es aquella obtenida separando los elementos de la población en grupos no superpuestos, llamados estratos, y luego seleccionando una muestra aleatoria simplede cada estrato.

Muestreo por conglomerados

El muestreo por conglomerados es una técnica que aprovecha la existencia de grupos o conglomerados en la población que representan correctamente el total de la población en relación a la característica que queremos medir. Dicho de otro modo, estos grupos contienen toda la variabilidad de la población. Si esto sucede, podemos seleccionar únicamente algunos de estos conglomerados para conocer la información de interés del total de la población.

Podemos ver esta técnica desde otro punto de vista. Mientras que en todas las técnicas vistas hasta ahora las unidades de muestreo coinciden con las unidades a estudiar, en el muestreo por conglomerados las unidades de muestreo son grupos de unidades a estudiar , algo que puede resultar muy beneficioso en términos de coste. A cambio, es habitual obtener una menor precisión al usar esta técnica, causada por falta de heterogeneidad dentro de los conglomerados

En este caso implementamos los 4 tipos de muestreo en un ejercicio individual para cada y usamos formulas de R Studio para llegar al resultado

Caso 1

En el primer caso usamos una base de datos con un conjunto de 100 nombres de personas y sus atributo de género y la actividad deportiva o cultura que practican para con el muestreo aleatorio simple determinar los primeros y últimos 10 generar una muestra de nuestro universo.

Caso 2

En el segundo caso se uso una base de datos con datos de alumnos inscritos en una Institución de educación superior en el semestre septiembre 2020 a enero 2021, con los atributos siguientes:

No de control (modificado y no real),
Número Consecutivo de alumno
Semestre que cursa
Créditos aprobados
Carga académica que cursa
Promedio aritmético
Carrera

Y de igual manera se seleccionaron los primeros y últimos 10 generar una muestra de nuestro universo.

Caso 3

por ultimo en el caso 3 se encuestaron a 10 personas de 100 y de la base de datos del caso 1 se obtuvo el muestreo aleatorio simple para realizar el muestreo aleatorio sistemático y dejar un universo donde la muestra sea 10 personas en la muestra de un total de 10 personas en el universo

Con la base de datos del caso 2 se realizo el muestreo sistematizado para obtener una muestra de 100 alumnos;

Con el sistema aleatorio estratificado :

Con el conjunto de datos de personas se trata de encontrar 10 , pero que sea representativa de acuerdo y conforme al género femenino y masculino.
¿Cuál es la frecuencia relativa del género femenino?
¿Cuál es la frecuencia relativa del género masculino?
Ambas frecuencias multiplicar por el tamaño de la muestra para garantizar imparcialidad en la muestra.

Por ultimo con el sistema de aglomerados se cargo un conjunto de datos de las localidades de la ciudad de durango después se añadieron una columna de localidad a la base de datos de alumnos y se determino las localidades con mas alumnos del tecnológico por localidad , luego por carrera y se gráfico en un mapa para para visualizarlo

Referencias Bibliográficas

Caso 25. Muestreo y tipos de muestreo

Oscar Omar Garcia Gonzalez

13/12/2021

Objetivo

Descripción

Sustento teórico

Muestreo aleatorio simple

Muestreo aleatorio sistemático

Muestreo aleatorio estratificado

Muestreo por conglomerados

Desarrollo

Cargar librerías

Cargar datos

Cargar datos de nombres de personas

Cargar datos de alumnos

Simular muestreos

Muestreo aleatorio simple

3.2. Muestreo aleatorio sistemático

Muestreo aleatorio estratificado

Muestreo por conglomerados

Visualizar con mapas

Interpretación de tipos de muestreo

Referencias Bibliográficas