1 Objetivo

Determinar y simular muestreos

2 Descripción

Con un conjunto de datos utilizar mecanismos de programación para determinar muestreos mediante técnicas de aleatorio simple, aleatorio sistemático, aleatorio estratificado y por conglomerados.

3 Fundamento teórico

El propósito de la estadística inferencial consiste en determinar y conocer el comportamiento sobre una población a partir de una muestra.

Una muestra es una porción, una proporción o parte de la población de interés. En muchos casos, el muestreo resulta más accesible y sencillo que el estudio de toda la población. (Lind, Marchal, and Wathen 2015).

Por otra parte la importancia del muestreo como lo menciona (Anderson, Sweeney, and Williams 2008) es cuestión de minimizar costo de trabajo, recopilar información de una muestra es sustancialmente menor, que hacerlo de una población completa; especialmente cuando se deben realizar entrevistas personales para recopilar la información.

Finamente, los métodos de muestreo aleatorio y sin sesgos son muy importantes para realizar inferencias estadísticas válidas (Lind, Marchal, and Wathen 2015).

3.1 Muestreo aleatorio simple

Una muestra aleatoria simple de tamaño nn de una población finita de tamaño NN es una muestra seleccionada de manera que cada posible muestra de tamaño nn tenga la misma probabilidad de ser seleccionada (Anderson, Sweeney, and Williams 2008).

De un conjunto de NN elementos de una población, un muestreo aleatorio simple sería una especie de rifa o tómbola para elegir de de entre los NN total de población una cantidad de nn número de la muestra.

3.2 Muestreo aleatorio sistemático

Se selecciona un punto aleatorio de inicio y posteriormente se elige cada k-ésimo miembro de la población (Lind, Marchal, and Wathen 2015).

Suele emplearse como alternativa al muestreo aleatorio simple, en especial cuando las poblaciones son grandes se lleva mucho tiempo tomar una muestra aleatoria simple en la que primero hay que hallar un número aleatorio y después contar o buscar en el marco el elemento correspondiente (Anderson, Sweeney, and Williams 2008).

El primer elemento se elige aleatoriamente, lo que permite suponer que una muestra sistemática tiene las propiedades de una muestra aleatoria simple. Esta suposición suele ser correcta cuando el marco es un ordenamiento aleatorio de los elementos de la población (Anderson, Sweeney, and Williams 2008)

3.3 Muestreo aleatorio estratificado

Cuando una población se divide en grupos a partir de ciertas características, el muestreo aleatorio estratificado garantiza que cada grupo o estrato se encuentre representado en la muestra (Lind, Marchal, and Wathen 2015).

(Anderson, Sweeney, and Williams 2008) describe el muestreo aleatorio estratificado en donde los elementos de la población primero se dividen en grupos, a los que se les llama estratos, de manera que cada elemento pertenezca a uno y sólo un estrato. La base para la formación de los estratos, que puede ser departamento, edad, tipo de industria, entre otros, está a discreción de la persona que diseña la muestra.

Por otra parte, para asegurar que la muestra sea una representación imparcial de las NN observaciones, se debe determinar la frecuencia relativa y a partir de ahí generar las cantidad de muestra de cada estrato. (Lind, Marchal, and Wathen 2015).

3.4 Muestreo por conglomerados

La población se divide en conglomerados a partir de los límites naturales geográficos u otra clase. A continuación, estos se seleccionan al azar y se toma una muestra de forma aleatoria con elementos de cada grupo (Lind, Marchal, and Wathen 2015).

Ahora bien, la pregunta es ¿cómo se calcula el tamaño de una muestra?,

n=Z2α/2Npqe2(N−1)+Z2α/2pqn=Zα/22Npqe2(N−1)+Zα/22pq

(Artola 2020)

En la ecuación NN es la población o universo,
Zα/2Zα/2 es el valor tabulado del coeficiente de confianza, el coeficiente de confianza es la probabilidad que los resultados del estudio sean ciertos. El valor es una constante que depende del coeficiente de confianza elegido, la tabla siguiente muestra los valores de Zα/2Zα/2 asociados a los niveles de confianza que se pueden elegir

Valores de Z por nivel de confianza

Z 1 .195 1 .645 1 .755 1 .885 1 .960 2 .179 2 .325 2 .575

Con fianza 89% 90% 92% 94% 95% 97% 98% 99%
El producto pqpq es la varianza de las proporciones, donde pp es la proporción que presenta el atributo y qq su complementario. En otras palabras, pp es la proporción de individuos que poseen en la población la característica de estudio y qq es la proporción de individuos que no poseen en la población las características de estudio, es decir, q=1−pq=1−p. Normalmente el valor de la varianza (producto pqpq) es desconocido asignado p=q=0.5p=q=0.5 que garantiza la varianza máxima y por ende maximiza el valor de nn.
Por último, e2e2 es el error máximo admisible, en tanto por ciento, cuando se desconoce su valor, entonces el investigador fija un criterio que puede variar entre el 1% (0.01) y 9% (0.09).

								Valores de Z por nivel de confianza
Z	1 .195	1 .645	1 .755	1 .885	1 .960	2 .179	2 .325	2 .575
Con fianza	89%	90%	92%	94%	95%	97%	98%	99%

Ejemplo de cálculo de muestra: calcular el tamaño nn de una muestra aleatoria simple de una población N=10000N=10000 habitantes de una comunidad, fijando un error máximo admisible del 44, un nivel de confianza del 9090 y varianza máxima de pq=0.25pq=0.25.

Solución: La varianza es máxima, por tanto, p=q=0.5p=q=0.5, el nivel de confianza es del 9090, entonces α=10α=10 y Zα/2=Z0.10/2=Z0.05=1.645Zα/2=Z0.10/2=Z0.05=1.645, la muestra es:

n=(1.645)2(10,000)(0.25)(0.04)2(10,000−1)+(1.645)2(0.25)=(2.706025)(10,000)(0.25)(0.0016)(9,999)+(2.706025)(0.25)=≈406n=(1.645)2(10,000)(0.25)(0.04)2(10,000−1)+(1.645)2(0.25)=(2.706025)(10,000)(0.25)(0.0016)(9,999)+(2.706025)(0.25)=≈406

Puede calcular el tamaño de la muestra con el siguiente enlace: (SurveyMonkey, n.d.).

En R desarrollando la fórmula sería:

Z=1.645
p=0.5
q=1-p
N=10000
e=0.04

n=(Z^2*N*p*q)/(e^2*(N-1)+Z^2*p*q)

n = round(n,0)

n

## [1] 406

4 Desarrollo

4.1 Cargar librerías

library(dplyr)

## 
## Attaching package: 'dplyr'

## The following objects are masked from 'package:stats':
## 
##     filter, lag

## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union

library(mosaic)

## Registered S3 method overwritten by 'mosaic':
##   method                           from   
##   fortify.SpatialPolygonsDataFrame ggplot2

## 
## The 'mosaic' package masks several functions from core packages in order to add 
## additional features.  The original behavior of these functions should not be affected by this.

## 
## Attaching package: 'mosaic'

## The following object is masked from 'package:Matrix':
## 
##     mean

## The following object is masked from 'package:ggplot2':
## 
##     stat

## The following objects are masked from 'package:dplyr':
## 
##     count, do, tally

## The following objects are masked from 'package:stats':
## 
##     binom.test, cor, cor.test, cov, fivenum, IQR, median, prop.test,
##     quantile, sd, t.test, var

## The following objects are masked from 'package:base':
## 
##     max, mean, min, prod, range, sample, sum

library(readr)
library(ggplot2)  # Para gráficos
library(knitr)    # Para formateo de datos
library(fdth)     # Para tablas de frecuencias

## 
## Attaching package: 'fdth'

## The following objects are masked from 'package:mosaic':
## 
##     sd, var

## The following objects are masked from 'package:stats':
## 
##     sd, var

4.2 Cargar datos

4.2.1 Cargar datos de nombres de personas

Se carga un conjunto de 100 nombres de personas con sus atributo de género y la actividad deportiva o cultura que practican,
Cargando un datos llamando a una función que construye los datos.
El argumento encoding significa que acepte acentos en los datos.

source("https://raw.githubusercontent.com/rpizarrog/probabilidad-y-estad-stica/master/construir%20datos%20y%20funciones%20caso%209.r",  encoding ="UTF-8")

kable(head(personas, 10), caption = "Los primeros diez registros de nombres en el conjunto dedatos")

Los primeros diez registros de nombres en el conjunto dedatos
nombres	generos	ajedrez	beisbol	tiro.arco	pesas	futbol	softbol	atletismo	folklorico	tahitiano	teatro	rondalla	pantomima
JUAN	M	NO	NO	NO	SI	NO	SI	NO	NO	NO	NO	NO	SI
JOSÉ LUIS	M	NO	NO	NO	NO	NO	NO	NO	SI	NO	NO	NO	NO
JOSÉ	M	NO	SI	NO	SI	NO	NO	NO	NO	NO	NO	SI	SI
MARÍA GUADALUPE	F	NO	SI	NO	NO	NO	NO	NO	NO	NO	NO	SI	SI
FRANCISCO	M	NO	NO	NO	NO	NO	NO	SI	NO	NO	NO	NO	NO
GUADALUPE	F	NO	NO	NO	NO	NO	NO	NO	NO	NO	NO	NO	NO
MARÍA	F	NO	SI	NO	NO	SI	NO	NO	NO	NO	NO	NO	NO
JUANA	F	NO	NO	NO	NO	SI	NO	NO	SI	NO	NO	NO	NO
ANTONIO	M	NO	NO	NO	NO	NO	NO	NO	NO	NO	NO	NO	NO
JESÚS	M	NO	NO	SI	NO	NO	SI	NO	NO	SI	NO	NO	NO

+====================================================================+===+ +——————————————————————–+—+

kable(tail(personas, 10), caption = "Las útimos diez registros de nombres en el conjunto de datos")

Las útimos diez registros de nombres en el conjunto de datos
	nombres	generos	ajedrez	beisbol	tiro.arco	pesas	futbol	softbol	atletismo	folklorico	tahitiano	teatro	rondalla	pantomima
91	ANDREA	F	NO	NO	NO	NO	NO	NO	NO	NO	NO	NO	NO	SI
92	ISABEL	F	NO	NO	NO	NO	NO	NO	NO	NO	NO	NO	NO	NO
93	MARÍA TERESA	F	NO	SI	NO	NO	SI	NO	NO	SI	NO	NO	NO	NO
94	IRMA	F	SI	SI	NO	NO	NO	NO	NO	NO	NO	NO	NO	NO
95	CARMEN	F	NO	NO	NO	NO	NO	NO	NO	NO	NO	NO	NO	NO
96	LUCÍA	F	NO	SI	NO	SI	NO	NO	NO	SI	NO	NO	SI	SI
97	ADRIANA	F	NO	NO	NO	NO	NO	NO	SI	NO	NO	NO	NO	NO
98	AGUSTÍN	M	NO	SI	NO	NO	NO	NO	NO	NO	SI	NO	NO	NO
99	MARÍA DE LA LUZ	F	NO	NO	NO	NO	NO	NO	SI	NO	NO	NO	NO	NO
100	GUSTAVO	M	NO	NO	NO	NO	NO	NO	NO	SI	NO	NO	NO	NO

4.2.2 Cargar datos de alumnos

Se cargan os datos de alumnos inscritos en una Institución de educación superior en el semestre septiembre 2020 a enero 2021, con los atributos siguientes:
- No de control (modificado y no real),
- Número consecutivo de alumno
- Semestre que cursa
- Créditos aprobados
- Carga académica que cursa
- Promedio aritmético
- Carrera

alumnos <- read_csv("https://raw.githubusercontent.com/rpizarrog/probabilidad-y-estad-stica/master/datos/promedios%20alumnos/datos%20alumnos%20promedios%20SEP%202020.csv")

## 
## -- Column specification --------------------------------------------------------
## cols(
##   `No. Control` = col_double(),
##   Alumno = col_double(),
##   Semestre = col_double(),
##   `Cr. Apr.` = col_double(),
##   Carga = col_double(),
##   Promedio = col_double(),
##   Carrera = col_character()
## )

kable(head(alumnos, 10), caption = "Los primeros diez registros de alumnos")

Los primeros diez registros de alumnos
No. Control	Alumno	Semestre	Cr. Apr.	Carga	Promedio	Carrera
20190001	1	11	198	19	80.21	SISTEMAS
20190002	2	11	235	10	84.33	SISTEMAS
20190003	3	9	235	10	95.25	SISTEMAS
20190004	4	9	226	19	95.00	SISTEMAS
20190005	5	10	231	14	82.32	SISTEMAS
20190006	6	9	212	23	95.02	SISTEMAS
20190007	7	12	221	10	79.06	SISTEMAS
20190008	8	9	226	9	92.47	SISTEMAS
20190009	9	9	231	4	91.08	SISTEMAS
20190010	10	11	222	13	80.42	SISTEMAS

kable(tail(alumnos, 10), caption = "Las útimos diez registros de alumnos")

Las útimos diez registros de alumnos
No. Control	Alumno	Semestre	Cr. Apr.	Carga	Promedio	Carrera
20195920	5920	7	169	23	89.14	ADMINISTRACION
20195921	5921	5	109	26	87.83	ADMINISTRACION
20195922	5922	3	55	29	92.83	ADMINISTRACION
20195923	5923	2	23	23	88.60	ADMINISTRACION
20195924	5924	2	27	28	92.83	ADMINISTRACION
20195925	5925	7	94	13	80.95	ADMINISTRACION
20195926	5926	5	103	32	92.68	ADMINISTRACION
20195927	5927	4	79	34	86.18	ADMINISTRACION
20195928	5928	5	108	32	90.48	ADMINISTRACION
20195929	5929	7	169	32	92.33	ADMINISTRACION

4.2.3 Simular muestreos

Se muestran presentan los cuatro tipos de muestreo, aleatorio simple, sistematizado, por estrato y conglomerados.

4.2.3.1 Muestreo aleatorio simple

Hay que encuestar a diez personas de 100 para hacerles alguna entrevista, ¿a quienes?
Con el conjunto de datos seleccionar 10 personas aleatoriamente con la función sample().

N <- nrow(personas)
n <- 10
muestra <- sample(personas$nombres, n)
kable(muestra, caption = "La muestra de personas")

La muestra de personas
x
FRANCISCA
GUSTAVO
JORGE
PATRICIA
PEDRO
LUCÍA
ELIZABETH
JESÚS
ALEJANDRO
RAFAEL

Con el conjunto de datos alumnos, hay que encontrar a 100 alumnos, ¿A cuáles?

N <- nrow(alumnos)
n <- 100
muestra <- sample(N, n) # Genera los números
kable(alumnos[muestra, ], caption = "La muestra de alumnos")

La muestra de alumnos
No. Control	Alumno	Semestre	Cr. Apr.	Carga	Promedio	Carrera
20194973	4973	6	133	33	85.54	GESTION EMPRESARIAL
20195866	5866	1	NA	27	0.00	ADMINISTRACION
20191513	1513	6	67	34	78.60	BIOQUIMICA
20194076	4076	7	144	32	88.52	MECATRONICA
20192521	2521	9	222	23	86.40	ELECTRONICA
20195624	5624	3	55	29	96.67	ADMINISTRACION
20194985	4985	4	55	29	80.42	GESTION EMPRESARIAL
20195075	5075	5	116	32	87.71	GESTION EMPRESARIAL
20195041	5041	7	140	35	82.27	GESTION EMPRESARIAL
20190395	395	1	NA	27	0.00	SISTEMAS
20193795	3795	4	66	29	86.47	MECATRONICA
20195683	5683	1	NA	27	0.00	ADMINISTRACION
20191577	1577	9	165	16	78.86	CIVIL
20192306	2306	5	89	27	86.33	ELECTRICA
20193510	3510	3	41	24	76.80	MECANICA
20191415	1415	6	123	29	82.48	BIOQUIMICA
20190830	830	5	97	26	93.50	ARQUITECTURA
20190200	200	7	107	17	79.26	SISTEMAS
20195484	5484	11	257	5	87.44	ADMINISTRACION
20190025	25	11	230	15	84.02	SISTEMAS
20192596	2596	3	52	25	92.67	ELECTRONICA
20193863	3863	1	NA	25	0.00	MECATRONICA
20190074	74	10	230	15	83.94	SISTEMAS
20191933	1933	1	NA	27	0.00	CIVIL
20191691	1691	4	75	32	84.19	CIVIL
20192587	2587	5	90	20	83.50	ELECTRONICA
20190886	886	1	NA	26	0.00	ARQUITECTURA
20194827	4827	7	150	25	88.75	GESTION EMPRESARIAL
20194756	4756	9	230	15	91.77	GESTION EMPRESARIAL
20190663	663	7	151	23	85.22	ARQUITECTURA
20192503	2503	10	202	23	81.25	ELECTRONICA
20194892	4892	1	NA	27	0.00	GESTION EMPRESARIAL
20194549	4549	6	133	23	83.25	QUIMICA
20190308	308	4	83	29	91.00	SISTEMAS
20192139	2139	6	143	30	84.77	CIVIL
20191319	1319	7	124	34	83.15	BIOQUIMICA
20195755	5755	4	84	29	87.44	ADMINISTRACION
20195925	5925	7	94	13	80.95	ADMINISTRACION
20193632	3632	1	NA	26	0.00	MECANICA
20193546	3546	3	48	22	78.64	MECANICA
20191619	1619	9	225	10	84.85	CIVIL
20191632	1632	9	159	15	80.15	CIVIL
20194890	4890	7	170	35	87.44	GESTION EMPRESARIAL
20192090	2090	4	78	33	83.59	CIVIL
20191764	1764	1	NA	27	0.00	CIVIL
20190612	612	1	NA	26	0.00	ARQUITECTURA
20191097	1097	7	139	24	84.62	ARQUITECTURA
20190796	796	7	116	34	81.12	ARQUITECTURA
20190240	240	2	27	28	92.33	SISTEMAS
20191202	1202	1	NA	23	0.00	BIOQUIMICA
20194673	4673	12	219	16	89.93	GESTION EMPRESARIAL
20195370	5370	5	41	4	81.44	INFORMATICA
20191901	1901	5	117	31	87.08	CIVIL
20193696	3696	11	231	4	83.33	MECATRONICA
20193370	3370	11	225	10	81.86	MECANICA
20191197	1197	3	57	27	82.54	BIOQUIMICA
20193032	3032	3	55	29	89.00	INDUSTRIAL
20194867	4867	1	NA	27	0.00	GESTION EMPRESARIAL
20191967	1967	1	NA	27	0.00	CIVIL
20193638	3638	7	170	27	86.59	MECANICA
20190934	934	7	170	28	88.58	ARQUITECTURA
20194100	4100	9	225	5	87.96	QUIMICA
20195193	5193	6	138	33	86.21	GESTION EMPRESARIAL
20195450	5450	10	262	10	88.60	ADMINISTRACION
20191067	1067	1	NA	26	0.00	ARQUITECTURA
20193404	3404	10	172	18	81.13	MECANICA
20194217	4217	12	225	10	78.46	QUIMICA
20191449	1449	1	NA	23	0.00	BIOQUIMICA
20192720	2720	9	202	24	82.28	INDUSTRIAL
20195151	5151	1	NA	27	0.00	GESTION EMPRESARIAL
20193110	3110	1	NA	27	0.00	INDUSTRIAL
20191051	1051	6	127	24	88.19	ARQUITECTURA
20194783	4783	1	NA	27	0.00	GESTION EMPRESARIAL
20195643	5643	2	27	28	92.67	ADMINISTRACION
20194482	4482	2	25	30	82.00	QUIMICA
20194046	4046	1	NA	25	0.00	MECATRONICA
20192183	2183	2	27	30	83.50	CIVIL
20190659	659	1	NA	26	0.00	ARQUITECTURA
20195318	5318	1	NA	26	0.00	TIC
20192101	2101	2	23	25	80.80	CIVIL
20191758	1758	4	80	34	85.94	CIVIL
20192297	2297	5	94	33	84.77	ELECTRICA
20193793	3793	7	128	31	84.46	MECATRONICA
20190822	822	3	48	32	90.45	ARQUITECTURA
20190352	352	8	176	32	80.47	SISTEMAS
20193467	3467	3	42	32	82.30	MECANICA
20190443	443	7	160	34	90.34	SISTEMAS
20190241	241	5	112	25	91.63	SISTEMAS
20194569	4569	3	51	30	88.64	QUIMICA
20193456	3456	6	89	32	78.30	MECANICA
20195534	5534	8	177	34	86.89	ADMINISTRACION
20193666	3666	12	190	5	78.35	MECATRONICA
20192155	2155	2	22	26	93.40	CIVIL
20193527	3527	1	NA	26	0.00	MECANICA
20191607	1607	10	231	4	83.15	CIVIL
20194038	4038	5	105	24	88.57	MECATRONICA
20190090	90	4	49	32	82.64	SISTEMAS
20195706	5706	4	84	30	86.94	ADMINISTRACION
20190058	58	9	200	25	83.66	SISTEMAS
20190724	724	4	70	28	87.56	ARQUITECTURA

4.2.3.2 Muestreo aleatorio sistemático

Con el conjunto de datos personas, iniciar en un valor aleatorio e identificar los siguientes de 10 en 10 hasta tener diez personas.

N <- nrow(personas)
n = 10
saltos <- round(N / n, 0)
inicio <- round(sample(N, 1) / n, 0)
#inicio

cuales <- seq(from = inicio, to =N, by= saltos)
kable(personas[cuales, ], caption = "La muestra sistematizada de personas")

La muestra sistematizada de personas
	nombres	generos	ajedrez	beisbol	tiro.arco	pesas	futbol	softbol	atletismo	folklorico	tahitiano	teatro	rondalla	pantomima
10	JESÚS	M	NO	NO	SI	NO	NO	SI	NO	NO	SI	NO	NO	NO
20	DANIEL	M	NO	NO	NO	NO	NO	NO	SI	NO	NO	NO	NO	NO
30	DAVID	M	NO	NO	NO	NO	NO	NO	NO	NO	NO	NO	NO	NO
40	MARÍA ELENA	M	NO	NO	NO	NO	NO	NO	SI	SI	NO	NO	NO	NO
50	ALBERTO	M	NO	NO	NO	NO	NO	NO	SI	NO	NO	NO	NO	NO
60	ROSA MARÍA	F	NO	NO	NO	NO	NO	SI	NO	SI	NO	NO	NO	NO
70	GABRIEL	M	SI	NO	SI	NO	NO	SI	NO	NO	NO	NO	NO	NO
80	MARÍA LUISA	F	SI	NO	NO	NO	NO	NO	NO	NO	NO	NO	NO	NO
90	ARACELI	M	NO	NO	NO	NO	NO	NO	NO	NO	NO	NO	SI	NO
100	GUSTAVO	M	NO	NO	NO	NO	NO	NO	NO	SI	NO	NO	NO	NO

Con el conjunto de datos alumnos, hay que encontrar a 100 alumnos, ¿A cuáles?, bajo el muestreo sistematizado

N <- nrow(alumnos)
n = 100
saltos <- round(N / n, 0)
inicio <- round(sample(N, 1) / n, 0)

cuales <- seq(from = inicio, to =N, by= saltos)

kable(alumnos[cuales, ], caption = "La muestra de alumnos")

La muestra de alumnos
No. Control	Alumno	Semestre	Cr. Apr.	Carga	Promedio	Carrera
20190057	57	9	226	4	89.10	SISTEMAS
20190116	116	7	165	34	93.67	SISTEMAS
20190175	175	3	50	33	90.91	SISTEMAS
20190234	234	7	105	22	84.00	SISTEMAS
20190293	293	4	83	33	86.28	SISTEMAS
20190352	352	8	176	32	80.47	SISTEMAS
20190411	411	7	165	34	82.78	SISTEMAS
20190470	470	9	198	29	83.33	ARQUITECTURA
20190529	529	10	172	12	79.97	ARQUITECTURA
20190588	588	4	80	30	90.28	ARQUITECTURA
20190647	647	6	124	26	83.85	ARQUITECTURA
20190706	706	1	NA	26	0.00	ARQUITECTURA
20190765	765	1	NA	26	0.00	ARQUITECTURA
20190824	824	6	132	30	82.96	ARQUITECTURA
20190883	883	6	91	30	85.53	ARQUITECTURA
20190942	942	5	88	30	83.32	ARQUITECTURA
20191001	1001	3	52	24	90.50	ARQUITECTURA
20191060	1060	1	NA	26	0.00	ARQUITECTURA
20191119	1119	1	NA	26	0.00	ARQUITECTURA
20191178	1178	9	140	23	82.81	BIOQUIMICA
20191237	1237	5	79	31	81.78	BIOQUIMICA
20191296	1296	8	95	28	76.81	BIOQUIMICA
20191355	1355	1	NA	23	0.00	BIOQUIMICA
20191414	1414	1	NA	23	0.00	BIOQUIMICA
20191473	1473	2	18	29	82.60	BIOQUIMICA
20191532	1532	3	47	25	87.09	BIOQUIMICA
20191591	1591	10	225	15	80.28	CIVIL
20191650	1650	9	235	10	91.00	CIVIL
20191709	1709	5	67	8	82.71	CIVIL
20191768	1768	6	139	30	85.21	CIVIL
20191827	1827	1	NA	27	0.00	CIVIL
20191886	1886	4	51	31	78.83	CIVIL
20191945	1945	3	55	30	87.33	CIVIL
20192004	2004	4	78	18	81.06	CIVIL
20192063	2063	5	121	31	87.12	CIVIL
20192122	2122	2	27	26	80.17	CIVIL
20192181	2181	1	NA	27	0.00	CIVIL
20192240	2240	9	221	14	92.94	ELECTRICA
20192299	2299	7	160	31	88.08	ELECTRICA
20192358	2358	7	98	9	81.04	ELECTRICA
20192417	2417	3	56	26	92.00	ELECTRICA
20192476	2476	3	51	28	85.92	ELECTRICA
20192535	2535	6	104	24	82.96	ELECTRONICA
20192594	2594	1	NA	25	0.00	ELECTRONICA
20192653	2653	5	105	28	95.17	ELECTRONICA
20192712	2712	11	235	10	80.68	INDUSTRIAL
20192771	2771	4	75	32	80.59	INDUSTRIAL
20192830	2830	8	174	36	81.22	INDUSTRIAL
20192889	2889	5	112	30	90.72	INDUSTRIAL
20192948	2948	6	120	26	79.30	INDUSTRIAL
20193007	3007	6	142	25	83.56	INDUSTRIAL
20193066	3066	7	149	25	87.74	INDUSTRIAL
20193125	3125	3	55	27	84.08	INDUSTRIAL
20193184	3184	6	139	28	84.48	INDUSTRIAL
20193243	3243	3	51	29	86.83	INDUSTRIAL
20193302	3302	5	95	27	81.18	INDUSTRIAL
20193361	3361	5	87	31	84.70	INDUSTRIAL
20193420	3420	7	132	27	83.52	MECANICA
20193479	3479	7	142	35	80.45	MECANICA
20193538	3538	5	108	29	84.88	MECANICA
20193597	3597	5	103	34	81.17	MECANICA
20193656	3656	6	113	29	79.72	MECANICA
20193715	3715	10	178	8	79.81	MECATRONICA
20193774	3774	7	159	30	87.76	MECATRONICA
20193833	3833	7	151	31	82.44	MECATRONICA
20193892	3892	6	76	20	81.18	MECATRONICA
20193951	3951	6	47	4	82.09	MECATRONICA
20194010	4010	1	NA	25	0.00	MECATRONICA
20194069	4069	5	105	24	86.74	MECATRONICA
20194128	4128	11	161	32	81.21	QUIMICA
20194187	4187	5	109	25	87.22	QUIMICA
20194246	4246	9	230	5	85.70	QUIMICA
20194305	4305	2	11	25	91.67	QUIMICA
20194364	4364	4	86	28	88.50	QUIMICA
20194423	4423	9	215	20	83.36	QUIMICA
20194482	4482	2	25	30	82.00	QUIMICA
20194541	4541	5	88	29	84.84	QUIMICA
20194600	4600	9	204	20	82.31	QUIMICA
20194659	4659	7	162	30	88.71	QUIMICA
20194718	4718	10	225	10	85.17	GESTION EMPRESARIAL
20194777	4777	5	107	33	87.87	GESTION EMPRESARIAL
20194836	4836	1	NA	27	0.00	GESTION EMPRESARIAL
20194895	4895	3	53	29	87.92	GESTION EMPRESARIAL
20194954	4954	2	22	26	91.20	GESTION EMPRESARIAL
20195013	5013	2	27	27	84.50	GESTION EMPRESARIAL
20195072	5072	3	54	28	93.08	GESTION EMPRESARIAL
20195131	5131	3	54	28	90.75	GESTION EMPRESARIAL
20195190	5190	3	45	33	85.10	GESTION EMPRESARIAL
20195249	5249	2	22	27	92.40	GESTION EMPRESARIAL
20195308	5308	1	NA	26	0.00	TIC
20195367	5367	7	85	18	82.58	INFORMATICA
20195426	5426	7	156	33	90.29	INFORMATICA
20195485	5485	9	262	10	92.09	ADMINISTRACION
20195544	5544	5	89	28	85.63	ADMINISTRACION
20195603	5603	1	NA	27	0.00	ADMINISTRACION
20195662	5662	1	NA	27	0.00	ADMINISTRACION
20195721	5721	8	180	34	85.00	ADMINISTRACION
20195780	5780	4	84	33	89.94	ADMINISTRACION
20195839	5839	6	140	28	91.93	ADMINISTRACION
20195898	5898	2	23	28	87.80	ADMINISTRACION

4.2.3.3 Muestreo aleatorio estratificado

Con el conjunto de datos de personas se trata de encontrar 10 , pero que sea representativa de acuerdo y conforme al género femenino y masculino.
¿Cuál es la frecuencia relativa del género femenino?
¿Cuál es la frecuencia relativa del género masculino?

Ambas frecuencias multiplicar por el tamaño de la muestra para garantizar imparcialidad en la muestra.

N <- nrow(personas)
n <- 10
femeninos  <- filter(personas, generos=='F')
masculinos <- filter(personas, generos=='M')

frfem <- nrow(femeninos) / N
frmas <- nrow(masculinos) / N

frfem

## [1] 0.42

frmas

## [1] 0.58

muestraFem <- sample(femeninos, n * frfem)
kable(muestraFem, caption = "La muestra de personas Femenino")

La muestra de personas Femenino
	nombres	generos	ajedrez	beisbol	tiro.arco	pesas	futbol	softbol	atletismo	folklorico	tahitiano	teatro	rondalla	pantomima	orig.id
2	GUADALUPE	F	NO	NO	NO	NO	NO	NO	NO	NO	NO	NO	NO	NO	2
15	TERESA	F	NO	NO	NO	NO	NO	NO	NO	SI	NO	NO	NO	NO	15
14	FRANCISCA	F	NO	NO	SI	NO	NO	NO	SI	NO	NO	NO	NO	NO	14
7	JAVIER	F	NO	NO	NO	NO	NO	SI	NO	NO	NO	NO	SI	NO	7

muestraMas <- sample(masculinos, n * frmas)
kable(muestraMas, caption = "La muestra de personas Masculino")

La muestra de personas Masculino
	nombres	generos	ajedrez	beisbol	tiro.arco	pesas	futbol	softbol	atletismo	folklorico	tahitiano	teatro	rondalla	pantomima	orig.id
30	MARIO	M	NO	NO	SI	SI	NO	NO	NO	NO	NO	NO	NO	NO	30
52	JOSÉ GUADALUPE	M	NO	NO	NO	NO	NO	SI	NO	NO	NO	NO	NO	SI	52
7	MIGUEL ÁNGEL	M	NO	NO	NO	NO	NO	NO	NO	NO	SI	NO	NO	NO	7
58	GUSTAVO	M	NO	NO	NO	NO	NO	NO	NO	SI	NO	NO	NO	NO	58
34	LUIS	M	NO	NO	NO	NO	NO	NO	NO	NO	SI	NO	NO	SI	34

Simular muestreo estratificado por carreras de alumnos determinando las frecuencias relativas por medio de la función fdt_cat()

N <- nrow(alumnos)
n <- 100

tabla_frec <- data.frame(fdt_cat(alumnos$Carrera))

tabla_frec$muestra <-  round(tabla_frec$rf * n, 0)

kable(tabla_frec, caption = "Tabla de frecuencia de alumnos")

Tabla de frecuencia de alumnos
Category	f	rf	rf…	cf	cf…	muestra
INDUSTRIAL	707	0.1192444	11.924439	707	11.92444	12
ARQUITECTURA	675	0.1138472	11.384719	1382	23.30916	11
CIVIL	648	0.1092933	10.929330	2030	34.23849	11
GESTION EMPRESARIAL	585	0.0986676	9.866757	2615	44.10525	10
QUIMICA	568	0.0958003	9.580030	3183	53.68528	10
ADMINISTRACION	497	0.0838253	8.382527	3680	62.06780	8
SISTEMAS	452	0.0762355	7.623545	4132	69.69135	8
BIOQUIMICA	441	0.0743802	7.438016	4573	77.12936	7
MECATRONICA	432	0.0728622	7.286220	5005	84.41558	7
MECANICA	301	0.0507674	5.076741	5306	89.49233	5
ELECTRICA	280	0.0472255	4.722550	5586	94.21488	5
ELECTRONICA	161	0.0271547	2.715466	5747	96.93034	3
INFORMATICA	101	0.0170349	1.703491	5848	98.63383	2
TIC	81	0.0136617	1.366166	5929	100.00000	1

¿Cuáles alumnos?

Sólo simular carreras de SISTEMAS Y CIVIL

N <- nrow(alumnos)
n <- 100
sistemas  <- filter(alumnos, Carrera =='SISTEMAS')
civil <- filter(alumnos, Carrera == 'CIVIL')


frsistemas <- nrow(sistemas) / N
frcivil <- nrow(civil) / N

frsistemas

## [1] 0.07623545

frcivil

## [1] 0.1092933

muestrasistemas <- sample(sistemas, round(n * frsistemas, 0))
kable(muestrasistemas, caption = "La muestra de alumnos de Sistemas")

La muestra de alumnos de Sistemas
No. Control	Alumno	Semestre	Cr. Apr.	Carga	Promedio	Carrera	orig.id
20190279	279	8	177	31	88.82	SISTEMAS	279
20190127	127	4	68	34	80.53	SISTEMAS	127
20190048	48	9	212	4	91.28	SISTEMAS	48
20190104	104	3	50	33	86.55	SISTEMAS	104
20190452	452	2	27	28	84.50	SISTEMAS	452
20190226	226	6	128	32	83.18	SISTEMAS	226
20190184	184	5	116	26	92.64	SISTEMAS	184
20190356	356	3	55	28	91.67	SISTEMAS	356

muestracivil <- sample(civil, round(n * frcivil, 0))
kable(muestracivil, caption = "La muestra de alumnos de Civil")

La muestra de alumnos de Civil
No. Control	Alumno	Semestre	Cr. Apr.	Carga	Promedio	Carrera	orig.id
20191740	1740	5	113	30	88.63	CIVIL	172
20192009	2009	4	82	31	82.71	CIVIL	441
20191578	1578	10	205	25	81.95	CIVIL	10
20191905	1905	7	154	32	82.64	CIVIL	337
20191984	1984	6	133	30	86.79	CIVIL	416
20191731	1731	8	187	25	86.03	CIVIL	163
20191798	1798	6	116	34	84.04	CIVIL	230
20191829	1829	6	97	28	79.57	CIVIL	261
20192158	2158	2	27	30	93.17	CIVIL	590
20192056	2056	8	172	21	88.53	CIVIL	488
20191587	1587	10	216	14	78.87	CIVIL	19

4.2.3.4 Muestreo por conglomerados

En un proceso de simulación, al conjunto de datos alumnos agregar tres columnas: la localidad, latitud y longitud
Primero cargar datos de localidades de Durango

N <- nrow(alumnos)
n <- 100

locdurangomx <- read.csv("https://raw.githubusercontent.com/rpizarrog/probabilidad-y-estad-stica/master/datos/locdurangomx.csv", encoding = "UTF-8")

Segundo por medio de función sample() generar cinco registros aleatorios de localidades y agregar un sexto registro de Victoria de Durango.

set.seed(1000)
localidades6 <- locdurangomx[sample(nrow(locdurangomx), 5), ]

localidades6 <- rbind(localidades6, locdurangomx[1,])

Tercero agregar las columnas: nombre de localidad, latitud y longitud al conjunto de datos alumnos con una probabilidad de que sean de Victoria de Durango del 60%.
Mostrar los primeros diez y últimos diez alumnos verificando las tres nuevas columnas.

registros <- locdurangomx[sample(localidades6$X, N, replace = TRUE, prob = c(.10, 0.12, 0.05, 0.07, 0.06, 0.60)),c("Nom_Loc", "Lat_Decimal", "Lon_Decimal")]

alumnos$localidad <- registros$Nom_Loc
alumnos$latitud <- registros$Lat_Decimal
alumnos$longitud <- registros$Lon_Decimal

kable(head(alumnos, 10), caption = "Los primeros diez registros de alumnos")

Los primeros diez registros de alumnos
No. Control	Alumno	Semestre	Cr. Apr.	Carga	Promedio	Carrera	localidad	latitud	longitud
20190001	1	11	198	19	80.21	SISTEMAS	Las Aves	23.94883	-104.5715
20190002	2	11	235	10	84.33	SISTEMAS	Victoria de Durango	24.02399	-104.6702
20190003	3	9	235	10	95.25	SISTEMAS	Victoria de Durango	24.02399	-104.6702
20190004	4	9	226	19	95.00	SISTEMAS	Victoria de Durango	24.02399	-104.6702
20190005	5	10	231	14	82.32	SISTEMAS	Victoria de Durango	24.02399	-104.6702
20190006	6	9	212	23	95.02	SISTEMAS	Las Aves	23.94883	-104.5715
20190007	7	12	221	10	79.06	SISTEMAS	Victoria de Durango	24.02399	-104.6702
20190008	8	9	226	9	92.47	SISTEMAS	Los Fresnos	24.08339	-104.6095
20190009	9	9	231	4	91.08	SISTEMAS	Las Aves	23.94883	-104.5715
20190010	10	11	222	13	80.42	SISTEMAS	Victoria de Durango	24.02399	-104.6702

kable(tail(alumnos, 10), caption = "Las útimos diez registros de alumnos")

Las útimos diez registros de alumnos
No. Control	Alumno	Semestre	Cr. Apr.	Carga	Promedio	Carrera	localidad	latitud	longitud
20195920	5920	7	169	23	89.14	ADMINISTRACION	Victoria de Durango	24.02399	-104.6702
20195921	5921	5	109	26	87.83	ADMINISTRACION	Los Fresnos	24.08339	-104.6095
20195922	5922	3	55	29	92.83	ADMINISTRACION	Victoria de Durango	24.02399	-104.6702
20195923	5923	2	23	23	88.60	ADMINISTRACION	Michel [Granja]	24.00545	-104.7152
20195924	5924	2	27	28	92.83	ADMINISTRACION	Las Brisas	23.97352	-104.5800
20195925	5925	7	94	13	80.95	ADMINISTRACION	Victoria de Durango	24.02399	-104.6702
20195926	5926	5	103	32	92.68	ADMINISTRACION	Las Aves	23.94883	-104.5715
20195927	5927	4	79	34	86.18	ADMINISTRACION	Victoria de Durango	24.02399	-104.6702
20195928	5928	5	108	32	90.48	ADMINISTRACION	Victoria de Durango	24.02399	-104.6702
20195929	5929	7	169	32	92.33	ADMINISTRACION	Microondas el Tecolote	24.05248	-104.8519

Cuarto encontrar frecuencias por localidad

N <- nrow(alumnos)
n <- 100

tabla_frec <- data.frame(fdt_cat(alumnos$localidad))

tabla_frec$muestra <-  round(tabla_frec$rf * n, 0)

kable(tabla_frec, caption = "Tabla de frecuencia de alumnos por localidad")

Tabla de frecuencia de alumnos por localidad
Category	f	rf	rf…	cf	cf…	muestra
Victoria de Durango	3564	0.6011132	60.111317	3564	60.11132	60
Las Brisas	691	0.1165458	11.654579	4255	71.76590	12
Las Aves	626	0.1055827	10.558273	4881	82.32417	11
Los Fresnos	431	0.0726935	7.269354	5312	89.59352	7
Microondas el Tecolote	329	0.0554900	5.548997	5641	95.14252	6
Michel [Granja]	288	0.0485748	4.857480	5929	100.00000	5

uinto Determinar el porcentaje que le corresponde a cada conglomerado conforme a la frecuencia relativa.
¿Cuáles alumnos?, de acuerdo al conglomerado o la localidad

Simular por las seis localidades

N <- nrow(alumnos)
n <- 100

loc1 <- filter(alumnos, localidad == tabla_frec$Category[1])
loc2 <- filter(alumnos, localidad == tabla_frec$Category[2])
loc3 <- filter(alumnos, localidad == tabla_frec$Category[3])
loc4 <- filter(alumnos, localidad == tabla_frec$Category[4])
loc5 <- filter(alumnos, localidad == tabla_frec$Category[5])
loc6 <- filter(alumnos, localidad == tabla_frec$Category[6])



frloc1 <- nrow(loc1) / N
frloc2 <- nrow(loc2) / N
frloc3 <- nrow(loc3) / N
frloc4 <- nrow(loc4) / N
frloc5 <- nrow(loc5) / N
frloc6 <- nrow(loc6) / N

muestraloc1 <- sample(loc1, round(n * frloc1, 0))
kable(muestraloc1, caption = paste("La muestra de alumnos de Localidad ",tabla_frec$Category[1] ))

La muestra de alumnos de Localidad Victoria de Durango
No. Control	Alumno	Semestre	Cr. Apr.	Carga	Promedio	Carrera	localidad	latitud	longitud	orig.id
20195752	5752	3	55	29	95.67	ADMINISTRACION	Victoria de Durango	24.02399	-104.6702	3462
20191354	1354	7	167	34	86.40	BIOQUIMICA	Victoria de Durango	24.02399	-104.6702	809
20195197	5197	8	195	25	87.88	GESTION EMPRESARIAL	Victoria de Durango	24.02399	-104.6702	3142
20194694	4694	9	230	15	92.17	GESTION EMPRESARIAL	Victoria de Durango	24.02399	-104.6702	2835
20191656	1656	12	179	33	77.27	CIVIL	Victoria de Durango	24.02399	-104.6702	995
20193520	3520	1	NA	26	0.00	MECANICA	Victoria de Durango	24.02399	-104.6702	2155
20191220	1220	5	81	34	85.44	BIOQUIMICA	Victoria de Durango	24.02399	-104.6702	728
20191366	1366	2	23	29	90.17	BIOQUIMICA	Victoria de Durango	24.02399	-104.6702	818
20190579	579	4	80	30	89.11	ARQUITECTURA	Victoria de Durango	24.02399	-104.6702	331
20192440	2440	1	NA	24	0.00	ELECTRICA	Victoria de Durango	24.02399	-104.6702	1484
20195184	5184	3	60	29	84.85	GESTION EMPRESARIAL	Victoria de Durango	24.02399	-104.6702	3132
20191337	1337	8	186	24	84.36	BIOQUIMICA	Victoria de Durango	24.02399	-104.6702	798
20190945	945	6	134	24	87.86	ARQUITECTURA	Victoria de Durango	24.02399	-104.6702	563
20194561	4561	1	NA	25	0.00	QUIMICA	Victoria de Durango	24.02399	-104.6702	2751
20190949	949	2	26	26	87.67	ARQUITECTURA	Victoria de Durango	24.02399	-104.6702	565
20190853	853	2	24	22	87.00	ARQUITECTURA	Victoria de Durango	24.02399	-104.6702	511
20194009	4009	2	25	28	80.67	MECATRONICA	Victoria de Durango	24.02399	-104.6702	2423
20190981	981	5	110	32	89.50	ARQUITECTURA	Victoria de Durango	24.02399	-104.6702	587
20193423	3423	7	102	30	80.91	MECANICA	Victoria de Durango	24.02399	-104.6702	2093
20195597	5597	8	207	27	93.09	ADMINISTRACION	Victoria de Durango	24.02399	-104.6702	3369
20192461	2461	7	150	28	82.79	ELECTRICA	Victoria de Durango	24.02399	-104.6702	1496
20191351	1351	3	52	30	85.75	BIOQUIMICA	Victoria de Durango	24.02399	-104.6702	807
20190343	343	8	165	28	81.31	SISTEMAS	Victoria de Durango	24.02399	-104.6702	201
20194890	4890	7	170	35	87.44	GESTION EMPRESARIAL	Victoria de Durango	24.02399	-104.6702	2947
20191348	1348	7	164	32	91.03	BIOQUIMICA	Victoria de Durango	24.02399	-104.6702	806
20190739	739	1	NA	26	0.00	ARQUITECTURA	Victoria de Durango	24.02399	-104.6702	433
20191212	1212	7	165	36	86.37	BIOQUIMICA	Victoria de Durango	24.02399	-104.6702	723
20193020	3020	3	55	29	92.15	INDUSTRIAL	Victoria de Durango	24.02399	-104.6702	1848
20191394	1394	2	23	29	86.83	BIOQUIMICA	Victoria de Durango	24.02399	-104.6702	836
20194023	4023	1	NA	25	0.00	MECATRONICA	Victoria de Durango	24.02399	-104.6702	2434
20192358	2358	7	98	9	81.04	ELECTRICA	Victoria de Durango	24.02399	-104.6702	1435
20194165	4165	4	53	20	77.91	QUIMICA	Victoria de Durango	24.02399	-104.6702	2522
20194937	4937	7	167	33	88.00	GESTION EMPRESARIAL	Victoria de Durango	24.02399	-104.6702	2978
20192500	2500	9	197	20	84.05	ELECTRONICA	Victoria de Durango	24.02399	-104.6702	1518
20190866	866	6	142	28	88.53	ARQUITECTURA	Victoria de Durango	24.02399	-104.6702	518
20190307	307	2	27	28	77.00	SISTEMAS	Victoria de Durango	24.02399	-104.6702	180
20195480	5480	9	228	24	86.23	ADMINISTRACION	Victoria de Durango	24.02399	-104.6702	3304
20195413	5413	1	NA	27	0.00	INFORMATICA	Victoria de Durango	24.02399	-104.6702	3267
20195861	5861	7	169	32	93.89	ADMINISTRACION	Victoria de Durango	24.02399	-104.6702	3521
20190661	661	3	52	28	83.42	ARQUITECTURA	Victoria de Durango	24.02399	-104.6702	384
20191654	1654	10	171	32	78.42	CIVIL	Victoria de Durango	24.02399	-104.6702	994
20194474	4474	8	205	20	83.76	QUIMICA	Victoria de Durango	24.02399	-104.6702	2699
20194055	4055	3	43	14	81.10	MECATRONICA	Victoria de Durango	24.02399	-104.6702	2453
20190746	746	4	76	28	89.29	ARQUITECTURA	Victoria de Durango	24.02399	-104.6702	436
20193336	3336	7	179	26	89.12	INDUSTRIAL	Victoria de Durango	24.02399	-104.6702	2038
20195409	5409	3	55	27	87.92	INFORMATICA	Victoria de Durango	24.02399	-104.6702	3266
20195033	5033	3	50	28	94.45	GESTION EMPRESARIAL	Victoria de Durango	24.02399	-104.6702	3034
20190549	549	9	218	17	88.69	ARQUITECTURA	Victoria de Durango	24.02399	-104.6702	313
20192620	2620	3	47	23	86.91	ELECTRONICA	Victoria de Durango	24.02399	-104.6702	1591
20190186	186	3	41	28	83.89	SISTEMAS	Victoria de Durango	24.02399	-104.6702	110
20191297	1297	3	52	30	87.00	BIOQUIMICA	Victoria de Durango	24.02399	-104.6702	775
20193034	3034	5	85	31	88.21	INDUSTRIAL	Victoria de Durango	24.02399	-104.6702	1858
20194007	4007	7	115	27	82.96	MECATRONICA	Victoria de Durango	24.02399	-104.6702	2421
20195690	5690	4	79	29	88.53	ADMINISTRACION	Victoria de Durango	24.02399	-104.6702	3421
20194231	4231	7	172	32	88.94	QUIMICA	Victoria de Durango	24.02399	-104.6702	2561
20193544	3544	3	48	27	82.82	MECANICA	Victoria de Durango	24.02399	-104.6702	2165
20192218	2218	11	235	10	84.19	ELECTRICA	Victoria de Durango	24.02399	-104.6702	1345
20195545	5545	7	145	29	85.77	ADMINISTRACION	Victoria de Durango	24.02399	-104.6702	3341
20194135	4135	7	172	26	85.39	QUIMICA	Victoria de Durango	24.02399	-104.6702	2500
20193613	3613	3	52	24	85.50	MECANICA	Victoria de Durango	24.02399	-104.6702	2207

muestraloc2 <- sample(loc2, round(n * frloc2, 0))
kable(muestraloc2, caption = paste("La muestra de alumnos de Localidad ",tabla_frec$Category[2] ))

La muestra de alumnos de Localidad Las Brisas
No. Control	Alumno	Semestre	Cr. Apr.	Carga	Promedio	Carrera	localidad	latitud	longitud	orig.id
20192268	2268	10	216	14	83.80	ELECTRICA	Las Brisas	23.97352	-104.58	262
20195323	5323	1	NA	26	0.00	TIC	Las Brisas	23.97352	-104.58	631
20192994	2994	7	172	33	86.44	INDUSTRIAL	Las Brisas	23.97352	-104.58	344
20194348	4348	5	114	30	89.92	QUIMICA	Las Brisas	23.97352	-104.58	515
20193182	3182	2	27	24	83.00	INDUSTRIAL	Las Brisas	23.97352	-104.58	375
20192346	2346	5	99	28	84.35	ELECTRICA	Las Brisas	23.97352	-104.58	271
20192814	2814	7	163	35	84.35	INDUSTRIAL	Las Brisas	23.97352	-104.58	326
20195766	5766	1	NA	27	0.00	ADMINISTRACION	Las Brisas	23.97352	-104.58	678
20192753	2753	6	158	26	88.00	INDUSTRIAL	Las Brisas	23.97352	-104.58	321
20194882	4882	3	32	31	84.43	GESTION EMPRESARIAL	Las Brisas	23.97352	-104.58	577
20193378	3378	10	225	10	82.12	MECANICA	Las Brisas	23.97352	-104.58	391
20191305	1305	1	NA	23	0.00	BIOQUIMICA	Las Brisas	23.97352	-104.58	161

muestraloc3 <- sample(loc3, round(n * frloc3, 0))
kable(muestraloc3, caption = paste("La muestra de alumnos de Localidad ",tabla_frec$Category[3] ))

La muestra de alumnos de Localidad Las Aves
No. Control	Alumno	Semestre	Cr. Apr.	Carga	Promedio	Carrera	localidad	latitud	longitud	orig.id
20193085	3085	5	NA	26	0.00	INDUSTRIAL	Las Aves	23.94883	-104.5715	320
20190244	244	5	112	25	87.54	SISTEMAS	Las Aves	23.94883	-104.5715	23
20191061	1061	8	168	32	82.86	ARQUITECTURA	Las Aves	23.94883	-104.5715	121
20190039	39	9	222	13	92.21	SISTEMAS	Las Aves	23.94883	-104.5715	6
20194015	4015	4	62	26	85.00	MECATRONICA	Las Aves	23.94883	-104.5715	439
20191448	1448	7	174	27	87.08	BIOQUIMICA	Las Aves	23.94883	-104.5715	165
20194301	4301	6	129	26	84.96	QUIMICA	Las Aves	23.94883	-104.5715	462
20190390	390	5	107	30	80.26	SISTEMAS	Las Aves	23.94883	-104.5715	41
20193641	3641	5	57	23	78.85	MECANICA	Las Aves	23.94883	-104.5715	387
20193522	3522	1	NA	26	0.00	MECANICA	Las Aves	23.94883	-104.5715	366
20190306	306	4	87	33	93.26	SISTEMAS	Las Aves	23.94883	-104.5715	34

muestraloc4 <- sample(loc4, round(n * frloc4, 0))
kable(muestraloc4, caption = paste("La muestra de alumnos de Localidad ",tabla_frec$Category[4] ))

La muestra de alumnos de Localidad Los Fresnos
No. Control	Alumno	Semestre	Cr. Apr.	Carga	Promedio	Carrera	localidad	latitud	longitud	orig.id
20194732	4732	12	225	10	86.83	GESTION EMPRESARIAL	Los Fresnos	24.08339	-104.6095	310
20194974	4974	8	205	30	88.56	GESTION EMPRESARIAL	Los Fresnos	24.08339	-104.6095	332
20195248	5248	1	NA	27	0.00	GESTION EMPRESARIAL	Los Fresnos	24.08339	-104.6095	356
20194853	4853	2	32	27	94.57	GESTION EMPRESARIAL	Los Fresnos	24.08339	-104.6095	325
20192243	2243	10	226	9	82.25	ELECTRICA	Los Fresnos	24.08339	-104.6095	154
20195503	5503	10	262	10	93.87	ADMINISTRACION	Los Fresnos	24.08339	-104.6095	388
20191152	1152	11	108	17	78.00	BIOQUIMICA	Los Fresnos	24.08339	-104.6095	72

muestraloc5 <- sample(loc5, round(n * frloc5, 0))
kable(muestraloc5, caption = paste("La muestra de alumnos de Localidad ",tabla_frec$Category[5] ))

La muestra de alumnos de Localidad Microondas el Tecolote
No. Control	Alumno	Semestre	Cr. Apr.	Carga	Promedio	Carrera	localidad	latitud	longitud	orig.id
20192935	2935	5	104	34	86.39	INDUSTRIAL	Microondas el Tecolote	24.05248	-104.8519	168
20192340	2340	1	NA	24	0.00	ELECTRICA	Microondas el Tecolote	24.05248	-104.8519	133
20191209	1209	5	104	30	82.91	BIOQUIMICA	Microondas el Tecolote	24.05248	-104.8519	62
20190236	236	1	NA	27	0.00	SISTEMAS	Microondas el Tecolote	24.05248	-104.8519	15
20195268	5268	5	101	28	82.55	TIC	Microondas el Tecolote	24.05248	-104.8519	294
20192138	2138	5	99	33	84.43	CIVIL	Microondas el Tecolote	24.05248	-104.8519	116

muestraloc6 <- sample(loc6, round(n * frloc6, 0))
kable(muestraloc6, caption = paste("La muestra de alumnos de Localidad ",tabla_frec$Category[6] ))

La muestra de alumnos de Localidad Michel [Granja]
No. Control	Alumno	Semestre	Cr. Apr.	Carga	Promedio	Carrera	localidad	latitud	longitud	orig.id
20193554	3554	3	52	31	86.33	MECANICA	Michel [Granja]	24.00545	-104.7152	175
20194555	4555	6	133	23	83.14	QUIMICA	Michel [Granja]	24.00545	-104.7152	223
20192499	2499	11	205	15	79.93	ELECTRONICA	Michel [Granja]	24.00545	-104.7152	119
20192495	2495	3	51	28	92.50	ELECTRICA	Michel [Granja]	24.00545	-104.7152	118
20192977	2977	8	201	28	83.67	INDUSTRIAL	Michel [Granja]	24.00545	-104.7152	143

4.2.3.4.1 Visualizar con mapas

Cargar la librerías para mapas

#install.packages("leaflet")

library(leaflet)

map<-leaflet() %>%
  addTiles() %>%
  addMarkers(lat=localidades6$Lat_Decimal[1],lng=localidades6$Lon_Decimal[1] ,popup=localidades6$Nom_Loc[1]) %>%
   addMarkers(lat=localidades6$Lat_Decimal[2],lng=localidades6$Lon_Decimal[2] ,popup=localidades6$Nom_Loc[2]) %>%
   addMarkers(lat=localidades6$Lat_Decimal[3],lng=localidades6$Lon_Decimal[3] ,popup=localidades6$Nom_Loc[3]) %>%
   addMarkers(lat=localidades6$Lat_Decimal[4],lng=localidades6$Lon_Decimal[4] ,popup=localidades6$Nom_Loc[4]) %>%
   addMarkers  (lat=localidades6$Lat_Decimal[5],lng=localidades6$Lon_Decimal[5] ,popup=localidades6$Nom_Loc[5]) %>%
   addMarkers  (lat=localidades6$Lat_Decimal[6],lng=localidades6$Lon_Decimal[6] ,popup=localidades6$Nom_Loc[6])
# Mostrar el mapa 
map

4.3 Empresas en Durango

Cargar los datos de empresas de Durango y realizar muestreo aleatorios simple, sistematizado, estratificado y por conglomerado.

La lectura de los datos como son cerca de 66740 observaciones, puede hacerse de manera más práctica, descargando los datos de https://raw.githubusercontent.com/rpizarrog/probabilidad-y-estad-stica/master/datos/denue_inegi_10_.csv y recuperando de directorio local de su computadora.

4.3.1 Datos

Los datos son registros y observaciones de empresas de Durango, se utiliza la acostumbrada función read.csv() solo que ahora se modifica el atributo encoding = ‘latin-1’ por el tipo de codificación que traen los datos; stringsAsFactors = TRUE significa que convierte directamente a factor los valores de tipo char.

4.4 Interpretación de tipos de muestreo

¿Cuáles son los tipos de muestreos vistos? ¿A qué se refiere cada uno de ellos? ¿Cual función en R permite generar muestreos Resp. sample()

MUESTREO ALEATORIO SIMPLE

Para aplicar esta técnica se deben conocer todos los elementos que conforman la población; a cada uno de los sujetos se le asigna un número correlativo y luego a través de cualquier método del azar se va seleccionando cada individuo hasta completar la muestra requerida. Este método que se caracteriza por su simpleza tiene poca utilidad práctica cuando la población es muy grande.

La función en R que permite generarlo es la de Sample

MUESTREO SISTEMATIZADO

Para este tipo de muestreo se debe conocer la población y de igual forma se deben numerar todos los elementos. La primera unidad de análisis se elige por azar; las siguientes unidades se toman, sistemáticamente, a partir de un número que se obtiene a través de la siguiente formula:

Valor de N= tamaño de la población

Valor de n = tamaño de la muestra

En este ejemplo el primer sujeto se selecciona al azar y a continuación cada uno de los sujetos se toma cada tres espacios del próximo hasta completar la muestra.

La función en R que permite generarlo es la de Sample.

MUESTREO ESTRATÍFICADO

En este método se divide a la población en estratos o subgrupos menores, parecidos internamente respecto a una característica, pero heterogéneos entre ellos, diferenciándolos por una variable que resulte de interés para la investigación, por ejemplo, según la profesión, municipio, estado civil, sexo.

Cada estrato se considera como una población de forma independiente y dentro de ellos se puede utilizar el muestreo aleatorio simple o el estratificado para elegir los elementos que formarán parte de la muestra, buscando que todos los estratos estén representados.

Un requisito que lo vuelve complejo es tener la composición exacta de cada estrato y el conocimiento con el mayor detalle posible de la población a estudiar. Una vez superado esto, tiene la ventaja de reducir el error muestral.

La función en R que permite generarlo es la de Sample.

MUESTREO POR CONGLOMERADOS

El muestreo por conglomerados se usa cuando se tiene población muy grande y dispersa. Este consiste en reunir a los individuos en un grupo que forman un elemento (hospitales, universidades, escuelas), que tienen a la vez unidades de análisis dentro de ellos (pacientes, médicos, enfermeras), posee la característica de ser diferentes al interior del grupo y homogéneos entre sí.

Para la selección primero se forman los conglomerados, luego se eligen aleatoriamente los conglomerados que pertenecerán a la muestra y posteriormente se eligen al azar las unidades muestrales de cada conglomerado. Si un conglomerado tiene un peso mayor de unidades puede utilizarse un muestreo proporcional a su tamaño.

La función en R que permite generarlo es la de Sample.

5 Referencias Bibliográficas

Anderson, David R., Dennis J. Sweeney, and Thomas A. Williams. 2008. Estadística Para Administración y Economía. 10th ed. Australia • Brasil • Corea • España • Estados Unidos • Japón • México • Reino Unido • Singapur: Cengage Learning,.

Artola, J. Osmar. 2020. “Tamaño de La Muestra.” https://rpubs.com/osmartola/658826.

Lind, Douglas, William Marchal, and Samuel Wathen. 2015. Estadística Aplicada a Los Negocios y La Economía. Decimo Sexta. México, D.F.: McGraw-Hill.

SurveyMonkey. n.d. “Calcula El Tamaño de La Muestra.” https://es.surveymonkey.com/mp/sample-size-calculator/.

CASO 21. Muestreos y tipos de muestreos

Valeria Guereca

13/6/2021

1 Objetivo

2 Descripción

3 Fundamento teórico

3.1 Muestreo aleatorio simple

3.2 Muestreo aleatorio sistemático

3.3 Muestreo aleatorio estratificado

3.4 Muestreo por conglomerados

4 Desarrollo

4.1 Cargar librerías

4.2 Cargar datos

4.2.1 Cargar datos de nombres de personas

4.2.2 Cargar datos de alumnos

4.2.3 Simular muestreos

4.2.3.1 Muestreo aleatorio simple

4.2.3.2 Muestreo aleatorio sistemático

4.2.3.3 Muestreo aleatorio estratificado

4.2.3.4 Muestreo por conglomerados

4.2.3.4.1 Visualizar con mapas

4.3 Empresas en Durango

4.3.1 Datos

4.4 Interpretación de tipos de muestreo

5 Referencias Bibliográficas