Determinar y simular muestreos.
Con un conjunto de datos utilizar mecanismos de programación para determinar muestreos mediante técnicas de aleatorio simple, aleatorio sistemático, aleatorio estratificado y por conglomerados.
El propósito de la estadística inferencial consiste en determinar y conocer el comportamiento sobre una población a partir de una muestra.
Una muestra es una porción, una proporción o parte de la población de interés. En muchos casos, el muestreo resulta más accesible y sencillo que el estudio de toda la población. (Lind, Marchal, and Wathen 2015).
Por otra parte la importancia del muestreo como lo menciona (Anderson, Sweeney, and Williams 2008) es cuestión de minimizar costo de trabajo, recopilar información de una muestra es sustancialmente menor, que hacerlo de una población completa; especialmente cuando se deben realizar entrevistas personales para recopilar la información.
Finamente, los métodos de muestreo aleatorio y sin sesgos son muy importantes para realizar inferencias estadísticas válidas (Lind, Marchal, and Wathen 2015).
Una muestra aleatoria simple de tamaño \(n\) de una población finita de tamaño \(N\) es una muestra seleccionada de manera que cada posible muestra de tamaño \(n\) tenga la misma probabilidad de ser seleccionada (Anderson, Sweeney, and Williams 2008).
De un conjunto de \(N\) elementos de una población, un muestreo aleatorio simple sería una especie de rifa o tómbola para elegir de de entre los \(N\) total de población una cantidad de \(n\) número de la muestra.
Se selecciona un punto aleatorio de inicio y posteriormente se elige cada k-ésimo miembro de la población (Lind, Marchal, and Wathen 2015).
Suele emplearse como alternativa al muestreo aleatorio simple, en especial cuando las poblaciones son grandes se lleva mucho tiempo tomar una muestra aleatoria simple en la que primero hay que hallar un número aleatorio y después contar o buscar en el marco el elemento correspondiente (Anderson, Sweeney, and Williams 2008).
El primer elemento se elige aleatoriamente, lo que permite suponer que una muestra sistemática tiene las propiedades de una muestra aleatoria simple. Esta suposición suele ser correcta cuando el marco es un ordenamiento aleatorio de los elementos de la población (Anderson, Sweeney, and Williams 2008).
Cuando una población se divide en grupos a partir de ciertas características, el muestreo aleatorio estratificado garantiza que cada grupo o estrato se encuentre representado en la muestra (Lind, Marchal, and Wathen 2015).
(Anderson, Sweeney, and Williams 2008) describe el muestreo aleatorio estratificado en donde los elementos de la población primero se dividen en grupos, a los que se les llama estratos, de manera que cada elemento pertenezca a uno y sólo un estrato. La base para la formación de los estratos, que puede ser departamento, edad, tipo de industria, entre otros, está a discreción de la persona que diseña la muestra.
Por otra parte, para asegurar que la muestra sea una representación imparcial de las \(N\) observaciones, se debe determinar la frecuencia relativa y a partir de ahí generar las cantidad de muestra de cada estrato. (Lind, Marchal, and Wathen 2015).
La población se divide en conglomerados a partir de los límites naturales geográficos u otra clase. A continuación, estos se seleccionan al azar y se toma una muestra de forma aleatoria con elementos de cada grupo (Lind, Marchal, and Wathen 2015).
Ahora bien, la pregunta es ¿cómo se calcula el tamaño de una muestra?,
\[ n=\frac{Z^2_{_{\alpha/2}}Npq}{e^2(N-1)+Z^2_{_{\alpha/2}}pq} \]
En la ecuación \(N\) es la población o universo,
$Z_{α/2} $es el valor tabulado del coeficiente de confianza, el coeficiente de confianza es la probabilidad que los resultados del estudio sean ciertos. El valor es una constante que depende del coeficiente de confianza elegido, la tabla siguiente muestra los valores de $Z_{α/2} $ asociados a los niveles de confianza que se pueden elegir.
El producto \(pq\) es la varianza de las proporciones, donde \(p\) es la proporción que presenta el atributo y \(q\) su complementario. En otras palabras, \(p\) es la proporción de individuos que poseen en la población la característica de estudio y \(q\) es la proporción de individuos que no poseen en la población las características de estudio, es decir, \(q=1-p\). Normalmente el valor de la varianza (producto \(pq\)) es desconocido asignado \(p=q=0.5\) que garantiza la varianza máxima y por ende maximiza el valor de \(n\).
Por último, \(e²\) es el error máximo admisible, en tanto por ciento, cuando se desconoce su valor, entonces el investigador fija un criterio que puede variar entre el 1% (0.01) y 9% (0.09).
Ejemplo de cálculo de muestra: calcular el tamaño \(n\) de una muestra aleatoria simple de una población \(N=10000\) habitantes de una comunidad, fijando un error máximo admisible del \(4\), un nivel de confianza del \(90\) y varianza máxima de \(pq=0.25\).
Solución: La varianza es máxima, por tanto, \(p=q=0.5\), el nivel de confianza es del \(90\), entonces \(α=10\) y \(Z_{α/2}=Z_{0.10/2}=Z_{0.05}=1.645\), la muestra es:
\[ n=\frac{(1.645)^2(10,000)(0.25)}{(0.04)^2(10,000-1)+(1.645)^2(0.25)}=\frac{(2.706025)(10,000)(0.25)}{(0.0016)(9,999)+(2.706025)(0.25)}=\approx 406 \]
En R desarrollando la fórmula sería:
Z=1.645
p=0.5
q=1-p
N=10000
e=0.04
n=(Z^2*N*p*q)/(e^2*(N-1)+Z^2*p*q)
n = round(n,0)
n
## [1] 406
library(dplyr)
library(mosaic)
library(readr)
library(ggplot2) # Para gráficos
library(knitr) # Para formateo de datos
library(fdth) # Para tablas de frecuencias
Se carga un conjunto de 100 nombres de personas con sus atributo de género y la actividad deportiva o cultura que practican,
Cargando un datos llamando a una función que construye los datos.
El argumento encoding significa que acepte acentos en los datos.
source("https://raw.githubusercontent.com/rpizarrog/probabilidad-y-estad-stica/master/construir%20datos%20y%20funciones%20caso%209.r", encoding = "UTF-8")
kable(head(personas, 10), caption = "Los primeros diez registros de nombres en el conjunto dedatos")
| nombres | generos | ajedrez | beisbol | tiro.arco | pesas | futbol | softbol | atletismo | folklorico | tahitiano | teatro | rondalla | pantomima |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| JUAN | M | NO | NO | NO | SI | NO | SI | NO | NO | NO | NO | NO | SI |
| JOSÉ LUIS | M | NO | NO | NO | NO | NO | NO | NO | SI | NO | NO | NO | NO |
| JOSÉ | M | NO | SI | NO | SI | NO | NO | NO | NO | NO | NO | SI | SI |
| MARÍA GUADALUPE | F | NO | SI | NO | NO | NO | NO | NO | NO | NO | NO | SI | SI |
| FRANCISCO | M | NO | NO | NO | NO | NO | NO | SI | NO | NO | NO | NO | NO |
| GUADALUPE | F | NO | NO | NO | NO | NO | NO | NO | NO | NO | NO | NO | NO |
| MARÍA | F | NO | SI | NO | NO | SI | NO | NO | NO | NO | NO | NO | NO |
| JUANA | F | NO | NO | NO | NO | SI | NO | NO | SI | NO | NO | NO | NO |
| ANTONIO | M | NO | NO | NO | NO | NO | NO | NO | NO | NO | NO | NO | NO |
| JESÚS | M | NO | NO | SI | NO | NO | SI | NO | NO | SI | NO | NO | NO |
kable(tail(personas, 10), caption = "Las útimos diez registros de nombres en el conjunto de datos")
| nombres | generos | ajedrez | beisbol | tiro.arco | pesas | futbol | softbol | atletismo | folklorico | tahitiano | teatro | rondalla | pantomima | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 91 | ANDREA | F | NO | NO | NO | NO | NO | NO | NO | NO | NO | NO | NO | SI |
| 92 | ISABEL | F | NO | NO | NO | NO | NO | NO | NO | NO | NO | NO | NO | NO |
| 93 | MARÍA TERESA | F | NO | SI | NO | NO | SI | NO | NO | SI | NO | NO | NO | NO |
| 94 | IRMA | F | SI | SI | NO | NO | NO | NO | NO | NO | NO | NO | NO | NO |
| 95 | CARMEN | F | NO | NO | NO | NO | NO | NO | NO | NO | NO | NO | NO | NO |
| 96 | LUCÍA | F | NO | SI | NO | SI | NO | NO | NO | SI | NO | NO | SI | SI |
| 97 | ADRIANA | F | NO | NO | NO | NO | NO | NO | SI | NO | NO | NO | NO | NO |
| 98 | AGUSTÍN | M | NO | SI | NO | NO | NO | NO | NO | NO | SI | NO | NO | NO |
| 99 | MARÍA DE LA LUZ | F | NO | NO | NO | NO | NO | NO | SI | NO | NO | NO | NO | NO |
| 100 | GUSTAVO | M | NO | NO | NO | NO | NO | NO | NO | SI | NO | NO | NO | NO |
Se cargan os datos de alumnos inscritos en una Institución de educación superior en el semestre septiembre 2020 a enero 2021, con los atributos siguientes:
No de control (modificado y no real),
Número consecutivo de alumno
Semestre que cursa
Créditos aprobados
Carga académica que cursa
Promedio aritmético
Carrera
alumnos <- alumnos <- read_csv("https://raw.githubusercontent.com/rpizarrog/probabilidad-y-estad-stica/master/datos/promedios%20alumnos/datos%20alumnos%20promedios%20SEP%202020.csv")
##
## -- Column specification --------------------------------------------------------
## cols(
## `No. Control` = col_double(),
## Alumno = col_double(),
## Semestre = col_double(),
## `Cr. Apr.` = col_double(),
## Carga = col_double(),
## Promedio = col_double(),
## Carrera = col_character()
## )
kable(head(alumnos, 10), caption = "Los primeros diez registros de alumnos")
| No. Control | Alumno | Semestre | Cr. Apr. | Carga | Promedio | Carrera |
|---|---|---|---|---|---|---|
| 20190001 | 1 | 11 | 198 | 19 | 80.21 | SISTEMAS |
| 20190002 | 2 | 11 | 235 | 10 | 84.33 | SISTEMAS |
| 20190003 | 3 | 9 | 235 | 10 | 95.25 | SISTEMAS |
| 20190004 | 4 | 9 | 226 | 19 | 95.00 | SISTEMAS |
| 20190005 | 5 | 10 | 231 | 14 | 82.32 | SISTEMAS |
| 20190006 | 6 | 9 | 212 | 23 | 95.02 | SISTEMAS |
| 20190007 | 7 | 12 | 221 | 10 | 79.06 | SISTEMAS |
| 20190008 | 8 | 9 | 226 | 9 | 92.47 | SISTEMAS |
| 20190009 | 9 | 9 | 231 | 4 | 91.08 | SISTEMAS |
| 20190010 | 10 | 11 | 222 | 13 | 80.42 | SISTEMAS |
kable(tail(alumnos, 10), caption = "Las útimos diez registros de alumnos")
| No. Control | Alumno | Semestre | Cr. Apr. | Carga | Promedio | Carrera |
|---|---|---|---|---|---|---|
| 20195920 | 5920 | 7 | 169 | 23 | 89.14 | ADMINISTRACION |
| 20195921 | 5921 | 5 | 109 | 26 | 87.83 | ADMINISTRACION |
| 20195922 | 5922 | 3 | 55 | 29 | 92.83 | ADMINISTRACION |
| 20195923 | 5923 | 2 | 23 | 23 | 88.60 | ADMINISTRACION |
| 20195924 | 5924 | 2 | 27 | 28 | 92.83 | ADMINISTRACION |
| 20195925 | 5925 | 7 | 94 | 13 | 80.95 | ADMINISTRACION |
| 20195926 | 5926 | 5 | 103 | 32 | 92.68 | ADMINISTRACION |
| 20195927 | 5927 | 4 | 79 | 34 | 86.18 | ADMINISTRACION |
| 20195928 | 5928 | 5 | 108 | 32 | 90.48 | ADMINISTRACION |
| 20195929 | 5929 | 7 | 169 | 32 | 92.33 | ADMINISTRACION |
Se muestran presentan los cuatro tipos de muestreo, aleatorio simple, sistematizado, por estrato y conglomerados.
Hay que encuestar a diez personas de 100 para hacerles alguna entrevista, ¿a quienes?
Con el conjunto de datos seleccionar 10 personas aleatoriamente con la función sample().
N <- nrow(personas)
n <- 10
muestra <- sample(personas$nombres, n)
kable(muestra, caption = "La muestra de personas")
| x |
|---|
| FRANCISCA |
| GUSTAVO |
| JORGE |
| PATRICIA |
| PEDRO |
| LUCÍA |
| ELIZABETH |
| JESÚS |
| ALEJANDRO |
| RAFAEL |
N <- nrow(alumnos)
n <- 100
muestra <- sample(N, n) # Genera los números
kable(alumnos[muestra, ], caption = "La muestra de alumnos")
| No. Control | Alumno | Semestre | Cr. Apr. | Carga | Promedio | Carrera |
|---|---|---|---|---|---|---|
| 20194973 | 4973 | 6 | 133 | 33 | 85.54 | GESTION EMPRESARIAL |
| 20195866 | 5866 | 1 | NA | 27 | 0.00 | ADMINISTRACION |
| 20191513 | 1513 | 6 | 67 | 34 | 78.60 | BIOQUIMICA |
| 20194076 | 4076 | 7 | 144 | 32 | 88.52 | MECATRONICA |
| 20192521 | 2521 | 9 | 222 | 23 | 86.40 | ELECTRONICA |
| 20195624 | 5624 | 3 | 55 | 29 | 96.67 | ADMINISTRACION |
| 20194985 | 4985 | 4 | 55 | 29 | 80.42 | GESTION EMPRESARIAL |
| 20195075 | 5075 | 5 | 116 | 32 | 87.71 | GESTION EMPRESARIAL |
| 20195041 | 5041 | 7 | 140 | 35 | 82.27 | GESTION EMPRESARIAL |
| 20190395 | 395 | 1 | NA | 27 | 0.00 | SISTEMAS |
| 20193795 | 3795 | 4 | 66 | 29 | 86.47 | MECATRONICA |
| 20195683 | 5683 | 1 | NA | 27 | 0.00 | ADMINISTRACION |
| 20191577 | 1577 | 9 | 165 | 16 | 78.86 | CIVIL |
| 20192306 | 2306 | 5 | 89 | 27 | 86.33 | ELECTRICA |
| 20193510 | 3510 | 3 | 41 | 24 | 76.80 | MECANICA |
| 20191415 | 1415 | 6 | 123 | 29 | 82.48 | BIOQUIMICA |
| 20190830 | 830 | 5 | 97 | 26 | 93.50 | ARQUITECTURA |
| 20190200 | 200 | 7 | 107 | 17 | 79.26 | SISTEMAS |
| 20195484 | 5484 | 11 | 257 | 5 | 87.44 | ADMINISTRACION |
| 20190025 | 25 | 11 | 230 | 15 | 84.02 | SISTEMAS |
| 20192596 | 2596 | 3 | 52 | 25 | 92.67 | ELECTRONICA |
| 20193863 | 3863 | 1 | NA | 25 | 0.00 | MECATRONICA |
| 20190074 | 74 | 10 | 230 | 15 | 83.94 | SISTEMAS |
| 20191933 | 1933 | 1 | NA | 27 | 0.00 | CIVIL |
| 20191691 | 1691 | 4 | 75 | 32 | 84.19 | CIVIL |
| 20192587 | 2587 | 5 | 90 | 20 | 83.50 | ELECTRONICA |
| 20190886 | 886 | 1 | NA | 26 | 0.00 | ARQUITECTURA |
| 20194827 | 4827 | 7 | 150 | 25 | 88.75 | GESTION EMPRESARIAL |
| 20194756 | 4756 | 9 | 230 | 15 | 91.77 | GESTION EMPRESARIAL |
| 20190663 | 663 | 7 | 151 | 23 | 85.22 | ARQUITECTURA |
| 20192503 | 2503 | 10 | 202 | 23 | 81.25 | ELECTRONICA |
| 20194892 | 4892 | 1 | NA | 27 | 0.00 | GESTION EMPRESARIAL |
| 20194549 | 4549 | 6 | 133 | 23 | 83.25 | QUIMICA |
| 20190308 | 308 | 4 | 83 | 29 | 91.00 | SISTEMAS |
| 20192139 | 2139 | 6 | 143 | 30 | 84.77 | CIVIL |
| 20191319 | 1319 | 7 | 124 | 34 | 83.15 | BIOQUIMICA |
| 20195755 | 5755 | 4 | 84 | 29 | 87.44 | ADMINISTRACION |
| 20195925 | 5925 | 7 | 94 | 13 | 80.95 | ADMINISTRACION |
| 20193632 | 3632 | 1 | NA | 26 | 0.00 | MECANICA |
| 20193546 | 3546 | 3 | 48 | 22 | 78.64 | MECANICA |
| 20191619 | 1619 | 9 | 225 | 10 | 84.85 | CIVIL |
| 20191632 | 1632 | 9 | 159 | 15 | 80.15 | CIVIL |
| 20194890 | 4890 | 7 | 170 | 35 | 87.44 | GESTION EMPRESARIAL |
| 20192090 | 2090 | 4 | 78 | 33 | 83.59 | CIVIL |
| 20191764 | 1764 | 1 | NA | 27 | 0.00 | CIVIL |
| 20190612 | 612 | 1 | NA | 26 | 0.00 | ARQUITECTURA |
| 20191097 | 1097 | 7 | 139 | 24 | 84.62 | ARQUITECTURA |
| 20190796 | 796 | 7 | 116 | 34 | 81.12 | ARQUITECTURA |
| 20190240 | 240 | 2 | 27 | 28 | 92.33 | SISTEMAS |
| 20191202 | 1202 | 1 | NA | 23 | 0.00 | BIOQUIMICA |
| 20194673 | 4673 | 12 | 219 | 16 | 89.93 | GESTION EMPRESARIAL |
| 20195370 | 5370 | 5 | 41 | 4 | 81.44 | INFORMATICA |
| 20191901 | 1901 | 5 | 117 | 31 | 87.08 | CIVIL |
| 20193696 | 3696 | 11 | 231 | 4 | 83.33 | MECATRONICA |
| 20193370 | 3370 | 11 | 225 | 10 | 81.86 | MECANICA |
| 20191197 | 1197 | 3 | 57 | 27 | 82.54 | BIOQUIMICA |
| 20193032 | 3032 | 3 | 55 | 29 | 89.00 | INDUSTRIAL |
| 20194867 | 4867 | 1 | NA | 27 | 0.00 | GESTION EMPRESARIAL |
| 20191967 | 1967 | 1 | NA | 27 | 0.00 | CIVIL |
| 20193638 | 3638 | 7 | 170 | 27 | 86.59 | MECANICA |
| 20190934 | 934 | 7 | 170 | 28 | 88.58 | ARQUITECTURA |
| 20194100 | 4100 | 9 | 225 | 5 | 87.96 | QUIMICA |
| 20195193 | 5193 | 6 | 138 | 33 | 86.21 | GESTION EMPRESARIAL |
| 20195450 | 5450 | 10 | 262 | 10 | 88.60 | ADMINISTRACION |
| 20191067 | 1067 | 1 | NA | 26 | 0.00 | ARQUITECTURA |
| 20193404 | 3404 | 10 | 172 | 18 | 81.13 | MECANICA |
| 20194217 | 4217 | 12 | 225 | 10 | 78.46 | QUIMICA |
| 20191449 | 1449 | 1 | NA | 23 | 0.00 | BIOQUIMICA |
| 20192720 | 2720 | 9 | 202 | 24 | 82.28 | INDUSTRIAL |
| 20195151 | 5151 | 1 | NA | 27 | 0.00 | GESTION EMPRESARIAL |
| 20193110 | 3110 | 1 | NA | 27 | 0.00 | INDUSTRIAL |
| 20191051 | 1051 | 6 | 127 | 24 | 88.19 | ARQUITECTURA |
| 20194783 | 4783 | 1 | NA | 27 | 0.00 | GESTION EMPRESARIAL |
| 20195643 | 5643 | 2 | 27 | 28 | 92.67 | ADMINISTRACION |
| 20194482 | 4482 | 2 | 25 | 30 | 82.00 | QUIMICA |
| 20194046 | 4046 | 1 | NA | 25 | 0.00 | MECATRONICA |
| 20192183 | 2183 | 2 | 27 | 30 | 83.50 | CIVIL |
| 20190659 | 659 | 1 | NA | 26 | 0.00 | ARQUITECTURA |
| 20195318 | 5318 | 1 | NA | 26 | 0.00 | TIC |
| 20192101 | 2101 | 2 | 23 | 25 | 80.80 | CIVIL |
| 20191758 | 1758 | 4 | 80 | 34 | 85.94 | CIVIL |
| 20192297 | 2297 | 5 | 94 | 33 | 84.77 | ELECTRICA |
| 20193793 | 3793 | 7 | 128 | 31 | 84.46 | MECATRONICA |
| 20190822 | 822 | 3 | 48 | 32 | 90.45 | ARQUITECTURA |
| 20190352 | 352 | 8 | 176 | 32 | 80.47 | SISTEMAS |
| 20193467 | 3467 | 3 | 42 | 32 | 82.30 | MECANICA |
| 20190443 | 443 | 7 | 160 | 34 | 90.34 | SISTEMAS |
| 20190241 | 241 | 5 | 112 | 25 | 91.63 | SISTEMAS |
| 20194569 | 4569 | 3 | 51 | 30 | 88.64 | QUIMICA |
| 20193456 | 3456 | 6 | 89 | 32 | 78.30 | MECANICA |
| 20195534 | 5534 | 8 | 177 | 34 | 86.89 | ADMINISTRACION |
| 20193666 | 3666 | 12 | 190 | 5 | 78.35 | MECATRONICA |
| 20192155 | 2155 | 2 | 22 | 26 | 93.40 | CIVIL |
| 20193527 | 3527 | 1 | NA | 26 | 0.00 | MECANICA |
| 20191607 | 1607 | 10 | 231 | 4 | 83.15 | CIVIL |
| 20194038 | 4038 | 5 | 105 | 24 | 88.57 | MECATRONICA |
| 20190090 | 90 | 4 | 49 | 32 | 82.64 | SISTEMAS |
| 20195706 | 5706 | 4 | 84 | 30 | 86.94 | ADMINISTRACION |
| 20190058 | 58 | 9 | 200 | 25 | 83.66 | SISTEMAS |
| 20190724 | 724 | 4 | 70 | 28 | 87.56 | ARQUITECTURA |
N <- nrow(personas)
n = 10
saltos <- round(N / n, 0)
inicio <- round(sample(N, 1) / n, 0)
#inicio
cuales <- seq(from = inicio, to =N, by= saltos)
kable(personas[cuales, ], caption = "La muestra sistematizada de personas")
| nombres | generos | ajedrez | beisbol | tiro.arco | pesas | futbol | softbol | atletismo | folklorico | tahitiano | teatro | rondalla | pantomima | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 10 | JESÚS | M | NO | NO | SI | NO | NO | SI | NO | NO | SI | NO | NO | NO |
| 20 | DANIEL | M | NO | NO | NO | NO | NO | NO | SI | NO | NO | NO | NO | NO |
| 30 | DAVID | M | NO | NO | NO | NO | NO | NO | NO | NO | NO | NO | NO | NO |
| 40 | MARÍA ELENA | M | NO | NO | NO | NO | NO | NO | SI | SI | NO | NO | NO | NO |
| 50 | ALBERTO | M | NO | NO | NO | NO | NO | NO | SI | NO | NO | NO | NO | NO |
| 60 | ROSA MARÍA | F | NO | NO | NO | NO | NO | SI | NO | SI | NO | NO | NO | NO |
| 70 | GABRIEL | M | SI | NO | SI | NO | NO | SI | NO | NO | NO | NO | NO | NO |
| 80 | MARÍA LUISA | F | SI | NO | NO | NO | NO | NO | NO | NO | NO | NO | NO | NO |
| 90 | ARACELI | M | NO | NO | NO | NO | NO | NO | NO | NO | NO | NO | SI | NO |
| 100 | GUSTAVO | M | NO | NO | NO | NO | NO | NO | NO | SI | NO | NO | NO | NO |
N <- nrow(alumnos)
n = 100
saltos <- round(N / n, 0)
inicio <- round(sample(N, 1) / n, 0)
cuales <- seq(from = inicio, to =N, by= saltos)
kable(alumnos[cuales, ], caption = "La muestra de alumnos")
| No. Control | Alumno | Semestre | Cr. Apr. | Carga | Promedio | Carrera |
|---|---|---|---|---|---|---|
| 20190057 | 57 | 9 | 226 | 4 | 89.10 | SISTEMAS |
| 20190116 | 116 | 7 | 165 | 34 | 93.67 | SISTEMAS |
| 20190175 | 175 | 3 | 50 | 33 | 90.91 | SISTEMAS |
| 20190234 | 234 | 7 | 105 | 22 | 84.00 | SISTEMAS |
| 20190293 | 293 | 4 | 83 | 33 | 86.28 | SISTEMAS |
| 20190352 | 352 | 8 | 176 | 32 | 80.47 | SISTEMAS |
| 20190411 | 411 | 7 | 165 | 34 | 82.78 | SISTEMAS |
| 20190470 | 470 | 9 | 198 | 29 | 83.33 | ARQUITECTURA |
| 20190529 | 529 | 10 | 172 | 12 | 79.97 | ARQUITECTURA |
| 20190588 | 588 | 4 | 80 | 30 | 90.28 | ARQUITECTURA |
| 20190647 | 647 | 6 | 124 | 26 | 83.85 | ARQUITECTURA |
| 20190706 | 706 | 1 | NA | 26 | 0.00 | ARQUITECTURA |
| 20190765 | 765 | 1 | NA | 26 | 0.00 | ARQUITECTURA |
| 20190824 | 824 | 6 | 132 | 30 | 82.96 | ARQUITECTURA |
| 20190883 | 883 | 6 | 91 | 30 | 85.53 | ARQUITECTURA |
| 20190942 | 942 | 5 | 88 | 30 | 83.32 | ARQUITECTURA |
| 20191001 | 1001 | 3 | 52 | 24 | 90.50 | ARQUITECTURA |
| 20191060 | 1060 | 1 | NA | 26 | 0.00 | ARQUITECTURA |
| 20191119 | 1119 | 1 | NA | 26 | 0.00 | ARQUITECTURA |
| 20191178 | 1178 | 9 | 140 | 23 | 82.81 | BIOQUIMICA |
| 20191237 | 1237 | 5 | 79 | 31 | 81.78 | BIOQUIMICA |
| 20191296 | 1296 | 8 | 95 | 28 | 76.81 | BIOQUIMICA |
| 20191355 | 1355 | 1 | NA | 23 | 0.00 | BIOQUIMICA |
| 20191414 | 1414 | 1 | NA | 23 | 0.00 | BIOQUIMICA |
| 20191473 | 1473 | 2 | 18 | 29 | 82.60 | BIOQUIMICA |
| 20191532 | 1532 | 3 | 47 | 25 | 87.09 | BIOQUIMICA |
| 20191591 | 1591 | 10 | 225 | 15 | 80.28 | CIVIL |
| 20191650 | 1650 | 9 | 235 | 10 | 91.00 | CIVIL |
| 20191709 | 1709 | 5 | 67 | 8 | 82.71 | CIVIL |
| 20191768 | 1768 | 6 | 139 | 30 | 85.21 | CIVIL |
| 20191827 | 1827 | 1 | NA | 27 | 0.00 | CIVIL |
| 20191886 | 1886 | 4 | 51 | 31 | 78.83 | CIVIL |
| 20191945 | 1945 | 3 | 55 | 30 | 87.33 | CIVIL |
| 20192004 | 2004 | 4 | 78 | 18 | 81.06 | CIVIL |
| 20192063 | 2063 | 5 | 121 | 31 | 87.12 | CIVIL |
| 20192122 | 2122 | 2 | 27 | 26 | 80.17 | CIVIL |
| 20192181 | 2181 | 1 | NA | 27 | 0.00 | CIVIL |
| 20192240 | 2240 | 9 | 221 | 14 | 92.94 | ELECTRICA |
| 20192299 | 2299 | 7 | 160 | 31 | 88.08 | ELECTRICA |
| 20192358 | 2358 | 7 | 98 | 9 | 81.04 | ELECTRICA |
| 20192417 | 2417 | 3 | 56 | 26 | 92.00 | ELECTRICA |
| 20192476 | 2476 | 3 | 51 | 28 | 85.92 | ELECTRICA |
| 20192535 | 2535 | 6 | 104 | 24 | 82.96 | ELECTRONICA |
| 20192594 | 2594 | 1 | NA | 25 | 0.00 | ELECTRONICA |
| 20192653 | 2653 | 5 | 105 | 28 | 95.17 | ELECTRONICA |
| 20192712 | 2712 | 11 | 235 | 10 | 80.68 | INDUSTRIAL |
| 20192771 | 2771 | 4 | 75 | 32 | 80.59 | INDUSTRIAL |
| 20192830 | 2830 | 8 | 174 | 36 | 81.22 | INDUSTRIAL |
| 20192889 | 2889 | 5 | 112 | 30 | 90.72 | INDUSTRIAL |
| 20192948 | 2948 | 6 | 120 | 26 | 79.30 | INDUSTRIAL |
| 20193007 | 3007 | 6 | 142 | 25 | 83.56 | INDUSTRIAL |
| 20193066 | 3066 | 7 | 149 | 25 | 87.74 | INDUSTRIAL |
| 20193125 | 3125 | 3 | 55 | 27 | 84.08 | INDUSTRIAL |
| 20193184 | 3184 | 6 | 139 | 28 | 84.48 | INDUSTRIAL |
| 20193243 | 3243 | 3 | 51 | 29 | 86.83 | INDUSTRIAL |
| 20193302 | 3302 | 5 | 95 | 27 | 81.18 | INDUSTRIAL |
| 20193361 | 3361 | 5 | 87 | 31 | 84.70 | INDUSTRIAL |
| 20193420 | 3420 | 7 | 132 | 27 | 83.52 | MECANICA |
| 20193479 | 3479 | 7 | 142 | 35 | 80.45 | MECANICA |
| 20193538 | 3538 | 5 | 108 | 29 | 84.88 | MECANICA |
| 20193597 | 3597 | 5 | 103 | 34 | 81.17 | MECANICA |
| 20193656 | 3656 | 6 | 113 | 29 | 79.72 | MECANICA |
| 20193715 | 3715 | 10 | 178 | 8 | 79.81 | MECATRONICA |
| 20193774 | 3774 | 7 | 159 | 30 | 87.76 | MECATRONICA |
| 20193833 | 3833 | 7 | 151 | 31 | 82.44 | MECATRONICA |
| 20193892 | 3892 | 6 | 76 | 20 | 81.18 | MECATRONICA |
| 20193951 | 3951 | 6 | 47 | 4 | 82.09 | MECATRONICA |
| 20194010 | 4010 | 1 | NA | 25 | 0.00 | MECATRONICA |
| 20194069 | 4069 | 5 | 105 | 24 | 86.74 | MECATRONICA |
| 20194128 | 4128 | 11 | 161 | 32 | 81.21 | QUIMICA |
| 20194187 | 4187 | 5 | 109 | 25 | 87.22 | QUIMICA |
| 20194246 | 4246 | 9 | 230 | 5 | 85.70 | QUIMICA |
| 20194305 | 4305 | 2 | 11 | 25 | 91.67 | QUIMICA |
| 20194364 | 4364 | 4 | 86 | 28 | 88.50 | QUIMICA |
| 20194423 | 4423 | 9 | 215 | 20 | 83.36 | QUIMICA |
| 20194482 | 4482 | 2 | 25 | 30 | 82.00 | QUIMICA |
| 20194541 | 4541 | 5 | 88 | 29 | 84.84 | QUIMICA |
| 20194600 | 4600 | 9 | 204 | 20 | 82.31 | QUIMICA |
| 20194659 | 4659 | 7 | 162 | 30 | 88.71 | QUIMICA |
| 20194718 | 4718 | 10 | 225 | 10 | 85.17 | GESTION EMPRESARIAL |
| 20194777 | 4777 | 5 | 107 | 33 | 87.87 | GESTION EMPRESARIAL |
| 20194836 | 4836 | 1 | NA | 27 | 0.00 | GESTION EMPRESARIAL |
| 20194895 | 4895 | 3 | 53 | 29 | 87.92 | GESTION EMPRESARIAL |
| 20194954 | 4954 | 2 | 22 | 26 | 91.20 | GESTION EMPRESARIAL |
| 20195013 | 5013 | 2 | 27 | 27 | 84.50 | GESTION EMPRESARIAL |
| 20195072 | 5072 | 3 | 54 | 28 | 93.08 | GESTION EMPRESARIAL |
| 20195131 | 5131 | 3 | 54 | 28 | 90.75 | GESTION EMPRESARIAL |
| 20195190 | 5190 | 3 | 45 | 33 | 85.10 | GESTION EMPRESARIAL |
| 20195249 | 5249 | 2 | 22 | 27 | 92.40 | GESTION EMPRESARIAL |
| 20195308 | 5308 | 1 | NA | 26 | 0.00 | TIC |
| 20195367 | 5367 | 7 | 85 | 18 | 82.58 | INFORMATICA |
| 20195426 | 5426 | 7 | 156 | 33 | 90.29 | INFORMATICA |
| 20195485 | 5485 | 9 | 262 | 10 | 92.09 | ADMINISTRACION |
| 20195544 | 5544 | 5 | 89 | 28 | 85.63 | ADMINISTRACION |
| 20195603 | 5603 | 1 | NA | 27 | 0.00 | ADMINISTRACION |
| 20195662 | 5662 | 1 | NA | 27 | 0.00 | ADMINISTRACION |
| 20195721 | 5721 | 8 | 180 | 34 | 85.00 | ADMINISTRACION |
| 20195780 | 5780 | 4 | 84 | 33 | 89.94 | ADMINISTRACION |
| 20195839 | 5839 | 6 | 140 | 28 | 91.93 | ADMINISTRACION |
| 20195898 | 5898 | 2 | 23 | 28 | 87.80 | ADMINISTRACION |
Con el conjunto de datos de personas se trata de encontrar 10 , pero que sea representativa de acuerdo y conforme al género femenino y masculino.
¿Cuál es la frecuencia relativa del género femenino?
¿Cuál es la frecuencia relativa del género masculino?
Ambas frecuencias multiplicar por el tamaño de la muestra para garantizar imparcialidad en la muestra.
N <- nrow(personas)
n <- 10
femeninos <- filter(personas, generos=='F')
masculinos <- filter(personas, generos=='M')
frfem <- nrow(femeninos) / N
frmas <- nrow(masculinos) / N
frfem
## [1] 0.42
frmas
## [1] 0.58
muestraFem <- sample(femeninos, n * frfem)
kable(muestraFem, caption = "La muestra de personas Femenino")
| nombres | generos | ajedrez | beisbol | tiro.arco | pesas | futbol | softbol | atletismo | folklorico | tahitiano | teatro | rondalla | pantomima | orig.id | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 2 | GUADALUPE | F | NO | NO | NO | NO | NO | NO | NO | NO | NO | NO | NO | NO | 2 |
| 15 | TERESA | F | NO | NO | NO | NO | NO | NO | NO | SI | NO | NO | NO | NO | 15 |
| 14 | FRANCISCA | F | NO | NO | SI | NO | NO | NO | SI | NO | NO | NO | NO | NO | 14 |
| 7 | JAVIER | F | NO | NO | NO | NO | NO | SI | NO | NO | NO | NO | SI | NO | 7 |
muestraMas <- sample(masculinos, n * frmas)
kable(muestraMas, caption = "La muestra de personas Masculino")
| nombres | generos | ajedrez | beisbol | tiro.arco | pesas | futbol | softbol | atletismo | folklorico | tahitiano | teatro | rondalla | pantomima | orig.id | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 30 | MARIO | M | NO | NO | SI | SI | NO | NO | NO | NO | NO | NO | NO | NO | 30 |
| 52 | JOSÉ GUADALUPE | M | NO | NO | NO | NO | NO | SI | NO | NO | NO | NO | NO | SI | 52 |
| 7 | MIGUEL ÁNGEL | M | NO | NO | NO | NO | NO | NO | NO | NO | SI | NO | NO | NO | 7 |
| 58 | GUSTAVO | M | NO | NO | NO | NO | NO | NO | NO | SI | NO | NO | NO | NO | 58 |
| 34 | LUIS | M | NO | NO | NO | NO | NO | NO | NO | NO | SI | NO | NO | SI | 34 |
N <- nrow(alumnos)
n <- 100
tabla_frec <- data.frame(fdt_cat(alumnos$Carrera))
tabla_frec$muestra <- round(tabla_frec$rf * n, 0)
kable(tabla_frec, caption = "Tabla de frecuencia de alumnos")
| Category | f | rf | rf… | cf | cf… | muestra |
|---|---|---|---|---|---|---|
| INDUSTRIAL | 707 | 0.1192444 | 11.924439 | 707 | 11.92444 | 12 |
| ARQUITECTURA | 675 | 0.1138472 | 11.384719 | 1382 | 23.30916 | 11 |
| CIVIL | 648 | 0.1092933 | 10.929330 | 2030 | 34.23849 | 11 |
| GESTION EMPRESARIAL | 585 | 0.0986676 | 9.866757 | 2615 | 44.10525 | 10 |
| QUIMICA | 568 | 0.0958003 | 9.580030 | 3183 | 53.68528 | 10 |
| ADMINISTRACION | 497 | 0.0838253 | 8.382527 | 3680 | 62.06780 | 8 |
| SISTEMAS | 452 | 0.0762355 | 7.623545 | 4132 | 69.69135 | 8 |
| BIOQUIMICA | 441 | 0.0743802 | 7.438016 | 4573 | 77.12936 | 7 |
| MECATRONICA | 432 | 0.0728622 | 7.286220 | 5005 | 84.41558 | 7 |
| MECANICA | 301 | 0.0507674 | 5.076741 | 5306 | 89.49233 | 5 |
| ELECTRICA | 280 | 0.0472255 | 4.722550 | 5586 | 94.21488 | 5 |
| ELECTRONICA | 161 | 0.0271547 | 2.715466 | 5747 | 96.93034 | 3 |
| INFORMATICA | 101 | 0.0170349 | 1.703491 | 5848 | 98.63383 | 2 |
| TIC | 81 | 0.0136617 | 1.366166 | 5929 | 100.00000 | 1 |
¿Cuáles alumnos?
Sólo simular carreras de SISTEMAS Y CIVIL
N <- nrow(alumnos)
n <- 100
sistemas <- filter(alumnos, Carrera =='SISTEMAS')
civil <- filter(alumnos, Carrera == 'CIVIL')
frsistemas <- nrow(sistemas) / N
frcivil <- nrow(civil) / N
frsistemas
## [1] 0.07623545
frcivil
## [1] 0.1092933
muestrasistemas <- sample(sistemas, round(n * frsistemas, 0))
kable(muestrasistemas, caption = "La muestra de alumnos de Sistemas")
| No. Control | Alumno | Semestre | Cr. Apr. | Carga | Promedio | Carrera | orig.id |
|---|---|---|---|---|---|---|---|
| 20190279 | 279 | 8 | 177 | 31 | 88.82 | SISTEMAS | 279 |
| 20190127 | 127 | 4 | 68 | 34 | 80.53 | SISTEMAS | 127 |
| 20190048 | 48 | 9 | 212 | 4 | 91.28 | SISTEMAS | 48 |
| 20190104 | 104 | 3 | 50 | 33 | 86.55 | SISTEMAS | 104 |
| 20190452 | 452 | 2 | 27 | 28 | 84.50 | SISTEMAS | 452 |
| 20190226 | 226 | 6 | 128 | 32 | 83.18 | SISTEMAS | 226 |
| 20190184 | 184 | 5 | 116 | 26 | 92.64 | SISTEMAS | 184 |
| 20190356 | 356 | 3 | 55 | 28 | 91.67 | SISTEMAS | 356 |
muestracivil <- sample(civil, round(n * frcivil, 0))
kable(muestracivil, caption = "La muestra de alumnos de Civil")
| No. Control | Alumno | Semestre | Cr. Apr. | Carga | Promedio | Carrera | orig.id |
|---|---|---|---|---|---|---|---|
| 20191740 | 1740 | 5 | 113 | 30 | 88.63 | CIVIL | 172 |
| 20192009 | 2009 | 4 | 82 | 31 | 82.71 | CIVIL | 441 |
| 20191578 | 1578 | 10 | 205 | 25 | 81.95 | CIVIL | 10 |
| 20191905 | 1905 | 7 | 154 | 32 | 82.64 | CIVIL | 337 |
| 20191984 | 1984 | 6 | 133 | 30 | 86.79 | CIVIL | 416 |
| 20191731 | 1731 | 8 | 187 | 25 | 86.03 | CIVIL | 163 |
| 20191798 | 1798 | 6 | 116 | 34 | 84.04 | CIVIL | 230 |
| 20191829 | 1829 | 6 | 97 | 28 | 79.57 | CIVIL | 261 |
| 20192158 | 2158 | 2 | 27 | 30 | 93.17 | CIVIL | 590 |
| 20192056 | 2056 | 8 | 172 | 21 | 88.53 | CIVIL | 488 |
| 20191587 | 1587 | 10 | 216 | 14 | 78.87 | CIVIL | 19 |
En un proceso de simulación, al conjunto de datos alumnos agregar tres columnas: la localidad, latitud y longitud
Primero cargar datos de localidades de Durango
N <- nrow(alumnos)
n <- 100
locdurangomx <- read.csv("https://raw.githubusercontent.com/rpizarrog/probabilidad-y-estad-stica/master/datos/locdurangomx.csv", encoding = "UTF-8")
Segundo por medio de función sample() generar cinco registros aleatorios de localidades y agregar un sexto registro de Victoria de Durango.
set.seed(1000)
localidades6 <- locdurangomx[sample(nrow(locdurangomx), 5), ]
localidades6 <- rbind(localidades6, locdurangomx[1,])
Tercero agregar las columnas: nombre de localidad, latitud y longitud al conjunto de datos alumnos con una probabilidad de que sean de Victoria de Durango del 60%.
Mostrar los primeros diez y últimos diez alumnos verificando las tres nuevas columnas.
registros <- locdurangomx[sample(localidades6$X, N, replace = TRUE, prob = c(.10, 0.12, 0.05, 0.07, 0.06, 0.60)),c("Nom_Loc", "Lat_Decimal", "Lon_Decimal")]
alumnos$localidad <- registros$Nom_Loc
alumnos$latitud <- registros$Lat_Decimal
alumnos$longitud <- registros$Lon_Decimal
kable(head(alumnos, 10), caption = "Los primeros diez registros de alumnos")
| No. Control | Alumno | Semestre | Cr. Apr. | Carga | Promedio | Carrera | localidad | latitud | longitud |
|---|---|---|---|---|---|---|---|---|---|
| 20190001 | 1 | 11 | 198 | 19 | 80.21 | SISTEMAS | Las Aves | 23.94883 | -104.5715 |
| 20190002 | 2 | 11 | 235 | 10 | 84.33 | SISTEMAS | Victoria de Durango | 24.02399 | -104.6702 |
| 20190003 | 3 | 9 | 235 | 10 | 95.25 | SISTEMAS | Victoria de Durango | 24.02399 | -104.6702 |
| 20190004 | 4 | 9 | 226 | 19 | 95.00 | SISTEMAS | Victoria de Durango | 24.02399 | -104.6702 |
| 20190005 | 5 | 10 | 231 | 14 | 82.32 | SISTEMAS | Victoria de Durango | 24.02399 | -104.6702 |
| 20190006 | 6 | 9 | 212 | 23 | 95.02 | SISTEMAS | Las Aves | 23.94883 | -104.5715 |
| 20190007 | 7 | 12 | 221 | 10 | 79.06 | SISTEMAS | Victoria de Durango | 24.02399 | -104.6702 |
| 20190008 | 8 | 9 | 226 | 9 | 92.47 | SISTEMAS | Los Fresnos | 24.08339 | -104.6095 |
| 20190009 | 9 | 9 | 231 | 4 | 91.08 | SISTEMAS | Las Aves | 23.94883 | -104.5715 |
| 20190010 | 10 | 11 | 222 | 13 | 80.42 | SISTEMAS | Victoria de Durango | 24.02399 | -104.6702 |
kable(tail(alumnos, 10), caption = "Las útimos diez registros de alumnos")
| No. Control | Alumno | Semestre | Cr. Apr. | Carga | Promedio | Carrera | localidad | latitud | longitud |
|---|---|---|---|---|---|---|---|---|---|
| 20195920 | 5920 | 7 | 169 | 23 | 89.14 | ADMINISTRACION | Victoria de Durango | 24.02399 | -104.6702 |
| 20195921 | 5921 | 5 | 109 | 26 | 87.83 | ADMINISTRACION | Los Fresnos | 24.08339 | -104.6095 |
| 20195922 | 5922 | 3 | 55 | 29 | 92.83 | ADMINISTRACION | Victoria de Durango | 24.02399 | -104.6702 |
| 20195923 | 5923 | 2 | 23 | 23 | 88.60 | ADMINISTRACION | Michel [Granja] | 24.00545 | -104.7152 |
| 20195924 | 5924 | 2 | 27 | 28 | 92.83 | ADMINISTRACION | Las Brisas | 23.97352 | -104.5800 |
| 20195925 | 5925 | 7 | 94 | 13 | 80.95 | ADMINISTRACION | Victoria de Durango | 24.02399 | -104.6702 |
| 20195926 | 5926 | 5 | 103 | 32 | 92.68 | ADMINISTRACION | Las Aves | 23.94883 | -104.5715 |
| 20195927 | 5927 | 4 | 79 | 34 | 86.18 | ADMINISTRACION | Victoria de Durango | 24.02399 | -104.6702 |
| 20195928 | 5928 | 5 | 108 | 32 | 90.48 | ADMINISTRACION | Victoria de Durango | 24.02399 | -104.6702 |
| 20195929 | 5929 | 7 | 169 | 32 | 92.33 | ADMINISTRACION | Microondas el Tecolote | 24.05248 | -104.8519 |
N <- nrow(alumnos)
n <- 100
tabla_frec <- data.frame(fdt_cat(alumnos$localidad))
tabla_frec$muestra <- round(tabla_frec$rf * n, 0)
kable(tabla_frec, caption = "Tabla de frecuencia de alumnos por localidad")
| Category | f | rf | rf… | cf | cf… | muestra |
|---|---|---|---|---|---|---|
| Victoria de Durango | 3564 | 0.6011132 | 60.111317 | 3564 | 60.11132 | 60 |
| Las Brisas | 691 | 0.1165458 | 11.654579 | 4255 | 71.76590 | 12 |
| Las Aves | 626 | 0.1055827 | 10.558273 | 4881 | 82.32417 | 11 |
| Los Fresnos | 431 | 0.0726935 | 7.269354 | 5312 | 89.59352 | 7 |
| Microondas el Tecolote | 329 | 0.0554900 | 5.548997 | 5641 | 95.14252 | 6 |
| Michel [Granja] | 288 | 0.0485748 | 4.857480 | 5929 | 100.00000 | 5 |
Quinto Determinar el porcentaje que le corresponde a cada conglomerado conforme a la frecuencia relativa.
¿Cuáles alumnos?, de acuerdo al conglomerado o la localidad
Simular por las seis localidades
N <- nrow(alumnos)
n <- 100
loc1 <- filter(alumnos, localidad == tabla_frec$Category[1])
loc2 <- filter(alumnos, localidad == tabla_frec$Category[2])
loc3 <- filter(alumnos, localidad == tabla_frec$Category[3])
loc4 <- filter(alumnos, localidad == tabla_frec$Category[4])
loc5 <- filter(alumnos, localidad == tabla_frec$Category[5])
loc6 <- filter(alumnos, localidad == tabla_frec$Category[6])
frloc1 <- nrow(loc1) / N
frloc2 <- nrow(loc2) / N
frloc3 <- nrow(loc3) / N
frloc4 <- nrow(loc4) / N
frloc5 <- nrow(loc5) / N
frloc6 <- nrow(loc6) / N
muestraloc1 <- sample(loc1, round(n * frloc1, 0))
kable(muestraloc1, caption = paste("La muestra de alumnos de Localidad ",tabla_frec$Category[1] ))
| No. Control | Alumno | Semestre | Cr. Apr. | Carga | Promedio | Carrera | localidad | latitud | longitud | orig.id |
|---|---|---|---|---|---|---|---|---|---|---|
| 20195752 | 5752 | 3 | 55 | 29 | 95.67 | ADMINISTRACION | Victoria de Durango | 24.02399 | -104.6702 | 3462 |
| 20191354 | 1354 | 7 | 167 | 34 | 86.40 | BIOQUIMICA | Victoria de Durango | 24.02399 | -104.6702 | 809 |
| 20195197 | 5197 | 8 | 195 | 25 | 87.88 | GESTION EMPRESARIAL | Victoria de Durango | 24.02399 | -104.6702 | 3142 |
| 20194694 | 4694 | 9 | 230 | 15 | 92.17 | GESTION EMPRESARIAL | Victoria de Durango | 24.02399 | -104.6702 | 2835 |
| 20191656 | 1656 | 12 | 179 | 33 | 77.27 | CIVIL | Victoria de Durango | 24.02399 | -104.6702 | 995 |
| 20193520 | 3520 | 1 | NA | 26 | 0.00 | MECANICA | Victoria de Durango | 24.02399 | -104.6702 | 2155 |
| 20191220 | 1220 | 5 | 81 | 34 | 85.44 | BIOQUIMICA | Victoria de Durango | 24.02399 | -104.6702 | 728 |
| 20191366 | 1366 | 2 | 23 | 29 | 90.17 | BIOQUIMICA | Victoria de Durango | 24.02399 | -104.6702 | 818 |
| 20190579 | 579 | 4 | 80 | 30 | 89.11 | ARQUITECTURA | Victoria de Durango | 24.02399 | -104.6702 | 331 |
| 20192440 | 2440 | 1 | NA | 24 | 0.00 | ELECTRICA | Victoria de Durango | 24.02399 | -104.6702 | 1484 |
| 20195184 | 5184 | 3 | 60 | 29 | 84.85 | GESTION EMPRESARIAL | Victoria de Durango | 24.02399 | -104.6702 | 3132 |
| 20191337 | 1337 | 8 | 186 | 24 | 84.36 | BIOQUIMICA | Victoria de Durango | 24.02399 | -104.6702 | 798 |
| 20190945 | 945 | 6 | 134 | 24 | 87.86 | ARQUITECTURA | Victoria de Durango | 24.02399 | -104.6702 | 563 |
| 20194561 | 4561 | 1 | NA | 25 | 0.00 | QUIMICA | Victoria de Durango | 24.02399 | -104.6702 | 2751 |
| 20190949 | 949 | 2 | 26 | 26 | 87.67 | ARQUITECTURA | Victoria de Durango | 24.02399 | -104.6702 | 565 |
| 20190853 | 853 | 2 | 24 | 22 | 87.00 | ARQUITECTURA | Victoria de Durango | 24.02399 | -104.6702 | 511 |
| 20194009 | 4009 | 2 | 25 | 28 | 80.67 | MECATRONICA | Victoria de Durango | 24.02399 | -104.6702 | 2423 |
| 20190981 | 981 | 5 | 110 | 32 | 89.50 | ARQUITECTURA | Victoria de Durango | 24.02399 | -104.6702 | 587 |
| 20193423 | 3423 | 7 | 102 | 30 | 80.91 | MECANICA | Victoria de Durango | 24.02399 | -104.6702 | 2093 |
| 20195597 | 5597 | 8 | 207 | 27 | 93.09 | ADMINISTRACION | Victoria de Durango | 24.02399 | -104.6702 | 3369 |
| 20192461 | 2461 | 7 | 150 | 28 | 82.79 | ELECTRICA | Victoria de Durango | 24.02399 | -104.6702 | 1496 |
| 20191351 | 1351 | 3 | 52 | 30 | 85.75 | BIOQUIMICA | Victoria de Durango | 24.02399 | -104.6702 | 807 |
| 20190343 | 343 | 8 | 165 | 28 | 81.31 | SISTEMAS | Victoria de Durango | 24.02399 | -104.6702 | 201 |
| 20194890 | 4890 | 7 | 170 | 35 | 87.44 | GESTION EMPRESARIAL | Victoria de Durango | 24.02399 | -104.6702 | 2947 |
| 20191348 | 1348 | 7 | 164 | 32 | 91.03 | BIOQUIMICA | Victoria de Durango | 24.02399 | -104.6702 | 806 |
| 20190739 | 739 | 1 | NA | 26 | 0.00 | ARQUITECTURA | Victoria de Durango | 24.02399 | -104.6702 | 433 |
| 20191212 | 1212 | 7 | 165 | 36 | 86.37 | BIOQUIMICA | Victoria de Durango | 24.02399 | -104.6702 | 723 |
| 20193020 | 3020 | 3 | 55 | 29 | 92.15 | INDUSTRIAL | Victoria de Durango | 24.02399 | -104.6702 | 1848 |
| 20191394 | 1394 | 2 | 23 | 29 | 86.83 | BIOQUIMICA | Victoria de Durango | 24.02399 | -104.6702 | 836 |
| 20194023 | 4023 | 1 | NA | 25 | 0.00 | MECATRONICA | Victoria de Durango | 24.02399 | -104.6702 | 2434 |
| 20192358 | 2358 | 7 | 98 | 9 | 81.04 | ELECTRICA | Victoria de Durango | 24.02399 | -104.6702 | 1435 |
| 20194165 | 4165 | 4 | 53 | 20 | 77.91 | QUIMICA | Victoria de Durango | 24.02399 | -104.6702 | 2522 |
| 20194937 | 4937 | 7 | 167 | 33 | 88.00 | GESTION EMPRESARIAL | Victoria de Durango | 24.02399 | -104.6702 | 2978 |
| 20192500 | 2500 | 9 | 197 | 20 | 84.05 | ELECTRONICA | Victoria de Durango | 24.02399 | -104.6702 | 1518 |
| 20190866 | 866 | 6 | 142 | 28 | 88.53 | ARQUITECTURA | Victoria de Durango | 24.02399 | -104.6702 | 518 |
| 20190307 | 307 | 2 | 27 | 28 | 77.00 | SISTEMAS | Victoria de Durango | 24.02399 | -104.6702 | 180 |
| 20195480 | 5480 | 9 | 228 | 24 | 86.23 | ADMINISTRACION | Victoria de Durango | 24.02399 | -104.6702 | 3304 |
| 20195413 | 5413 | 1 | NA | 27 | 0.00 | INFORMATICA | Victoria de Durango | 24.02399 | -104.6702 | 3267 |
| 20195861 | 5861 | 7 | 169 | 32 | 93.89 | ADMINISTRACION | Victoria de Durango | 24.02399 | -104.6702 | 3521 |
| 20190661 | 661 | 3 | 52 | 28 | 83.42 | ARQUITECTURA | Victoria de Durango | 24.02399 | -104.6702 | 384 |
| 20191654 | 1654 | 10 | 171 | 32 | 78.42 | CIVIL | Victoria de Durango | 24.02399 | -104.6702 | 994 |
| 20194474 | 4474 | 8 | 205 | 20 | 83.76 | QUIMICA | Victoria de Durango | 24.02399 | -104.6702 | 2699 |
| 20194055 | 4055 | 3 | 43 | 14 | 81.10 | MECATRONICA | Victoria de Durango | 24.02399 | -104.6702 | 2453 |
| 20190746 | 746 | 4 | 76 | 28 | 89.29 | ARQUITECTURA | Victoria de Durango | 24.02399 | -104.6702 | 436 |
| 20193336 | 3336 | 7 | 179 | 26 | 89.12 | INDUSTRIAL | Victoria de Durango | 24.02399 | -104.6702 | 2038 |
| 20195409 | 5409 | 3 | 55 | 27 | 87.92 | INFORMATICA | Victoria de Durango | 24.02399 | -104.6702 | 3266 |
| 20195033 | 5033 | 3 | 50 | 28 | 94.45 | GESTION EMPRESARIAL | Victoria de Durango | 24.02399 | -104.6702 | 3034 |
| 20190549 | 549 | 9 | 218 | 17 | 88.69 | ARQUITECTURA | Victoria de Durango | 24.02399 | -104.6702 | 313 |
| 20192620 | 2620 | 3 | 47 | 23 | 86.91 | ELECTRONICA | Victoria de Durango | 24.02399 | -104.6702 | 1591 |
| 20190186 | 186 | 3 | 41 | 28 | 83.89 | SISTEMAS | Victoria de Durango | 24.02399 | -104.6702 | 110 |
| 20191297 | 1297 | 3 | 52 | 30 | 87.00 | BIOQUIMICA | Victoria de Durango | 24.02399 | -104.6702 | 775 |
| 20193034 | 3034 | 5 | 85 | 31 | 88.21 | INDUSTRIAL | Victoria de Durango | 24.02399 | -104.6702 | 1858 |
| 20194007 | 4007 | 7 | 115 | 27 | 82.96 | MECATRONICA | Victoria de Durango | 24.02399 | -104.6702 | 2421 |
| 20195690 | 5690 | 4 | 79 | 29 | 88.53 | ADMINISTRACION | Victoria de Durango | 24.02399 | -104.6702 | 3421 |
| 20194231 | 4231 | 7 | 172 | 32 | 88.94 | QUIMICA | Victoria de Durango | 24.02399 | -104.6702 | 2561 |
| 20193544 | 3544 | 3 | 48 | 27 | 82.82 | MECANICA | Victoria de Durango | 24.02399 | -104.6702 | 2165 |
| 20192218 | 2218 | 11 | 235 | 10 | 84.19 | ELECTRICA | Victoria de Durango | 24.02399 | -104.6702 | 1345 |
| 20195545 | 5545 | 7 | 145 | 29 | 85.77 | ADMINISTRACION | Victoria de Durango | 24.02399 | -104.6702 | 3341 |
| 20194135 | 4135 | 7 | 172 | 26 | 85.39 | QUIMICA | Victoria de Durango | 24.02399 | -104.6702 | 2500 |
| 20193613 | 3613 | 3 | 52 | 24 | 85.50 | MECANICA | Victoria de Durango | 24.02399 | -104.6702 | 2207 |
muestraloc2 <- sample(loc2, round(n * frloc2, 0))
kable(muestraloc2, caption = paste("La muestra de alumnos de Localidad ",tabla_frec$Category[2] ))
| No. Control | Alumno | Semestre | Cr. Apr. | Carga | Promedio | Carrera | localidad | latitud | longitud | orig.id |
|---|---|---|---|---|---|---|---|---|---|---|
| 20192268 | 2268 | 10 | 216 | 14 | 83.80 | ELECTRICA | Las Brisas | 23.97352 | -104.58 | 262 |
| 20195323 | 5323 | 1 | NA | 26 | 0.00 | TIC | Las Brisas | 23.97352 | -104.58 | 631 |
| 20192994 | 2994 | 7 | 172 | 33 | 86.44 | INDUSTRIAL | Las Brisas | 23.97352 | -104.58 | 344 |
| 20194348 | 4348 | 5 | 114 | 30 | 89.92 | QUIMICA | Las Brisas | 23.97352 | -104.58 | 515 |
| 20193182 | 3182 | 2 | 27 | 24 | 83.00 | INDUSTRIAL | Las Brisas | 23.97352 | -104.58 | 375 |
| 20192346 | 2346 | 5 | 99 | 28 | 84.35 | ELECTRICA | Las Brisas | 23.97352 | -104.58 | 271 |
| 20192814 | 2814 | 7 | 163 | 35 | 84.35 | INDUSTRIAL | Las Brisas | 23.97352 | -104.58 | 326 |
| 20195766 | 5766 | 1 | NA | 27 | 0.00 | ADMINISTRACION | Las Brisas | 23.97352 | -104.58 | 678 |
| 20192753 | 2753 | 6 | 158 | 26 | 88.00 | INDUSTRIAL | Las Brisas | 23.97352 | -104.58 | 321 |
| 20194882 | 4882 | 3 | 32 | 31 | 84.43 | GESTION EMPRESARIAL | Las Brisas | 23.97352 | -104.58 | 577 |
| 20193378 | 3378 | 10 | 225 | 10 | 82.12 | MECANICA | Las Brisas | 23.97352 | -104.58 | 391 |
| 20191305 | 1305 | 1 | NA | 23 | 0.00 | BIOQUIMICA | Las Brisas | 23.97352 | -104.58 | 161 |
muestraloc3 <- sample(loc3, round(n * frloc3, 0))
kable(muestraloc3, caption = paste("La muestra de alumnos de Localidad ",tabla_frec$Category[3] ))
| No. Control | Alumno | Semestre | Cr. Apr. | Carga | Promedio | Carrera | localidad | latitud | longitud | orig.id |
|---|---|---|---|---|---|---|---|---|---|---|
| 20193085 | 3085 | 5 | NA | 26 | 0.00 | INDUSTRIAL | Las Aves | 23.94883 | -104.5715 | 320 |
| 20190244 | 244 | 5 | 112 | 25 | 87.54 | SISTEMAS | Las Aves | 23.94883 | -104.5715 | 23 |
| 20191061 | 1061 | 8 | 168 | 32 | 82.86 | ARQUITECTURA | Las Aves | 23.94883 | -104.5715 | 121 |
| 20190039 | 39 | 9 | 222 | 13 | 92.21 | SISTEMAS | Las Aves | 23.94883 | -104.5715 | 6 |
| 20194015 | 4015 | 4 | 62 | 26 | 85.00 | MECATRONICA | Las Aves | 23.94883 | -104.5715 | 439 |
| 20191448 | 1448 | 7 | 174 | 27 | 87.08 | BIOQUIMICA | Las Aves | 23.94883 | -104.5715 | 165 |
| 20194301 | 4301 | 6 | 129 | 26 | 84.96 | QUIMICA | Las Aves | 23.94883 | -104.5715 | 462 |
| 20190390 | 390 | 5 | 107 | 30 | 80.26 | SISTEMAS | Las Aves | 23.94883 | -104.5715 | 41 |
| 20193641 | 3641 | 5 | 57 | 23 | 78.85 | MECANICA | Las Aves | 23.94883 | -104.5715 | 387 |
| 20193522 | 3522 | 1 | NA | 26 | 0.00 | MECANICA | Las Aves | 23.94883 | -104.5715 | 366 |
| 20190306 | 306 | 4 | 87 | 33 | 93.26 | SISTEMAS | Las Aves | 23.94883 | -104.5715 | 34 |
muestraloc4 <- sample(loc4, round(n * frloc4, 0))
kable(muestraloc4, caption = paste("La muestra de alumnos de Localidad ",tabla_frec$Category[4] ))
| No. Control | Alumno | Semestre | Cr. Apr. | Carga | Promedio | Carrera | localidad | latitud | longitud | orig.id |
|---|---|---|---|---|---|---|---|---|---|---|
| 20194732 | 4732 | 12 | 225 | 10 | 86.83 | GESTION EMPRESARIAL | Los Fresnos | 24.08339 | -104.6095 | 310 |
| 20194974 | 4974 | 8 | 205 | 30 | 88.56 | GESTION EMPRESARIAL | Los Fresnos | 24.08339 | -104.6095 | 332 |
| 20195248 | 5248 | 1 | NA | 27 | 0.00 | GESTION EMPRESARIAL | Los Fresnos | 24.08339 | -104.6095 | 356 |
| 20194853 | 4853 | 2 | 32 | 27 | 94.57 | GESTION EMPRESARIAL | Los Fresnos | 24.08339 | -104.6095 | 325 |
| 20192243 | 2243 | 10 | 226 | 9 | 82.25 | ELECTRICA | Los Fresnos | 24.08339 | -104.6095 | 154 |
| 20195503 | 5503 | 10 | 262 | 10 | 93.87 | ADMINISTRACION | Los Fresnos | 24.08339 | -104.6095 | 388 |
| 20191152 | 1152 | 11 | 108 | 17 | 78.00 | BIOQUIMICA | Los Fresnos | 24.08339 | -104.6095 | 72 |
muestraloc5 <- sample(loc5, round(n * frloc5, 0))
kable(muestraloc5, caption = paste("La muestra de alumnos de Localidad ",tabla_frec$Category[5] ))
| No. Control | Alumno | Semestre | Cr. Apr. | Carga | Promedio | Carrera | localidad | latitud | longitud | orig.id |
|---|---|---|---|---|---|---|---|---|---|---|
| 20192935 | 2935 | 5 | 104 | 34 | 86.39 | INDUSTRIAL | Microondas el Tecolote | 24.05248 | -104.8519 | 168 |
| 20192340 | 2340 | 1 | NA | 24 | 0.00 | ELECTRICA | Microondas el Tecolote | 24.05248 | -104.8519 | 133 |
| 20191209 | 1209 | 5 | 104 | 30 | 82.91 | BIOQUIMICA | Microondas el Tecolote | 24.05248 | -104.8519 | 62 |
| 20190236 | 236 | 1 | NA | 27 | 0.00 | SISTEMAS | Microondas el Tecolote | 24.05248 | -104.8519 | 15 |
| 20195268 | 5268 | 5 | 101 | 28 | 82.55 | TIC | Microondas el Tecolote | 24.05248 | -104.8519 | 294 |
| 20192138 | 2138 | 5 | 99 | 33 | 84.43 | CIVIL | Microondas el Tecolote | 24.05248 | -104.8519 | 116 |
muestraloc6 <- sample(loc6, round(n * frloc6, 0))
kable(muestraloc6, caption = paste("La muestra de alumnos de Localidad ",tabla_frec$Category[6] ))
| No. Control | Alumno | Semestre | Cr. Apr. | Carga | Promedio | Carrera | localidad | latitud | longitud | orig.id |
|---|---|---|---|---|---|---|---|---|---|---|
| 20193554 | 3554 | 3 | 52 | 31 | 86.33 | MECANICA | Michel [Granja] | 24.00545 | -104.7152 | 175 |
| 20194555 | 4555 | 6 | 133 | 23 | 83.14 | QUIMICA | Michel [Granja] | 24.00545 | -104.7152 | 223 |
| 20192499 | 2499 | 11 | 205 | 15 | 79.93 | ELECTRONICA | Michel [Granja] | 24.00545 | -104.7152 | 119 |
| 20192495 | 2495 | 3 | 51 | 28 | 92.50 | ELECTRICA | Michel [Granja] | 24.00545 | -104.7152 | 118 |
| 20192977 | 2977 | 8 | 201 | 28 | 83.67 | INDUSTRIAL | Michel [Granja] | 24.00545 | -104.7152 | 143 |
#install.packages("leaflet")
library(leaflet)
## Warning: package 'leaflet' was built under R version 4.0.5
map<-leaflet() %>%
addTiles() %>%
addMarkers(lat=localidades6$Lat_Decimal[1],lng=localidades6$Lon_Decimal[1] ,popup=localidades6$Nom_Loc[1]) %>%
addMarkers(lat=localidades6$Lat_Decimal[2],lng=localidades6$Lon_Decimal[2] ,popup=localidades6$Nom_Loc[2]) %>%
addMarkers(lat=localidades6$Lat_Decimal[3],lng=localidades6$Lon_Decimal[3] ,popup=localidades6$Nom_Loc[3]) %>%
addMarkers(lat=localidades6$Lat_Decimal[4],lng=localidades6$Lon_Decimal[4] ,popup=localidades6$Nom_Loc[4]) %>%
addMarkers (lat=localidades6$Lat_Decimal[5],lng=localidades6$Lon_Decimal[5] ,popup=localidades6$Nom_Loc[5]) %>%
addMarkers (lat=localidades6$Lat_Decimal[6],lng=localidades6$Lon_Decimal[6] ,popup=localidades6$Nom_Loc[6])
# Mostrar el mapa
map
Cargar los datos de empresas de Durango y realizar muestreo aleatorios simple, sistematizado, estratificado y por conglomerado.
La lectura de los datos como son cerca de 66740 observaciones, puede hacerse de manera más práctica, descargando los datos de https://raw.githubusercontent.com/rpizarrog/probabilidad-y-estad-stica/master/datos/denue_inegi_10_.csv y recuperando de directorio local de su computadora.
Los datos son registros y observaciones de empresas de Durango, se utiliza la acostumbrada función read.csv() solo que ahora se modifica el atributo encoding = ‘latin-1’ por el tipo de codificación que traen los datos; stringsAsFactors = TRUE significa que convierte directamente a factor los valores de tipo char.
# empresas <- read.csv("https://raw.githubusercontent.com/rpizarrog/probabilidad-y-estad-stica/master/datos/denue_inegi_10_.csv", encencoding = "latin-1", stringsAsFactors = TRUE)
empresas <- read.csv("../datos/denue_inegi_10_.csv", encoding = "latin-1", stringsAsFactors = TRUE)
kable(head(empresas), caption = "Primeros reistros de empresas")
| id | nom_estab | raz_social | codigo_act | nombre_act | per_ocu | tipo_vial | nom_vial | tipo_v_e_1 | nom_v_e_1 | tipo_v_e_2 | nom_v_e_2 | tipo_v_e_3 | nom_v_e_3 | numero_ext | letra_ext | edificio | edificio_e | numero_int | letra_int | tipo_asent | nomb_asent | tipoCenCom | nom_CenCom | num_local | cod_postal | cve_ent | entidad | cve_mun | municipio | cve_loc | localidad | ageb | manzana | telefono | correoelec | www | tipoUniEco | latitud | longitud | fecha_alta |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 8658848 | ACOPIADORA DE GRANOS | 115119 | Otros servicios relacionados con la agricultura | 0 a 5 personas | CALLE | INDEPENDENCIA | OTRO (ESPECIFIQUE) | NINGUNO | OTRO (ESPECIFIQUE) | NINGUNO | OTRO (ESPECIFIQUE) | NINGUNO | NA | SN | NA | COLONIA | EL REFUGIO | 34800 | 10 | DURANGO | 22 | Poanas | 1 | Villa Unión | 0552 | 1 | NA | Fijo | 23.96195 | -104.0494 | 2019-11 | |||||||||
| 6259842 | ALDAJUCE | SEMILLAS Y CEREALES GUTIERREZ REYES SPR DE RL | 115113 | Beneficio de productos agrícolas | 0 a 5 personas | CALLE | INDEPENDENCIA | OTRO (ESPECIFIQUE) | NINGUNO | OTRO (ESPECIFIQUE) | NINGUNO | OTRO (ESPECIFIQUE) | NINGUNO | NA | SN | NA | COLONIA | EL REFUGIO | 34800 | 10 | DURANGO | 22 | Poanas | 1 | Villa Unión | 0552 | 1 | 6758672258 | Fijo | 23.96097 | -104.0494 | 2010-07 | ||||||||
| 6168992 | ASOCIACIÓN DE PESCADORES DEL NAZAS EMILIO CARRANZA | ASOCIACIÓN DE PESCADORES DEL NAZAS EMILIO CARRANZA | 114119 | Pesca y captura de peces, crustáceos, moluscos y otras especies | 11 a 30 personas | CARRETERA | NINGUNO | CALLE | NINGUNO | CALLE | NINGUNO | CALLE | NINGUNO | 2 | 0 | EJIDO | EMILIO CARRANZA | 34000 | 10 | DURANGO | 15 | Nazas | 11 | Emilio Carranza | 0350 | 7 | NA | Fijo | 25.26136 | -103.9458 | 2010-07 | |||||||||
| 1072965 | BODEGA BENEFICIADORA DE FRIJOL | 115113 | Beneficio de productos agrícolas | 6 a 10 personas | CALLE | JUAN ALDAMA | AVENIDA | BENITO JUAREZ | AVENIDA | IGNACIO MANUEL ALTAMIRANO | CALLE | GUADALUPE VICTORIA | NA | SN | NA | LOCALIDAD | ANTONIO AMARO | 34730 | 10 | DURANGO | 8 | Guadalupe Victoria | 2 | Antonio Amaro (Saucillo) | 0500 | 8 | NA | Fijo | 24.27781 | -104.0162 | 2010-07 | |||||||||
| 6169001 | CENTRO ECOTURISTICO PARAISO DE SAN DIEGO | CENTRO ECOTURISTICO PARAISO DE SAN DIEGO EJIDO | 112512 | Piscicultura y otra acuicultura, excepto camaronicultura | 11 a 30 personas | CALLE | NINGUNO | CALLE | SIN NOMBRE | CALLE | NINGUNO | CALLE | SIN NOMBRE | 1 | NA | EJIDO | SAN DIEGO DE TENZAENS | 34625 | 10 | DURANGO | 32 | Santiago Papasquiaro | 208 | Nuevo San Diego (El Caballo) | 092A | 1 | NA | Fijo | 24.95397 | -105.9733 | 2010-07 | |||||||||
| 8605618 | COMITE ESTATAL DE SANIDAD VEGETAL DEL ESTADO DE DURANGO CESAVEDAC | COMITE ESTATAL DE SANIDAD VEGETAL DEL ESTADO DE DURANGO CESAVEDAC AC | 115111 | Servicios de fumigación agrícola | 51 a 100 personas | BOULEVARD | FRANCISCO VILLA | AVENIDA | ESTRONCIO | CALLE | MANGANESO | CALLE | SELENIO | NA | SN | NA | FRACCIONAMIENTO | CIUDAD INDUSTRIAL | 34208 | 10 | DURANGO | 5 | Durango | 1 | Victoria de Durango | 1704 | 21 | NA | Fijo | 24.06082 | -104.6086 | 2019-11 |
kable(tail(empresas), caption = "Ultimos registros de empresas")
| id | nom_estab | raz_social | codigo_act | nombre_act | per_ocu | tipo_vial | nom_vial | tipo_v_e_1 | nom_v_e_1 | tipo_v_e_2 | nom_v_e_2 | tipo_v_e_3 | nom_v_e_3 | numero_ext | letra_ext | edificio | edificio_e | numero_int | letra_int | tipo_asent | nomb_asent | tipoCenCom | nom_CenCom | num_local | cod_postal | cve_ent | entidad | cve_mun | municipio | cve_loc | localidad | ageb | manzana | telefono | correoelec | www | tipoUniEco | latitud | longitud | fecha_alta | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 66743 | 1095866 | VENTANILLA DE APOYO SINIIGA | VENTANILLA DE APOYO SINIIGA | 931610 | Actividades administrativas de instituciones de bienestar social | 0 a 5 personas | CALLE | NINGUNO | CALLE | NINGUNO | PRIVADA | NINGUNO | OTRO (ESPECIFIQUE) | MONTE | NA | SN | NA | BARRIO | DE LA ENTRADA | 34500 | 10 | DURANGO | 9 | Guanaceví | 1 | Guanaceví | 1031 | 14 | 6748612593 | Fijo | 25.93586 | -105.9495 | 2014-12 | ||||||||
| 66744 | 1074076 | VENTANILLA DE RECAUDACION DE RENTAS SANTA CLARA | SECRETARÍA DE FINANZAS DEL ESTADO | 931210 | Administración pública en general | 0 a 5 personas | CALLE | CONSTITUCION | AVENIDA | GUATEMALA | CALLE | JUAREZ | CALLE | JUÁREZ | NA | SN | NA | COLONIA | ZONA CENTRO | 35890 | 10 | DURANGO | 31 | Santa Clara | 1 | Santa Clara | 0265 | 25 | 6717643488 | Fijo | 24.47567 | -103.3571 | 2010-07 | ||||||||
| 66745 | 1067716 | VICEFISCALÍA ZONA 1 REGION LAGUNA | GOBIERNO DEL ESTADO DE DURANGO | 931410 | Impartición de justicia y mantenimiento de la seguridad y el orden público | 51 a 100 personas | CALLE | LIBRAMIENTO PERIFERICO | CALZADA | JOSE SANTOS VALDEZ | CALZADA | CASTILAGUA | PRIVADA | NINGUNO | NA | SN | NA | COLONIA | SERGIO MENDEZ | 35158 | 10 | DURANGO | 12 | Lerdo | 1 | Lerdo | 1588 | 1 | 8711750700 | VICELAGUNA@HOTMAIL.COM | Fijo | 25.56473 | -103.5220 | 2010-07 | |||||||
| 66746 | 1076947 | VIVIENDA CATASTRO | GOBIERNO MUNICIPAL PRESIDENCIA | 931610 | Actividades administrativas de instituciones de bienestar social | 0 a 5 personas | AVENIDA | JOSE RAMON VALDEZ | CALLE | GUADALUPE VICTORIA | CALLE | 20 DE NOVIEMBRE | AVENIDA | ISABEL LA CATÓLICA | 503 | OTRO CONGLOMERADO | PISO 1 | 24 | COLONIA | AMPL NUEVO IDEAL | EDIFICIO COMERCIAL Y DE SERVICIOS | PRESIDENCIA MUNICIPAL | 24 | 34420 | 10 | DURANGO | 39 | Nuevo Ideal | 1 | Nuevo Ideal | 0028 | 2 | 6778731011 | Fijo | 24.88838 | -105.0743 | 2010-07 | ||||
| 66747 | 1109104 | ZONA ESCOLAR 24 | SETEL | 931610 | Actividades administrativas de instituciones de bienestar social | 0 a 5 personas | CALLE | FELIPE ANGELES | AVENIDA | LUIS DONALDO COLOSIO | CALLE | ARROYO DE LA POLVORA | CALLE | ALDAMA | 401 | 0 | 401 | COLONIA | LA ESPERANZA | 35805 | 10 | DURANGO | 4 | Cuencamé | 1 | Cuencamé de Ceniceros | 0696 | 16 | 6717630460 | ZONAVEINCUATROCUENCAME@HOTMAIL.COM | Fijo | 24.87184 | -103.7009 | 2014-12 | |||||||
| 66748 | 1085549 | ZONA ESCOLAR NUMERO NUEVE DE TELESECUNDARIAS | SECRETARÍA DE EDUCACIÓN PÚBLICA | 931610 | Actividades administrativas de instituciones de bienestar social | 0 a 5 personas | CALLE | DOCTOR ISAURO VENZOR | CALLE | LICENCIADO ALBERTO TERRONES BENITEZ | AVENIDA | GENERAL LAZARO CARDENAS | CALLE | CARLOS SANTAMARÍA | 1223 | NA | COLONIA | CENTRO | 34000 | 10 | DURANGO | 5 | Durango | 1 | Victoria de Durango | 0320 | 38 | 6188103730 | Fijo | 24.02197 | -104.6526 | 2014-12 |
Análisis descriptivo de empresas y los tipos de variables.
summary(empresas)
## id nom_estab
## Min. : 345332 CONSULTORIO DENTAL : 238
## 1st Qu.:1084513 MISCELANEA SIN NOMBRE: 206
## Median :1116254 TALLER MECANICO : 188
## Mean :4260110 LADRILLERA SIN NOMBRE: 174
## 3rd Qu.:7475540 MISCELANEA : 172
## Max. :9332135 VENTA DE GORDITAS : 149
## (Other) :65621
## raz_social codigo_act
## :52753 Min. :112512
## SECRETARÍA DE EDUCACIÓN PÚBLICA : 520 1st Qu.:461130
## CADENA COMERCIAL OXXO SA DE CV : 288 Median :468213
## SECRETARIA DE EDUCACION PUBLICA : 205 Mean :569587
## GOBIERNO DEL ESTADO DE DURANGO : 154 3rd Qu.:722513
## BANCO SANTANDER : 152 Max. :931810
## (Other) :12676
## nombre_act
## Comercio al por menor en tiendas de abarrotes, ultramarinos y misceláneas: 6929
## Restaurantes con servicio de preparación de antojitos : 3622
## Salones y clínicas de belleza y peluquerías : 2704
## Comercio al por menor de ropa, excepto de bebé y lencería : 1749
## Comercio al por menor de artículos de papelería : 1586
## Reparación mecánica en general de automóviles y camiones : 1222
## (Other) :48936
## per_ocu tipo_vial nom_vial
## 0 a 5 personas :56835 CALLE :41546 NINGUNO : 3139
## 101 a 250 personas: 333 AVENIDA :14195 HIDALGO : 1476
## 11 a 30 personas : 3507 BOULEVARD : 4847 FRANCISCO I. MADERO: 1212
## 251 y más personas: 189 PROLONGACION: 1691 20 DE NOVIEMBRE : 1108
## 31 a 50 personas : 713 PRIVADA : 1038 FRANCISCO VILLA : 916
## 51 a 100 personas : 429 CALZADA : 907 MORELOS : 774
## 6 a 10 personas : 4742 (Other) : 2524 (Other) :58123
## tipo_v_e_1 nom_v_e_1
## CALLE :47602 NINGUNO : 6247
## AVENIDA : 9733 FRANCISCO I. MADERO: 797
## PRIVADA : 2651 HIDALGO : 787
## BOULEVARD : 1360 : 723
## OTRO (ESPECIFIQUE): 1201 MORELOS : 677
## PROLONGACION : 1125 5 DE FEBRERO : 667
## (Other) : 3076 (Other) :56850
## tipo_v_e_2 nom_v_e_2
## CALLE :46766 NINGUNO : 6139
## AVENIDA :10007 FRANCISCO I. MADERO: 755
## PRIVADA : 2791 HIDALGO : 729
## BOULEVARD : 1636 20 DE NOVIEMBRE : 724
## OTRO (ESPECIFIQUE): 1202 : 723
## PROLONGACION : 929 MORELOS : 706
## (Other) : 3417 (Other) :56972
## tipo_v_e_3 nom_v_e_3 numero_ext
## CALLE :47720 NINGUNO : 6149 Min. : 0.0
## AVENIDA :10031 FRANCISCO I. MADERO: 980 1st Qu.: 101.0
## OTRO (ESPECIFIQUE): 1917 HIDALGO : 943 Median : 215.0
## PRIVADA : 1613 MORELOS : 793 Mean : 358.4
## BOULEVARD : 1100 5 DE FEBRERO : 764 3rd Qu.: 468.0
## ANDADOR : 918 (Other) :57118 Max. :50010.0
## (Other) : 3449 NA's : 1 NA's :19442
## letra_ext edificio edificio_e
## :33791 :64679 :64611
## SN :27537 MERCADO PUBLICO : 782 PLANTA BAJA: 953
## A : 1828 EDIFICIO SIN NOMBRE : 467 PISO 1 : 490
## B : 1106 CENTRO Y PLAZA COMERCIAL : 251 PASILLO : 307
## BIS : 373 HOSPITAL, CENTRO MEDICO O CLINICA: 248 PISO 2 : 139
## (Other): 2112 OTRO CONGLOMERADO : 79 CORREDOR : 95
## NA's : 1 (Other) : 242 (Other) : 153
## numero_int letra_int tipo_asent
## Min. : 0.00 :65000 COLONIA :49832
## 1st Qu.: 0.00 SN : 825 FRACCIONAMIENTO: 9973
## Median : 0.00 A : 88 BARRIO : 2480
## Mean : 22.64 B : 58 LOCALIDAD : 1381
## 3rd Qu.: 0.00 1 : 49 EJIDO : 355
## Max. :34080.00 (Other): 727 AMPLIACION : 354
## NA's :44643 NA's : 1 (Other) : 2373
## nomb_asent tipoCenCom
## CENTRO :11410 :64618
## ZONA CENTRO : 2998 MERCADO PUBLICO : 868
## GOMEZ PALACIO CENTRO: 1078 CENTRO Y PLAZA COMERCIAL : 369
## FRACC HERRERA LEYVA : 641 HOSPITAL, CENTRO MEDICO O CLINICA: 264
## FIDEL VELAZQUEZ : 571 EDIFICIO COMERCIAL Y DE SERVICIOS: 249
## ALTAMIRA : 552 OTRO CONGLOMERADO : 162
## (Other) :49498 (Other) : 218
## nom_CenCom num_local cod_postal
## :64601 :64672 Min. : 0
## MERCADO GOMEZ PALACIO : 256 SN : 430 1st Qu.:34166
## EXCUARTEL JUAREZ DEL ESTADO DE DURANGO: 221 125 : 69 Median :34630
## ABELNUÑEZ : 98 404 : 59 Mean :34626
## MERCADO JOSE RAMON VALDEZ : 96 1 : 46 3rd Qu.:35025
## FRANCISCO VILLA : 90 443 : 31 Max. :99999
## (Other) : 1386 (Other): 1441 NA's :360
## cve_ent entidad cve_mun municipio
## Min. :10 DURANGO:66748 Min. : 1.00 Durango :29946
## 1st Qu.:10 1st Qu.: 5.00 Gómez Palacio :12551
## Median :10 Median : 7.00 Lerdo : 4241
## Mean :10 Mean :10.92 Santiago Papasquiaro: 2065
## 3rd Qu.:10 3rd Qu.:12.00 Guadalupe Victoria : 1909
## Max. :10 Max. :39.00 Vicente Guerrero : 1764
## (Other) :14272
## cve_loc localidad ageb manzana
## Min. : 1.00 Victoria de Durango :29603 0299 : 1291 Min. : 1
## 1st Qu.: 1.00 Gómez Palacio :12184 0250 : 1240 1st Qu.: 8
## Median : 1.00 Lerdo : 3129 0265 : 1131 Median : 17
## Mean : 12.78 Santiago Papasquiaro: 2039 0301 : 633 Mean : 22
## 3rd Qu.: 1.00 Vicente Guerrero : 1764 0020 : 596 3rd Qu.: 27
## Max. :9001.00 El Salto : 1573 0861 : 574 Max. :912
## (Other) :16456 (Other):61283
## telefono correoelec
## Min. :0.000e+00 :59614
## 1st Qu.:6.182e+09 ATENCIONCLIENTES@OXXO.COM: 284
## Median :6.188e+09 ELEAL@GASIMPERIAL.COM.MX : 33
## Mean :1.447e+10 JOSEGPEGLEZ@HOTMAIL.COM : 33
## 3rd Qu.:6.779e+09 CONTA@NAHEL.COM.MX : 20
## Max. :1.111e+14 FZAMUDIO@COPPEL.COM : 20
## NA's :43718 (Other) : 6744
## www tipoUniEco latitud
## :64250 Fijo :64233 Min. :10.26
## WWW.OXXO.COM : 284 Semifijo: 2515 1st Qu.:24.02
## WWW.FARMACIASGUADALAJARA.COM.MX: 36 Median :24.06
## WWW.CIRCLEK.COM.MX : 35 Mean :24.62
## WWW.GASIMPERIALDGO.COM : 33 3rd Qu.:25.54
## WWW.COPPEL.COM : 22 Max. :27.51
## (Other) : 2088
## longitud fecha_alta
## Min. :-124.4 2019-11:25879
## 1st Qu.:-104.7 2010-07:25062
## Median :-104.6 2014-12:12345
## Mean :-104.4 2020-11: 845
## 3rd Qu.:-103.5 2019-04: 469
## Max. :-102.8 2018-03: 392
## (Other): 1756
str(empresas)
## 'data.frame': 66748 obs. of 41 variables:
## $ id : int 8658848 6259842 6168992 1072965 6169001 8605618 8641512 8465014 7888984 8241987 ...
## $ nom_estab : Factor w/ 50407 levels " MODERNA SPORT",..: 762 1251 2209 3991 7567 9240 9531 12950 12952 12954 ...
## $ raz_social: Factor w/ 8123 levels "","(H) CONSULTORIO GOMEZ PALACIO, DGO. ",..: 1 6816 526 1 1365 1762 1850 2510 2517 2544 ...
## $ codigo_act: int 115119 115113 114119 115113 112512 115111 115119 112512 112512 112512 ...
## $ nombre_act: Factor w/ 754 levels "Acabado de productos textiles",..: 597 67 611 67 612 702 597 612 612 612 ...
## $ per_ocu : Factor w/ 7 levels "0 a 5 personas",..: 1 1 3 7 3 6 1 3 7 3 ...
## $ tipo_vial : Factor w/ 22 levels "","ANDADOR","AUTOPISTA",..: 6 6 9 6 6 5 6 6 6 9 ...
## $ nom_vial : Factor w/ 5200 levels ""," 49 LIBRE DURANGO MAZATLÁN KM232 150",..: 2640 2640 3659 2899 3659 2179 2897 3656 454 3658 ...
## $ tipo_v_e_1: Factor w/ 24 levels "","AMPLIACION",..: 17 17 7 5 7 5 7 7 7 17 ...
## $ nom_v_e_1 : Factor w/ 4983 levels "",".","0","1",..: 3398 3398 3398 609 4603 1722 609 3396 3397 3397 ...
## $ tipo_v_e_2: Factor w/ 23 levels "","ANDADOR","AUTOPISTA",..: 16 16 6 4 6 6 6 6 6 16 ...
## $ nom_v_e_2 : Factor w/ 4968 levels ""," DEL BESO",..: 3382 3382 3382 2386 3382 3055 4573 3380 3381 3381 ...
## $ tipo_v_e_3: Factor w/ 24 levels "","AMPLIACION",..: 17 17 7 7 7 7 7 7 7 17 ...
## $ nom_v_e_3 : Factor w/ 5079 levels "",".","0","1",..: 3484 3484 3484 2260 4687 4625 1089 3482 3483 3483 ...
## $ numero_ext: int NA NA 2 NA 1 NA NA 0 0 1 ...
## $ letra_ext : Factor w/ 214 levels "","-1","-2","-3",..: 209 209 1 209 1 209 209 209 209 1 ...
## $ edificio : Factor w/ 54 levels "","1","10","1000",..: 1 1 1 1 1 1 1 1 1 1 ...
## $ edificio_e: Factor w/ 17 levels "","CORREDOR",..: 1 1 1 1 1 1 1 1 1 1 ...
## $ numero_int: int NA NA 0 NA NA NA NA 0 0 0 ...
## $ letra_int : Factor w/ 432 levels "","0","01","1",..: 1 1 1 1 1 1 1 1 1 1 ...
## $ tipo_asent: Factor w/ 38 levels "","AEROPUERTO",..: 8 8 13 20 13 16 8 20 8 20 ...
## $ nomb_asent: Factor w/ 2602 levels "","0CTAVIO PAZ",..: 800 800 847 192 2207 509 774 1672 2325 815 ...
## $ tipoCenCom: Factor w/ 16 levels "","AEROPUERTO",..: 1 1 1 1 1 1 1 1 1 1 ...
## $ nom_CenCom: Factor w/ 250 levels "","ABASTOS","ABELNUÑEZ",..: 1 1 1 1 1 1 1 1 1 1 ...
## $ num_local : Factor w/ 642 levels "","0","00","01",..: 1 1 1 1 1 1 1 1 1 1 ...
## $ cod_postal: int 34800 34800 34000 34730 34625 34208 34303 34670 34637 34947 ...
## $ cve_ent : int 10 10 10 10 10 10 10 10 10 10 ...
## $ entidad : Factor w/ 1 level "DURANGO": 1 1 1 1 1 1 1 1 1 1 ...
## $ cve_mun : int 22 22 15 8 32 5 5 26 32 23 ...
## $ municipio : Factor w/ 39 levels "Canatlán","Canelas",..: 23 23 16 9 33 5 5 27 33 24 ...
## $ cve_loc : int 1 1 11 2 208 1 219 41 1 1 ...
## $ localidad : Factor w/ 286 levels "6 de Enero [Gasolinera]",..: 286 286 84 5 189 279 63 95 261 75 ...
## $ ageb : Factor w/ 1224 levels "0013","0015",..: 264 264 135 240 411 708 1025 484 566 513 ...
## $ manzana : int 1 1 7 8 1 21 1 1 1 1 ...
## $ telefono : num NA 6.76e+09 NA NA NA ...
## $ correoelec: Factor w/ 6029 levels "","0BRASPUBLICAS@DURANGOCAPITAL.GOB.MX",..: 1 1 1 1 1 1 1 5703 1984 1981 ...
## $ www : Factor w/ 1377 levels "","AGENCIAIMPERIO.COM",..: 1 1 1 1 1 1 1 1 1 1 ...
## $ tipoUniEco: Factor w/ 2 levels "Fijo","Semifijo": 1 1 1 1 1 1 1 1 1 1 ...
## $ latitud : num 24 24 25.3 24.3 25 ...
## $ longitud : num -104 -104 -104 -104 -106 ...
## $ fecha_alta: Factor w/ 17 levels "2010-07","2011-03",..: 15 1 1 1 1 15 15 15 15 15 ...
Anderson, David R., Dennis J. Sweeney, and Thomas A. Williams. 2008. Estadística Para Administración y Economía. 10th ed. Australia • Brasil • Corea • España • Estados Unidos • Japón • México • Reino Unido • Singapur: Cengage Learning,.
Lind, Douglas, William Marchal, and Samuel Wathen. 2015. Estadística Aplicada a Los Negocios y La Economía. Decimo Sexta. México, D.F.: McGraw-Hill.