Elaborar el análisis descriptivo de la variable “promedios” de una población alumnos, así como un muestreo a partir de los datos contenidos en el archivo “promedios.csv”, con la finalidad de bosquejar la diferencia entre la media aritmética de la población y la de la muestra, haciendo uso de las herramientas de las que dispone R Studio y el lenguaje R.
Importar los datos concernientes a los promedios de la población alumnos de la dirección https://raw.githubusercontent.com/rpizarrog/Trabajos-en-R-AD2021/main/datos/promedios.csv; así como depositarlos en un data.frame.
Mostrar sólo los diez primeros y últimos registros en pantalla, con la finalidad de ejemplificar los datos sin obstruir la eficiencia del reporte.
Identificar la variable de interés, llamada “promedios”.
Determinar una muestra de 300 registros a partir de la población.
Identificar la media aritmética de la población.
Identificar la media aritmética de la muestra obtenida.
Comparar ambas medias aritméticas.
Crear un histograma de los datos.
Realizar la interpretación.
poblacion.alumnos<-read.csv("https://raw.githubusercontent.com/rpizarrog/Trabajos-en-R-AD2021/main/promedios.csv")
Se realiza la lectura del archivo de texto separado por comas (csv) localizado en el enlace (promedios.csv) y se asigna su contenido al data frame “poblacion.alumnos”
head(poblacion.alumnos, 10)
## no promedios
## 1 1 91.60891
## 2 2 86.68564
## 3 3 84.06292
## 4 4 80.94624
## 5 5 88.49800
## 6 6 85.42097
## 7 7 81.11855
## 8 8 78.97463
## 9 9 75.81317
## 10 10 86.60781
tail(poblacion.alumnos, 10)
## no promedios
## 5591 5591 83.61431
## 5592 5592 78.48419
## 5593 5593 79.59696
## 5594 5594 83.86262
## 5595 5595 81.04476
## 5596 5596 87.74938
## 5597 5597 86.64384
## 5598 5598 88.44429
## 5599 5599 88.19806
## 5600 5600 83.74940
Las funciones head() y tail() permiten extraer la cantidad de registros que se asigne en la sintaxis, siendo en este caso diez los registros que se desean visualizar del inicio y el final, respectivamente.
Con la función str() se identifican las variables y el tipo de datos que contienen de un conjunto de datos.
str(poblacion.alumnos)
## 'data.frame': 5600 obs. of 2 variables:
## $ no : int 1 2 3 4 5 6 7 8 9 10 ...
## $ promedios: num 91.6 86.7 84.1 80.9 88.5 ...
La función sample() permite determinar una muestra según los criterios con los que se declare; para ello se específica una variable del conjunto de datos.
N<-nrow(poblacion.alumnos)
La variable N contiene en este momento el total de registros de la población, es decir que su valor es el mismo al total de registros dentro del data frame de poblacion.alumnos
Recordando que una muestra es una pequeña parte del total de una población cuyo estudio busca entender la realidad a partir de las características de la muestra obtenida.
cuales<-sample(x=1:N, 300, replace=FALSE)
La sintaxis anterior refiere que cuales tomara números al azar a partir de los datos que se tomaron del data frame poblacion.alumnos, centralizados en N. N contiene el número de registros del data frame (sin los promedios), locual en este caso sería equivalente a 5600. Con la función sample(), como ya se mencionó, se establece la selección de la muestra. “x” representa valores desde 1 hasta N (5600), a continuación, separado por coma, se establece el margen de la muestra (de 300 únicamente); replace indica si los valores numéricos encontrados de forma aleatoria pueden o no repetirse, la sintaxis por tanto designa “falso”.
cuales
## [1] 5598 1849 2670 4692 5441 4489 2485 3125 4262 4299 922 1937 1438 3328 3902
## [16] 809 3058 805 2646 4750 5486 4312 2064 2899 1648 1310 1354 2967 1549 196
## [31] 1792 5160 4570 4032 3357 4396 4762 305 2134 3227 2032 4046 847 4717 4022
## [46] 909 2459 4513 1320 1394 5149 5438 5197 654 5083 1872 2077 1764 1068 3000
## [61] 508 3631 3893 3191 2672 1418 4332 2268 4598 5099 228 3184 5416 1343 3019
## [76] 275 4384 5097 2438 387 468 11 1030 3391 1706 4772 2948 4285 4620 4889
## [91] 4804 413 2640 1104 4911 5263 4671 748 1056 428 2678 4753 1700 3280 1768
## [106] 901 2285 4665 4433 3553 2861 2819 184 4854 1851 5395 2508 5439 1522 4970
## [121] 3841 1980 2378 1578 2141 3051 4826 3276 528 4943 3039 2413 3976 2824 752
## [136] 1125 5487 2937 1263 3590 453 375 3253 5591 2709 795 2254 283 358 521
## [151] 5536 313 5200 435 5060 1977 767 4734 3277 977 3327 297 2680 3234 4246
## [166] 4964 3706 4003 5179 5505 4809 1032 4657 3639 5342 3670 3922 1498 3441 5155
## [181] 4516 1606 287 1041 1662 5271 3715 2175 1607 4014 872 146 4987 3244 4252
## [196] 3206 5334 160 3540 778 4761 3365 5588 2815 3597 4188 4564 2704 3297 3577
## [211] 5247 1544 1752 2364 2085 1520 4872 241 2183 1790 4523 3703 5244 3859 3573
## [226] 1273 4453 4186 2293 439 2182 5356 4130 5193 3683 734 5432 5026 2769 1689
## [241] 4954 2089 3103 4607 216 2408 3485 1293 59 5540 5363 4982 3897 945 2360
## [256] 2619 5051 3261 3960 132 4877 14 1173 999 5103 1049 1667 5052 629 2192
## [271] 799 2103 3957 2710 4085 4072 5483 794 244 317 2083 1490 565 4836 3203
## [286] 5050 4856 1386 2844 1486 4148 3148 918 1089 5308 3602 1302 4190 3342 3878
Una vez que el vector cuales posee los valores numéricos con respecto a la muestra que se tomará de la población, se determina dicha muestra. Se crea un nuevo data frame (conjunto de datos conocido también como matriz), el cual contendrá, a partir de poblacion.alumnos, las posiciones que se almacenaron en la variable cuales y sus columnas adjuntas (señalando por el espacio después de “cuales,”. Si fuera necesario especificar una columna del conjunto de datos en concreto, esto sería a través de su número).
muestra.alumnos<-poblacion.alumnos[cuales, ]
head(muestra.alumnos, 10)
## no promedios
## 5598 5598 88.44429
## 1849 1849 83.80336
## 2670 2670 88.86618
## 4692 4692 83.97266
## 5441 5441 88.74199
## 4489 4489 82.12641
## 2485 2485 83.89628
## 3125 3125 89.60876
## 4262 4262 87.13141
## 4299 4299 80.24045
tail(muestra.alumnos, 10)
## no promedios
## 4148 4148 77.89510
## 3148 3148 82.41254
## 918 918 81.40645
## 1089 1089 97.08874
## 5308 5308 85.74299
## 3602 3602 86.29941
## 1302 1302 77.19214
## 4190 4190 70.37576
## 3342 3342 80.36968
## 3878 3878 89.86622
Nuevamente se visualizan los primeros y últimos 10 registros de los 300 de la muestra, para fines de practicidad.
Se obtiene la media aritmética de la variable “promedios” dela población total, con la función mean().
media.poblacion<-mean(poblacion.alumnos$promedios)
media.poblacion
## [1] 84.01415
La variable media.poblacion recibe el valor del promedio obtenido a partir del data frame poblacion.alumnos; el símbolo “$” junto con la variable “promedios” indican la columna del data frame del que se calculará dicho promedio.
Por el mismo método, se determina ahora la media aritmética de la variable “promedios”, pero ahora en el data frame muestra.alumnos.
media.muestra<-mean(muestra.alumnos$promedios)
media.muestra
## [1] 84.25205
Se detona que, mientras la media de los promedios de la población total es de 84.01415, la media obtenida a partir de la muestra es de 83.90225; la diferencia es entonces poco notoria.
Se representa de manera gráfica la distribución de los datos en cuanto a los promedios dela población y la muestra respectivamente; esto a partir de la función hist(), donde se establecen los parámetros a considerar y las etiquetas que se mostrarán en el gráfico.
hist(x=poblacion.alumnos$promedios, main="Promedio de la Población", xlab="Promedios", ylab="Registros")
hist(x=muestra.alumnos$promedios, main="Promedio de la Muestra", xlab="Promedios", ylab="Registros")
Se realizó un análisis descriptivo obteniendo el parámetro media poblacional y el estadístico media de la muestra de la variable “promedios”; se visualiza mediante un histograma la distribución de los datos con respecto a la muestra.
La población está compuesta por 5600 registros. La muestra obtenida contempla 300 elementos de la población. La variable de interés llamada “promedios” es una columna dentro de cada data frame (población y muestra), la cual contiene un promedio correspondiente a determinado alumno de la población.
La media obtenida de los promedios de la población es de 84.01415, mientras que la media de los promedios de la muestra es de 83.90225. La diferencia entre ambas es de apenas 0.1119, lo que demuestra el grado de fiabilidad del muestreo, gracias a ser aleatorio y representativo.
El histograma permite vislumbrar de una manera panorámica el estado tanto la población como de la muestra, y como ya se mencionó, su notoria similitud. En este caso se muestra la frecuencia de los promedios entre 80 y 85.