Objetivo

Elaborar el análisis descriptivo de la variable “promedios” de una población alumnos, así como un muestreo a partir de los datos contenidos en el archivo “promedios.csv”, con la finalidad de bosquejar la diferencia entre la media aritmética de la población y la de la muestra, haciendo uso de las herramientas de las que dispone R Studio y el lenguaje R.

Descripción

Desarrollo

Importación de datos

poblacion.alumnos<-read.csv("https://raw.githubusercontent.com/rpizarrog/Trabajos-en-R-AD2021/main/promedios.csv")

Se realiza la lectura del archivo de texto separado por comas (csv) localizado en el enlace (promedios.csv) y se asigna su contenido al data frame “poblacion.alumnos”

Mostrar los primeros y últimos 10 registros

head(poblacion.alumnos, 10)
##    no promedios
## 1   1  91.60891
## 2   2  86.68564
## 3   3  84.06292
## 4   4  80.94624
## 5   5  88.49800
## 6   6  85.42097
## 7   7  81.11855
## 8   8  78.97463
## 9   9  75.81317
## 10 10  86.60781
tail(poblacion.alumnos, 10)
##        no promedios
## 5591 5591  83.61431
## 5592 5592  78.48419
## 5593 5593  79.59696
## 5594 5594  83.86262
## 5595 5595  81.04476
## 5596 5596  87.74938
## 5597 5597  86.64384
## 5598 5598  88.44429
## 5599 5599  88.19806
## 5600 5600  83.74940

Las funciones head() y tail() permiten extraer la cantidad de registros que se asigne en la sintaxis, siendo en este caso diez los registros que se desean visualizar del inicio y el final, respectivamente.

Identificar variable de interés “promedio”

Con la función str() se identifican las variables y el tipo de datos que contienen de un conjunto de datos.

str(poblacion.alumnos)
## 'data.frame':    5600 obs. of  2 variables:
##  $ no       : int  1 2 3 4 5 6 7 8 9 10 ...
##  $ promedios: num  91.6 86.7 84.1 80.9 88.5 ...

Muestra de 300 registros

La función sample() permite determinar una muestra según los criterios con los que se declare; para ello se específica una variable del conjunto de datos.

N<-nrow(poblacion.alumnos)

La variable N contiene en este momento el total de registros de la población, es decir que su valor es el mismo al total de registros dentro del data frame de poblacion.alumnos

Recordando que una muestra es una pequeña parte del total de una población cuyo estudio busca entender la realidad a partir de las características de la muestra obtenida.

cuales<-sample(x=1:N, 300, replace=FALSE)

La sintaxis anterior refiere que cuales tomara números al azar a partir de los datos que se tomaron del data frame poblacion.alumnos, centralizados en N. N contiene el número de registros del data frame (sin los promedios), locual en este caso sería equivalente a 5600. Con la función sample(), como ya se mencionó, se establece la selección de la muestra. “x” representa valores desde 1 hasta N (5600), a continuación, separado por coma, se establece el margen de la muestra (de 300 únicamente); replace indica si los valores numéricos encontrados de forma aleatoria pueden o no repetirse, la sintaxis por tanto designa “falso”.

cuales
##   [1] 5598 1849 2670 4692 5441 4489 2485 3125 4262 4299  922 1937 1438 3328 3902
##  [16]  809 3058  805 2646 4750 5486 4312 2064 2899 1648 1310 1354 2967 1549  196
##  [31] 1792 5160 4570 4032 3357 4396 4762  305 2134 3227 2032 4046  847 4717 4022
##  [46]  909 2459 4513 1320 1394 5149 5438 5197  654 5083 1872 2077 1764 1068 3000
##  [61]  508 3631 3893 3191 2672 1418 4332 2268 4598 5099  228 3184 5416 1343 3019
##  [76]  275 4384 5097 2438  387  468   11 1030 3391 1706 4772 2948 4285 4620 4889
##  [91] 4804  413 2640 1104 4911 5263 4671  748 1056  428 2678 4753 1700 3280 1768
## [106]  901 2285 4665 4433 3553 2861 2819  184 4854 1851 5395 2508 5439 1522 4970
## [121] 3841 1980 2378 1578 2141 3051 4826 3276  528 4943 3039 2413 3976 2824  752
## [136] 1125 5487 2937 1263 3590  453  375 3253 5591 2709  795 2254  283  358  521
## [151] 5536  313 5200  435 5060 1977  767 4734 3277  977 3327  297 2680 3234 4246
## [166] 4964 3706 4003 5179 5505 4809 1032 4657 3639 5342 3670 3922 1498 3441 5155
## [181] 4516 1606  287 1041 1662 5271 3715 2175 1607 4014  872  146 4987 3244 4252
## [196] 3206 5334  160 3540  778 4761 3365 5588 2815 3597 4188 4564 2704 3297 3577
## [211] 5247 1544 1752 2364 2085 1520 4872  241 2183 1790 4523 3703 5244 3859 3573
## [226] 1273 4453 4186 2293  439 2182 5356 4130 5193 3683  734 5432 5026 2769 1689
## [241] 4954 2089 3103 4607  216 2408 3485 1293   59 5540 5363 4982 3897  945 2360
## [256] 2619 5051 3261 3960  132 4877   14 1173  999 5103 1049 1667 5052  629 2192
## [271]  799 2103 3957 2710 4085 4072 5483  794  244  317 2083 1490  565 4836 3203
## [286] 5050 4856 1386 2844 1486 4148 3148  918 1089 5308 3602 1302 4190 3342 3878

Una vez que el vector cuales posee los valores numéricos con respecto a la muestra que se tomará de la población, se determina dicha muestra. Se crea un nuevo data frame (conjunto de datos conocido también como matriz), el cual contendrá, a partir de poblacion.alumnos, las posiciones que se almacenaron en la variable cuales y sus columnas adjuntas (señalando por el espacio después de “cuales,”. Si fuera necesario especificar una columna del conjunto de datos en concreto, esto sería a través de su número).

muestra.alumnos<-poblacion.alumnos[cuales, ]
head(muestra.alumnos, 10)
##        no promedios
## 5598 5598  88.44429
## 1849 1849  83.80336
## 2670 2670  88.86618
## 4692 4692  83.97266
## 5441 5441  88.74199
## 4489 4489  82.12641
## 2485 2485  83.89628
## 3125 3125  89.60876
## 4262 4262  87.13141
## 4299 4299  80.24045
tail(muestra.alumnos, 10)
##        no promedios
## 4148 4148  77.89510
## 3148 3148  82.41254
## 918   918  81.40645
## 1089 1089  97.08874
## 5308 5308  85.74299
## 3602 3602  86.29941
## 1302 1302  77.19214
## 4190 4190  70.37576
## 3342 3342  80.36968
## 3878 3878  89.86622

Nuevamente se visualizan los primeros y últimos 10 registros de los 300 de la muestra, para fines de practicidad.

Media de la población

Se obtiene la media aritmética de la variable “promedios” dela población total, con la función mean().

media.poblacion<-mean(poblacion.alumnos$promedios)
media.poblacion
## [1] 84.01415

La variable media.poblacion recibe el valor del promedio obtenido a partir del data frame poblacion.alumnos; el símbolo “$” junto con la variable “promedios” indican la columna del data frame del que se calculará dicho promedio.

Media de la muestra

Por el mismo método, se determina ahora la media aritmética de la variable “promedios”, pero ahora en el data frame muestra.alumnos.

media.muestra<-mean(muestra.alumnos$promedios)
media.muestra
## [1] 84.25205

Comparación de medias aritméticas

Se detona que, mientras la media de los promedios de la población total es de 84.01415, la media obtenida a partir de la muestra es de 83.90225; la diferencia es entonces poco notoria.

Histograma

Se representa de manera gráfica la distribución de los datos en cuanto a los promedios dela población y la muestra respectivamente; esto a partir de la función hist(), donde se establecen los parámetros a considerar y las etiquetas que se mostrarán en el gráfico.

hist(x=poblacion.alumnos$promedios, main="Promedio de la Población", xlab="Promedios", ylab="Registros")

hist(x=muestra.alumnos$promedios, main="Promedio de la Muestra", xlab="Promedios", ylab="Registros")

Interpretación

Se realizó un análisis descriptivo obteniendo el parámetro media poblacional y el estadístico media de la muestra de la variable “promedios”; se visualiza mediante un histograma la distribución de los datos con respecto a la muestra.

La población está compuesta por 5600 registros. La muestra obtenida contempla 300 elementos de la población. La variable de interés llamada “promedios” es una columna dentro de cada data frame (población y muestra), la cual contiene un promedio correspondiente a determinado alumno de la población.

La media obtenida de los promedios de la población es de 84.01415, mientras que la media de los promedios de la muestra es de 83.90225. La diferencia entre ambas es de apenas 0.1119, lo que demuestra el grado de fiabilidad del muestreo, gracias a ser aleatorio y representativo.

El histograma permite vislumbrar de una manera panorámica el estado tanto la población como de la muestra, y como ya se mencionó, su notoria similitud. En este caso se muestra la frecuencia de los promedios entre 80 y 85.