Objetivo

Elaborar un análisis descriptivo de la variable promedios de alumnos una muestra de la población a partir de la lectura de un archivo promedios.csv

Descripción

Desarrollo

Importar los datos

poblacion.alumnos <- read.csv("https://raw.githubusercontent.com/rpizarrog/Trabajos-en-R-AD2021/main/datos/promedios.csv")

Mostrar los primeros y últimos registros

Con las funciones head() y tail() para extraer ciertos registros, en este caso los primeros y últimos diez registros.

head(poblacion.alumnos, 10)
##    no promedio
## 1   1 91.60891
## 2   2 86.68564
## 3   3 84.06292
## 4   4 80.94624
## 5   5 88.49800
## 6   6 85.42097
## 7   7 81.11855
## 8   8 78.97463
## 9   9 75.81317
## 10 10 86.60781
tail(poblacion.alumnos, 10)
##        no promedio
## 5591 5591 83.61431
## 5592 5592 78.48419
## 5593 5593 79.59696
## 5594 5594 83.86262
## 5595 5595 81.04476
## 5596 5596 87.74938
## 5597 5597 86.64384
## 5598 5598 88.44429
## 5599 5599 88.19806
## 5600 5600 83.74940

La variable de interés es promedio

Con str() se identifica las variables y el tipo de datos del conjunto de datos.

str(poblacion.alumnos)
## 'data.frame':    5600 obs. of  2 variables:
##  $ no      : int  1 2 3 4 5 6 7 8 9 10 ...
##  $ promedio: num  91.6 86.7 84.1 80.9 88.5 ...

Muestra de 300 registros

Se utiliza la función sample() para determinar la muestra, primero se determina con una variable llamada cuantas los registros que serán mostrados, y a partir de ella se determina la muestra.

¿Que sería una muestra?. Sería una parte representativa y aleatoria de una población

¿Como determinar una muestra? Se utiliza la función sample().

promedios$promedios significa la variable específica del conjunto de datos promedios

Determinando la variable N el total de registros de la población con la función nrow() para determinar cuántos registros.

N <- nrow(poblacion.alumnos)

Se determinan los registros de la muestra que pueden estar entre 1 y N con 1:N, replace= FALSE significa que el valor numérico encontrado aleatoriamente por sample, no se puede repetir o por el contrario si se puede repetir con la opción TRUE.

cuales <- sample(x = 1:N, 300, replace = FALSE)
cuales
##   [1] 5252 1787 3939 5317 4786 2348 4335 3741 1141  542 2130 3312 1647 3100 1865
##  [16]  408 2904 5179 2089 2116 2550 2013 4380 5545 1113 2378 5372 2365 3583 3602
##  [31] 2944 5306 3401  727 2358 2129 1844 1387 3701 3344 5156 1905  260 4599 4691
##  [46] 2695 2096 2085 1215  906 4699 2326 1134 5532 3113 2918 2652 2563 2634  896
##  [61] 4803 4005 1507 4634 4229 2328 3304 2827 2577 4507 3343 5177 3337 3728  668
##  [76]  352 2718 1762 1948 1347 2529 4426 1349 5051 3555 1533 3722 3172 3505 5114
##  [91] 1311 3052 2128 2483 1572  315 4357 1634 5157 2982 5028 1680 3561 5033 1966
## [106] 2029 5390 3203 5493 2905 1944 3353 4265  697 4567  137 5490 1671 2312 2450
## [121] 4518  522  904 1381 2294 1936  664 3064  909  735 3313 5219 3730 3309 5282
## [136]  172 1093 5400 1376 4402 2726 3979 5326 5476  688 1268 5158 3738   36 4217
## [151] 2576 3211 1354 3618 4056 1656 3452 1222 2551 4900 3237 2455 2865 1150 4182
## [166] 4295 3195 2507 4894 2845  783 1593 1042 1001 1914  247 2323 4316 3437 2519
## [181] 5498 1412  933 2795 2025 5169  671 3649 4813 4022  592 1644 5500 3926 1131
## [196] 4416 4564  263 2163 1302 4510  445 1618 3403 4185 3079 2400 5369  178 2177
## [211] 1426 2064 5549 1640 5587 2980 4160 2380 2124 3565 4484 3845 5335 2432 2272
## [226] 3345  521 2332 3470  198  555 2362 3953  374 4710 1856 1082 4824 3570 1555
## [241]  226 4159 1681  682 1781  534 1732 3451 4625 3829 3621 1423 3725 3535 4604
## [256] 1187 5561 2624  607 5090 5261 2488 3601  823 3284 2164  953 3747 3225 5331
## [271] 2870 3957  806 4752 2967 4032 4207 2038 2223 1083 5367 4774 5299  132 3910
## [286] 5541  742 5542 1503 5040  529 4482 2065 3043 1327 5289 3092 3528  413 3841

Se determina la muestra de los valores numéricos que arroja la variable cuales con respecto a la población.Se utilizan los corchetes en formato [renglones, columnas] para identificar los registros.

 muestra.alumnos <- poblacion.alumnos[cuales, ]
 head(muestra.alumnos, 10)
##        no promedio
## 5252 5252 89.08937
## 1787 1787 85.01362
## 3939 3939 85.44528
## 5317 5317 81.17640
## 4786 4786 77.27380
## 2348 2348 92.93245
## 4335 4335 87.80256
## 3741 3741 79.12172
## 1141 1141 87.53027
## 542   542 81.64208
 tail(muestra.alumnos, 10)
##        no promedio
## 529   529 91.86776
## 4482 4482 86.70209
## 2065 2065 87.91388
## 3043 3043 87.11106
## 1327 1327 84.92872
## 5289 5289 87.95056
## 3092 3092 84.99711
## 3528 3528 78.47141
## 413   413 83.48532
## 3841 3841 84.72843

Media de la población

Se obtiene la media aritmética de la variable promedio de toda la población con la función mean().

media.poblacion <- mean(poblacion.alumnos$promedio)
media.poblacion
## [1] 84.01415

Media de la muestra

Se obtiene la media aritmética de la variable promedio de la muestra con la función mean().

media.muestra <- mean(muestra.alumnos$promedio)
media.muestra
## [1] 84.06313

Histograma

Un histograma es una representación visual de datos cuantitativo en dos ejes: x & y, la gráfica es en forma de barras y representa como se distribuyen los datos cuantitativos, la altura de la barra indica cuantos datos hay de cada valor.

Se utiliza la función hist() para representar el histograma.

hist(x = poblacion.alumnos$promedio, main = "Histograma. Promedio de la poblacion", xlab = "Promedios", ylab = "Cantidad")

hist(x = poblacion.alumnos$promedio, main = "Histograma. Promedio de la poblacion", xlab = "Promedios", ylab = "Cantidad")

Interpretación

Se hace un análisis descriptivo obteniendo el parámetro media poblacional y el estadístico media de la muestra de la variable promedio; se visualiza mediante un histograma la distribución de los datos con respecto a la población y a la muestra.

La población se compone de 6500 registros u observaciones.

La muestra que se obtiene es de 300 registros

La variable de interés es el promedio que significa un valor numérico que tiene cada alumno con respeto a calificaciones académicas.

El promedio de la población es de 84.0141468.

La media aritmética de la muestra de promedio es de 84.06313.

Los valores de las medias se parecen o son similares, lo que representa que al sacar muestras aleatorias a partir de poblaciones los estadísticos deben ser representativos con respecto a los parámetros de la población.

Las muestras son parte de una población y deben ser aleatorias y representativas.

El histograma representa como se distribuyen los datos, significa que hay muchos promedios entre valores de 80 y 88 aproximadamente.