Objetivo

Elaborar un análisis descriptivo de la variable promedios de alumnos una muestra de la población a partir de la lectura de un archivo promedios.csv

Descripción

Desarrollo

Importar los datos

poblacion.alumnos <- read.csv("https://raw.githubusercontent.com/rpizarrog/Trabajos-en-R-AD2021/main/datos/promedios.csv")

Mostrar los primeros y últimos registros

Con las funciones head() y tail() para extraer ciertos registros, en este caso los primeros y últimos diez registros.

head(poblacion.alumnos, 10)
##    no promedio
## 1   1 91.60891
## 2   2 86.68564
## 3   3 84.06292
## 4   4 80.94624
## 5   5 88.49800
## 6   6 85.42097
## 7   7 81.11855
## 8   8 78.97463
## 9   9 75.81317
## 10 10 86.60781
tail(poblacion.alumnos, 10)
##        no promedio
## 5591 5591 83.61431
## 5592 5592 78.48419
## 5593 5593 79.59696
## 5594 5594 83.86262
## 5595 5595 81.04476
## 5596 5596 87.74938
## 5597 5597 86.64384
## 5598 5598 88.44429
## 5599 5599 88.19806
## 5600 5600 83.74940

La variable de interés es promedio

Con str() se identifica las variables y el tipo de datos del conjunto de datos.

str(poblacion.alumnos)
## 'data.frame':    5600 obs. of  2 variables:
##  $ no      : int  1 2 3 4 5 6 7 8 9 10 ...
##  $ promedio: num  91.6 86.7 84.1 80.9 88.5 ...

Muestra de 300 registros

Se utiliza la función sample() para determinar la muestra, primero se determina con una variable llamada cuantas los registros que serán muestrados, y a partir de ella se determina la muestra.

  • ¿Que sería una muestra?. Sería una parte representativa y aleatoria de una población

  • ¿Como determinar una muestra? Se utiliza la función sample().

  • promedios$promedios significa la variable específica del conjunto de datos promedios

Determinando la variable N el total de registros de la población con la función nrow() para determinar cuántos registros.

N <- nrow(poblacion.alumnos)
N
## [1] 5600

Se determinan los registros de la muestra que pueen estar entre 1 y N con 1:N, replace= FALSE significa que el valor numérico encontrado aleatoriamente por sample, no se puede repetir o por el contrario si se puede repetir con la opción TRUE.

La variable cuales indica los registros que se seleccionarán de entre 1 y 5600 de manera aleatoria.

cuales <- sample(x = 1:N, 300, replace = FALSE)
cuales
##   [1] 1711 1534 4075 4493  596 3973 4023 1045  554 2412 2052 1659 1656 1849 2899
##  [16]  518 1434 1602 1348 4380 4856 5203  486 2585 3955 1048 1333 1180 3028  454
##  [31] 2016 5304 3805 3909 4878 3194 4436 3976 2270 1941  793 1029 1258  449 2417
##  [46] 4282 5154  935 2206  820 4248  949 4278 1354 4635 2398  776 2567 4284  587
##  [61] 5320 4426 3269  929 4166 5449  251   39 5296 3584 2575 2765  439   45 5102
##  [76] 5100 2431 2740 2913 5133 3680 3570 3676 3652 3964  553 5546  358 1786  188
##  [91]    3 2105 4871 4706 3727 2906 5261 4239 1929 4650 4236 1352 2044 3463 3821
## [106] 1615 2626 4005 1961 1803 1181 1497 2987 5275 4979  177 3904 2267 4752 3533
## [121] 2401 3892 1294 3883  936 4830 5564 3940 4368 3300 3672 4707 5420 5499 3070
## [136] 2258  237 5210 2299 1086 2664 3017   28 2636  679 3202 4386  315 4382  579
## [151] 2470 1248  981  866  650  419 2943 5029 4708 3410 2847 4659 3915 1915 2587
## [166] 5110 3315 3077 3804 1008 4308 2802  217 3092 3968 2892 3551 2712  351 3290
## [181] 4018  543 2747 2288 4710 1415 4139 3310 4261 4640  174 5074 1015 5462 1043
## [196] 3470 2954 5231 3696 1055    4 4804 2681  904 4859 2345  573 5470 1977  919
## [211] 1670 3416  870 2346 2338 1564  825 5431 3175 3225 1116 3888 1014 1702 5005
## [226]  290 1027  944 4821 2241   65  722 4851 4143  714 1370  192 1928 3529 4059
## [241]  310 3900  983 1949 1511 5121 2482 2343  815 1594 5551 3556  444 2922 2926
## [256] 1607 2107  146 1276 1782  649 1158 4297 1483 1960 2234  885 3427 3237 2444
## [271] 2614 4358 5346   77 3025 2617  968 3477 3387 2662 2927  268  913 1778 1852
## [286] 3324 1724 4689 4955 2971 4595 4191 1162 3014 3085 2242 3337 4718 3532  170

Se determina la muestra de los valores numéricos que arroja la variable cuales con respecto a la población.Se utilizan los corchetes en formato [renglones, columnas] para identificar los registros.

muestra.alumnos <- poblacion.alumnos[cuales, ] # , espacio significa las dos columnas o todas las columnas [renglón, columna]
head(muestra.alumnos, 10)
##        no promedio
## 1711 1711 91.20566
## 1534 1534 86.82083
## 4075 4075 80.26955
## 4493 4493 86.08564
## 596   596 91.99672
## 3973 3973 89.48943
## 4023 4023 86.68328
## 1045 1045 85.62659
## 554   554 88.02626
## 2412 2412 90.14289
tail(muestra.alumnos, 10)
##        no promedio
## 4595 4595 91.36256
## 4191 4191 85.45383
## 1162 1162 84.42295
## 3014 3014 85.96815
## 3085 3085 87.95796
## 2242 2242 81.38282
## 3337 3337 85.74801
## 4718 4718 78.72081
## 3532 3532 81.47736
## 170   170 73.70145

Media de la población

Se obtiene la media aritmética de la variable promedio de toda la población con la función mean().

media.poblacion <- mean(poblacion.alumnos$promedio)
media.poblacion
## [1] 84.01415

Media de la muestra

Se obtiene la media aritmética de la variable promedio de la muestra con la función mean().

media.muestra <- mean(muestra.alumnos$promedio)
media.muestra
## [1] 83.91315

Histograma

Un histograma es una representación visual de datos cuantitativo en dos ejes: x & y, la gráfica es en forma de barras y representa como se distribuyen los datos cuantitativos, la altura de la barra indica cuantos datos hay de cada valor.

Se utiliza la función hist() para representar el histograma.

Histograma de la población de la variable promedio.

hist(x = poblacion.alumnos$promedio, main = "Histograma. Promedio de la población", xlab = "Promedios", ylab = "Cantidad")

Histograma de la muestra de la variable promedio.

hist(x = muestra.alumnos$promedio, main="Histograma. Promedio de la muestra", , xlab = "Promedios", ylab = "Cantidad")

Interpretación

Se hace un análisis descriptivo de un registro de alumnos para obtener la media poblacional y la media de la muestra de la variable promedio, esto se mostrará en un histograma donde se mostrarán la cantidad de registros y el promedio de los alumnos.

El total de registros con el que se va a trabajar son 5600 de alumnos y la muestra que se va a tomar de estos alumnos son 300 registros tomados aleatoriamente.

Se obtiene la media aritmética de la variable promedio de los alumnos y nos da 84.01415

Se obtiene la variable promedio de la muestra de los alumnos y nos da 84.13893

En el histograma nos muestra como están distribuidos los datos y nos muestra que el promedio de los alumnos esta entre valores de 80 y 88 aproximadamente.