Objetivo

Elaborar un análisis descriptivo de la variable promedios de alumnos una muestra de la población a partir de la lectura de un archivo promedios.csv

Descripción

Desarrollo

Importar los datos

poblacion.alumnos <- read.csv("https://raw.githubusercontent.com/rpizarrog/Trabajos-en-R-AD2021/main/datos/promedios.csv")

Mostrar los primeros y últimos registros

Con las funciones head() y tail() para extraer ciertos registros, en este caso los primeros y últimos diez registros.

head(poblacion.alumnos, 10)
##    no promedio
## 1   1 91.60891
## 2   2 86.68564
## 3   3 84.06292
## 4   4 80.94624
## 5   5 88.49800
## 6   6 85.42097
## 7   7 81.11855
## 8   8 78.97463
## 9   9 75.81317
## 10 10 86.60781
tail(poblacion.alumnos, 10)
##        no promedio
## 5591 5591 83.61431
## 5592 5592 78.48419
## 5593 5593 79.59696
## 5594 5594 83.86262
## 5595 5595 81.04476
## 5596 5596 87.74938
## 5597 5597 86.64384
## 5598 5598 88.44429
## 5599 5599 88.19806
## 5600 5600 83.74940

La variable de interés es promedio

Con str() se identifica las variables y el tipo de datos del conjunto de datos.

str(poblacion.alumnos)
## 'data.frame':    5600 obs. of  2 variables:
##  $ no      : int  1 2 3 4 5 6 7 8 9 10 ...
##  $ promedio: num  91.6 86.7 84.1 80.9 88.5 ...

Muestra de 300 registros

Se utiliza la función sample() para determinar la muestra, primero se determina con una variable llamada cuantas los registros que serán muestrados, y a partir de ella se determina la muestra.

  • ¿Que sería una muestra?. Sería una parte representativa y aleatoria de una población

  • ¿Como determinar una muestra? Se utiliza la función sample().

  • promedios$promedios significa la variable específica del conjunto de datos promedios

Determinando la variable N el total de registros de la población con la función nrow() para determinar cuántos registros.

N <- nrow(poblacion.alumnos)
N
## [1] 5600

Se determinan los registros de la muestra que pueen estar entre 1 y N con 1:N, replace= FALSE significa que el valor numérico encontrado aleatoriamente por sample, no se puede repetir o por el contrario si se puede repetir con la opción TRUE.

La variable cuales indica los registros que se seleccionarán de entre 1 y 5600 de manera aleatoria.

cuales <- sample(x = 1:N, 300, replace = FALSE)
cuales
##   [1] 4908  193 1942 3661 2246 1524  164 1073 1072 2841  775 1322 4893 1790  504
##  [16] 3261 3895 1594 4163  958 2716  331 1904  394 3347  620   22 1518 4354 2081
##  [31]  322 3824 5219 1463 2073 3481 4587 5307 5481 4422 3795  142 5428  458  545
##  [46] 2845 1422  430 3730 1652 4697 1636 4858 1535 4024 1067  731  965 3950  848
##  [61]  205 4559 2611 3804 3493 5182 1677  440 1621 3388 1645 1642 2479 1235 4064
##  [76] 3178 4483 3845 3621 5454 2575 3129 2954 1734 4832 3353 4750  520  391 5225
##  [91]  560 4739 3303 3509 1678 3897 1682 2000  842 5272 1042  377 3126 5183 3400
## [106] 1748 1743  294 1142 1469 2644 4177  523 4539 3038 2142 3706 3316 2941  370
## [121]  992 5471 3587 5525 4076 4810 1530 1979 1146  797  601 2928 1946 3114  625
## [136] 3709 3865 1416 1060 2523 1792 1948  671  547  632  407  999 2484 5387 4558
## [151] 1698 4008  403 5379 1169 4918 1135 1811 4512 1725  602  561 1357 3931 2483
## [166] 2885 2406 5530 5018  952  591 3725 5523 4093 1403 5278 3184  490 5060 1356
## [181] 3043 2473 3242 5091 2518 1825  122 4467 2154 4157 1512  872 4573 4840 4282
## [196] 5197 3139 2221 2328 2239 2662 3627 2380 5346 3131  886 4159 2200 1352 5289
## [211] 3475 1327  832 3412 1316 1834 1409 5050 1934  450 2970 1242 1707 3892 4550
## [226] 5571 4584 2099 4312 1022  672   18 5276 1971 1759 1783 2392 4033 4497 4611
## [241] 1230  629 2656 3967 1399  692 1293 5232 3112 3172  271  470 2184 4345 2870
## [256] 1733 3086 4167  323 4411  576 1127 4911  537 1443 4622 4412 5451 3969 4853
## [271]  675 4910  934 4385 3941 4112  881  810 4637 3862 3915 1241 4477 5016  928
## [286]  752 4757 5177 2766  250 3326 3328 1125  202 1649 3266 4320 3815   42 3042

Se determina la muestra de los valores numéricos que arroja la variable cuales con respecto a la población.Se utilizan los corchetes en formato [renglones, columnas] para identificar los registros.

muestra.alumnos <- poblacion.alumnos[cuales, ] # , espacio significa las dos columnas o todas las columnas [renglón, columna]
head(muestra.alumnos, 10)
##        no promedio
## 4908 4908 75.63131
## 193   193 79.74357
## 1942 1942 82.97422
## 3661 3661 81.17837
## 2246 2246 90.79347
## 1524 1524 83.23006
## 164   164 86.62637
## 1073 1073 94.82835
## 1072 1072 87.89998
## 2841 2841 80.55919
tail(muestra.alumnos, 10)
##        no promedio
## 3326 3326 78.82812
## 3328 3328 80.51597
## 1125 1125 81.95404
## 202   202 86.54817
## 1649 1649 88.83146
## 3266 3266 73.59036
## 4320 4320 90.82739
## 3815 3815 86.96560
## 42     42 88.56168
## 3042 3042 76.20763

Media de la población

Se obtiene la media aritmética de la variable promedio de toda la población con la función mean().

media.poblacion <- mean(poblacion.alumnos$promedio)
media.poblacion
## [1] 84.01415

Media de la muestra

Se obtiene la media aritmética de la variable promedio de la muestra con la función mean().

media.muestra <- mean(muestra.alumnos$promedio)
media.muestra
## [1] 84.09812

Histograma

Un histograma es una representación visual de datos cuantitativo en dos ejes: x & y, la gráfica es en forma de barras y representa como se distribuyen los datos cuantitativos, la altura de la barra indica cuantos datos hay de cada valor.

Se utiliza la función hist() para representar el histograma.

Histograma de la población de la variable promedio.

hist(x = poblacion.alumnos$promedio, main = "Histograma. Promedio de la población", xlab = "Promedios", ylab = "Cantidad")

Histograma de la muestra de la variable promedio.

hist(x = muestra.alumnos$promedio, main="Histograma. Promedio de la muestra", xlab = "Promedios", ylab = "Cantidad")

Interpretación

Se hace un análisis descriptivo obteniendo el parámetro media poblacional y el estadístico media de la muestra de la variable promedio; se visualiza la distribución de los datos con respecto a la población y a la muestra mediante un histograma.

Son 6500 registros u observaciones de los cuales se compone la población.

Se obtiene una muestra que es de 300 registros.

La variable de interés es el promedio que significa un valor numérico que tiene cada alumno con respeto a calificaciones académicas.

EL promedio de la población es de 84.0141468

La media aritmética de la muestra de promedio es de 84.0981189.

Los valores de las medias se parecen o son similares, lo que representa que al sacar muestras aleatorias a partir de poblaciones los estadísticos deben ser representativos con respecto a los parámetros de la población.

Las muestras son parte de una población y deben ser aleatorias y representativas.

El histograma representa como se distribuyen los datos, significa que hay muchos promedios entre valores de 80 y 88 aproximadamente.