Objetivo

Elaborar un análisis descriptivo de la variable promedios de alumnos una muestra de la población a partir de la lectura de un archivo promedios.csv

Descripción

Desarrollo

Importar los datos

poblacion.alumnos <- read.csv("https://raw.githubusercontent.com/rpizarrog/Trabajos-en-R-AD2021/main/datos/promedios.csv")

Mostrar los primeros y últimos registros

Con las funciones head() y tail() para extraer ciertos registros, en este caso los primeros y últimos diez registros.

head(poblacion.alumnos, 10)
##    no promedio
## 1   1 91.60891
## 2   2 86.68564
## 3   3 84.06292
## 4   4 80.94624
## 5   5 88.49800
## 6   6 85.42097
## 7   7 81.11855
## 8   8 78.97463
## 9   9 75.81317
## 10 10 86.60781
tail(poblacion.alumnos, 10)
##        no promedio
## 5591 5591 83.61431
## 5592 5592 78.48419
## 5593 5593 79.59696
## 5594 5594 83.86262
## 5595 5595 81.04476
## 5596 5596 87.74938
## 5597 5597 86.64384
## 5598 5598 88.44429
## 5599 5599 88.19806
## 5600 5600 83.74940

La variable de interés es promedio

Con str() se identifica las variables y el tipo de datos del conjunto de datos.

str(poblacion.alumnos)
## 'data.frame':    5600 obs. of  2 variables:
##  $ no      : int  1 2 3 4 5 6 7 8 9 10 ...
##  $ promedio: num  91.6 86.7 84.1 80.9 88.5 ...

Muestra de 300 registros

Se utiliza la función sample() para determinar la muestra, primero se determina con una variable llamada cuantas los registros que serán muestrados, y a partir de ella se determina la muestra.

  • ¿Que sería una muestra?. Sería una parte representativa y aleatoria de una población

  • ¿Como determinar una muestra? Se utiliza la función sample().

  • promedios$promedios significa la variable específica del conjunto de datos promedios

Determinando la variable N el total de registros de la población con la función nrow() para determinar cuántos registros.

N <- nrow(poblacion.alumnos)

Se determinan los registros de la muestra que pueen estar entre 1 y N con 1:N, replace= FALSE significa que el valor numérico encontrado aleatoriamente por sample, no se puede repetir o por el contrario si se puede repetir con la opción TRUE.

cuales <- sample(x = 1:N, 300, replace = FALSE)
cuales
##   [1] 3061 3445  851 1994 3417 1895 2231 5439 4707 3032  197 3758 5139  501 4251
##  [16] 4935 2725 3587 2709 4395 2659 1804  210 4577 3419 1591 5566 4780 4050 1141
##  [31]  426 5043  401 2152  871 4552 2808 1997 5005 2078  266 4280 5253 4714  252
##  [46] 2779 1794 3015 1656 1998 5401 3731  217 2872 1090 1862 1441 4127 2680 2181
##  [61] 3205  974 1410 4268 3832 4051 3115 4773 3173 2982   93 2323  423 5405 5399
##  [76] 2203 1558 2886 1919 2497 1295  897 4547 4218 4243 3302 4476 1202 4249  335
##  [91] 3339 4123 4978 4674  411  512  220 4403 3326 1749 1876 3599 2401 1988 3527
## [106] 1685 3101   21 3332 3906 3493 2058  373 3307 2254 4067 3441 2308 3427 1541
## [121] 4343 3818 2415 3172 5283 3080 3977 1725 4479 1151 1370 4840 1550 1450 3962
## [136]  886 3039 4573 1167 2352   65  505 4561 5116 1713 2319 5280 3866 3057 4076
## [151] 3848  532 3288 3548 5264  640 1805 5233  581 4538 4769 1639 3833 5308  112
## [166] 1453 2180  326 5184 1134 2168 4795  230 4131 2041 3128 5496 3415 2933 4938
## [181]  224 5137 2212  946 3897   68  548 1961 5369 4316  486 1198 3246 1649  258
## [196] 5073 2075  274 1886 4462 4228 1073 1379 4523   64 3076 2145 2298  127 4885
## [211] 1546 4830 2721 3718 1617 1594 1846 2013  232 4653 2471 3675 3812 4001 4065
## [226]  409 3697 4308 4406 4985 5509 2851 4180 1620 5404 2045 5303  353 4613  170
## [241] 1420 2907 3019 1634 1830 2434 3294 2687 5026  699 1457 1203 4054 1333 4422
## [256] 5111 2403  965 2585 3289 5225 2431   47 1173 3519 4597 1233 1486 5255 4716
## [271] 1236 5320 3157 3806 4671 1122 1817 1142  884 5072 1175 2043  638 2639 2141
## [286] 4926 2594 5292 2459 4681 4543 3446 1443 2777 3626 5595 2563 2135 2018 1863

Se determina la muestra de los valores numéricos que arroja la variable cuales con respecto a la población.Se utilizan los corchetes en formato [renglones, columnas] para identificar los registros.

muestra.alumnos <- poblacion.alumnos[cuales, ] # , espacio significa las dos columnas o todas las columnas
head(muestra.alumnos, 10)
##        no promedio
## 3061 3061 86.97580
## 3445 3445 89.28300
## 851   851 84.45648
## 1994 1994 85.20263
## 3417 3417 83.64319
## 1895 1895 85.71655
## 2231 2231 81.14899
## 5439 5439 82.18541
## 4707 4707 85.60240
## 3032 3032 82.09912
tail(muestra.alumnos, 10)
##        no promedio
## 4543 4543 84.79567
## 3446 3446 85.80689
## 1443 1443 71.65135
## 2777 2777 80.34453
## 3626 3626 80.16939
## 5595 5595 81.04476
## 2563 2563 87.19167
## 2135 2135 89.10909
## 2018 2018 83.82577
## 1863 1863 86.40289

Media de la población

Se obtiene la media aritmética de la variable promedio de toda la población con la función mean().

media.poblacion <- mean(poblacion.alumnos$promedio)
media.poblacion
## [1] 84.01415

Media de la muestra

Se obtiene la media aritmética de la variable promedio de la muestra con la función mean().

media.muestra <- mean(muestra.alumnos$promedio)
media.muestra
## [1] 83.88901

Histograma

Un histograma es una representación visual de datos cuantitativo en dos ejes: x & y, la gráfica es en forma de barras y representa como se distribuyen los datos cuantitativos, la altura de la barra indica cuantos datos hay de cada valor.

Se utiliza la función hist() para representar el histograma.

hist(x = poblacion.alumnos$promedio, main = "Histograma. Promedio de la población", xlab = "Promedios", ylab = "Cantidad")

hist(x = muestra.alumnos$promedio, main="Histograma. Promedio de la muestra", , xlab = "Promedios", ylab = "Cantidad")

Interpretación

En este trabajo se elaboro un analisis descriptivo de nuestra variable promedios de alumnos , los datos aqui mostrados fueron proporcionados mediante links y tambien se llego a una muestra de 300 registros para la finalizacion de la media de la poblacion de alumnos (5600).