Objetivo

Elaborar un análisis descriptivo de la variable promedios de alumnos una muestra de la población a partir de la lectura de un archivo promedios.csv

Descripción

Desarrollo

Importar los datos

poblacion.alumnos <- read.csv("https://raw.githubusercontent.com/rpizarrog/Trabajos-en-R-AD2021/main/datos/promedios.csv")

Mostrar los primeros y últimos registros

Con las funciones head() y tail() para extraer ciertos registros, en este caso los primeros y últimos diez registros.

head(poblacion.alumnos, 10)
##    no promedio
## 1   1 91.60891
## 2   2 86.68564
## 3   3 84.06292
## 4   4 80.94624
## 5   5 88.49800
## 6   6 85.42097
## 7   7 81.11855
## 8   8 78.97463
## 9   9 75.81317
## 10 10 86.60781
tail(poblacion.alumnos, 10)
##        no promedio
## 5591 5591 83.61431
## 5592 5592 78.48419
## 5593 5593 79.59696
## 5594 5594 83.86262
## 5595 5595 81.04476
## 5596 5596 87.74938
## 5597 5597 86.64384
## 5598 5598 88.44429
## 5599 5599 88.19806
## 5600 5600 83.74940

La variable de interés es promedio

Con str() se identifica las variables y el tipo de datos del conjunto de datos.

str(poblacion.alumnos)
## 'data.frame':    5600 obs. of  2 variables:
##  $ no      : int  1 2 3 4 5 6 7 8 9 10 ...
##  $ promedio: num  91.6 86.7 84.1 80.9 88.5 ...

Muestra de 300 registros

Se utiliza la función sample() para determinar la muestra, primero se determina con una variable llamada cuantas los registros que serán muestrados, y a partir de ella se determina la muestra.

  • ¿Que sería una muestra?. Sería una parte representativa y aleatoria de una población

  • ¿Como determinar una muestra? Se utiliza la función sample().

  • promedios$promedios significa la variable específica del conjunto de datos promedios

Determinando la variable N el total de registros de la población con la función nrow() para determinar cuántos registros.

N <- nrow(poblacion.alumnos)

Se determinan los registros de la muestra que pueen estar entre 1 y N con 1:N, replace= FALSE significa que el valor numérico encontrado aleatoriamente por sample, no se puede repetir o por el contrario si se puede repetir con la opción TRUE.

cuales <- sample(x = 1:N, 300, replace = FALSE)
cuales
##   [1] 4778 3271 1893 4853 4620 4961  953 3886 2798 1568 5192 4058 1112 3639 1667
##  [16]  667 1180 5541 3016 2025  310 4493 2193 3325 2949  232  898 1679 4822 3818
##  [31] 1360 2239  785   25 3090 2048 2923 4100 3892 4491 2766 2972 3244 5211 5348
##  [46] 5454 2079 3620 3710 1490  268 3304 5184 1615 2347 4619 3412 4429 1048 1938
##  [61]  414  320  225 3743  632  794 1981 1588 1701 3360 2656 2476 3353 4679 2513
##  [76] 3617 4962 3373 1351 4761 1753 3245 3721   95 2736 2123 1995 5481 1655 4127
##  [91] 4971 2244 3489 1382  308 2257  290 1438 3594 2977 4319 4649 3481 4051 3198
## [106] 5142 4217  286 2797 2180  833  962 3119 3937 1085 3320 1809 5357 1486  843
## [121] 2483 4970 2613 3555 4990 4865  145  902 2367 2112 2353 3191  179 1068 1095
## [136] 3607 4066 1005 2433 2683 2930 4605 1774 4958 3280  396  959 5546 1817 3916
## [151] 1254 2671  646 1607 3195 5181 3770  460 4433 1804 1040 2601 3157 1692  194
## [166] 2793 1219  213 3239 1116 5420 1908 3370 2318 3292 2305 5194  294 1500 5407
## [181] 3366 3089 3910  296  964  273 4244 5374 4298 2947 2870  398 3227 1762 1481
## [196]  917 4339 2313 4709 5545 3981 4566  369 2912 1508 1244 3574 2240 4570 4939
## [211]  279 1111 2954 3841 2271 3689  355 3733 3235 5201 2770 4122 5140 1066 3369
## [226] 4914 2876  337 1765 4296 1013 4936 3070 4683 2303 3949 3260 3445 2829 1332
## [241] 2250 1478  790 4503 3888 4558 4499 2989  184 2227 3831 1282  360  383 2132
## [256] 3993 3893 1730 2909 1532 3851  416 5317 3866 3597 2036  425 3608 2004 3101
## [271] 2315 5386 2306 1121 4029 3447 1744  249 3264 3970 3783 2167 2719 2781 2242
## [286]  402 3431 5293 1512 4995  517 5480 3117 2745 5157 3954 2565 4707 3392 1890

Se determina la muestra de los valores numéricos que arroja la variable cuales con respecto a la población.Se utilizan los corchetes en formato [renglones, columnas] para identificar los registros.

muestra.alumnos <- poblacion.alumnos[cuales, ] # , espacio significa las dos columnas o todas las columnas
head(muestra.alumnos, 10)
##        no promedio
## 4778 4778 85.68240
## 3271 3271 94.04465
## 1893 1893 90.18924
## 4853 4853 84.98733
## 4620 4620 81.80695
## 4961 4961 84.41514
## 953   953 77.84288
## 3886 3886 77.73433
## 2798 2798 96.34264
## 1568 1568 86.25262
tail(muestra.alumnos, 10)
##        no promedio
## 517   517 82.16971
## 5480 5480 80.07579
## 3117 3117 83.78592
## 2745 2745 79.41748
## 5157 5157 86.34264
## 3954 3954 88.61780
## 2565 2565 88.96403
## 4707 4707 85.60240
## 3392 3392 69.38109
## 1890 1890 86.20512

Media de la población

Se obtiene la media aritmética de la variable promedio de toda la población con la función mean().

media.poblacion <- mean(poblacion.alumnos$promedio)
media.poblacion
## [1] 84.01415

Media de la muestra

Se obtiene la media aritmética de la variable promedio de la muestra con la función mean().

media.muestra <- mean(muestra.alumnos$promedio)
media.muestra
## [1] 84.14199

Histograma

Un histograma es una representación visual de datos cuantitativo en dos ejes: x & y, la gráfica es en forma de barras y representa como se distribuyen los datos cuantitativos, la altura de la barra indica cuantos datos hay de cada valor.

Se utiliza la función hist() para representar el histograma.

hist(x = poblacion.alumnos$promedio, main = "Histograma. Promedio de la población", xlab = "Promedios", ylab = "Cantidad")

hist(x = muestra.alumnos$promedio, main="Histograma. Promedio de la muestra",  xlab = "Promedios", ylab = "Cantidad")

Interpretación

Se hace un análisis descriptivo obteniendo el parámetro media poblacional y el estadístico media de la muestra de la variable promedio; se visualiza mediante un histograma la distribución de los datos con respecto a la población y a la muestra.

Hay 6500 registros en nuestra poblacion y obtendremos una muestra de 300 registros.

. El promedio es nuestra variable de interes la cual es de tipo numerico de acuerdo a las calificaciones academicas de cada alumno.

EL promedio de la población es de 84.0141468

La media aritmética de la muestra de promedio es de 84.1419873.

Los valores de las medias se parecen o son similares, lo que representa que al sacar muestras aleatorias a partir de poblaciones los estadísticos deben ser representativos con respecto a los parámetros de la población.

Las muestras son parte de una población y deben ser aleatorias y representativas.

Para representar los datos se utilizo un histograma en el cual se muestra que varios alumnos se encuentran, con respecto a su promedio en los valores de 80 y 88