Objetivo

Elaborar un análisis descriptivo de la variable promedios de alumnos una muestra de la población a partir de la lectura de un archivo promedios.csv

Desarrollo

Importar los datos

poblacion.alumnos <- read.csv("https://raw.githubusercontent.com/rpizarrog/Trabajos-en-R-AD2021/main/datos/promedios.csv")

Mostrar los primeros y últimos registros

Con las funciones head() y tail() para extraer ciertos registros, en este caso los primeros y últimos diez registros.

head(poblacion.alumnos, 10)
##    no promedio
## 1   1 91.60891
## 2   2 86.68564
## 3   3 84.06292
## 4   4 80.94624
## 5   5 88.49800
## 6   6 85.42097
## 7   7 81.11855
## 8   8 78.97463
## 9   9 75.81317
## 10 10 86.60781
tail(poblacion.alumnos, 10)
##        no promedio
## 5591 5591 83.61431
## 5592 5592 78.48419
## 5593 5593 79.59696
## 5594 5594 83.86262
## 5595 5595 81.04476
## 5596 5596 87.74938
## 5597 5597 86.64384
## 5598 5598 88.44429
## 5599 5599 88.19806
## 5600 5600 83.74940

La variable de interés es promedio

Con str() se identifica las variables y el tipo de datos del conjunto de datos.

str(poblacion.alumnos)
## 'data.frame':    5600 obs. of  2 variables:
##  $ no      : int  1 2 3 4 5 6 7 8 9 10 ...
##  $ promedio: num  91.6 86.7 84.1 80.9 88.5 ...

Muestra de 300 registros

Se utiliza la función sample() para determinar la muestra, primero se determina con una variable llamada cuantas los registros que serán muestrados, y a partir de ella se determina la muestra.

  • ¿Que sería una muestra?. Sería una parte representativa y aleatoria de una población

  • ¿Como determinar una muestra? Se utiliza la función sample().

  • promedios$promedios significa la variable específica del conjunto de datos promedios

Determinando la variable N el total de registros de la población con la función nrow() para determinar cuántos registros.

N <- nrow(poblacion.alumnos)
N
## [1] 5600

Se determinan los registros de la muestra que pueen estar entre 1 y N con 1:N, replace= FALSE significa que el valor numérico encontrado aleatoriamente por sample, no se puede repetir o por el contrario si se puede repetir con la opción TRUE.

La variable cuales indica los registros que se seleccionarán de entre 1 y 5600 de manera aleatoria.

cuales <- sample(x = 1:N, 300, replace = FALSE)
cuales
##   [1] 5516  426  832 3621 5543 2183 2330 1932 2563 2076 1950 2365 1952 3327  491
##  [16] 2612 1506 4009 1730 2045 5260 3424 2091 3376  987 4449 4205 2989 4268 2051
##  [31] 2421  975 3020 4038 4499 2157 1179 4325 4554 4721 1891 4054  978 4930 4626
##  [46] 2325 1325  473  131  777  293 1720 3799 1899 5393 1253 4395 3197 5233 4213
##  [61] 5446 5349 5002 1556 4161  705 1023  147 4749 4196 5338 1396  202 4131  114
##  [76] 4829 2644 1920 5021 2474 5113 1311  930 4739 4831 1486 3927 4455 3764 2284
##  [91] 5253 1676  651  111 1682 3801 5239 1280 3448  287 5234 5337 1924  130  312
## [106] 3432 4733  468 4188  750 4248 5497 3254 4791  427 2909 4299 2104  661 3153
## [121] 4294 4818 1713  541 1898 1852 4798 1089 5114 5087 5353  788 5116 2725 2697
## [136]  974 2311 3587 3258 2622 4067 4287 2225 1277 4874 1652 5431  314  476 1837
## [151] 2193 3124 1470 5590 2987 4579 3784  996 2488 3166 2309 3300 2550 1549 1992
## [166] 4530 4351 1887 1933  406 2581 2837   78 2462 1595 5548 5488 4095 3515 4430
## [181] 1105 1211 1794 5093 5023 1558 3337 3175 1351 2878 2229 5231 2608 3259 1906
## [196]  743 1929 2790   40 2146  884 2158 3246 3642 3471 1627 2876 5134  400 3487
## [211]  645 3629 2538  602 3524 2390 1750 4649 2919 2240 1755 1299 4841 4623 2445
## [226] 2075 3693 1768 4646 4917 3159 1032 2167  991 2565 3281 3309 3458 1611 3707
## [241] 2961 1275 3813 5199 3325 4332 1944 1240 4698 1800 2323 4872 4195 1063 1313
## [256] 2815 4863 2696 1473 5530 3635 1377 3754 1634 1821 1017  290  320 5052 3777
## [271]  106 2081 1762  597  315 1879 2095 5592 3324 3377 3869 4150 2519 2131  572
## [286]   63 2587 2151 3275 1352  179 1520 2257 3543 3382 3951 4655 4167 1435 4474

Se determina la muestra de los valores numéricos que arroja la variable cuales con respecto a la población.Se utilizan los corchetes en formato [renglones, columnas] para identificar los registros.

muestra.alumnos <- poblacion.alumnos[cuales, ] # , espacio significa las dos columnas o todas las columnas [renglón, columna]
head(muestra.alumnos, 10)
##        no promedio
## 5516 5516 88.05922
## 426   426 84.15411
## 832   832 84.55596
## 3621 3621 92.38219
## 5543 5543 83.57710
## 2183 2183 83.04726
## 2330 2330 79.50714
## 1932 1932 75.62677
## 2563 2563 87.19167
## 2076 2076 86.54433
tail(muestra.alumnos, 10)
##        no promedio
## 179   179 80.47071
## 1520 1520 93.50413
## 2257 2257 83.73744
## 3543 3543 78.96481
## 3382 3382 87.22567
## 3951 3951 80.11931
## 4655 4655 79.58905
## 4167 4167 78.01314
## 1435 1435 85.31309
## 4474 4474 96.20613

Media de la población

Se obtiene la media aritmética de la variable promedio de toda la población con la función mean().

media.poblacion <- mean(poblacion.alumnos$promedio)
media.poblacion
## [1] 84.01415

Media de la muestra

Se obtiene la media aritmética de la variable promedio de la muestra con la función mean().

media.muestra <- mean(muestra.alumnos$promedio)
media.muestra
## [1] 83.86682

Histograma

Un histograma es una representación visual de datos cuantitativo en dos ejes: x & y, la gráfica es en forma de barras y representa como se distribuyen los datos cuantitativos, la altura de la barra indica cuantos datos hay de cada valor.

Se utiliza la función hist() para representar el histograma.

Histograma de la población de la variable promedio.

hist(x = poblacion.alumnos$promedio, main = "Histograma. Promedio de la población", xlab = "Promedios", ylab = "Cantidad")

Histograma de la muestra de la variable promedio.

hist(x = muestra.alumnos$promedio, main="Histograma. Promedio de la muestra", , xlab = "Promedios", ylab = "Cantidad")

Interpretacion

o que tenenemos aqui es un conjunto de calificaciones de las cuelaes se va a sacar una media de la poblacion en total que es de 5600 personas y la media de una muestra de 300 personas, se puede observar la coherencia de los datos con la media aritmetica de la poblacion y de la muestra que cada uno consta de 84 y con una pequeña variacion en los decimales, en el histograma podemos observar graficamente los datos para darnos algo mas fisico para interpretarlo