Objetivo

Elaborar un análisis descriptivo de la variable promedios de alumnos una muestra de la población a partir de la lectura de un archivo promedios.csv

Descripción

Importar datos de promedio en la dirección: https://raw.githubusercontent.com/rpizarrog/Trabajos-en-R-AD2021/main/datos/promedios.csv y dejarlo en un data.frame.

Mostrar solo los primeros diez registros y los últimos diez registros.

Identificar la variable de interés llamada promedio.

Determinar una muestra de 300 registros de la población. La población es todos los registros del archivo y la muestra es una parte de la población

Identifica la media de la población

Identificar la media de la muestra

Comparar las medias aritméticas

Crear un histograma de los datos

Realizar interpretación

Desarrollo

Importar los datos

poblacion.alumnos <- read.csv("https://raw.githubusercontent.com/rpizarrog/Trabajos-en-R-AD2021/main/datos/promedios.csv")

Mostrar los primeros y últimos registros

Con las funciones head() y tail() para extraer ciertos registros, en este caso los primeros y últimos diez registros.

head(poblacion.alumnos, 10)
##    no promedio
## 1   1 91.60891
## 2   2 86.68564
## 3   3 84.06292
## 4   4 80.94624
## 5   5 88.49800
## 6   6 85.42097
## 7   7 81.11855
## 8   8 78.97463
## 9   9 75.81317
## 10 10 86.60781
tail(poblacion.alumnos, 10)
##        no promedio
## 5591 5591 83.61431
## 5592 5592 78.48419
## 5593 5593 79.59696
## 5594 5594 83.86262
## 5595 5595 81.04476
## 5596 5596 87.74938
## 5597 5597 86.64384
## 5598 5598 88.44429
## 5599 5599 88.19806
## 5600 5600 83.74940

La variable de interés es promedio Con str() se identifica las variables y el tipo de datos del conjunto de datos.

str(poblacion.alumnos)
## 'data.frame':    5600 obs. of  2 variables:
##  $ no      : int  1 2 3 4 5 6 7 8 9 10 ...
##  $ promedio: num  91.6 86.7 84.1 80.9 88.5 ...

Muestra de 300 registros

Se utiliza la función sample() para determinar la muestra, primero se determina con una variable llamada cuantas los registros que serán muestrados, y a partir de ella se determina la muestra.

¿Que sería una muestra?. Sería una parte representativa y aleatoria de una población

¿Como determinar una muestra? Se utiliza la función sample().

promedios$promedios significa la variable específica del conjunto de datos promedios

Determinando la variable N el total de registros de la población con la función nrow() para determinar cuántos registros.

N <- nrow(poblacion.alumnos)

Se determinan los registros de la muestra que pueen estar entre 1 y N con 1:N, replace= FALSE significa que el valor numérico encontrado aleatoriamente por sample, no se puede repetir o por el contrario si se puede repetir con la opción

cuales <- sample(x = 1:N, 300, replace = FALSE)
cuales
##   [1] 1606 1622 1520 5418 4870 1629 4105 2638 4299 3888 3616 1548 1465 4980 1225
##  [16] 4753 2922 4584  188 3834 5362 2729 5052 1399 1039 4422 4997 1514 5375 4200
##  [31] 5209 3029 5141 3130  559   57  739 2963 2125  971  251  819 4430 3678 4111
##  [46] 3235 1833  619 4385 4075 3735  829 1194 2311  479 4457 1692  151 4217  458
##  [61] 5332 3871 5019 3111 1313 1616 3772  281 4641 1791 2722  348  351 1012 4216
##  [76] 2489 5333  978 3776   20 2934 2841 2895 5407 4618 3688 1079 2277 2299 4086
##  [91] 1907  799 5352 5075 3196  362 4178 2014 3908 1044 3369 2910  866 1737 2482
## [106] 2913 2340 4812 2689   98 3955 4659 2855 5361  342 3881 5243  768 4569 1342
## [121] 3183 1374 3793 1754 5176 3964  649 1534 4463 3198  105 2966 5456 2717 4397
## [136]  540 3775 1059 2315 4829 3890 5217 4380  180 1603 2358 1544 2284 3628 1821
## [151] 1306  248 5562   63   21 3646 1388 5479 5512 1212 4287 3752 4541 1512 4318
## [166] 4068 3684 1184 4942 4063  111 3742 4180  446 2514  512 2775 2440 3324 2310
## [181] 3226 4755  561 2399 3280 3363  317 2812  400 1759 3686 4438 4786 4413  565
## [196] 4228 1667 3497 1116 1497  326  140 2575 3076 3945 4483 2503 3623  199 5280
## [211] 4469 3880  336 3281 4962 3350 4622 1168 4325 3753 1448 4817 4515  948 3283
## [226] 4938 3252 2342 4362  923  661 4403  106  504  307  149 4014 1853 4138 2032
## [241] 2822 5010  158 1343 1119  957 4635 5038 3279 1880 5266   69 2551 1700  340
## [256] 4652 4434 1823 4258 3821 1102 1735 3920 4423 2069  243 2116 3649 2061 4744
## [271] 5331  538 1585 2542  729 1154 2932 4968 3367  194 2752  432 2485 5274 1535
## [286] 1790 3298 2566 2232 3234  133 1646 3340 1511 4979  135 3387  709  338 4718

Se determina la muestra de los valores numéricos que arroja la variable cuales con respecto a la población.Se utilizan los corchetes en formato [renglones, columnas] para identificar los registros.

muestra.alumnos <- poblacion.alumnos[cuales, ] # , espacio significa las dos columnas o todas las columnas
head(muestra.alumnos, 10)
##        no promedio
## 1606 1606 75.90153
## 1622 1622 81.94828
## 1520 1520 93.50413
## 5418 5418 85.91090
## 4870 4870 80.13206
## 1629 1629 80.31841
## 4105 4105 81.99799
## 2638 2638 82.01175
## 4299 4299 80.24045
## 3888 3888 80.15758
tail(muestra.alumnos, 10)
##        no promedio
## 133   133 91.81485
## 1646 1646 85.72355
## 3340 3340 91.26185
## 1511 1511 83.75172
## 4979 4979 84.78171
## 135   135 87.94499
## 3387 3387 82.86900
## 709   709 86.93894
## 338   338 82.80235
## 4718 4718 78.72081

Media de la población Se obtiene la media aritmética de la variable promedio de toda la población con la función mean().

media.poblacion <- mean(poblacion.alumnos$promedio)
media.poblacion
## [1] 84.01415

Media de la muestra Se obtiene la media aritmética de la variable promedio de la muestra con la función mean().

media.muestra <- mean(muestra.alumnos$promedio)
media.muestra
## [1] 84.19294

Histograma

Un histograma es una representación visual de datos cuantitativo en dos ejes: x & y, la gráfica es en forma de barras y representa como se distribuyen los datos cuantitativos, la altura de la barra indica cuantos datos hay de cada valor.

Se utiliza la función hist() para representar el histograma.

hist(x = poblacion.alumnos$promedio, main = "Histograma. Promedio de la población", xlab = "Promedios", ylab = "Cantidad")

hist(x = muestra.alumnos$promedio, main="Histograma. Promedio de la muestra", , xlab = "Promedios", ylab = "Cantidad")

#Interpretación