Elaborar un análisis descriptivo de la variable promedios de alumnos una muestra de la población a partir de la lectura de un archivo promedios.csv
Importar datos de promedio en la dirección: https://raw.githubusercontent.com/rpizarrog/Trabajos-en-R-AD2021/main/datos/promedios.csv y dejarlo en un data.frame.
Mostrar solo los primeros diez registros y los últimos diez registros.
Identificar la variable de interés llamada promedio.
Determinar una muestra de 300 registros de la población. La población es todos los registros del archivo y la muestra es una parte de la población
Identifica la media de la población
Identificar la media de la muestra
Comparar las medias aritméticas
Crear un histograma de los datos
Realizar interpretación
Importar los datos
poblacion.alumnos <- read.csv("https://raw.githubusercontent.com/rpizarrog/Trabajos-en-R-AD2021/main/datos/promedios.csv")
Mostrar los primeros y últimos registros
Con las funciones head() y tail() para extraer ciertos registros, en este caso los primeros y últimos diez registros.
head(poblacion.alumnos, 10)
## no promedio
## 1 1 91.60891
## 2 2 86.68564
## 3 3 84.06292
## 4 4 80.94624
## 5 5 88.49800
## 6 6 85.42097
## 7 7 81.11855
## 8 8 78.97463
## 9 9 75.81317
## 10 10 86.60781
tail(poblacion.alumnos, 10)
## no promedio
## 5591 5591 83.61431
## 5592 5592 78.48419
## 5593 5593 79.59696
## 5594 5594 83.86262
## 5595 5595 81.04476
## 5596 5596 87.74938
## 5597 5597 86.64384
## 5598 5598 88.44429
## 5599 5599 88.19806
## 5600 5600 83.74940
La variable de interés es promedio Con str() se identifica las variables y el tipo de datos del conjunto de datos.
str(poblacion.alumnos)
## 'data.frame': 5600 obs. of 2 variables:
## $ no : int 1 2 3 4 5 6 7 8 9 10 ...
## $ promedio: num 91.6 86.7 84.1 80.9 88.5 ...
Muestra de 300 registros
Se utiliza la función sample() para determinar la muestra, primero se determina con una variable llamada cuantas los registros que serán muestrados, y a partir de ella se determina la muestra.
¿Que sería una muestra?. Sería una parte representativa y aleatoria de una población
¿Como determinar una muestra? Se utiliza la función sample().
promedios$promedios significa la variable específica del conjunto de datos promedios
Determinando la variable N el total de registros de la población con la función nrow() para determinar cuántos registros.
N <- nrow(poblacion.alumnos)
Se determinan los registros de la muestra que pueen estar entre 1 y N con 1:N, replace= FALSE significa que el valor numérico encontrado aleatoriamente por sample, no se puede repetir o por el contrario si se puede repetir con la opción
cuales <- sample(x = 1:N, 300, replace = FALSE)
cuales
## [1] 1606 1622 1520 5418 4870 1629 4105 2638 4299 3888 3616 1548 1465 4980 1225
## [16] 4753 2922 4584 188 3834 5362 2729 5052 1399 1039 4422 4997 1514 5375 4200
## [31] 5209 3029 5141 3130 559 57 739 2963 2125 971 251 819 4430 3678 4111
## [46] 3235 1833 619 4385 4075 3735 829 1194 2311 479 4457 1692 151 4217 458
## [61] 5332 3871 5019 3111 1313 1616 3772 281 4641 1791 2722 348 351 1012 4216
## [76] 2489 5333 978 3776 20 2934 2841 2895 5407 4618 3688 1079 2277 2299 4086
## [91] 1907 799 5352 5075 3196 362 4178 2014 3908 1044 3369 2910 866 1737 2482
## [106] 2913 2340 4812 2689 98 3955 4659 2855 5361 342 3881 5243 768 4569 1342
## [121] 3183 1374 3793 1754 5176 3964 649 1534 4463 3198 105 2966 5456 2717 4397
## [136] 540 3775 1059 2315 4829 3890 5217 4380 180 1603 2358 1544 2284 3628 1821
## [151] 1306 248 5562 63 21 3646 1388 5479 5512 1212 4287 3752 4541 1512 4318
## [166] 4068 3684 1184 4942 4063 111 3742 4180 446 2514 512 2775 2440 3324 2310
## [181] 3226 4755 561 2399 3280 3363 317 2812 400 1759 3686 4438 4786 4413 565
## [196] 4228 1667 3497 1116 1497 326 140 2575 3076 3945 4483 2503 3623 199 5280
## [211] 4469 3880 336 3281 4962 3350 4622 1168 4325 3753 1448 4817 4515 948 3283
## [226] 4938 3252 2342 4362 923 661 4403 106 504 307 149 4014 1853 4138 2032
## [241] 2822 5010 158 1343 1119 957 4635 5038 3279 1880 5266 69 2551 1700 340
## [256] 4652 4434 1823 4258 3821 1102 1735 3920 4423 2069 243 2116 3649 2061 4744
## [271] 5331 538 1585 2542 729 1154 2932 4968 3367 194 2752 432 2485 5274 1535
## [286] 1790 3298 2566 2232 3234 133 1646 3340 1511 4979 135 3387 709 338 4718
Se determina la muestra de los valores numéricos que arroja la variable cuales con respecto a la población.Se utilizan los corchetes en formato [renglones, columnas] para identificar los registros.
muestra.alumnos <- poblacion.alumnos[cuales, ] # , espacio significa las dos columnas o todas las columnas
head(muestra.alumnos, 10)
## no promedio
## 1606 1606 75.90153
## 1622 1622 81.94828
## 1520 1520 93.50413
## 5418 5418 85.91090
## 4870 4870 80.13206
## 1629 1629 80.31841
## 4105 4105 81.99799
## 2638 2638 82.01175
## 4299 4299 80.24045
## 3888 3888 80.15758
tail(muestra.alumnos, 10)
## no promedio
## 133 133 91.81485
## 1646 1646 85.72355
## 3340 3340 91.26185
## 1511 1511 83.75172
## 4979 4979 84.78171
## 135 135 87.94499
## 3387 3387 82.86900
## 709 709 86.93894
## 338 338 82.80235
## 4718 4718 78.72081
Media de la población Se obtiene la media aritmética de la variable promedio de toda la población con la función mean().
media.poblacion <- mean(poblacion.alumnos$promedio)
media.poblacion
## [1] 84.01415
Media de la muestra Se obtiene la media aritmética de la variable promedio de la muestra con la función mean().
media.muestra <- mean(muestra.alumnos$promedio)
media.muestra
## [1] 84.19294
Un histograma es una representación visual de datos cuantitativo en dos ejes: x & y, la gráfica es en forma de barras y representa como se distribuyen los datos cuantitativos, la altura de la barra indica cuantos datos hay de cada valor.
Se utiliza la función hist() para representar el histograma.
hist(x = poblacion.alumnos$promedio, main = "Histograma. Promedio de la población", xlab = "Promedios", ylab = "Cantidad")
hist(x = muestra.alumnos$promedio, main="Histograma. Promedio de la muestra", , xlab = "Promedios", ylab = "Cantidad")
#Interpretación