Elaborar un análisis descriptivo de la variable promedios de alumnos una muestra de la población a partir de la lectura de un archivo promedios.csv
Importar datos de promedio en la dirección: https://raw.githubusercontent.com/rpizarrog/Trabajos-en-R-AD2021/main/datos/promedios.csv y dejarlo en un data.frame.
Mostrar solo los primeros diez registros y los últimos diez registros.
Identificar la variable de interés llamada promedio.
Determinar una muestra de 300 registros de la población. La población es todos los registros del archivo y la muestra es una parte de la población
Identifica la media de la población
Identificar la media de la muestra
Comparar las medias aritméticas
Crear un histograma de los datos
Realizar interpretación
poblacion.alumnos <- read.csv("https://raw.githubusercontent.com/rpizarrog/Trabajos-en-R-AD2021/main/datos/promedios.csv")
Con las funciones head() y tail() para extraer ciertos registros, en este caso los primeros y últimos diez registros.
head(poblacion.alumnos, 10)
## no promedio
## 1 1 91.60891
## 2 2 86.68564
## 3 3 84.06292
## 4 4 80.94624
## 5 5 88.49800
## 6 6 85.42097
## 7 7 81.11855
## 8 8 78.97463
## 9 9 75.81317
## 10 10 86.60781
tail(poblacion.alumnos, 10)
## no promedio
## 5591 5591 83.61431
## 5592 5592 78.48419
## 5593 5593 79.59696
## 5594 5594 83.86262
## 5595 5595 81.04476
## 5596 5596 87.74938
## 5597 5597 86.64384
## 5598 5598 88.44429
## 5599 5599 88.19806
## 5600 5600 83.74940
Con str() se identifica las variables y el tipo de datos del conjunto de datos.
str(poblacion.alumnos)
## 'data.frame': 5600 obs. of 2 variables:
## $ no : int 1 2 3 4 5 6 7 8 9 10 ...
## $ promedio: num 91.6 86.7 84.1 80.9 88.5 ...
Se utiliza la función sample() para determinar la muestra, primero se determina con una variable llamada cuantas los registros que serán muestrados, y a partir de ella se determina la muestra.
¿Que sería una muestra?. Sería una parte representativa y aleatoria de una población
¿Como determinar una muestra? Se utiliza la función sample().
promedios$promedios significa la variable específica del conjunto de datos promedios
Determinando la variable N el total de registros de la población con la función nrow() para determinar cuántos registros.
N <- nrow(poblacion.alumnos)
N
## [1] 5600
Se determinan los registros de la muestra que pueen estar entre 1 y N con 1:N, replace= FALSE significa que el valor numérico encontrado aleatoriamente por sample, no se puede repetir o por el contrario si se puede repetir con la opción TRUE.
La variable cuales indica los registros que se seleccionarán de entre 1 y 5600 de manera aleatoria.
cuales <- sample(x = 1:N, 300, replace = FALSE)
cuales
## [1] 4908 193 1942 3661 2246 1524 164 1073 1072 2841 775 1322 4893 1790 504
## [16] 3261 3895 1594 4163 958 2716 331 1904 394 3347 620 22 1518 4354 2081
## [31] 322 3824 5219 1463 2073 3481 4587 5307 5481 4422 3795 142 5428 458 545
## [46] 2845 1422 430 3730 1652 4697 1636 4858 1535 4024 1067 731 965 3950 848
## [61] 205 4559 2611 3804 3493 5182 1677 440 1621 3388 1645 1642 2479 1235 4064
## [76] 3178 4483 3845 3621 5454 2575 3129 2954 1734 4832 3353 4750 520 391 5225
## [91] 560 4739 3303 3509 1678 3897 1682 2000 842 5272 1042 377 3126 5183 3400
## [106] 1748 1743 294 1142 1469 2644 4177 523 4539 3038 2142 3706 3316 2941 370
## [121] 992 5471 3587 5525 4076 4810 1530 1979 1146 797 601 2928 1946 3114 625
## [136] 3709 3865 1416 1060 2523 1792 1948 671 547 632 407 999 2484 5387 4558
## [151] 1698 4008 403 5379 1169 4918 1135 1811 4512 1725 602 561 1357 3931 2483
## [166] 2885 2406 5530 5018 952 591 3725 5523 4093 1403 5278 3184 490 5060 1356
## [181] 3043 2473 3242 5091 2518 1825 122 4467 2154 4157 1512 872 4573 4840 4282
## [196] 5197 3139 2221 2328 2239 2662 3627 2380 5346 3131 886 4159 2200 1352 5289
## [211] 3475 1327 832 3412 1316 1834 1409 5050 1934 450 2970 1242 1707 3892 4550
## [226] 5571 4584 2099 4312 1022 672 18 5276 1971 1759 1783 2392 4033 4497 4611
## [241] 1230 629 2656 3967 1399 692 1293 5232 3112 3172 271 470 2184 4345 2870
## [256] 1733 3086 4167 323 4411 576 1127 4911 537 1443 4622 4412 5451 3969 4853
## [271] 675 4910 934 4385 3941 4112 881 810 4637 3862 3915 1241 4477 5016 928
## [286] 752 4757 5177 2766 250 3326 3328 1125 202 1649 3266 4320 3815 42 3042
Se determina la muestra de los valores numéricos que arroja la variable cuales con respecto a la población.Se utilizan los corchetes en formato [renglones, columnas] para identificar los registros.
muestra.alumnos <- poblacion.alumnos[cuales, ] # , espacio significa las dos columnas o todas las columnas [renglón, columna]
head(muestra.alumnos, 10)
## no promedio
## 4908 4908 75.63131
## 193 193 79.74357
## 1942 1942 82.97422
## 3661 3661 81.17837
## 2246 2246 90.79347
## 1524 1524 83.23006
## 164 164 86.62637
## 1073 1073 94.82835
## 1072 1072 87.89998
## 2841 2841 80.55919
tail(muestra.alumnos, 10)
## no promedio
## 3326 3326 78.82812
## 3328 3328 80.51597
## 1125 1125 81.95404
## 202 202 86.54817
## 1649 1649 88.83146
## 3266 3266 73.59036
## 4320 4320 90.82739
## 3815 3815 86.96560
## 42 42 88.56168
## 3042 3042 76.20763
Se obtiene la media aritmética de la variable promedio de toda la población con la función mean().
media.poblacion <- mean(poblacion.alumnos$promedio)
media.poblacion
## [1] 84.01415
Se obtiene la media aritmética de la variable promedio de la muestra con la función mean().
media.muestra <- mean(muestra.alumnos$promedio)
media.muestra
## [1] 84.09812
Un histograma es una representación visual de datos cuantitativo en dos ejes: x & y, la gráfica es en forma de barras y representa como se distribuyen los datos cuantitativos, la altura de la barra indica cuantos datos hay de cada valor.
Se utiliza la función hist() para representar el histograma.
Histograma de la población de la variable promedio.
hist(x = poblacion.alumnos$promedio, main = "Histograma. Promedio de la población", xlab = "Promedios", ylab = "Cantidad")
Histograma de la muestra de la variable promedio.
hist(x = muestra.alumnos$promedio, main="Histograma. Promedio de la muestra", xlab = "Promedios", ylab = "Cantidad")
Se hace un análisis descriptivo obteniendo el parámetro media poblacional y el estadístico media de la muestra de la variable promedio; se visualiza la distribución de los datos con respecto a la población y a la muestra mediante un histograma.
Son 6500 registros u observaciones de los cuales se compone la población.
Se obtiene una muestra que es de 300 registros.
La variable de interés es el promedio que significa un valor numérico que tiene cada alumno con respeto a calificaciones académicas.
EL promedio de la población es de 84.0141468
La media aritmética de la muestra de promedio es de 84.0981189.
Los valores de las medias se parecen o son similares, lo que representa que al sacar muestras aleatorias a partir de poblaciones los estadísticos deben ser representativos con respecto a los parámetros de la población.
Las muestras son parte de una población y deben ser aleatorias y representativas.
El histograma representa como se distribuyen los datos, significa que hay muchos promedios entre valores de 80 y 88 aproximadamente.