Elaborar un análisis descriptivo de la variable promedios de alumnos una muestra de la población a partir de la lectura de un archivo promedios.csv
Importar datos de promedio en la dirección: https://raw.githubusercontent.com/rpizarrog/Trabajos-en-R-AD2021/main/datos/promedios.csv y dejarlo en un data.frame.
Mostrar solo los primeros diez registros y los últimos diez registros.
Identificar la variable de interés llamada promedio.
Determinar una muestra de 300 registros de la población. La población es todos los registros del archivo y la muestra es una parte de la población
Identifica la media de la población
Identificar la media de la muestra
Comparar las medias aritméticas
Crear un histograma de los datos
Realizar interpretación
poblacion.alumnos <- read.csv("https://raw.githubusercontent.com/rpizarrog/Trabajos-en-R-AD2021/main/datos/promedios.csv")Con las funciones head() y tail() para extraer ciertos registros, en este caso los primeros y últimos diez registros.
head(poblacion.alumnos, 10)## no promedio
## 1 1 91.60891
## 2 2 86.68564
## 3 3 84.06292
## 4 4 80.94624
## 5 5 88.49800
## 6 6 85.42097
## 7 7 81.11855
## 8 8 78.97463
## 9 9 75.81317
## 10 10 86.60781
tail(poblacion.alumnos, 10)## no promedio
## 5591 5591 83.61431
## 5592 5592 78.48419
## 5593 5593 79.59696
## 5594 5594 83.86262
## 5595 5595 81.04476
## 5596 5596 87.74938
## 5597 5597 86.64384
## 5598 5598 88.44429
## 5599 5599 88.19806
## 5600 5600 83.74940
Con str() se identifica las variables y el tipo de datos del conjunto de datos.
str(poblacion.alumnos)## 'data.frame': 5600 obs. of 2 variables:
## $ no : int 1 2 3 4 5 6 7 8 9 10 ...
## $ promedio: num 91.6 86.7 84.1 80.9 88.5 ...
Se utiliza la función sample() para determinar la muestra, primero se determina con una variable llamada cuantas los registros que serán muestrados, y a partir de ella se determina la muestra.
¿Que sería una muestra? Es una parte o subconjunto de elementos que se seleccionan previamente de una población para realizar un estudio.
¿Como determinar una muestra? Se utiliza la función sample().
promedios$promedios significa la variable específica del conjunto de datos promedios
Determinando la variable N el total de registros de la población con la función nrow() para determinar cuántos registros.
N <- nrow(poblacion.alumnos)
N## [1] 5600
Se determinan los registros de la muestra que pueen estar entre 1 y N con 1:N, replace= FALSE significa que el valor numérico encontrado aleatoriamente por sample, no se puede repetir o por el contrario si se puede repetir con la opción TRUE.
La variable cuales indica los registros que se seleccionarán de entre 1 y 5600 de manera aleatoria.
cuales <- sample(x = 1:N, 300, replace = FALSE)
cuales## [1] 2948 4528 2189 4648 4395 3463 1022 3164 1065 5102 3446 2640 2858 5326 3048
## [16] 1307 694 265 4248 1688 3085 4629 3996 4433 5300 836 237 5158 5421 5432
## [31] 639 5095 2907 5504 2006 3967 5174 426 5485 438 4429 4785 4159 4910 5015
## [46] 5251 2499 5521 1427 150 1130 2367 458 64 238 3829 2817 183 4200 309
## [61] 4556 2260 4732 5531 1870 2403 3703 4568 2746 4751 2800 5242 18 3456 4156
## [76] 213 201 3143 3289 4129 3564 2377 3271 1899 922 4172 1983 4350 930 1866
## [91] 2687 1940 4075 3769 4538 2996 2353 4865 4819 2849 1901 5010 5379 4143 1339
## [106] 3370 1138 1186 953 737 2122 594 1002 1169 3581 2395 4711 207 3097 4437
## [121] 1696 3865 918 4816 5576 2219 4708 2667 1367 591 2520 495 4752 4753 5589
## [136] 71 3123 754 4253 1236 4511 4704 3200 434 4056 4703 2513 3264 4221 4312
## [151] 661 1667 4973 4771 1440 1656 2927 5087 306 1588 4539 4410 2587 903 3255
## [166] 2293 5518 3623 4237 1370 587 352 5500 3315 2317 1429 3183 2043 1142 3020
## [181] 935 60 2078 3046 3614 3170 3361 846 2131 305 21 219 5238 44 880
## [196] 2831 3606 2273 5580 3210 1642 3099 314 4869 1584 320 4232 3783 3509 4480
## [211] 2585 2703 1316 556 3133 4573 1963 1441 2001 1820 233 2191 613 3350 2985
## [226] 1337 4720 409 2471 1092 2967 5268 5339 1499 3276 4806 106 2357 2677 1519
## [241] 3538 5073 4955 2871 3124 3562 5229 1375 923 1595 3818 39 3694 1049 692
## [256] 2504 5278 4147 3161 941 3687 5336 1001 3053 2414 5541 1709 4361 4279 5398
## [271] 173 1515 4675 4642 2470 4773 1261 480 280 4815 894 5351 3414 2913 298
## [286] 370 599 235 2165 4073 2964 979 1620 1164 2393 3852 4240 2326 3571 1669
Se determina la muestra de los valores numéricos que arroja la variable cuales con respecto a la población.Se utilizan los corchetes en formato [renglones, columnas] para identificar los registros.
muestra.alumnos <- poblacion.alumnos[cuales, ] # , espacio significa las dos columnas o todas las columnas [renglón, columna]
head(muestra.alumnos, 10)## no promedio
## 2948 2948 86.44798
## 4528 4528 84.63071
## 2189 2189 88.88223
## 4648 4648 88.90471
## 4395 4395 84.21449
## 3463 3463 83.77810
## 1022 1022 81.01889
## 3164 3164 88.20213
## 1065 1065 82.41157
## 5102 5102 83.57060
tail(muestra.alumnos, 10)## no promedio
## 2964 2964 96.74690
## 979 979 85.77324
## 1620 1620 84.81354
## 1164 1164 77.65207
## 2393 2393 90.49764
## 3852 3852 92.84450
## 4240 4240 89.19203
## 2326 2326 84.91765
## 3571 3571 80.67018
## 1669 1669 83.14152
Se obtiene la media aritmética de la variable promedio de toda la población con la función mean().
media.poblacion <- round(mean(poblacion.alumnos$promedio),2)
media.poblacion## [1] 84.01
Se obtiene la media aritmética de la variable promedio de la muestra con la función mean().
media.muestra <- round(mean(muestra.alumnos$promedio),2)
media.muestra## [1] 84.3
Un histograma es una representación visual de datos cuantitativo en dos ejes: x & y, la gráfica es en forma de barras y representa como se distribuyen los datos cuantitativos, la altura de la barra indica cuantos datos hay de cada valor.
Se utiliza la función hist() para representar el histograma.
Histograma de la población de la variable promedio.
hist(x = poblacion.alumnos$promedio, main = "Histograma. Promedio de la población", xlab = "Promedios", ylab = "Cantidad", col = "red")hist(x = muestra.alumnos$promedio, main="Histograma. Promedio de la muestra", , xlab = "Promedios", ylab = "Cantidad", col = "blue")Se realiza un análisis descriptivo para obtener la estadística media del parámetro medio poblacional y muestra variable media; la distribución de los datos relativos a la población y la muestra se visualiza mediante histograma.
La población consta de 6500 registros u observaciones.
La muestra obtenida son 300 registros.
La variable de interés es el promedio, que representa el valor de cada alumno en relación al rendimiento académico. El promedio general es 84.01 y la media aritmética de la muestra promedio es 84.23.
El valor promedio es similar o similar, lo que significa que cuando se extraen muestras de la población al azar, las estadísticas deben ser representativas de los parámetros de la población. La muestra es parte de la población y debe ser aleatoria y representativa. El histograma muestra cómo se distribuyen los datos, lo que significa que hay una cantidad considerable de valores entre valores entre aproximadamente 80 y 88.