Elaborar un análisis descriptivo de la variable promedios de alumnos una muestra de la población a partir de la lectura de un archivo promedios.csv
Importar datos de promedio en la dirección: https://raw.githubusercontent.com/rpizarrog/Trabajos-en-R-AD2021/main/datos/promedios.csv y dejarlo en un data.frame.
Mostrar solo los primeros diez registros y los últimos diez registros.
Identificar la variable de interés llamada promedio.
Determinar una muestra de 300 registros de la población. La población es todos los registros del archivo y la muestra es una parte de la población
Identifica la media de la población
Identificar la media de la muestra
Comparar las medias aritméticas
Crear un histograma de los datos
Realizar interpretación
poblacion.alumnos <- read.csv("https://raw.githubusercontent.com/rpizarrog/Trabajos-en-R-AD2021/main/datos/promedios.csv")
Con las funciones head() y tail() para extraer ciertos registros, en este caso los primeros y últimos diez registros.
head(poblacion.alumnos, 10)
## no promedio
## 1 1 91.60891
## 2 2 86.68564
## 3 3 84.06292
## 4 4 80.94624
## 5 5 88.49800
## 6 6 85.42097
## 7 7 81.11855
## 8 8 78.97463
## 9 9 75.81317
## 10 10 86.60781
tail(poblacion.alumnos, 10)
## no promedio
## 5591 5591 83.61431
## 5592 5592 78.48419
## 5593 5593 79.59696
## 5594 5594 83.86262
## 5595 5595 81.04476
## 5596 5596 87.74938
## 5597 5597 86.64384
## 5598 5598 88.44429
## 5599 5599 88.19806
## 5600 5600 83.74940
Con str() se identifica las variables y el tipo de datos del conjunto de datos.
str(poblacion.alumnos)
## 'data.frame': 5600 obs. of 2 variables:
## $ no : int 1 2 3 4 5 6 7 8 9 10 ...
## $ promedio: num 91.6 86.7 84.1 80.9 88.5 ...
Se utiliza la función sample() para determinar la muestra, primero se determina con una variable llamada cuantas los registros que serán muestrados, y a partir de ella se determina la muestra.
¿Que sería una muestra?. Sería una parte representativa y aleatoria de una población
¿Como determinar una muestra? Se utiliza la función sample().
promedios$promedios significa la variable específica del conjunto de datos promedios
Determinando la variable N el total de registros de la población con la función nrow() para determinar cuántos registros.
N <- nrow(poblacion.alumnos)
N
## [1] 5600
Se determinan los registros de la muestra que pueen estar entre 1 y N con 1:N, replace= FALSE significa que el valor numérico encontrado aleatoriamente por sample, no se puede repetir o por el contrario si se puede repetir con la opción TRUE.
La variable cuales indica los registros que se seleccionarán de entre 1 y 5600 de manera aleatoria.
cuales <- sample(x = 1:N, 300, replace = FALSE)
cuales
## [1] 3661 3639 1656 1514 2690 3373 1065 2884 5393 4502 3488 93 2464 1346 5507
## [16] 2918 4753 5486 598 4814 2945 1213 1084 1246 201 391 3246 161 2948 5048
## [31] 1371 2279 2596 1913 4493 918 416 983 3738 490 4908 4018 991 496 3104
## [46] 855 3975 5445 3558 3324 134 3375 5307 1597 3848 3797 5331 5197 2936 4006
## [61] 5431 3618 813 867 4331 3297 3817 110 3969 5482 2028 4381 318 4309 2274
## [76] 3796 1865 4909 4101 2219 3918 583 1362 5322 3122 2875 1312 2064 637 1619
## [91] 5588 2527 2928 4556 3617 122 2451 368 2496 5310 1722 3025 5323 4489 2387
## [106] 3198 4826 3105 3672 1750 3522 4641 3750 1381 3907 4096 1412 2493 4145 511
## [121] 1356 3560 255 4819 358 3886 4816 1845 3385 4487 784 2579 4885 5241 2633
## [136] 1654 1543 1775 3020 1035 3052 3944 5325 3657 2044 3185 3914 1673 1773 5170
## [151] 1784 5540 4954 4195 1702 807 1816 2649 4790 1852 1364 5401 4716 237 2344
## [166] 1749 747 556 438 3592 5537 2535 2213 1892 2833 4034 4116 1724 5525 2029
## [181] 5162 1088 3098 3046 2978 309 1720 1507 3079 297 4828 2206 2632 4890 92
## [196] 3433 2081 2113 1428 1029 3631 3534 3391 1108 1137 2340 2023 2585 5074 5410
## [211] 2258 2057 5240 3542 5208 3454 1711 785 119 2365 1743 767 5120 3774 1022
## [226] 3158 1359 4102 944 5350 582 1653 4435 3487 2589 2759 2050 585 4882 1230
## [241] 5296 3990 2578 2801 5194 4125 5204 1677 4252 4270 3123 1020 2708 5387 4776
## [256] 294 3777 4927 145 2802 314 3759 5460 19 4028 845 2007 3374 844 175
## [271] 1820 783 3874 2880 5365 4241 5192 4132 728 64 3692 2398 4354 2608 5164
## [286] 2473 5544 2909 935 4447 4488 5173 1155 1547 4064 4878 1625 2971 1250 1615
Se determina la muestra de los valores numéricos que arroja la variable cuales con respecto a la población.Se utilizan los corchetes en formato [renglones, columnas] para identificar los registros.
muestra.alumnos <- poblacion.alumnos[cuales, ] # , espacio significa las dos columnas o todas las columnas [renglón, columna]
head(muestra.alumnos, 10)
## no promedio
## 3661 3661 81.17837
## 3639 3639 83.11853
## 1656 1656 86.97905
## 1514 1514 88.59779
## 2690 2690 85.85726
## 3373 3373 82.55827
## 1065 1065 82.41157
## 2884 2884 80.55280
## 5393 5393 89.22462
## 4502 4502 81.83979
tail(muestra.alumnos, 10)
## no promedio
## 4488 4488 87.92759
## 5173 5173 82.85074
## 1155 1155 85.23061
## 1547 1547 81.56657
## 4064 4064 86.47134
## 4878 4878 74.52466
## 1625 1625 89.91692
## 2971 2971 74.05433
## 1250 1250 94.67890
## 1615 1615 86.05454
Se obtiene la media aritmética de la variable promedio de toda la población con la función mean().
media.poblacion <- mean(poblacion.alumnos$promedio)
media.poblacion
## [1] 84.01415
Se obtiene la media aritmética de la variable promedio de la muestra con la función mean().
media.muestra <- mean(muestra.alumnos$promedio)
media.muestra
## [1] 84.04734
Un histograma es una representación visual de datos cuantitativo en dos ejes: x & y, la gráfica es en forma de barras y representa como se distribuyen los datos cuantitativos, la altura de la barra indica cuantos datos hay de cada valor.
Se utiliza la función hist() para representar el histograma.
Histograma de la población de la variable promedio.
hist(x = poblacion.alumnos$promedio, main = "Histograma. Promedio de la población", xlab = "Promedios", ylab = "Cantidad")
Histograma de la muestra de la variable promedio.
hist(x = muestra.alumnos$promedio, main="Histograma. Promedio de la muestra", , xlab = "Promedios", ylab = "Cantidad")
Se hace un análisis descriptivo obteniendo el parámetro media poblacional y el estadístico media de la muestra de la variable promedio; se visualiza mediante un histograma la distribución de los datos con respecto a la población y a la muestra.
La población se compon de 6500 registros u observaciones.
La muestra que se obtiene es de 300 registros
La variable de interés es el promedio que significa un valor numérico que tiene cada alumno con respeto a calificaciones académicas.
EL promedio de la población es de 84.0141468
La media aritmética de la muestra de promedio es de 84.0473385.
Los valores de las medias se parecen o son similares, lo que representa que al sacar muestras aleatorias a partir de poblaciones los estadísticos deben ser representativos con respecto a los parámetros de la población.
Las muestras son parte de una población y deben ser aleatorias y representativas.
El histograma representa como se distribuyen los datos, significa que hay muchos promedios entre valores de 80 y 88 aproximadamente.