Elaborar un análisis descriptivo de la variable promedios de alumnos una muestra de la población a partir de la lectura de un archivo promedios.csv
Importar datos de promedio en la dirección: https://raw.githubusercontent.com/rpizarrog/Trabajos-en-R-AD2021/main/datos/promedios.csv y dejarlo en un data.frame.
Mostrar solo los primeros diez registros y los últimos diez registros.
Identificar la variable de interés llamada promedio.
Determinar una muestra de 300 registros de la población. La población es todos los registros del archivo y la muestra es una parte de la población
Identifica la media de la población
Identificar la media de la muestra
Comparar las medias aritméticas
Crear un histograma de los datos
Realizar interpretación
poblacion.alumnos <- read.csv("https://raw.githubusercontent.com/rpizarrog/Trabajos-en-R-AD2021/main/datos/promedios.csv")
Con las funciones head() y tail() para extraer ciertos registros, en este caso los primeros y últimos diez registros.
head(poblacion.alumnos, 10)
## no promedio
## 1 1 91.60891
## 2 2 86.68564
## 3 3 84.06292
## 4 4 80.94624
## 5 5 88.49800
## 6 6 85.42097
## 7 7 81.11855
## 8 8 78.97463
## 9 9 75.81317
## 10 10 86.60781
tail(poblacion.alumnos, 10)
## no promedio
## 5591 5591 83.61431
## 5592 5592 78.48419
## 5593 5593 79.59696
## 5594 5594 83.86262
## 5595 5595 81.04476
## 5596 5596 87.74938
## 5597 5597 86.64384
## 5598 5598 88.44429
## 5599 5599 88.19806
## 5600 5600 83.74940
Con str() se identifica las variables y el tipo de datos del conjunto de datos.
str(poblacion.alumnos)
## 'data.frame': 5600 obs. of 2 variables:
## $ no : int 1 2 3 4 5 6 7 8 9 10 ...
## $ promedio: num 91.6 86.7 84.1 80.9 88.5 ...
Se utiliza la función sample() para determinar la muestra, primero se determina con una variable llamada cuantas los registros que serán muestrados, y a partir de ella se determina la muestra.
¿Que sería una muestra?. Sería una parte representativa y aleatoria de una población
¿Como determinar una muestra? Se utiliza la función sample().
promedios$promedios significa la variable específica del conjunto de datos promedios
Determinando la variable N el total de registros de la población con la función nrow() para determinar cuántos registros.
N <- nrow(poblacion.alumnos)
N
## [1] 5600
Se determinan los registros de la muestra que pueen estar entre 1 y N con 1:N, replace= FALSE significa que el valor numérico encontrado aleatoriamente por sample, no se puede repetir o por el contrario si se puede repetir con la opción TRUE.
La variable cuales indica los registros que se seleccionarán de entre 1 y 5600 de manera aleatoria.
cuales <- sample(x = 1:N, 300, replace = FALSE)
cuales
## [1] 1711 1534 4075 4493 596 3973 4023 1045 554 2412 2052 1659 1656 1849 2899
## [16] 518 1434 1602 1348 4380 4856 5203 486 2585 3955 1048 1333 1180 3028 454
## [31] 2016 5304 3805 3909 4878 3194 4436 3976 2270 1941 793 1029 1258 449 2417
## [46] 4282 5154 935 2206 820 4248 949 4278 1354 4635 2398 776 2567 4284 587
## [61] 5320 4426 3269 929 4166 5449 251 39 5296 3584 2575 2765 439 45 5102
## [76] 5100 2431 2740 2913 5133 3680 3570 3676 3652 3964 553 5546 358 1786 188
## [91] 3 2105 4871 4706 3727 2906 5261 4239 1929 4650 4236 1352 2044 3463 3821
## [106] 1615 2626 4005 1961 1803 1181 1497 2987 5275 4979 177 3904 2267 4752 3533
## [121] 2401 3892 1294 3883 936 4830 5564 3940 4368 3300 3672 4707 5420 5499 3070
## [136] 2258 237 5210 2299 1086 2664 3017 28 2636 679 3202 4386 315 4382 579
## [151] 2470 1248 981 866 650 419 2943 5029 4708 3410 2847 4659 3915 1915 2587
## [166] 5110 3315 3077 3804 1008 4308 2802 217 3092 3968 2892 3551 2712 351 3290
## [181] 4018 543 2747 2288 4710 1415 4139 3310 4261 4640 174 5074 1015 5462 1043
## [196] 3470 2954 5231 3696 1055 4 4804 2681 904 4859 2345 573 5470 1977 919
## [211] 1670 3416 870 2346 2338 1564 825 5431 3175 3225 1116 3888 1014 1702 5005
## [226] 290 1027 944 4821 2241 65 722 4851 4143 714 1370 192 1928 3529 4059
## [241] 310 3900 983 1949 1511 5121 2482 2343 815 1594 5551 3556 444 2922 2926
## [256] 1607 2107 146 1276 1782 649 1158 4297 1483 1960 2234 885 3427 3237 2444
## [271] 2614 4358 5346 77 3025 2617 968 3477 3387 2662 2927 268 913 1778 1852
## [286] 3324 1724 4689 4955 2971 4595 4191 1162 3014 3085 2242 3337 4718 3532 170
Se determina la muestra de los valores numéricos que arroja la variable cuales con respecto a la población.Se utilizan los corchetes en formato [renglones, columnas] para identificar los registros.
muestra.alumnos <- poblacion.alumnos[cuales, ] # , espacio significa las dos columnas o todas las columnas [renglón, columna]
head(muestra.alumnos, 10)
## no promedio
## 1711 1711 91.20566
## 1534 1534 86.82083
## 4075 4075 80.26955
## 4493 4493 86.08564
## 596 596 91.99672
## 3973 3973 89.48943
## 4023 4023 86.68328
## 1045 1045 85.62659
## 554 554 88.02626
## 2412 2412 90.14289
tail(muestra.alumnos, 10)
## no promedio
## 4595 4595 91.36256
## 4191 4191 85.45383
## 1162 1162 84.42295
## 3014 3014 85.96815
## 3085 3085 87.95796
## 2242 2242 81.38282
## 3337 3337 85.74801
## 4718 4718 78.72081
## 3532 3532 81.47736
## 170 170 73.70145
Se obtiene la media aritmética de la variable promedio de toda la población con la función mean().
media.poblacion <- mean(poblacion.alumnos$promedio)
media.poblacion
## [1] 84.01415
Se obtiene la media aritmética de la variable promedio de la muestra con la función mean().
media.muestra <- mean(muestra.alumnos$promedio)
media.muestra
## [1] 83.91315
Un histograma es una representación visual de datos cuantitativo en dos ejes: x & y, la gráfica es en forma de barras y representa como se distribuyen los datos cuantitativos, la altura de la barra indica cuantos datos hay de cada valor.
Se utiliza la función hist() para representar el histograma.
Histograma de la población de la variable promedio.
hist(x = poblacion.alumnos$promedio, main = "Histograma. Promedio de la población", xlab = "Promedios", ylab = "Cantidad")
Histograma de la muestra de la variable promedio.
hist(x = muestra.alumnos$promedio, main="Histograma. Promedio de la muestra", , xlab = "Promedios", ylab = "Cantidad")
Se hace un análisis descriptivo de un registro de alumnos para obtener la media poblacional y la media de la muestra de la variable promedio, esto se mostrará en un histograma donde se mostrarán la cantidad de registros y el promedio de los alumnos.
El total de registros con el que se va a trabajar son 5600 de alumnos y la muestra que se va a tomar de estos alumnos son 300 registros tomados aleatoriamente.
Se obtiene la media aritmética de la variable promedio de los alumnos y nos da 84.01415
Se obtiene la variable promedio de la muestra de los alumnos y nos da 84.13893
En el histograma nos muestra como están distribuidos los datos y nos muestra que el promedio de los alumnos esta entre valores de 80 y 88 aproximadamente.