Elaborar un análisis descriptivo de la variable promedios de alumnos una muestra de la población a partir de la lectura de un archivo promedios.csv
Importar datos de promedio en la dirección: <https://raw.githubusercontent.com/rpizarrog/Trabajos-en-R-AD2021/main/datos/promedios.csv> y dejarlo en un data.frame.
Mostrar solo los primeros diez registros y los últimos diez registros.
Identificar la variable de interés llamada promedio.
Determinar una muestra de 300 registros de la población. La población es todos los registros del archivo y la muestra es una parte de la población
Identifica la media de la población
Identificar la media de la muestra
Comparar las medias aritméticas
Crear un histograma de los datos
Realizar interpretación
poblacion.alumnos <- read.csv("https://raw.githubusercontent.com/rpizarrog/Trabajos-en-R-AD2021/main/datos/promedios.csv")
Con head() y tail()
head(poblacion.alumnos, 10)
## no promedio
## 1 1 91.60891
## 2 2 86.68564
## 3 3 84.06292
## 4 4 80.94624
## 5 5 88.49800
## 6 6 85.42097
## 7 7 81.11855
## 8 8 78.97463
## 9 9 75.81317
## 10 10 86.60781
tail(poblacion.alumnos, 10)
## no promedio
## 5591 5591 83.61431
## 5592 5592 78.48419
## 5593 5593 79.59696
## 5594 5594 83.86262
## 5595 5595 81.04476
## 5596 5596 87.74938
## 5597 5597 86.64384
## 5598 5598 88.44429
## 5599 5599 88.19806
## 5600 5600 83.74940
Con str() se identifica las variables y el tipo de datos del conjunto de datos
str(poblacion.alumnos)
## 'data.frame': 5600 obs. of 2 variables:
## $ no : int 1 2 3 4 5 6 7 8 9 10 ...
## $ promedio: num 91.6 86.7 84.1 80.9 88.5 ...
Se utiliza la función sample() para determinar la muestra, primero se determina con una variable llamada cuantas los registros que serán muestreados, y a partir de ella se determina la muestra.
¿Que sería una muestra?. Sería una parte representativa y aleatoria de una población
¿Como determinar una muestra? Se utiliza la función sample()
promedios$promedios significa la variable específica del conjunto de datos promedios
Determinando la variable N el total de registros de la población
N <- nrow(poblacion.alumnos)
Se determinan los registros de la muestra
cuales <- sample(x = 1:N, 300, replace = FALSE)
cuales
## [1] 3049 2810 4561 2943 3172 2607 660 5049 4682 4306 2768 4913 5170 1151 3777
## [16] 181 3997 4702 1797 2232 1189 4833 764 3731 5084 1903 4149 888 3224 4746
## [31] 1281 3631 3657 5545 17 3830 878 1074 3246 1510 4560 3098 500 2073 2734
## [46] 2064 1982 4232 4303 4569 2724 3771 3269 168 2583 4750 5102 3314 1991 5258
## [61] 761 2771 1190 3564 5373 505 945 1694 2057 3987 624 4575 224 3937 2684
## [76] 5295 2272 4704 4488 4601 2848 4355 1117 3504 482 3054 993 5288 2325 2624
## [91] 403 3492 5278 5457 5476 707 449 3266 2513 2068 10 3300 870 1132 2349
## [106] 1166 1978 3745 1176 2964 1324 5251 1641 2405 1439 776 1207 90 4465 3805
## [121] 2919 699 2633 5395 1806 3038 2589 4907 1033 1035 95 2716 1372 170 2072
## [136] 3508 293 2805 5506 4837 894 415 4506 1318 4452 2389 1287 3972 4657 1935
## [151] 5165 280 2509 3528 2151 1559 360 351 3181 5062 912 5450 781 1792 2483
## [166] 1350 5112 5027 124 5421 2966 4886 1179 5454 1242 102 3106 4097 46 392
## [181] 2033 5330 4500 2753 1361 2366 186 1635 2759 3432 37 693 2384 4935 1871
## [196] 3551 4253 2104 4872 2701 2937 4536 3009 3820 2014 3919 1859 1537 815 3974
## [211] 1068 3013 898 618 2940 1890 1381 4040 4434 3021 3936 1503 3510 4627 3986
## [226] 4049 951 116 5292 462 2799 5356 381 2217 3061 3215 4541 2081 2345 516
## [241] 2979 2486 2637 33 4348 1153 315 2203 4879 4775 4473 4809 4540 4187 4212
## [256] 2103 5443 5348 5262 3717 5103 646 1504 3887 4128 2107 644 2974 2582 4184
## [271] 318 3507 4428 4456 4548 1604 5231 2841 438 2614 2746 304 4250 5412 4597
## [286] 424 780 3655 3998 2488 549 3866 3071 4945 4531 3916 5315 858 4008 4586
Se determina la muestra
muestra.alumnos <- poblacion.alumnos[cuales, ] # Las dos columnas
head(muestra.alumnos, 10)
## no promedio
## 3049 3049 91.13753
## 2810 2810 87.24832
## 4561 4561 82.71396
## 2943 2943 78.07801
## 3172 3172 82.09336
## 2607 2607 83.76796
## 660 660 80.58960
## 5049 5049 87.59512
## 4682 4682 82.40913
## 4306 4306 80.23470
tail(muestra.alumnos, 10)
## no promedio
## 549 549 77.65277
## 3866 3866 79.57699
## 3071 3071 79.45763
## 4945 4945 84.16128
## 4531 4531 83.76413
## 3916 3916 81.02908
## 5315 5315 87.30122
## 858 858 87.75013
## 4008 4008 85.95179
## 4586 4586 86.80922
Se obtiene la media aritmética de la variable promedio de toda la población con la función mean().
media.poblacion <- mean(poblacion.alumnos$promedio)
media.poblacion
## [1] 84.01415
Se obtiene la media aritmética de la variable promedio de la muestra con la función mean().
media.muestra <- mean(muestra.alumnos$promedio)
media.muestra
## [1] 84.3422
Con esto concluimos que una muestra es representativa y aleatoria con respecto a la poblaci