Objetivo

Elaborar un análisis descriptivo de la variable promedios de alumnos una muestra de la población a partir de la lectura de un archivo promedios.csv

Descripción

Desarrollo

Importar los datos

poblacion.alumnos <- read.csv("https://raw.githubusercontent.com/rpizarrog/Trabajos-en-R-AD2021/main/datos/promedios.csv")

Mostrar los primeros y últimos registros

Con head() y tail()

head(poblacion.alumnos, 10)
##    no promedio
## 1   1 91.60891
## 2   2 86.68564
## 3   3 84.06292
## 4   4 80.94624
## 5   5 88.49800
## 6   6 85.42097
## 7   7 81.11855
## 8   8 78.97463
## 9   9 75.81317
## 10 10 86.60781
tail(poblacion.alumnos, 10)
##        no promedio
## 5591 5591 83.61431
## 5592 5592 78.48419
## 5593 5593 79.59696
## 5594 5594 83.86262
## 5595 5595 81.04476
## 5596 5596 87.74938
## 5597 5597 86.64384
## 5598 5598 88.44429
## 5599 5599 88.19806
## 5600 5600 83.74940

La variable de interés es promedio

Con str() se identifica las variables y el tipo de datos del conjunto de datos

str(poblacion.alumnos)
## 'data.frame':    5600 obs. of  2 variables:
##  $ no      : int  1 2 3 4 5 6 7 8 9 10 ...
##  $ promedio: num  91.6 86.7 84.1 80.9 88.5 ...

Muestra de 300 registros

Se utiliza la función sample() para determinar la muestra, primero se determina con una variable llamada cuantas los registros que serán muestreados, y a partir de ella se determina la muestra.

  • ¿Que sería una muestra?. Sería una parte representativa y aleatoria de una población

  • ¿Como determinar una muestra? Se utiliza la función sample()

  • promedios$promedios significa la variable específica del conjunto de datos promedios

Determinando la variable N el total de registros de la población

N <- nrow(poblacion.alumnos)

Se determinan los registros de la muestra

cuales <- sample(x = 1:N, 300, replace = FALSE)
cuales
##   [1] 3049 2810 4561 2943 3172 2607  660 5049 4682 4306 2768 4913 5170 1151 3777
##  [16]  181 3997 4702 1797 2232 1189 4833  764 3731 5084 1903 4149  888 3224 4746
##  [31] 1281 3631 3657 5545   17 3830  878 1074 3246 1510 4560 3098  500 2073 2734
##  [46] 2064 1982 4232 4303 4569 2724 3771 3269  168 2583 4750 5102 3314 1991 5258
##  [61]  761 2771 1190 3564 5373  505  945 1694 2057 3987  624 4575  224 3937 2684
##  [76] 5295 2272 4704 4488 4601 2848 4355 1117 3504  482 3054  993 5288 2325 2624
##  [91]  403 3492 5278 5457 5476  707  449 3266 2513 2068   10 3300  870 1132 2349
## [106] 1166 1978 3745 1176 2964 1324 5251 1641 2405 1439  776 1207   90 4465 3805
## [121] 2919  699 2633 5395 1806 3038 2589 4907 1033 1035   95 2716 1372  170 2072
## [136] 3508  293 2805 5506 4837  894  415 4506 1318 4452 2389 1287 3972 4657 1935
## [151] 5165  280 2509 3528 2151 1559  360  351 3181 5062  912 5450  781 1792 2483
## [166] 1350 5112 5027  124 5421 2966 4886 1179 5454 1242  102 3106 4097   46  392
## [181] 2033 5330 4500 2753 1361 2366  186 1635 2759 3432   37  693 2384 4935 1871
## [196] 3551 4253 2104 4872 2701 2937 4536 3009 3820 2014 3919 1859 1537  815 3974
## [211] 1068 3013  898  618 2940 1890 1381 4040 4434 3021 3936 1503 3510 4627 3986
## [226] 4049  951  116 5292  462 2799 5356  381 2217 3061 3215 4541 2081 2345  516
## [241] 2979 2486 2637   33 4348 1153  315 2203 4879 4775 4473 4809 4540 4187 4212
## [256] 2103 5443 5348 5262 3717 5103  646 1504 3887 4128 2107  644 2974 2582 4184
## [271]  318 3507 4428 4456 4548 1604 5231 2841  438 2614 2746  304 4250 5412 4597
## [286]  424  780 3655 3998 2488  549 3866 3071 4945 4531 3916 5315  858 4008 4586

Se determina la muestra

muestra.alumnos <- poblacion.alumnos[cuales, ] # Las dos columnas
head(muestra.alumnos, 10)
##        no promedio
## 3049 3049 91.13753
## 2810 2810 87.24832
## 4561 4561 82.71396
## 2943 2943 78.07801
## 3172 3172 82.09336
## 2607 2607 83.76796
## 660   660 80.58960
## 5049 5049 87.59512
## 4682 4682 82.40913
## 4306 4306 80.23470
tail(muestra.alumnos, 10)
##        no promedio
## 549   549 77.65277
## 3866 3866 79.57699
## 3071 3071 79.45763
## 4945 4945 84.16128
## 4531 4531 83.76413
## 3916 3916 81.02908
## 5315 5315 87.30122
## 858   858 87.75013
## 4008 4008 85.95179
## 4586 4586 86.80922

Media de la población

Se obtiene la media aritmética de la variable promedio de toda la población con la función mean().

media.poblacion <- mean(poblacion.alumnos$promedio)
media.poblacion
## [1] 84.01415

Media de la muestra

Se obtiene la media aritmética de la variable promedio de la muestra con la función mean().

media.muestra <- mean(muestra.alumnos$promedio)
media.muestra
## [1] 84.3422

Interpretación

Con esto concluimos que una muestra es representativa y aleatoria con respecto a la poblaci