Elaborar un análisis descriptivo de la variable promedios de alumnos una muestra de la población a partir de la lectura de un archivo promedios.csv
Importar datos de promedio en la dirección: <https://raw.githubusercontent.com/rpizarrog/Trabajos-en-R-AD2021/main/datos/promedios.csv> y dejarlo en un data.frame.
Mostrar solo los primeros diez registros y los últimos diez registros.
Identificar la variable de interés llamada promedio.
Determinar una muestra de 300 registros de la población. La población es todos los registros del archivo y la muestra es una parte de la población
Identifica la media de la población
Identificar la media de la muestra
Comparar las medias aritméticas
Crear un histograma de los datos
Realizar interpretación
poblacion.alumnos <- read.csv("https://raw.githubusercontent.com/rpizarrog/Trabajos-en-R-AD2021/main/promedios.csv")
Con head() y tail()
head(poblacion.alumnos, 10)
## no promedios
## 1 1 91.60891
## 2 2 86.68564
## 3 3 84.06292
## 4 4 80.94624
## 5 5 88.49800
## 6 6 85.42097
## 7 7 81.11855
## 8 8 78.97463
## 9 9 75.81317
## 10 10 86.60781
tail(poblacion.alumnos, 10)
## no promedios
## 5591 5591 83.61431
## 5592 5592 78.48419
## 5593 5593 79.59696
## 5594 5594 83.86262
## 5595 5595 81.04476
## 5596 5596 87.74938
## 5597 5597 86.64384
## 5598 5598 88.44429
## 5599 5599 88.19806
## 5600 5600 83.74940
Con str() se identifica las variables y el tipo de datos del conjunto de datos
str(poblacion.alumnos)
## 'data.frame': 5600 obs. of 2 variables:
## $ no : int 1 2 3 4 5 6 7 8 9 10 ...
## $ promedios: num 91.6 86.7 84.1 80.9 88.5 ...
Se utiliza la función sample() para determinar la muestra, primero se determina con una variable llamada cuantas los registros que serán muestreados, y a partir de ella se determina la muestra.
¿Que sería una muestra?. Sería una parte representativa y aleatoria de una población
¿Como determinar una muestra? Se utiliza la función sample()
promedios$promedios significa la variable específica del conjunto de datos promedios
Determinando la variable N el total de registros de la población
N <- nrow(poblacion.alumnos)
Se determinan los registros de la muestra
cuales <- sample(x = 1:N, 300, replace = FALSE)
cuales
## [1] 3437 4175 2472 4097 1739 4855 4743 233 4985 1390 1255 2036 4865 361 2267
## [16] 830 2780 1891 838 5428 3535 86 382 3206 1128 2265 299 2184 3254 5264
## [31] 4587 951 3930 1829 499 3903 1822 2047 298 4273 1820 4627 972 3423 883
## [46] 4381 4563 4309 4792 750 2294 446 4718 1502 291 311 1983 195 2671 2796
## [61] 4655 4630 924 4360 4704 803 1624 4696 4813 77 3151 4049 3118 1452 3020
## [76] 2919 3605 731 2336 1857 176 1465 3115 820 523 1090 542 4421 4080 4460
## [91] 379 2324 492 4218 2152 3843 3840 4817 3804 5222 1978 5391 1630 5257 5385
## [106] 5012 1527 1715 1100 2353 2229 2299 3100 3286 5358 2783 3594 1426 4154 4675
## [121] 4400 3606 370 992 3383 2784 377 442 2697 4147 3342 4066 345 2603 1956
## [136] 1730 2983 2964 3534 701 3500 4456 2437 3059 5409 2626 952 1828 4043 1954
## [151] 677 1639 5299 1106 3242 1104 3733 1982 432 2337 1674 3885 2297 674 971
## [166] 3090 5064 245 2814 3016 4653 935 2331 3331 5044 926 3471 4321 1750 2921
## [181] 1083 2604 4870 5429 2032 1825 2961 2052 877 5563 5373 1840 4510 4423 2282
## [196] 4225 3962 769 420 2159 5531 3335 3135 1329 2474 4721 56 1210 3435 525
## [211] 4515 760 2435 813 2797 4179 1691 3581 3412 5398 3832 4890 5328 4733 2200
## [226] 104 2307 3551 866 134 2926 3966 290 2471 1744 3415 1714 3580 1669 4852
## [241] 2029 3180 3265 3710 4113 4711 5004 4210 482 3761 3928 1921 5557 3908 2313
## [256] 3214 5127 1462 920 5005 5354 3078 4234 2015 908 2693 2656 5530 284 1178
## [271] 1473 5284 330 2799 1916 266 213 4134 2524 3891 4466 5478 85 5502 5480
## [286] 5277 4592 2508 940 5528 976 1532 4568 1760 4941 4021 2622 2153 279 545
Se determina la muestra
muestra.alumnos <- poblacion.alumnos[cuales, ] # Las dos columnas
head(muestra.alumnos, 10)
## no promedios
## 3437 3437 84.95459
## 4175 4175 79.70610
## 2472 2472 82.95329
## 4097 4097 80.67565
## 1739 1739 79.20040
## 4855 4855 85.30083
## 4743 4743 85.90999
## 233 233 87.18848
## 4985 4985 71.75038
## 1390 1390 93.82542
tail(muestra.alumnos, 10)
## no promedios
## 976 976 85.87994
## 1532 1532 85.80357
## 4568 4568 85.53681
## 1760 1760 81.14341
## 4941 4941 85.13983
## 4021 4021 79.85478
## 2622 2622 88.07182
## 2153 2153 86.99828
## 279 279 81.43998
## 545 545 80.31745
Se obtiene la media aritmética de la variable promedio de toda la población con la función mean().
media.poblacion <- mean(poblacion.alumnos$promedio)
media.poblacion
## [1] 84.01415
Se obtiene la media aritmética de la variable promedio de la muestra con la función mean().
media.muestra <- mean(muestra.alumnos$promedio)
media.muestra
## [1] 83.76733
En lo que yo pude reflexionar sobre este documento de análisis descriptivo del promedio de los alumnos y parte del desarrollo de los procesos de la importación de los datos de la media de la población y la media de la muestra. Es que primero que la población es el numero total de datos que se tienen en el registro, la media de la población se refiere a una cantidad estimada promedio de la media de población. Y por ultimo la media de la muestra que sirve para estimar la varianza de la población.