Elaborar un analisis descriptivo de la variable promedios de alumnos una muestra de la poblacion a partir de la lectura de un archivo proedios.csv
Importar datos de promedios en la direccion: https://raw.githubusercontent.com/rpizarrog/Trabajos-en-R-AD2021/main/datos/promedios.csv y dejarlo en un data.frame-
Identificar la variable de interes llamada promedio
Determinar una muestra de la poblacion. La poblacion es todos los registros del archivo y la muestra es una parte de la poblacion
Identificar la media de la poblacion
Identificar la media de la muestra
Comparar las medias aritmeticas
Crear una histograma de los datos
poblacion.alumnos<- read.csv("https://raw.githubusercontent.com/rpizarrog/Trabajos-en-R-AD2021/main/datos/promedios.csv")
Con las funciones *head()* y *tail()* para extraer ciertos registros, en este caso los primeros y últimos diez registros.
head(poblacion.alumnos, 10)
## no promedio
## 1 1 91.60891
## 2 2 86.68564
## 3 3 84.06292
## 4 4 80.94624
## 5 5 88.49800
## 6 6 85.42097
## 7 7 81.11855
## 8 8 78.97463
## 9 9 75.81317
## 10 10 86.60781
tail(poblacion.alumnos, 10)
## no promedio
## 5591 5591 83.61431
## 5592 5592 78.48419
## 5593 5593 79.59696
## 5594 5594 83.86262
## 5595 5595 81.04476
## 5596 5596 87.74938
## 5597 5597 86.64384
## 5598 5598 88.44429
## 5599 5599 88.19806
## 5600 5600 83.74940
Con str() se identifica las variables y el tipo de datos del conjunto de datos.
str(poblacion.alumnos)
## 'data.frame': 5600 obs. of 2 variables:
## $ no : int 1 2 3 4 5 6 7 8 9 10 ...
## $ promedio: num 91.6 86.7 84.1 80.9 88.5 ...
Se utiliza la función *sample()* para determinar la muestra, primero se determina con una variable llamada cuantas los registros que serán muestrados, y a partir de ella se determina la muestra.
N<- nrow(poblacion.alumnos)
Se determinan los registros de la muestra que pueen estar entre 1 y N con *1:N, replace= FALSE* significa que el valor numérico encontrado aleatoriamente por *sample*, no se puede repetir o por el contrario si se puede repetir con la opción TRUE.
cuales<- sample(x =1:N,300, replace = FALSE)
cuales
## [1] 4891 3189 662 1352 4780 2749 2290 2654 3056 535 1280 1921 1054 3524 3848
## [16] 1839 4467 844 3717 877 5263 4495 2263 3323 4764 4807 4474 5290 3946 4714
## [31] 331 3523 5386 234 5104 4061 2889 5085 3509 2298 1197 2335 5088 4307 4111
## [46] 3392 80 3397 4577 1828 2720 5586 4784 505 2818 1361 3580 2597 2999 4235
## [61] 2584 4776 2480 3605 3577 1492 1432 3775 5168 4746 2184 1806 4697 4078 2969
## [76] 1132 3307 5295 1083 110 5513 2077 4312 1696 1566 2088 153 5530 1341 1293
## [91] 154 4798 2515 2925 2701 4512 3713 4090 3530 412 1401 2212 33 1616 4781
## [106] 3694 4459 3980 3742 1240 1317 1068 5059 1963 2396 4251 3978 168 1445 2481
## [121] 3124 5422 4945 3314 2513 3425 2575 1698 911 3473 1287 824 4060 630 5558
## [136] 3023 790 2855 2827 1452 253 880 2770 3689 4267 2050 293 5153 3240 3157
## [151] 295 1949 4270 2861 4366 4010 631 2769 1791 173 2123 5349 3251 3327 1914
## [166] 3224 4234 3468 4422 5470 4063 4667 4846 4470 4680 2310 186 5226 831 5445
## [181] 1528 1703 1670 5401 1642 1721 5123 4834 4376 3457 3217 1809 2501 4052 1652
## [196] 3769 4700 3130 3322 4522 1343 2062 4491 2635 2375 838 5457 4691 2609 1117
## [211] 112 5305 2649 1756 3156 4523 4308 283 1504 1091 1953 1874 1137 4561 3267
## [226] 4735 5402 2569 4215 4173 2756 5536 4812 445 3879 1964 4029 306 3779 2010
## [241] 13 1462 1579 3205 3619 5120 4894 5056 1898 5352 951 4425 4593 4337 1231
## [256] 1233 4686 4772 4935 5497 4973 5301 3600 1084 4531 3834 2675 4393 3574 2897
## [271] 2406 1589 4348 3046 2548 2978 5516 2414 4053 303 3433 3498 1220 3062 3682
## [286] 4190 1271 5361 2535 5313 2100 5297 1822 2754 4702 3490 2333 3161 421 4499
muestra.alumnos <- poblacion.alumnos[cuales, ]
head(muestra.alumnos, 10)
## no promedio
## 4891 4891 78.77347
## 3189 3189 82.34828
## 662 662 88.14136
## 1352 1352 82.34356
## 4780 4780 83.78070
## 2749 2749 74.33581
## 2290 2290 86.76942
## 2654 2654 81.80141
## 3056 3056 83.82407
## 535 535 85.05280
tail(muestra.alumnos, 10)
## no promedio
## 2100 2100 82.61328
## 5297 5297 83.74853
## 1822 1822 76.63783
## 2754 2754 84.89549
## 4702 4702 83.60882
## 3490 3490 84.54664
## 2333 2333 76.92971
## 3161 3161 86.90943
## 421 421 77.21067
## 4499 4499 90.10270
media.poblacion <- mean(poblacion.alumnos$promedio)
media.poblacion
## [1] 84.01415
media.muestra <- mean(muestra.alumnos$promedio)
media.muestra
## [1] 83.77138
hist(x = poblacion.alumnos$promedio, main = "Histograma. Promedio de la población", xlab = "Promedios", ylab = "Cantidad")
hist(x = muestra.alumnos$promedio, main="Histograma. Promedio de la muestra", , xlab = "Promedios", ylab = "Cantidad")
En este caso se realizo un analisis de la de ciertos alumnos el cual queriamos obtener la muestra de de 300 alumnos y el cual ayudo para sacar la media de poblacion y la media de la muestra, y el cual de donde obtuvimos sus promedios fue de un URL.