Elaborar un análisis descriptivo de la variable promedios de alumnos una muestra de la población a partir de la lectura de un archivo promedios.csv
Importar datos de promedio en la dirección: <https://raw.githubusercontent.com/rpizarrog/Trabajos-en-R-AD2021/main/datos/promedios.csv> y dejarlo en un data.frame.
Mostrar solo los primeros diez registros y los últimos diez registros.
Identificar la variable de interés llamada promedio.
Determinar una muestra de 300 registros de la población. La población es todos los registros del archivo y la muestra es una parte de la población
Identifica la media de la población
Identificar la media de la muestra
Comparar las medias aritméticas
Crear un histograma de los datos
Realizar interpretación
poblacion.alumnos <- read.csv("https://raw.githubusercontent.com/rpizarrog/Trabajos-en-R-AD2021/main/datos/promedios.csv")
Con las funciones head() y tail() para extraer ciertos registros, en este caso los primeros y últimos diez registros.
head(poblacion.alumnos, 10)
## no promedio
## 1 1 91.60891
## 2 2 86.68564
## 3 3 84.06292
## 4 4 80.94624
## 5 5 88.49800
## 6 6 85.42097
## 7 7 81.11855
## 8 8 78.97463
## 9 9 75.81317
## 10 10 86.60781
tail(poblacion.alumnos, 10)
## no promedio
## 5591 5591 83.61431
## 5592 5592 78.48419
## 5593 5593 79.59696
## 5594 5594 83.86262
## 5595 5595 81.04476
## 5596 5596 87.74938
## 5597 5597 86.64384
## 5598 5598 88.44429
## 5599 5599 88.19806
## 5600 5600 83.74940
Con str() se identifica las variables y el tipo de datos del conjunto de datos.
str(poblacion.alumnos)
## 'data.frame': 5600 obs. of 2 variables:
## $ no : int 1 2 3 4 5 6 7 8 9 10 ...
## $ promedio: num 91.6 86.7 84.1 80.9 88.5 ...
Se utiliza la función sample() para determinar la muestra, primero se determina con una variable llamada cuantas los registros que serán muestrados, y a partir de ella se determina la muestra.
¿Que sería una muestra?. Sería una parte representativa y aleatoria de una población
¿Como determinar una muestra? Se utiliza la función sample().
promedios$promedios significa la variable específica del conjunto de datos promedios
Determinando la variable N el total de registros de la población con la función nrow() para determinar cuántos registros.
N <- nrow(poblacion.alumnos)
Se determinan los registros de la muestra que pueen estar entre 1 y N con 1:N, replace= FALSE significa que el valor numérico encontrado aleatoriamente por sample, no se puede repetir o por el contrario si se puede repetir con la opción TRUE.
cuales <- sample(x = 1:N, 300, replace = FALSE)
cuales
## [1] 3061 3445 851 1994 3417 1895 2231 5439 4707 3032 197 3758 5139 501 4251
## [16] 4935 2725 3587 2709 4395 2659 1804 210 4577 3419 1591 5566 4780 4050 1141
## [31] 426 5043 401 2152 871 4552 2808 1997 5005 2078 266 4280 5253 4714 252
## [46] 2779 1794 3015 1656 1998 5401 3731 217 2872 1090 1862 1441 4127 2680 2181
## [61] 3205 974 1410 4268 3832 4051 3115 4773 3173 2982 93 2323 423 5405 5399
## [76] 2203 1558 2886 1919 2497 1295 897 4547 4218 4243 3302 4476 1202 4249 335
## [91] 3339 4123 4978 4674 411 512 220 4403 3326 1749 1876 3599 2401 1988 3527
## [106] 1685 3101 21 3332 3906 3493 2058 373 3307 2254 4067 3441 2308 3427 1541
## [121] 4343 3818 2415 3172 5283 3080 3977 1725 4479 1151 1370 4840 1550 1450 3962
## [136] 886 3039 4573 1167 2352 65 505 4561 5116 1713 2319 5280 3866 3057 4076
## [151] 3848 532 3288 3548 5264 640 1805 5233 581 4538 4769 1639 3833 5308 112
## [166] 1453 2180 326 5184 1134 2168 4795 230 4131 2041 3128 5496 3415 2933 4938
## [181] 224 5137 2212 946 3897 68 548 1961 5369 4316 486 1198 3246 1649 258
## [196] 5073 2075 274 1886 4462 4228 1073 1379 4523 64 3076 2145 2298 127 4885
## [211] 1546 4830 2721 3718 1617 1594 1846 2013 232 4653 2471 3675 3812 4001 4065
## [226] 409 3697 4308 4406 4985 5509 2851 4180 1620 5404 2045 5303 353 4613 170
## [241] 1420 2907 3019 1634 1830 2434 3294 2687 5026 699 1457 1203 4054 1333 4422
## [256] 5111 2403 965 2585 3289 5225 2431 47 1173 3519 4597 1233 1486 5255 4716
## [271] 1236 5320 3157 3806 4671 1122 1817 1142 884 5072 1175 2043 638 2639 2141
## [286] 4926 2594 5292 2459 4681 4543 3446 1443 2777 3626 5595 2563 2135 2018 1863
Se determina la muestra de los valores numéricos que arroja la variable cuales con respecto a la población.Se utilizan los corchetes en formato [renglones, columnas] para identificar los registros.
muestra.alumnos <- poblacion.alumnos[cuales, ] # , espacio significa las dos columnas o todas las columnas
head(muestra.alumnos, 10)
## no promedio
## 3061 3061 86.97580
## 3445 3445 89.28300
## 851 851 84.45648
## 1994 1994 85.20263
## 3417 3417 83.64319
## 1895 1895 85.71655
## 2231 2231 81.14899
## 5439 5439 82.18541
## 4707 4707 85.60240
## 3032 3032 82.09912
tail(muestra.alumnos, 10)
## no promedio
## 4543 4543 84.79567
## 3446 3446 85.80689
## 1443 1443 71.65135
## 2777 2777 80.34453
## 3626 3626 80.16939
## 5595 5595 81.04476
## 2563 2563 87.19167
## 2135 2135 89.10909
## 2018 2018 83.82577
## 1863 1863 86.40289
Se obtiene la media aritmética de la variable promedio de toda la población con la función mean().
media.poblacion <- mean(poblacion.alumnos$promedio)
media.poblacion
## [1] 84.01415
Se obtiene la media aritmética de la variable promedio de la muestra con la función mean().
media.muestra <- mean(muestra.alumnos$promedio)
media.muestra
## [1] 83.88901
Un histograma es una representación visual de datos cuantitativo en dos ejes: x & y, la gráfica es en forma de barras y representa como se distribuyen los datos cuantitativos, la altura de la barra indica cuantos datos hay de cada valor.
Se utiliza la función hist() para representar el histograma.
hist(x = poblacion.alumnos$promedio, main = "Histograma. Promedio de la población", xlab = "Promedios", ylab = "Cantidad")
hist(x = muestra.alumnos$promedio, main="Histograma. Promedio de la muestra", , xlab = "Promedios", ylab = "Cantidad")
En este trabajo se elaboro un analisis descriptivo de nuestra variable promedios de alumnos , los datos aqui mostrados fueron proporcionados mediante links y tambien se llego a una muestra de 300 registros para la finalizacion de la media de la poblacion de alumnos (5600).