Elaborar un análisis descriptivo de la variable promedios de alumnos una muestra de la población a partir de la lectura de un archivo promedios.csv
Importar datos de promedio en la dirección: https://raw.githubusercontent.com/rpizarrog/Trabajos-en-R-AD2021/main/datos/promedios.csv y dejarlo en un data.frame.
Mostrar solo los primeros diez registros y los últimos diez registros.
Identificar la variable de interés llamada promedio.
Determinar una muestra de 300 registros de la población. La población es todos los registros del archivo y la muestra es una parte de la población
Identifica la media de la población
Identificar la media de la muestra
Comparar las medias aritméticas
Crear un histograma de los datos
Realizar interpretación
poblacion.alumnos <- read.csv("https://raw.githubusercontent.com/rpizarrog/Trabajos-en-R-AD2021/main/datos/promedios.csv")
Con las funciones head() y tail() para extraer ciertos registros, en este caso los primeros y últimos diez registros.
head(poblacion.alumnos, 10)
## no promedio
## 1 1 91.60891
## 2 2 86.68564
## 3 3 84.06292
## 4 4 80.94624
## 5 5 88.49800
## 6 6 85.42097
## 7 7 81.11855
## 8 8 78.97463
## 9 9 75.81317
## 10 10 86.60781
tail(poblacion.alumnos, 10)
## no promedio
## 5591 5591 83.61431
## 5592 5592 78.48419
## 5593 5593 79.59696
## 5594 5594 83.86262
## 5595 5595 81.04476
## 5596 5596 87.74938
## 5597 5597 86.64384
## 5598 5598 88.44429
## 5599 5599 88.19806
## 5600 5600 83.74940
Con str() se identifica las variables y el tipo de datos del conjunto de datos.
str(poblacion.alumnos)
## 'data.frame': 5600 obs. of 2 variables:
## $ no : int 1 2 3 4 5 6 7 8 9 10 ...
## $ promedio: num 91.6 86.7 84.1 80.9 88.5 ...
Se utiliza la función sample() para determinar la muestra, primero se determina con una variable llamada cuantas los registros que serán muestrados, y a partir de ella se determina la muestra.
¿Que sería una muestra?. Sería una parte representativa y aleatoria de una población
¿Como determinar una muestra? Se utiliza la función sample().
promedios$promedios significa la variable específica del conjunto de datos promedios
Determinando la variable N el total de registros de la población con la función nrow() para determinar cuántos registros.
N <- nrow(poblacion.alumnos)
N
## [1] 5600
Se determinan los registros de la muestra que pueen estar entre 1 y N con 1:N, replace= FALSE significa que el valor numérico encontrado aleatoriamente por sample, no se puede repetir o por el contrario si se puede repetir con la opción TRUE.
La variable cuales indica los registros que se seleccionarán de entre 1 y 5600 de manera aleatoria.
cuales <- sample(x = 1:N, 300, replace = FALSE)
cuales
## [1] 3550 1492 752 2187 4319 3703 4962 3394 3391 2579 3485 1258 539 1239 4694
## [16] 955 4892 4442 3966 990 133 3149 2302 3164 1393 1282 1796 3680 1316 5067
## [31] 910 5436 2568 5240 5455 2878 2209 172 5481 376 2342 4881 1834 413 438
## [46] 1013 5512 4818 645 1487 1397 1439 4773 4254 5440 1568 1244 4788 2545 3477
## [61] 4557 1356 4092 110 983 885 1132 5579 5408 4142 403 2906 1556 1271 5429
## [76] 4465 1478 988 2178 1354 1409 2973 5226 5388 4810 4304 5421 4231 626 467
## [91] 3633 1817 103 2969 394 4068 2222 2290 886 776 1319 3638 98 414 4218
## [106] 1279 4141 3349 4297 4785 2395 5064 3728 203 5237 3223 1926 1069 20 3880
## [121] 3030 2272 1971 3734 5317 3380 1208 322 426 4628 5053 2387 3147 4080 656
## [136] 2227 381 1327 5201 4115 142 1086 5211 693 4259 5131 3091 4479 4263 1643
## [151] 3028 2755 1736 5472 2841 2422 156 618 636 3045 2685 1608 2538 856 1878
## [166] 1231 2965 4823 2317 1917 3733 552 1066 3877 4256 3270 4610 3472 3307 4999
## [181] 2580 472 1958 5484 2720 390 2313 4784 475 3432 191 4391 1575 1665 3740
## [196] 3406 270 2866 2292 4567 5259 2021 5310 3042 3604 2303 2122 5177 1673 272
## [211] 4378 5555 1321 244 4054 2849 485 548 4233 5514 2362 3501 3049 4933 1660
## [226] 2038 5457 3594 4654 3936 1639 4325 3014 1751 3119 2454 5564 2978 4896 5497
## [241] 213 1510 2259 2146 521 1786 2022 1613 3256 3573 2288 3939 4240 2396 1826
## [256] 1139 1014 4085 629 1877 2058 4882 5285 3031 2981 283 4774 1931 281 3012
## [271] 2365 3659 5399 3196 1484 320 4587 3904 4060 692 1976 5139 828 1021 1869
## [286] 449 1315 628 4692 3057 1023 1039 2994 2089 4876 76 1448 3831 513 5195
Se determina la muestra de los valores numéricos que arroja la variable cuales con respecto a la población.Se utilizan los corchetes en formato [renglones, columnas] para identificar los registros.
muestra.alumnos <- poblacion.alumnos[cuales, ] # , espacio significa las dos columnas o todas las columnas [renglón, columna]
head(muestra.alumnos, 10)
## no promedio
## 3550 3550 87.45852
## 1492 1492 93.04714
## 752 752 83.40613
## 2187 2187 78.77585
## 4319 4319 78.85585
## 3703 3703 88.03257
## 4962 4962 87.47209
## 3394 3394 77.52953
## 3391 3391 92.65748
## 2579 2579 81.60574
tail(muestra.alumnos, 10)
## no promedio
## 1023 1023 78.19769
## 1039 1039 80.88693
## 2994 2994 84.42090
## 2089 2089 84.56559
## 4876 4876 80.61652
## 76 76 72.05696
## 1448 1448 86.07651
## 3831 3831 82.74284
## 513 513 87.89805
## 5195 5195 76.19836
Se obtiene la media aritmética de la variable promedio de toda la población con la función mean().
media.poblacion <- mean(poblacion.alumnos$promedio)
media.poblacion
## [1] 84.01415
Se obtiene la media aritmética de la variable promedio de la muestra con la función mean().
media.muestra <- mean(muestra.alumnos$promedio)
media.muestra
## [1] 83.97319
Un histograma es una representación visual de datos cuantitativo en dos ejes: x & y, la gráfica es en forma de barras y representa como se distribuyen los datos cuantitativos, la altura de la barra indica cuantos datos hay de cada valor.
Se utiliza la función hist() para representar el histograma.
Histograma de la población de la variable promedio.
hist(x = poblacion.alumnos$promedio, main = "Histograma. Promedio de la población", xlab = "Promedios", ylab = "Cantidad")
Histograma de la muestra de la variable promedio.
hist(x = muestra.alumnos$promedio, main="Histograma. Promedio de la muestra", , xlab = "Promedios", ylab = "Cantidad")
A partir de hacer el análisis descriptivo obteniendo el parámetro media poblacional y el estadístico media de la muestra de la variable promedio; se visualiza mediante un histograma la distribución de los datos con respecto a la población y a la muestra.
La población se compon de 6500 registros u observaciones.
La muestra que se obtiene es de 300 registros
La variable de interés es el promedio que significa un valor numérico que tiene cada alumno con respeto a calificaciones académicas.
EL promedio de la población es de 84.0141468
La media aritmética de la muestra de promedio es de 83.973194.
Los valores de las medias se parecen o son similares, lo que representa que al sacar muestras aleatorias a partir de poblaciones los estadísticos deben ser representativos con respecto a los parámetros de la población.
Las muestras son parte de una población y deben ser aleatorias y representativas.
El histograma representa como se distribuyen los datos, significa que hay muchos promedios entre valores de 80 y 88 aproximadamente.