Elaborar un análisis descriptivo de la variable promedios de alumnos una muestra de la población a partir de la lectura de un archivo promedios.csv
Importar datos de promedio en la dirección: https://raw.githubusercontent.com/rpizarrog/Trabajos-en-R-AD2021/main/datos/promedios.csv y dejarlo en un data.frame
Mostrar solo los primeros diez registros y los últimos diez registros.
Identificar la variable de interés llamada promedio.
Determinar una muestra de 300 registros de la población. La población es todos los registros del archivo y la muestra es una parte de la población.
Identifica la media de la población.
Identificar la media de la muestra.
Comparar las medias aritméticas.
Crear un histograma de los datos.
Realizar interpretación.
poblacion.alumnos <- read.csv("https://raw.githubusercontent.com/rpizarrog/Trabajos-en-R-AD2021/main/datos/promedios.csv")
Con head() y tail()
head(poblacion.alumnos, 10)
## no promedio
## 1 1 91.60891
## 2 2 86.68564
## 3 3 84.06292
## 4 4 80.94624
## 5 5 88.49800
## 6 6 85.42097
## 7 7 81.11855
## 8 8 78.97463
## 9 9 75.81317
## 10 10 86.60781
tail(poblacion.alumnos, 10)
## no promedio
## 5591 5591 83.61431
## 5592 5592 78.48419
## 5593 5593 79.59696
## 5594 5594 83.86262
## 5595 5595 81.04476
## 5596 5596 87.74938
## 5597 5597 86.64384
## 5598 5598 88.44429
## 5599 5599 88.19806
## 5600 5600 83.74940
Con str() se identifica las variables y el tipo de datos del conjunto de datos:
str(poblacion.alumnos)
## 'data.frame': 5600 obs. of 2 variables:
## $ no : int 1 2 3 4 5 6 7 8 9 10 ...
## $ promedio: num 91.6 86.7 84.1 80.9 88.5 ...
Se utiliza la función sample() para determinar la muestra, primero se determina con una variable llamada cuantas los registros que serán muestreados, y a partir de ella se determina la muestra.
¿Que sería una muestra?. Sería una parte representativa y aleatoria de una población.
¿Como determinar una muestra? Se utiliza la función sample().
promedios$promedios significa la variable específica del conjunto de datos promedios.
Determinando la variable N el total de registros de la población con la función nrow() para determinar cuántos registros:
N <- nrow(poblacion.alumnos)
Se determinan los registros de la muestra que pueden estar entre 1 y N con 1:N, replace= FALSE significa que el valor numérico encontrado aleatoriamente por sample, no se puede repetir o por el contrario si se puede repetir con la opción TRUE.
cuales <- sample(x = 1:N, 300, replace = FALSE)
cuales
## [1] 5107 2263 423 1679 4421 5111 2863 4272 4106 586 2842 107 3829 1130 147
## [16] 2717 2857 3530 3852 1516 3722 5456 4581 2552 5507 3495 752 3970 4353 5480
## [31] 348 5476 17 1043 171 4798 3067 2204 5179 1681 2550 2637 4375 670 18
## [46] 5270 2004 2986 1670 3834 1729 1238 5326 5530 1255 3128 4641 579 3533 901
## [61] 368 1340 1709 1868 4636 487 389 3092 3898 1242 1053 5024 2689 1802 3687
## [76] 2320 4831 476 3672 5460 1089 3033 5207 2438 5407 3899 2708 3701 1358 4759
## [91] 1654 5217 5574 1054 2194 3213 3915 716 4674 2343 908 4552 2119 3031 430
## [106] 4015 2108 4110 4572 3878 2210 4172 482 1906 3391 4441 288 2237 2734 1592
## [121] 1899 1534 4384 5419 4035 3895 5200 5262 4135 2947 966 628 3021 2836 3412
## [136] 1203 2584 4574 392 4163 529 4433 4065 5310 3427 2597 263 2942 4738 652
## [151] 3576 5082 1475 513 2561 4327 213 2713 4561 3227 895 5544 4144 498 5503
## [166] 3639 4623 2817 594 95 4585 1641 777 4058 2418 3826 3702 4660 294 4607
## [181] 4139 3522 242 1145 2606 4989 383 3882 99 3999 760 987 3721 4653 970
## [196] 2014 2936 5433 4890 1536 4347 2902 5001 5495 1849 4881 5283 558 747 2523
## [211] 1346 2644 1851 4350 625 4333 3747 5062 1414 4632 879 353 857 485 1613
## [226] 528 2442 346 3269 1489 3990 4731 1992 207 2770 3764 534 3080 543 2877
## [241] 3508 1297 283 3121 1252 3332 2142 1898 4238 5020 3161 2724 5466 1058 5204
## [256] 4445 2224 1184 5123 4912 2731 3474 3050 2707 4147 3282 1004 3441 5032 1712
## [271] 5327 4608 856 3755 2710 1994 3694 1742 2982 2462 1503 2411 2469 4123 3909
## [286] 1561 1372 3681 3372 1788 1092 1726 1867 2266 2082 1515 2491 3761 5452 4523
Se determina la muestra de los valores numéricos que arroja la variable cuales con respecto a la población.Se utilizan los corchetes en formato [renglones, columnas] para identificar los registros:
muestra.alumnos <- poblacion.alumnos[cuales, ] # Las dos columnas
head(muestra.alumnos, 10)
## no promedio
## 5107 5107 82.71709
## 2263 2263 90.38209
## 423 423 83.53494
## 1679 1679 91.70744
## 4421 4421 79.18721
## 5111 5111 85.99399
## 2863 2863 85.36046
## 4272 4272 81.54200
## 4106 4106 80.46305
## 586 586 89.40221
tail(muestra.alumnos, 10)
## no promedio
## 1092 1092 80.05321
## 1726 1726 87.92773
## 1867 1867 88.68631
## 2266 2266 94.09444
## 2082 2082 78.58759
## 1515 1515 80.50540
## 2491 2491 75.46292
## 3761 3761 80.45041
## 5452 5452 81.10606
## 4523 4523 84.32982
Se obtiene la media aritmética de la variable promedio de toda la población con la función mean().
media.poblacion <- mean(poblacion.alumnos$promedio)
media.poblacion
## [1] 84.01415
Se obtiene la media aritmética de la variable promedio de la muestra con la función mean().
media.muestra <- mean(muestra.alumnos$promedio)
media.muestra
## [1] 84.24802
Un histograma es una representación visual de datos cuantitativo en dos ejes: x & y, la gráfica es en forma de barras y representa como se distribuyen los datos cuantitativos, la altura de la barra indica cuantos datos hay de cada valor.
Se utiliza la función hist() para representar el histograma.
hist(x = poblacion.alumnos$promedio, main = "Histograma. Promedio de la población", xlab = "Promedios", ylab = "Cantidad")
hist(x = muestra.alumnos$promedio, main="Histograma. Promedio de la muestra", , xlab = "Promedios", ylab = "Cantidad")
Se hace un análisis descriptivo obteniendo el parámetro media poblacional y el estadístico media de la muestra de la variable promedio; se visualiza mediante un histograma la distribución de los datos con respecto a la población y a la muestra. La población se compone de 5600 registros u observaciones. La muestra que se obtiene es de 300 registros. La variable de interés es el promedio que significa un valor numérico que tiene cada alumno con respeto a calificaciones académicas. El promedio de la población es de 84.01415 mientras que la media aritmética de la muestra de promedio varía. Los valores de las medias se parecen o son similares, lo que representa que al sacar muestras aleatorias a partir de poblaciones los estadísticos deben ser representativos con respecto a los parámetros de la población. Las muestras son parte de una población y deben ser aleatorias y representativas. El histograma representa como se distribuyen los datos, significa que hay muchos promedios entre valores de 80 y 88 aproximadamente.