Elaborar un análisis descriptivo de la variable promedios de alumnos una muestra de la población a partir de la lectura de un archivo promedios.csv
Importar datos de promedio en la dirección: <https://raw.githubusercontent.com/rpizarrog/Trabajos-en-R-AD2021/main/datos/promedios.csv> y dejarlo en un data.frame.
Mostrar solo los primeros diez registros y los últimos diez registros.
Identificar la variable de interés llamada promedio.
Determinar una muestra de 300 registros de la población. La población es todos los registros del archivo y la muestra es una parte de la población
Identifica la media de la población
Identificar la media de la muestra
Comparar las medias aritméticas
Crear un histograma de los datos
Realizar interpretación
poblacion.alumnos <- read.csv("https://raw.githubusercontent.com/rpizarrog/Trabajos-en-R-AD2021/main/datos/promedios.csv")
Con las funciones head() y tail() para extraer ciertos registros, en este caso los primeros y últimos diez registros.
head(poblacion.alumnos, 10)
## no promedio
## 1 1 91.60891
## 2 2 86.68564
## 3 3 84.06292
## 4 4 80.94624
## 5 5 88.49800
## 6 6 85.42097
## 7 7 81.11855
## 8 8 78.97463
## 9 9 75.81317
## 10 10 86.60781
tail(poblacion.alumnos, 10)
## no promedio
## 5591 5591 83.61431
## 5592 5592 78.48419
## 5593 5593 79.59696
## 5594 5594 83.86262
## 5595 5595 81.04476
## 5596 5596 87.74938
## 5597 5597 86.64384
## 5598 5598 88.44429
## 5599 5599 88.19806
## 5600 5600 83.74940
Con str() se identifica las variables y el tipo de datos del conjunto de datos.
str(poblacion.alumnos)
## 'data.frame': 5600 obs. of 2 variables:
## $ no : int 1 2 3 4 5 6 7 8 9 10 ...
## $ promedio: num 91.6 86.7 84.1 80.9 88.5 ...
Se utiliza la función sample() para determinar la muestra, primero se determina con una variable llamada cuantas los registros que serán muestrados, y a partir de ella se determina la muestra.
¿Que sería una muestra?. Sería una parte representativa y aleatoria de una población
¿Como determinar una muestra? Se utiliza la función sample().
promedios$promedios significa la variable específica del conjunto de datos promedios
Determinando la variable N el total de registros de la población con la función nrow() para determinar cuántos registros.
N <- nrow(poblacion.alumnos)
Se determinan los registros de la muestra que pueen estar entre 1 y N con 1:N, replace= FALSE significa que el valor numérico encontrado aleatoriamente por sample, no se puede repetir o por el contrario si se puede repetir con la opción TRUE.
cuales <- sample(x = 1:N, 300, replace = FALSE)
cuales
## [1] 3972 3165 2254 925 2552 37 4441 3866 3274 3732 5590 1174 3325 4921 5235
## [16] 5165 90 1250 5099 4361 30 558 1230 4273 5287 797 786 31 4132 1809
## [31] 1088 5242 5554 1408 1409 285 1144 4072 2310 1610 3598 3318 1894 2344 4113
## [46] 12 515 3216 3751 4554 2296 1605 4688 3159 2516 3749 1180 719 3365 4547
## [61] 1651 4417 2775 200 4829 2499 981 5011 2083 2128 500 201 2294 67 1961
## [76] 1385 5218 2215 4659 610 5108 3660 1173 3429 5561 2193 1305 2158 1073 1185
## [91] 2805 3944 3707 1471 2243 277 1959 2001 1873 5571 5265 3364 2267 4649 4256
## [106] 4911 3205 1547 4818 4760 778 4578 551 2410 301 2791 867 4271 5054 1188
## [121] 161 4149 4098 2412 2955 3162 231 777 2880 397 1433 1255 2320 1946 985
## [136] 1954 20 4193 1222 991 1498 1883 2404 604 4741 2693 1373 1828 1618 868
## [151] 1722 78 368 1326 4351 1526 3664 764 3243 5261 4388 1969 1897 2575 3106
## [166] 3317 1363 782 4205 3730 3830 4974 5399 2513 1405 5245 3766 1801 5309 2707
## [181] 5492 3114 5472 3010 5567 108 1093 2709 4371 4097 4535 294 1448 2737 1973
## [196] 5434 2793 4038 3943 1845 2298 4045 2579 4790 2111 2720 818 2833 1598 4207
## [211] 1387 530 5405 1275 3451 614 1905 2192 4025 2800 3656 1769 684 3154 1842
## [226] 4042 2441 2959 2624 886 3796 2453 4093 692 1108 858 5363 2942 4802 5248
## [241] 4110 1079 5403 3924 5254 4299 2021 884 5121 4699 358 2926 2512 2741 3974
## [256] 2974 4644 117 1069 910 4658 4874 1007 661 4798 2826 3176 2672 626 2918
## [271] 520 1553 3846 1728 5012 4187 2113 1390 1150 1606 1972 3151 3517 5394 4895
## [286] 3033 2175 3933 23 682 2802 1364 2153 2489 4246 4863 1854 25 1025 61
Se determina la muestra de los valores numéricos que arroja la variable cuales con respecto a la población.Se utilizan los corchetes en formato [renglones, columnas] para identificar los registros.
muestra.alumnos <- poblacion.alumnos[cuales, ] # , espacio significa las dos columnas o todas las columnas
head(muestra.alumnos, 10)
## no promedio
## 3972 3972 85.33482
## 3165 3165 83.70763
## 2254 2254 86.52545
## 925 925 85.97795
## 2552 2552 93.53908
## 37 37 88.11766
## 4441 4441 75.96521
## 3866 3866 79.57699
## 3274 3274 79.06611
## 3732 3732 83.69757
tail(muestra.alumnos, 10)
## no promedio
## 2802 2802 88.11501
## 1364 1364 89.05899
## 2153 2153 86.99828
## 2489 2489 82.42937
## 4246 4246 80.13092
## 4863 4863 78.24324
## 1854 1854 82.82333
## 25 25 87.56959
## 1025 1025 86.29407
## 61 61 84.29805
Se obtiene la media aritmética de la variable promedio de toda la población con la función mean().
media.poblacion <- mean(poblacion.alumnos$promedio)
media.poblacion
## [1] 84.01415
Se obtiene la media aritmética de la variable promedio de la muestra con la función mean().
media.muestra <- mean(muestra.alumnos$promedio)
media.muestra
## [1] 83.85752
Un histograma es una representación visual de datos cuantitativo en dos ejes: x & y, la gráfica es en forma de barras y representa como se distribuyen los datos cuantitativos, la altura de la barra indica cuantos datos hay de cada valor.
Se utiliza la función hist() para representar el histograma.
hist(x = poblacion.alumnos$promedio, main = "Histograma. Promedio de la población", xlab = "Promedios", ylab = "Cantidad")
hist(x = muestra.alumnos$promedio, main="Histograma. Promedio de la muestra", xlab = "Promedios", ylab = "Cantidad")
Se desarrollo un parámetro media poblacional y el estadístico media de la muestra es de 300 registros, las muestras son aleatorias y demostrativa La población se compone de 6500 registros u observaciones.
La variable en promedio que significa un valor numérico que tiene cada alumno con respeto a calificaciones académicas
EL promedio de la población es de 84.0141468
La media aritmética de la muestra de promedio es de 83.8575243.
Se acompaña tambien por un histograma dele promedio de la poblacion y junto con el histograma del promedio de muestra
Los valores de las medias se parecen o son similares,