Elaborar un análisis descriptivo de la variable promedios de alumnos una muestra de la población a partir de la lectura de un archivo promedios.csv
Importar datos de promedio en la dirección: <https://raw.githubusercontent.com/rpizarrog/Trabajos-en-R-AD2021/main/datos/promedios.csv> y dejarlo en un data.frame.
Mostrar solo los primeros diez registros y los últimos diez registros.
Identificar la variable de interés llamada promedio.
Determinar una muestra de 300 registros de la población. La población es todos los registros del archivo y la muestra es una parte de la población
Identifica la media de la población
Identificar la media de la muestra
Comparar las medias aritméticas
Crear un histograma de los datos
Realizar interpretación
poblacion.alumnos <- read.csv("https://raw.githubusercontent.com/rpizarrog/Trabajos-en-R-AD2021/main/datos/promedios.csv")
Con las funciones head() y tail() para extraer ciertos registros, en este caso los primeros y últimos diez registros.
head(poblacion.alumnos, 10)
## no promedio
## 1 1 91.60891
## 2 2 86.68564
## 3 3 84.06292
## 4 4 80.94624
## 5 5 88.49800
## 6 6 85.42097
## 7 7 81.11855
## 8 8 78.97463
## 9 9 75.81317
## 10 10 86.60781
tail(poblacion.alumnos, 10)
## no promedio
## 5591 5591 83.61431
## 5592 5592 78.48419
## 5593 5593 79.59696
## 5594 5594 83.86262
## 5595 5595 81.04476
## 5596 5596 87.74938
## 5597 5597 86.64384
## 5598 5598 88.44429
## 5599 5599 88.19806
## 5600 5600 83.74940
Con str() se identifica las variables y el tipo de datos del conjunto de datos.
str(poblacion.alumnos)
## 'data.frame': 5600 obs. of 2 variables:
## $ no : int 1 2 3 4 5 6 7 8 9 10 ...
## $ promedio: num 91.6 86.7 84.1 80.9 88.5 ...
Se utiliza la función sample() para determinar la muestra, primero se determina con una variable llamada cuantas los registros que serán muestrados, y a partir de ella se determina la muestra.
¿Que sería una muestra?. Sería una parte representativa y aleatoria de una población
¿Como determinar una muestra? Se utiliza la función sample().
promedios$promedios significa la variable específica del conjunto de datos promedios
Determinando la variable N el total de registros de la población con la función nrow() para determinar cuántos registros.
N <- nrow(poblacion.alumnos)
Se determinan los registros de la muestra que pueen estar entre 1 y N con 1:N, replace= FALSE significa que el valor numérico encontrado aleatoriamente por sample, no se puede repetir o por el contrario si se puede repetir con la opción TRUE.
cuales <- sample(x = 1:N, 300, replace = FALSE)
cuales
## [1] 721 4611 4330 4510 1059 1436 733 838 1160 1872 679 4531 3733 3450 5226
## [16] 4562 211 3031 2035 951 3597 303 4954 1868 399 1524 2972 5171 3154 2256
## [31] 250 484 1362 4752 2002 2011 402 314 3853 2610 4926 2204 834 3928 735
## [46] 5551 4522 3499 4140 4328 3618 2647 2717 474 1726 863 1617 3841 5279 754
## [61] 4896 2714 2102 1023 2376 1608 4365 5111 1498 3370 3819 4814 1875 4598 4525
## [76] 2194 4483 1361 637 4639 2594 2663 4305 1791 4113 968 4715 4004 4375 3826
## [91] 2814 3427 1005 1668 4677 5594 1342 3346 4348 5485 528 569 692 190 3586
## [106] 3649 3637 3190 2872 2826 5038 893 4888 4961 2638 4455 4098 3423 1708 2851
## [121] 3164 185 1297 1079 2310 4995 2824 1900 4605 2387 5213 5366 2607 2181 4015
## [136] 4340 2463 5431 4251 2693 475 5347 1581 5378 108 3373 952 502 4797 4762
## [151] 2038 3867 1910 2459 392 2396 1272 843 180 2768 3563 4774 3074 1652 1407
## [166] 1897 461 5548 4699 4222 687 1800 840 1880 1466 4628 2133 4700 548 27
## [181] 5098 1064 2802 5116 1707 4475 3440 285 3992 3671 824 1954 2479 3559 21
## [196] 4688 201 1901 4454 901 5008 5482 2868 2662 3175 1825 1727 813 1468 940
## [211] 5426 2106 4960 5394 3281 4683 3379 4399 3817 4223 1503 3780 3983 3615 3820
## [226] 3663 2965 4273 1514 2368 5142 4356 1054 5274 4030 127 2242 1078 958 672
## [241] 3043 1042 2251 3213 836 2724 4748 4627 1656 121 2343 775 5443 885 3374
## [256] 3328 5491 4503 2395 4180 3299 294 4386 4741 2861 848 1488 3570 1179 1560
## [271] 4983 2297 3162 4991 2833 3669 1504 2453 932 551 817 136 2358 5488 3891
## [286] 2155 2615 3171 579 1826 5377 3395 3830 2907 2275 168 4397 2555 3131 2653
Se determina la muestra de los valores numéricos que arroja la variable cuales con respecto a la población.Se utilizan los corchetes en formato [renglones, columnas] para identificar los registros.
muestra.alumnos <- poblacion.alumnos[cuales, ] # , espacio significa las dos columnas o todas las columnas
head(muestra.alumnos, 10)
## no promedio
## 721 721 82.49410
## 4611 4611 88.00833
## 4330 4330 92.40157
## 4510 4510 91.46553
## 1059 1059 82.10339
## 1436 1436 74.13841
## 733 733 74.81446
## 838 838 83.61503
## 1160 1160 93.71545
## 1872 1872 84.94072
tail(muestra.alumnos, 10)
## no promedio
## 5377 5377 81.68311
## 3395 3395 84.23368
## 3830 3830 81.41751
## 2907 2907 77.93570
## 2275 2275 88.58495
## 168 168 80.32588
## 4397 4397 77.86146
## 2555 2555 81.80555
## 3131 3131 88.31154
## 2653 2653 76.43265
Se obtiene la media aritmética de la variable promedio de toda la población con la función mean().
media.poblacion <- mean(poblacion.alumnos$promedio)
media.poblacion
## [1] 84.01415
Se obtiene la media aritmética de la variable promedio de la muestra con la función mean().
media.muestra <- mean(muestra.alumnos$promedio)
media.muestra
## [1] 84.13893
Un histograma es una representación visual de datos cuantitativo en dos ejes: x & y, la gráfica es en forma de barras y representa como se distribuyen los datos cuantitativos, la altura de la barra indica cuantos datos hay de cada valor.
Se utiliza la función hist() para representar el histograma.
hist(x = poblacion.alumnos$promedio, main = "Histograma. Promedio de la población", xlab = "Promedios", ylab = "Cantidad")
hist(x = muestra.alumnos$promedio, main="Histograma. Promedio de la muestra", , xlab = "Promedios", ylab = "Cantidad")
Se hace un análisis descriptivo obteniendo el parámetro media poblacional y el estadístico media de la muestra de la variable promedio; se visualiza mediante un histograma la distribución de los datos con respecto a la población y a la muestra.
La población se compon de 6500 registros u observaciones.
La muestra que se obtiene es de 300 registros
La variable de interés es el promedio que significa un valor numérico que tiene cada alumno con respeto a calificaciones académicas.
EL promedio de la población es de 84.0141468
La media aritmética de la muestra de promedio es de 84.1389256.
Los valores de las medias se parecen o son similares, lo que representa que al sacar muestras aleatorias a partir de poblaciones los estadísticos deben ser representativos con respecto a los parámetros de la población.
Las muestras son parte de una población y deben ser aleatorias y representativas.
El histograma representa como se distribuyen los datos, significa que hay muchos promedios entre valores de 80 y 88 aproximadamente.