Elaborar un análisis descriptivo de la variable promedios de alumnos una muestra de la población a partir de la lectura de un archivo promedios.csv
Importar datos de promedio en la dirección: <https://raw.githubusercontent.com/rpizarrog/Trabajos-en-R-AD2021/main/datos/promedios.csv> y dejarlo en un data.frame.
Mostrar solo los primeros diez registros y los últimos diez registros.
Identificar la variable de interés llamada promedio.
Determinar una muestra de 300 registros de la población. La población es todos los registros del archivo y la muestra es una parte de la población
Identifica la media de la población
Identificar la media de la muestra
Comparar las medias aritméticas
Crear un histograma de los datos
Realizar interpretación
poblacion.alumnos <- read.csv("https://raw.githubusercontent.com/rpizarrog/Trabajos-en-R-AD2021/main/datos/promedios.csv")
Con las funciones head() y tail() para extraer ciertos registros, en este caso los primeros y últimos diez registros.
head(poblacion.alumnos, 10)
## no promedio
## 1 1 91.60891
## 2 2 86.68564
## 3 3 84.06292
## 4 4 80.94624
## 5 5 88.49800
## 6 6 85.42097
## 7 7 81.11855
## 8 8 78.97463
## 9 9 75.81317
## 10 10 86.60781
tail(poblacion.alumnos, 10)
## no promedio
## 5591 5591 83.61431
## 5592 5592 78.48419
## 5593 5593 79.59696
## 5594 5594 83.86262
## 5595 5595 81.04476
## 5596 5596 87.74938
## 5597 5597 86.64384
## 5598 5598 88.44429
## 5599 5599 88.19806
## 5600 5600 83.74940
Con str() se identifica las variables y el tipo de datos del conjunto de datos.
str(poblacion.alumnos)
## 'data.frame': 5600 obs. of 2 variables:
## $ no : int 1 2 3 4 5 6 7 8 9 10 ...
## $ promedio: num 91.6 86.7 84.1 80.9 88.5 ...
Se utiliza la función sample() para determinar la muestra, primero se determina con una variable llamada cuantas los registros que serán muestrados, y a partir de ella se determina la muestra.
¿Que sería una muestra?. Sería una parte representativa y aleatoria de una población
¿Como determinar una muestra? Se utiliza la función sample().
promedios$promedios significa la variable específica del conjunto de datos promedios
Determinando la variable N el total de registros de la población con la función nrow() para determinar cuántos registros.
N <- nrow(poblacion.alumnos)
Se determinan los registros de la muestra que pueen estar entre 1 y N con 1:N, replace= FALSE significa que el valor numérico encontrado aleatoriamente por sample, no se puede repetir o por el contrario si se puede repetir con la opción TRUE.
cuales <- sample(x = 1:N, 300, replace = FALSE)
cuales
## [1] 2168 2588 2008 2646 2604 4018 981 2140 1187 2279 2401 1404 5000 707 1497
## [16] 4340 465 2896 4871 430 1743 5201 4180 4084 2339 4291 1199 3178 695 3519
## [31] 4121 893 3538 3639 4197 1331 4886 897 355 1190 7 4285 3051 4920 537
## [46] 1112 1998 4464 317 2462 4921 2777 3698 3004 2415 4788 3352 4885 3967 4478
## [61] 5099 4323 3498 4342 2752 5563 1619 454 4145 3100 489 1687 3642 5358 3228
## [76] 5528 2300 2166 1067 2863 3648 1303 4310 4191 4634 473 4622 2815 4409 23
## [91] 24 5430 2893 1020 5519 4097 2356 1654 3758 4223 2954 4471 3452 1376 258
## [106] 2407 250 1250 4144 3280 2636 5282 2635 3508 1409 725 3685 1812 4750 5568
## [121] 4394 887 5039 781 2139 1391 4341 4142 4043 2291 2684 1859 1443 4956 2323
## [136] 2825 5344 1838 1145 1143 1981 716 4069 1382 614 3615 5338 4332 4036 637
## [151] 5514 4605 1937 3851 534 3145 5093 756 5365 1710 1170 5317 737 378 4640
## [166] 1962 4597 2734 4250 1629 2839 2993 361 2969 3954 4531 2105 478 3323 3201
## [181] 3382 3379 4434 883 3411 3308 4822 3626 4432 1351 2217 1013 4088 4498 2932
## [196] 3578 3443 109 1488 1171 2133 4095 2383 1486 2729 4062 3886 3245 1711 2764
## [211] 2181 5392 1095 204 2528 2272 2950 4079 2995 8 3147 1637 2304 1019 2117
## [226] 4363 3246 4309 740 5380 3502 3928 5273 3449 1069 4364 2102 3117 1140 3645
## [241] 3515 3743 2366 5489 2994 697 2827 1168 4336 593 2330 270 1615 2180 143
## [256] 1943 4874 2806 4009 2045 3204 2911 2872 4556 4056 4752 3843 5536 2705 2115
## [271] 4244 3499 402 2816 4295 3950 3233 4495 3778 1631 4720 2303 5582 2210 4306
## [286] 323 3609 4179 2445 5200 4458 1440 2413 3850 2957 1511 5433 35 3054 4107
Se determina la muestra de los valores numéricos que arroja la variable cuales con respecto a la población.Se utilizan los corchetes en formato [renglones, columnas] para identificar los registros.
muestra.alumnos <- poblacion.alumnos[cuales, ] # , espacio significa las dos columnas o todas las columnas
head(muestra.alumnos, 10)
## no promedio
## 2168 2168 81.87124
## 2588 2588 78.26411
## 2008 2008 79.87067
## 2646 2646 86.20502
## 2604 2604 85.87430
## 4018 4018 81.90026
## 981 981 82.65962
## 2140 2140 86.30805
## 1187 1187 89.49626
## 2279 2279 84.67808
tail(muestra.alumnos, 10)
## no promedio
## 4458 4458 82.65453
## 1440 1440 91.58914
## 2413 2413 84.47553
## 3850 3850 87.11516
## 2957 2957 79.66749
## 1511 1511 83.75172
## 5433 5433 79.71687
## 35 35 93.47233
## 3054 3054 83.03597
## 4107 4107 84.86499
Se obtiene la media aritmética de la variable promedio de toda la población con la función mean().
media.poblacion <- mean(poblacion.alumnos$promedio)
media.poblacion
## [1] 84.01415
Se obtiene la media aritmética de la variable promedio de la muestra con la función mean().
media.muestra <- mean(muestra.alumnos$promedio)
media.muestra
## [1] 84.01258
Un histograma es una representación visual de datos cuantitativo en dos ejes: x & y, la gráfica es en forma de barras y representa como se distribuyen los datos cuantitativos, la altura de la barra indica cuantos datos hay de cada valor.
Se utiliza la función hist() para representar el histograma.
hist(x = poblacion.alumnos$promedio, main = "Histograma. Promedio de la población", xlab = "Promedios", ylab = "Cantidad")
hist(x = muestra.alumnos$promedio, main="Histograma. Promedio de la muestra", , xlab = "Promedios", ylab = "Cantidad")
Se hace un análisis descriptivo obteniendo el parámetro media poblacional y el estadístico media de la muestra de la variable promedio; se visualiza mediante un histograma la distribución de los datos con respecto a la población y a la muestra.
La población se compon de 6500 registros u observaciones.
La muestra que se obtiene es de 300 registros
La variable de interés es el promedio que significa un valor numérico que tiene cada alumno con respeto a calificaciones académicas.
EL promedio de la población es de 84.0141468
La media aritmética de la muestra de promedio es de 84.0125831.
Los valores de las medias se parecen o son similares, lo que representa que al sacar muestras aleatorias a partir de poblaciones los estadísticos deben ser representativos con respecto a los parámetros de la población.
Las muestras son parte de una población y deben ser aleatorias y representativas.
El histograma representa como se distribuyen los datos, significa que hay muchos promedios entre valores de 80 y 88 aproximadamente.