Elaborar un analisis descriptivo de la variable promedios de alumnos una muestra de la poblacion a partir de la lectura de un archivo .csv
Importar datos de promedio en la dirección y dejarlo en un data.frame.
Mostrar solo los primeros diez registros y los últimos 10 registros.
Identificar la variable de interés llamada promedio.
Determinar una muestra de 300 registros de la poblacion. La población son todos los registros del archivo y la muestra es una parte de la poblacion.
Identifica la media de la poblacion.
Identifica la media de la muestra.
Comparar medias aritmeticas.
Crear histograma de datos.
Realizar interpretación.
poblacion.alumnos <- read.csv("https://raw.githubusercontent.com/rpizarrog/Trabajos-en-R-AD2021/main/datos/promedios.csv")
Con las funciones head() y tail() para extraer ciertos registros, en este caso los primeros y últimos.
head(poblacion.alumnos, 10)
## no promedio
## 1 1 91.60891
## 2 2 86.68564
## 3 3 84.06292
## 4 4 80.94624
## 5 5 88.49800
## 6 6 85.42097
## 7 7 81.11855
## 8 8 78.97463
## 9 9 75.81317
## 10 10 86.60781
tail(poblacion.alumnos, 10)
## no promedio
## 5591 5591 83.61431
## 5592 5592 78.48419
## 5593 5593 79.59696
## 5594 5594 83.86262
## 5595 5595 81.04476
## 5596 5596 87.74938
## 5597 5597 86.64384
## 5598 5598 88.44429
## 5599 5599 88.19806
## 5600 5600 83.74940
Con str() se identifica las variables y el tipo de datos del conjunto de datos.
str(poblacion.alumnos)
## 'data.frame': 5600 obs. of 2 variables:
## $ no : int 1 2 3 4 5 6 7 8 9 10 ...
## $ promedio: num 91.6 86.7 84.1 80.9 88.5 ...
Se utiliza la función sample() para determinar la muestra, primero se determina con una variable llamada cuantas los registros que serán muestrados, y a partir de ella se determina la muestra.
¿Que sería una muestra?. Sería una parte representativa y aleatoria de una población.
¿Como determinar una muestra? Se utiliza la función sample().
promedios$promedios significa la variable específica del conjunto de datos promedios.
Determinando la variable N el total de registros de la población con la función nrow() para determinar cuántos registros.
N <- nrow(poblacion.alumnos)
N
## [1] 5600
Se determinan los registros de la muestra que pueen estar entre 1 y N con 1:N, replace= FALSE significa que el valor numérico encontrado aleatoriamente por sample(), no se puede repetir o por el contrario si se puede repetir con la opción TRUE.
La variable cuales indica los registros que se seleccionarán de entre 1 y 5600 de manera aleatoria.
cuales <- sample(x = 1:N, 300, replace = FALSE)
cuales
## [1] 861 272 1707 890 3841 698 4973 911 3834 183 5288 1962 4907 4998 928
## [16] 1482 4545 672 3143 1540 2322 4240 390 4862 4488 3807 3698 1659 317 79
## [31] 100 3275 1206 3631 4663 2983 3730 4525 3147 410 1151 215 1068 1551 3543
## [46] 619 3720 2252 5334 1329 2518 4782 2169 154 937 4812 3772 2689 1125 3136
## [61] 866 3778 1619 4559 4499 5125 842 4193 2177 5325 475 2284 4945 1631 1576
## [76] 1705 2658 4156 4421 546 3405 1438 465 1293 49 4737 4516 4611 3903 319
## [91] 1642 4556 2127 3990 4457 3707 956 1368 2941 3740 5012 2456 4038 99 5404
## [106] 1003 1384 768 1565 1193 2437 2400 2920 3204 1741 1092 4479 4327 1027 654
## [121] 2066 705 1711 5273 559 3277 2436 1174 4313 231 944 579 4694 3873 3925
## [136] 1922 2686 4032 2715 4084 3938 489 1694 4382 5412 2358 4297 2086 2162 3473
## [151] 2932 4131 825 3965 1176 5157 2733 2971 3288 4921 1234 1387 5436 896 2716
## [166] 4302 733 226 1060 3971 3703 3913 3662 1764 2 671 139 2973 3521 126
## [181] 5581 330 2655 2365 4584 2962 38 4686 773 2631 2035 3693 2937 1500 366
## [196] 2679 4646 3432 1331 4005 1618 5140 1687 562 3852 3221 3661 4458 2010 5016
## [211] 5484 490 4964 4130 3153 151 4398 3097 1131 2475 1604 5507 3891 3718 583
## [226] 1326 1660 523 1263 5383 71 257 1806 5426 776 929 4777 5504 1570 298
## [241] 3200 5271 3640 4338 751 4800 4853 3334 5090 3505 1664 1463 210 906 5207
## [256] 5537 5037 854 5270 414 5192 543 1461 1726 877 3350 4092 5529 1589 852
## [271] 5368 427 4186 399 1605 3042 1286 3349 3096 4946 1640 4633 931 1087 3815
## [286] 247 4056 4766 1278 821 3139 5574 4681 3970 4086 524 4884 76 2525 3296
Se determina la muestra de los valores numéricos que arroja la variable cuales con respecto a la población. Se utilizan los corchetes en formato [renglones, columnas] para identificar los registros.
muestra.alumnos <- poblacion.alumnos[cuales, ]
head(muestra.alumnos, 10)
## no promedio
## 861 861 79.70794
## 272 272 77.12120
## 1707 1707 83.17768
## 890 890 81.38805
## 3841 3841 84.72843
## 698 698 83.07680
## 4973 4973 71.28551
## 911 911 90.52355
## 3834 3834 84.80099
## 183 183 82.91330
tail(muestra.alumnos, 10)
## no promedio
## 3139 3139 78.40447
## 5574 5574 82.01132
## 4681 4681 90.13016
## 3970 3970 73.72092
## 4086 4086 90.23216
## 524 524 81.53408
## 4884 4884 74.35983
## 76 76 72.05696
## 2525 2525 90.16866
## 3296 3296 89.41649
Se obtiene la media aritmética de la variable promedio de toda la población con la función mean().
media.poblacion <- mean(poblacion.alumnos$promedio)
media.poblacion
## [1] 84.01415
Se obtiene la media aritmética de la variable promedio de la muestra con la función mean().
media.muestra <- mean(muestra.alumnos$promedio)
media.muestra
## [1] 84.15497
Un histograma es una representación visual de datos cuantitativo en dos ejes: x & y, la gráfica es en forma de barras y representa como se distribuyen los datos cuantitativos, la altura de la barra indica cuantos datos hay de cada valor.
Se utiliza la función hist() para representar el histograma.
Histograma de la población de la variable promedio.
hist(x = poblacion.alumnos$promedio, main = "Histograma. Promedio de la población", xlab = "Promedios", ylab = "Cantidad")
Histograma de la muestra de la variable promedio.
hist(x = muestra.alumnos$promedio, main="Histograma. Promedio de la muestra", , xlab = "Promedios", ylab = "Cantidad")
Se hace un analisis obteniendo el la media poblacional y la media de la muestra; se muestra mediante el histograma los datos con respecto a la poblacion y a la muestra.
El universo consta de 6500 elementos registrados.
La muestra en cuestion debe de incluir a 300 registros dentro de la poblacion o universo.
El promedio entre toda la población consta de 84.01414 unidades.
La media de la muestra es de 84.18223 unidades.
Las muestras de la poblacion son datos escogidos al azar y comprenden elementos que forman parte del universo en el que vamos a trabajar.
El histograma muestra la distribucion de los registros involucrando ya sea la población o la muestra en cuestion, existen muchas notas de estudiantes que rondan por los 84 puntos.