El objetivo es llevar a cabo un análisis descriptivo de la variable ‘promedioalumnos’, obteniendo datos a partir de su población total de datos y de una muestra de los mismos. Se importarán los datos de una dirección web y se almacenarán en un archivo .csv
Importar todos los datos de los promedios desde la dirección: <<https://raw.githubusercontent.com/rpizarrog/Trabajos-en-R-AD2021/main/promedios.csv>>se quedarán en un data.frame.
Mostrar solo los primeros diez y los últimos diez registros.
Identificar la variable de interés llamada ‘promedioalumnos’.
Determinar una muestra de 300 registros de la población. La población es todos los registros del archivo y la muestra es una parte de la población.
Identifica la media de la población.
Identificar la media de la muestra.
Comparar las medias aritméticas.
Crear un histograma de los datos.
Realizar la interpretación.
promedioalumnos <- read.csv("https://raw.githubusercontent.com/rpizarrog/Trabajos-en-R-AD2021/main/promedios.csv")
Con las funciones head() y tail() es posible extraer ciertos registros, en este caso los primeros y últimos diez registros.
head(promedioalumnos, 10)
## no promedios
## 1 1 91.60891
## 2 2 86.68564
## 3 3 84.06292
## 4 4 80.94624
## 5 5 88.49800
## 6 6 85.42097
## 7 7 81.11855
## 8 8 78.97463
## 9 9 75.81317
## 10 10 86.60781
tail(promedioalumnos, 10)
## no promedios
## 5591 5591 83.61431
## 5592 5592 78.48419
## 5593 5593 79.59696
## 5594 5594 83.86262
## 5595 5595 81.04476
## 5596 5596 87.74938
## 5597 5597 86.64384
## 5598 5598 88.44429
## 5599 5599 88.19806
## 5600 5600 83.74940
Con la función str() se identifican las variables y el tipo de datos del conjunto de datos.
str(promedioalumnos)
## 'data.frame': 5600 obs. of 2 variables:
## $ no : int 1 2 3 4 5 6 7 8 9 10 ...
## $ promedios: num 91.6 86.7 84.1 80.9 88.5 ...
Se utiliza la función sample() para determinar la muestra, se usa una variable llamada ‘cuantas’ que representa los registros que serán mostrados, y a partir de ella se determina la muestra.
¿Que es una muestra? Sería una parte representativa y aleatoria de una población.
¿Como se determina una muestra? Se utiliza la función sample().
Determinar la variable N que representa el total de registros de la población, usando la función nrow() para determinar cuántos registros.
N <- nrow(promedioalumnos)
Se determinan los registros de la muestra que pueden estar entre 1 y N con 1:N, replace= FALSE significa que el valor numérico encontrado aleatoriamente por sample() no se puede repetir o por el contrario si se puede repetir con la opción TRUE.
cuales <- sample(x = 1:N, 300, replace = FALSE)
cuales
## [1] 3837 3455 5377 5214 5045 4113 1019 3016 36 5593 561 3224 4988 1236 1721
## [16] 1348 2073 1257 2890 4399 4441 4702 1766 3118 946 357 773 4358 2517 4025
## [31] 3905 3749 1414 1972 3012 4523 3557 4107 3241 2219 1651 5114 3383 547 1927
## [46] 1094 2845 4503 4628 3547 3899 2233 2876 3737 3559 5489 2726 1872 4005 3195
## [61] 937 3811 992 1306 5490 2312 3586 145 3903 3917 685 538 1426 4778 4118
## [76] 3584 4888 4995 988 3271 1501 4958 5198 4959 2369 3983 3348 1817 2064 3945
## [91] 3481 5019 3699 5417 94 2887 4183 2732 3392 3355 2077 4588 3477 3762 1681
## [106] 1771 3991 950 3658 133 1224 1825 4687 1487 5555 3191 4568 1984 1012 28
## [121] 4873 3410 4609 2787 3950 177 5454 3598 918 4860 5339 904 4819 3852 4902
## [136] 5096 2894 1655 827 4647 4205 441 3952 4815 1921 398 641 1333 2365 754
## [151] 366 4026 5472 2537 2528 5584 3555 3325 172 4255 2319 2509 2712 52 4632
## [166] 2671 1418 4977 394 2388 3111 5143 4515 4945 4313 2180 1402 4406 3544 954
## [181] 10 2560 5439 2951 3428 3132 1674 2494 1488 2220 4961 201 4312 3232 5264
## [196] 802 3641 1846 3472 3385 1924 1091 4722 2422 1843 1734 766 3438 4152 5085
## [211] 4250 2558 2429 1107 3122 745 240 1511 1067 4698 2125 4375 1188 1389 914
## [226] 70 502 1566 3751 3454 2566 5317 2251 5297 1703 3090 4063 174 2243 546
## [241] 973 1001 2052 5148 5545 4275 607 103 989 520 969 81 3426 2260 2114
## [256] 4416 888 1116 2731 1340 2315 3381 560 3120 2785 4794 5078 2242 2576 3029
## [271] 338 1231 1443 1344 511 11 486 1518 788 910 4567 4244 3591 1299 2190
## [286] 4979 1028 5012 5311 2168 5497 550 2195 1580 3435 2595 809 842 2842 2611
Se determina la muestra de los valores numéricos que arroja la variable cuales con respecto a la población.Se utilizan los corchetes en formato [renglones, columnas] para identificar los registros.
muestra.alumnos <- promedioalumnos[cuales, ]
head(muestra.alumnos, 10)
## no promedios
## 3837 3837 77.25056
## 3455 3455 80.67348
## 5377 5377 81.68311
## 5214 5214 76.95176
## 5045 5045 86.45053
## 4113 4113 84.38520
## 1019 1019 86.22552
## 3016 3016 78.70822
## 36 36 79.69977
## 5593 5593 79.59696
tail(muestra.alumnos, 10)
## no promedios
## 5497 5497 83.11135
## 550 550 82.50753
## 2195 2195 81.67346
## 1580 1580 80.86086
## 3435 3435 73.28589
## 2595 2595 79.97902
## 809 809 86.05846
## 842 842 83.33544
## 2842 2842 82.18868
## 2611 2611 87.44362
Se obtiene la media aritmética de la variable promedio de toda la población con la función mean().
mediapromedios <- mean(promedioalumnos$promedios)
mediapromedios
## [1] 84.01415
Se obtiene la media aritmética de la variable promedio de la muestra con la función mean().
mediamuestra <- mean(muestra.alumnos$promedios)
mediamuestra
## [1] 83.81766
Un histograma es una representación visual de datos cuantitativo en dos ejes: x & y, la gráfica es en forma de barras y representa como se distribuyen los datos cuantitativos, la altura de la barra indica cuantos datos hay de cada valor.
Se utiliza la función hist() para representar el histograma.
hist(x = promedioalumnos$promedios, main = "Histograma - Promedio de la población", xlab = "Promedios", ylab = "Cantidad")
hist(x = muestra.alumnos$promedios, main = "Histograma - Promedio de la muestra", xlab = "Promedios", ylab = "Cantidad")
Se hace un análisis descriptivo obteniendo el parámetro media poblacional y el estadístico media de la muestra de la variable promedio; se visualiza mediante un histograma la distribución de los datos con respecto a la población y a la muestra.
La población se compone de 6500 registros u observaciones.
La muestra que se obtiene es de 300 registros.
La variable de interés es el promedio que significa un valor numérico que tiene cada alumno con respeto a calificaciones académicas.
EL promedio de la población es de 84.01415
La media aritmética de la muestra de promedio es de 84.17876
Los valores de las medias se parecen o son similares, lo que representa que al sacar muestras aleatorias a partir de poblaciones los estadísticos deben ser representativos con respecto a los parámetros de la población.
Las muestras son parte de una población y deben ser aleatorias y representativas.
El histograma representa como se distribuyen los datos, significa que hay muchos promedios entre valores de 80 y 88 aproximadamente.