Elaborar un análisis descriptivo de la variable promedios de alumnos una muestra de la población a partir de la lectura de un archivo promedios.csv
Importar datos de promedio en la dirección: <https://raw.githubusercontent.com/rpizarrog/Trabajos-en-R-AD2021/main/datos/promedios.csv> y dejarlo en un data.frame.
Mostrar solo los primeros diez registros y los últimos diez registros.
Identificar la variable de interés llamada promedio.
Determinar una muestra de 300 registros de la población. La población es todos los registros del archivo y la muestra es una parte de la población
Identifica la media de la población
Identificar la media de la muestra
Comparar las medias aritméticas
Crear un histograma de los datos
Realizar interpretación
poblacion.alumnos <- read.csv("https://raw.githubusercontent.com/rpizarrog/Trabajos-en-R-AD2021/main/datos/promedios.csv")
Con las funciones head() y tail() para extraer ciertos registros, en este caso los primeros y últimos diez registros.
head(poblacion.alumnos, 10)
## no promedio
## 1 1 91.60891
## 2 2 86.68564
## 3 3 84.06292
## 4 4 80.94624
## 5 5 88.49800
## 6 6 85.42097
## 7 7 81.11855
## 8 8 78.97463
## 9 9 75.81317
## 10 10 86.60781
tail(poblacion.alumnos, 10)
## no promedio
## 5591 5591 83.61431
## 5592 5592 78.48419
## 5593 5593 79.59696
## 5594 5594 83.86262
## 5595 5595 81.04476
## 5596 5596 87.74938
## 5597 5597 86.64384
## 5598 5598 88.44429
## 5599 5599 88.19806
## 5600 5600 83.74940
Con str() se identifica las variables y el tipo de datos del conjunto de datos.
str(poblacion.alumnos)
## 'data.frame': 5600 obs. of 2 variables:
## $ no : int 1 2 3 4 5 6 7 8 9 10 ...
## $ promedio: num 91.6 86.7 84.1 80.9 88.5 ...
Se utiliza la función sample() para determinar la muestra, primero se determina con una variable llamada cuantas los registros que serán muestrados, y a partir de ella se determina la muestra.
¿Que sería una muestra?. Sería una parte representativa y aleatoria de una población
¿Como determinar una muestra? Se utiliza la función sample().
promedios$promedios significa la variable específica del conjunto de datos promedios
Determinando la variable N el total de registros de la población con la función nrow() para determinar cuántos registros.
N <- nrow(poblacion.alumnos)
Se determinan los registros de la muestra que pueen estar entre 1 y N con 1:N, replace= FALSE significa que el valor numérico encontrado aleatoriamente por sample, no se puede repetir o por el contrario si se puede repetir con la opción TRUE.
cuales <- sample(x = 1:N, 300, replace = FALSE)
cuales
## [1] 674 5360 811 2061 3233 4217 3856 3364 1224 4491 3871 5213 1233 3509 5128
## [16] 4142 1727 2698 15 4838 5435 136 962 3833 415 1938 5 4833 3054 34
## [31] 4268 611 1377 86 4185 2350 5293 3797 2813 3692 408 2420 3235 623 4193
## [46] 4973 5318 5047 2952 3614 874 1110 124 1403 3001 3920 2117 2153 5141 5219
## [61] 3827 3654 1202 2281 3820 5596 2251 822 5429 2241 2364 4880 2461 1148 18
## [76] 4190 5120 4191 878 2782 4167 5177 3395 4210 2258 988 3018 2040 1231 3431
## [91] 544 4735 1027 3676 2769 55 3534 455 4281 2730 4033 4974 4624 4744 3260
## [106] 3658 4255 4145 4502 3899 5235 4899 3332 4651 3194 5171 4726 921 3687 2414
## [121] 1866 4392 5481 3880 5476 1330 2313 4410 5388 4736 5228 3855 720 3622 2874
## [136] 1551 2934 452 2870 677 3137 584 2216 3870 629 4717 4874 2973 4345 2451
## [151] 2943 1426 2302 939 1488 45 3968 142 1558 150 2561 3563 1430 4201 3612
## [166] 1381 4466 3394 4287 2839 3120 2347 2454 4104 2785 969 3607 5057 575 2291
## [181] 3254 3959 4454 5071 4664 1946 3996 5582 2053 396 3163 2935 3721 3828 3035
## [196] 5025 362 395 4311 3407 4230 4538 4216 4765 5226 3802 2271 1443 3816 1334
## [211] 4550 5341 5140 289 4815 4041 1785 3774 1642 1279 1359 1982 3981 1130 4202
## [226] 4623 706 4324 5414 4692 3641 4365 2475 2613 5124 875 2886 1011 3192 3545
## [241] 894 213 4976 5571 685 1991 4983 1050 1480 365 1614 4926 1270 5119 5324
## [256] 1248 4298 3580 3498 4947 3169 480 2486 40 2894 1664 2425 1781 4615 3367
## [271] 3489 4746 735 499 1624 978 600 4344 847 2924 5504 2998 857 3955 1254
## [286] 3219 2514 233 4403 559 1571 3575 1246 567 2970 269 4413 5116 860 701
Se determina la muestra de los valores numéricos que arroja la variable cuales con respecto a la población.Se utilizan los corchetes en formato [renglones, columnas] para identificar los registros.
muestra.alumnos <- poblacion.alumnos[cuales, ] # , espacio significa las dos columnas o todas las columnas
head(muestra.alumnos, 10)
## no promedio
## 674 674 86.59125
## 5360 5360 86.26513
## 811 811 85.40235
## 2061 2061 84.99235
## 3233 3233 80.04205
## 4217 4217 87.86866
## 3856 3856 87.25829
## 3364 3364 86.77625
## 1224 1224 84.79899
## 4491 4491 95.49505
tail(muestra.alumnos, 10)
## no promedio
## 1571 1571 78.81962
## 3575 3575 86.05478
## 1246 1246 88.44007
## 567 567 97.39600
## 2970 2970 84.02218
## 269 269 83.34265
## 4413 4413 74.47094
## 5116 5116 90.68436
## 860 860 83.67908
## 701 701 85.34564
Se obtiene la media aritmética de la variable promedio de toda la población con la función mean().
media.poblacion <- mean(poblacion.alumnos$promedio)
media.poblacion
## [1] 84.01415
Se obtiene la media aritmética de la variable promedio de la muestra con la función mean().
media.muestra <- mean(muestra.alumnos$promedio)
media.muestra
## [1] 84.03741
Un histograma es una representación visual de datos cuantitativo en dos ejes: x & y, la gráfica es en forma de barras y representa como se distribuyen los datos cuantitativos, la altura de la barra indica cuantos datos hay de cada valor.
Se utiliza la función hist() para representar el histograma.
```{r} hist(x = poblacion.alumnos\(promedio, main = "Histograma. Promedio de la población", xlab = "Promedios", ylab = "Cantidad") hist(x = muestra.alumnos\)promedio, main=“Histograma. Promedio de la muestra”, , xlab = “Promedios”, ylab = “Cantidad”)
Por medio del programa RStudio llevamos acabo un analisis de una lista de alumnos, en la cual podemos apreciar a los primeros dies alumnos y los ultimos 10 con las instrucciones (head(poblacion.alumnos, 10) tail(poblacion.alumnos, 10)) como lo podemos apreciar al inicio del programa, al igual que nos puede mostrar el registro que se lleve de alumno, al igual nos muestra una muestra de los registro de los promediosde los alumnos registrados y una media de los promedios que se a obtenido con un valor de 84.04098.