Elaborar un análisis descriptivo de la variable promedios de alumnos una muestra de la población a partir de la lectura de un archivo promedios.csv
Importar datos de promedio en la dirección: https://raw.githubusercontent.com/rpizarrog/Trabajos-en-R-AD2021/main/datos/promedios.csv y dejarlo en un data.frame.
Mostrar solo los primeros diez registros y los últimos diez registros.
Identificar la variable de interés llamada promedio.
Determinar una muestra de 300 registros de la población. La población es todos los registros del archivo y la muestra es una parte de la población
Identifica la media de la población
Identificar la media de la muestra
Comparar las medias aritméticas
Crear un histograma de los datos
Realizar interpretación
poblacion.alumnos = read.csv("https://raw.githubusercontent.com/rpizarrog/Trabajos-en-R-AD2021/main/datos/promedios.csv")
Mostrar los primeros y últimos registros
Con head() y trail()
head(poblacion.alumnos, 10)
## no promedio
## 1 1 91.60891
## 2 2 86.68564
## 3 3 84.06292
## 4 4 80.94624
## 5 5 88.49800
## 6 6 85.42097
## 7 7 81.11855
## 8 8 78.97463
## 9 9 75.81317
## 10 10 86.60781
tail(poblacion.alumnos, 10)
## no promedio
## 5591 5591 83.61431
## 5592 5592 78.48419
## 5593 5593 79.59696
## 5594 5594 83.86262
## 5595 5595 81.04476
## 5596 5596 87.74938
## 5597 5597 86.64384
## 5598 5598 88.44429
## 5599 5599 88.19806
## 5600 5600 83.74940
str(poblacion.alumnos)
## 'data.frame': 5600 obs. of 2 variables:
## $ no : int 1 2 3 4 5 6 7 8 9 10 ...
## $ promedio: num 91.6 86.7 84.1 80.9 88.5 ...
Muestra de 300 registros
Se utiliza la funcion sample() para determinar la muestra, primero se determina con una variable llamada cuantas los registros que seran muestreados, y a partir de ella se determina la muestra.
¿Que seria una muestra?. Sera una parte representativa y aleatoria de una poblacion
¿Como determinar una muestra? Se utiliza la funcion sample()
promedios\$promedios significa la variable especifica del conjunto de datos promedios
Determinando la variable N el total de registros de la poblacion
N <- nrow(poblacion.alumnos)
Se determinan los registros de la muestra
cuales <- sample(x = 1:N, 300, replace = FALSE)
cuales
## [1] 3596 2113 5432 4200 2345 4250 5042 5448 2984 4915 2688 3789 5463 2696 595
## [16] 3976 2028 3997 1687 538 3205 3864 1618 2705 558 603 5371 1362 4597 374
## [31] 4761 3232 2534 3339 1353 1943 1506 200 2764 5418 3436 4638 101 5547 4759
## [46] 1882 20 1559 4645 1379 2055 949 3478 3302 3958 2753 1075 2854 4341 2514
## [61] 4564 229 5470 4399 4596 1906 2459 5591 4062 5317 678 2521 3070 1606 3429
## [76] 4190 2099 2020 4539 1248 1275 1421 5566 5047 534 572 5340 3945 1033 5199
## [91] 182 1504 4322 2338 3157 2996 3094 3105 4160 1215 4264 1669 3008 4327 4368
## [106] 2286 2631 4677 5486 5207 847 1418 2899 1744 2434 4470 1378 2535 4397 5530
## [121] 4747 4073 1159 523 452 4260 4131 4725 1187 5313 880 2525 2485 4227 3800
## [136] 2492 1227 1127 1482 3959 1250 1465 2942 2867 1857 3810 1570 2800 1819 5309
## [151] 1977 5160 5043 1445 2142 2019 1162 1397 2590 1447 206 1179 3750 227 5304
## [166] 3155 5471 2261 4926 1453 1212 1480 4113 3523 5187 1207 1039 1682 3199 2676
## [181] 985 117 5058 569 3465 1289 192 5415 637 513 4455 2343 4294 3422 2719
## [196] 296 2348 920 4858 561 1661 3373 5457 1246 3776 148 5225 4933 4713 4144
## [211] 2293 2835 1718 3082 5488 2585 3583 3173 5216 965 1334 1722 4185 1619 95
## [226] 5456 1798 295 4553 761 3405 1080 3089 733 3095 2392 4041 582 3153 372
## [241] 3019 178 2968 2986 4084 1902 1829 4168 5185 2297 2133 1354 1077 3204 1958
## [256] 183 2805 98 5582 5525 1737 2526 4001 5178 2491 5253 3313 5473 467 4216
## [271] 3867 3862 1690 2900 4514 5117 2465 518 3057 4452 3558 2337 1614 2990 2173
## [286] 4252 3759 5061 878 3909 4346 1917 890 703 4621 2901 215 4 1412 2692
Se determina la muestra
muestra.alumnos <- poblacion.alumnos[cuales, ]
head(muestra.alumnos, 10)
## no promedio
## 3596 3596 84.22249
## 2113 2113 76.14497
## 5432 5432 90.02219
## 4200 4200 79.29059
## 2345 2345 89.73796
## 4250 4250 81.98017
## 5042 5042 85.96199
## 5448 5448 78.71979
## 2984 2984 88.99671
## 4915 4915 77.01376
tail(muestra.alumnos, 10)
## no promedio
## 4346 4346 86.64510
## 1917 1917 89.33050
## 890 890 81.38805
## 703 703 87.51301
## 4621 4621 81.18611
## 2901 2901 88.32810
## 215 215 91.22700
## 4 4 80.94624
## 1412 1412 89.25495
## 2692 2692 81.81213
Media de la población
media.poblacion <- mean(poblacion.alumnos$promedio)
media.poblacion
## [1] 84.01415
Media de la muestra
media.muestra <- mean(muestra.alumnos$promedio)
media.muestra
## [1] 83.55435
Interpretación
haciendo uso de comando y tecnicas en RStudio logramos :
Mostrar solo los primeros 10 registros y los ultimos 10 registros, con el comando: head() y trail()
Identificar la variable de interes llamada promedio, con los comandos : rnow(), sample(), trail() y head()
Determinar una muestra de 300 registros de la poblacion, con el comando: mean()
Identifica la media de la poblacion, con el comando: mean()
Identificar la media de la muestra, con el comando :mean()
Comparar las medias aritmeticas,
Crear un histograma de los datos,
con una base de datos traida de la web haciendo uso del comando: read.csv