Elaborar un análisis descriptivo de la variable promedios de alumnos una muestra de la población a partir de la lectura de un archivo promedios.csv
Importar datos de promedio en la dirección: https://raw.githubusercontent.com/rpizarrog/Trabajos-en-R-AD2021/main/datos/promedios.csv y dejarlo en un data.frame.
Mostrar solo los primeros diez registros y los últimos diez registros
Identificar la variable de interés llamada promedio
Determinar una muestra de 300 registros de la población. La población es todos los registros del archivo y la muestra es una parte de la población
Identifica la media de la población
Identificar la media de la muestra
Comparar las medias aritméticas
Crear un histograma de los datos
Realizar interpretación
Poblacion.alumnos <- read.csv("https://raw.githubusercontent.com/rpizarrog/Trabajos-en-R-AD2021/main/datos/promedios.csv ")
Con las funciones head() y tail() para extraer ciertos registros, en este caso los primeros y últimos diez registros.
head(Poblacion.alumnos , 10)
## no promedio
## 1 1 91.60891
## 2 2 86.68564
## 3 3 84.06292
## 4 4 80.94624
## 5 5 88.49800
## 6 6 85.42097
## 7 7 81.11855
## 8 8 78.97463
## 9 9 75.81317
## 10 10 86.60781
tail(Poblacion.alumnos , 10)
## no promedio
## 5591 5591 83.61431
## 5592 5592 78.48419
## 5593 5593 79.59696
## 5594 5594 83.86262
## 5595 5595 81.04476
## 5596 5596 87.74938
## 5597 5597 86.64384
## 5598 5598 88.44429
## 5599 5599 88.19806
## 5600 5600 83.74940
Con str () se identifica las variables y el tipo de datos el conjunto de datos
str(Poblacion.alumnos)
## 'data.frame': 5600 obs. of 2 variables:
## $ no : int 1 2 3 4 5 6 7 8 9 10 ...
## $ promedio: num 91.6 86.7 84.1 80.9 88.5 ...
Se utiliza la función sample () para determinar la muestra, primero se determina con una variable llamada cuantas los registros que serán mostrados, ya partir de ella se determina la muestra.
#Seria un parte representativa y aleatoria de una población
¿Como determinar una muestra?.Se utiliza la funcion sample ()
Promedios \ $ promedios significa la variable especifica del conjunto de datos promedios.
Determinando la variable N el total de registros de población con la función nrow () para determinar cuantos registros.
N <- nrow ( Poblacion.alumnos )
Se determina los registros de la muestra.
Cuales <- sample ( x = 1 : N , 300 , replace = FALSE )
Cuales
## [1] 1009 3569 1689 4161 1307 2617 4629 1408 4107 2544 5576 1958 4773 3738 2808
## [16] 4927 37 182 693 2135 3971 4997 1546 2509 3143 388 2218 5318 5439 2067
## [31] 4555 3394 2850 409 4349 1635 4252 1618 1224 5175 522 1913 4616 3833 4924
## [46] 4985 3892 1539 3726 3916 1483 2382 3354 593 1944 1058 5352 133 1077 2383
## [61] 2987 4930 4001 4217 248 369 3105 2408 3760 1420 4632 745 1062 1032 4528
## [76] 507 919 1644 4717 5316 4540 4519 4864 2562 2458 5046 4238 1998 1717 1800
## [91] 4914 2375 1739 3332 4687 4251 3197 4580 5092 4889 4249 5335 776 5400 1624
## [106] 1506 371 2045 4270 2287 1388 543 3944 2566 1051 1531 1129 1467 2274 3238
## [121] 2217 5189 4110 2305 3768 2649 1253 2402 5053 5104 3731 1363 4256 3553 4566
## [136] 1068 319 749 704 3060 5470 435 2136 1455 1501 1549 5221 140 1838 724
## [151] 2333 2717 4241 3138 4310 2206 4034 4329 4304 1290 2819 2883 4564 1596 5317
## [166] 4410 799 1569 4658 646 2350 1097 3007 539 4063 2286 4274 2704 4750 1208
## [181] 3808 4068 2714 2818 2635 3711 5126 4214 2271 723 811 1512 4541 3355 4786
## [196] 1678 3923 3335 4235 1508 5252 2912 3275 85 5103 4856 1948 1664 4060 4592
## [211] 5015 3004 3603 2112 3477 1594 4605 4074 432 3975 4928 4401 538 2600 2971
## [226] 1179 487 2001 1807 2464 1760 1558 932 523 5028 4533 112 3431 2052 4844
## [241] 944 2681 2542 2470 1245 2707 3446 462 2360 3834 1454 1630 3736 4436 3242
## [256] 2661 2171 3775 604 4769 62 3493 3250 5217 2573 3961 542 100 5491 3075
## [271] 3066 1836 5588 2117 2557 3283 4584 1824 1868 3428 3046 3120 3130 3194 3067
## [286] 4972 1787 1012 1543 1559 2069 5402 1655 2015 2417 743 2351 971 3534 4529Se determina la muestra.
Muestra.alumnos <- Poblacion.alumnos [ Cuales ,] # Las dos columnas
head ( Muestra.alumnos , 10 )
## no promedio
## 1009 1009 86.74078
## 3569 3569 82.57817
## 1689 1689 83.72055
## 4161 4161 84.41255
## 1307 1307 78.97562
## 2617 2617 86.23180
## 4629 4629 82.61864
## 1408 1408 77.10185
## 4107 4107 84.86499
## 2544 2544 77.95982
tail ( Muestra.alumnos , 10 )
## no promedio
## 2069 2069 85.40921
## 5402 5402 84.23981
## 1655 1655 84.21418
## 2015 2015 76.72512
## 2417 2417 88.07237
## 743 743 89.96690
## 2351 2351 82.52995
## 971 971 87.17738
## 3534 3534 74.78520
## 4529 4529 95.44313
Se obtiene la media aritmética de la variable promedio de toda la población con la función mean().
media.poblacion <- mean ( Poblacion.alumnos $ promedio )
media.poblacion
## [1] 84.01415
Se obtiene la media aritmética de la variable promedio de la muestra con la función mean ().
media.muestra <- mean (Muestra.alumnos$promedio )
media.muestra
## [1] 84.43851
Un histograma es una representación visual de datos cuantitativos en dos ejes: X & Y , se utiliza la función hist () para representar el histograma.
hist(x = Poblacion.alumnos$promedio , main = "Histograma.promedio de la poblacion" , xlab = "Promedios", ylab = "Cantidad")
hist(x = Muestra.alumnos$promedio, main="Histograma. Promedio de la muestra", , xlab = "Promedios", ylab = "Cantidad")
El caso extrae a partir de un archivo que se encuentra en una dirección ,extrae o importa para trabajarlos en R studio , se identifica cuantos registros hay en la población que son alrededor de 5600 de los cuales la variable de interés se llama promedio , a partir de la población se determina una muestra de 300 registros ,se determina la media de la población de la variable promedio siendo esta 84.014 y también se determina la media de la muestra siendo esta 84.20 ,se observa una ligera diferencia entre la media de la población contra la media de la muestra.
Con esto se concluye que una muestra es representativa y aleatoria con respecto a la población.