Objetivo

Elaborar un analisis descriptivo de la variable promedios de alumnos una muestra de la poblacion a partir de la lectura de un archivo .csv

Descripcion

Desarrollo

Importar datos

poblacion.alumnos <- read.csv("https://raw.githubusercontent.com/rpizarrog/Trabajos-en-R-AD2021/main/datos/promedios.csv")

Mostrar primeros y ultimos registros

Con las funciones head() y tail() para extraer ciertos registros, en este caso los primeros y últimos.

head(poblacion.alumnos, 10)
##    no promedio
## 1   1 91.60891
## 2   2 86.68564
## 3   3 84.06292
## 4   4 80.94624
## 5   5 88.49800
## 6   6 85.42097
## 7   7 81.11855
## 8   8 78.97463
## 9   9 75.81317
## 10 10 86.60781
tail(poblacion.alumnos, 10)
##        no promedio
## 5591 5591 83.61431
## 5592 5592 78.48419
## 5593 5593 79.59696
## 5594 5594 83.86262
## 5595 5595 81.04476
## 5596 5596 87.74938
## 5597 5597 86.64384
## 5598 5598 88.44429
## 5599 5599 88.19806
## 5600 5600 83.74940

La variable de interes es promedio

Con str() se identifica las variables y el tipo de datos del conjunto de datos.

str(poblacion.alumnos)
## 'data.frame':    5600 obs. of  2 variables:
##  $ no      : int  1 2 3 4 5 6 7 8 9 10 ...
##  $ promedio: num  91.6 86.7 84.1 80.9 88.5 ...

Muestra de 300 registros

Se utiliza la función sample() para determinar la muestra, primero se determina con una variable llamada cuantas los registros que serán muestrados, y a partir de ella se determina la muestra.

  • ¿Que sería una muestra?. Sería una parte representativa y aleatoria de una población.

  • ¿Como determinar una muestra? Se utiliza la función sample().

  • promedios$promedios significa la variable específica del conjunto de datos promedios.

Determinando la variable N el total de registros de la población con la función nrow() para determinar cuántos registros.

N <- nrow(poblacion.alumnos)
N
## [1] 5600

Se determinan los registros de la muestra que pueen estar entre 1 y N con 1:N, replace= FALSE significa que el valor numérico encontrado aleatoriamente por sample(), no se puede repetir o por el contrario si se puede repetir con la opción TRUE.

La variable cuales indica los registros que se seleccionarán de entre 1 y 5600 de manera aleatoria.

cuales <- sample(x = 1:N, 300, replace = FALSE)
cuales
##   [1]  861  272 1707  890 3841  698 4973  911 3834  183 5288 1962 4907 4998  928
##  [16] 1482 4545  672 3143 1540 2322 4240  390 4862 4488 3807 3698 1659  317   79
##  [31]  100 3275 1206 3631 4663 2983 3730 4525 3147  410 1151  215 1068 1551 3543
##  [46]  619 3720 2252 5334 1329 2518 4782 2169  154  937 4812 3772 2689 1125 3136
##  [61]  866 3778 1619 4559 4499 5125  842 4193 2177 5325  475 2284 4945 1631 1576
##  [76] 1705 2658 4156 4421  546 3405 1438  465 1293   49 4737 4516 4611 3903  319
##  [91] 1642 4556 2127 3990 4457 3707  956 1368 2941 3740 5012 2456 4038   99 5404
## [106] 1003 1384  768 1565 1193 2437 2400 2920 3204 1741 1092 4479 4327 1027  654
## [121] 2066  705 1711 5273  559 3277 2436 1174 4313  231  944  579 4694 3873 3925
## [136] 1922 2686 4032 2715 4084 3938  489 1694 4382 5412 2358 4297 2086 2162 3473
## [151] 2932 4131  825 3965 1176 5157 2733 2971 3288 4921 1234 1387 5436  896 2716
## [166] 4302  733  226 1060 3971 3703 3913 3662 1764    2  671  139 2973 3521  126
## [181] 5581  330 2655 2365 4584 2962   38 4686  773 2631 2035 3693 2937 1500  366
## [196] 2679 4646 3432 1331 4005 1618 5140 1687  562 3852 3221 3661 4458 2010 5016
## [211] 5484  490 4964 4130 3153  151 4398 3097 1131 2475 1604 5507 3891 3718  583
## [226] 1326 1660  523 1263 5383   71  257 1806 5426  776  929 4777 5504 1570  298
## [241] 3200 5271 3640 4338  751 4800 4853 3334 5090 3505 1664 1463  210  906 5207
## [256] 5537 5037  854 5270  414 5192  543 1461 1726  877 3350 4092 5529 1589  852
## [271] 5368  427 4186  399 1605 3042 1286 3349 3096 4946 1640 4633  931 1087 3815
## [286]  247 4056 4766 1278  821 3139 5574 4681 3970 4086  524 4884   76 2525 3296

Se determina la muestra de los valores numéricos que arroja la variable cuales con respecto a la población. Se utilizan los corchetes en formato [renglones, columnas] para identificar los registros.

muestra.alumnos <- poblacion.alumnos[cuales, ]
head(muestra.alumnos, 10)
##        no promedio
## 861   861 79.70794
## 272   272 77.12120
## 1707 1707 83.17768
## 890   890 81.38805
## 3841 3841 84.72843
## 698   698 83.07680
## 4973 4973 71.28551
## 911   911 90.52355
## 3834 3834 84.80099
## 183   183 82.91330
tail(muestra.alumnos, 10)
##        no promedio
## 3139 3139 78.40447
## 5574 5574 82.01132
## 4681 4681 90.13016
## 3970 3970 73.72092
## 4086 4086 90.23216
## 524   524 81.53408
## 4884 4884 74.35983
## 76     76 72.05696
## 2525 2525 90.16866
## 3296 3296 89.41649

Media de la poblacion

Se obtiene la media aritmética de la variable promedio de toda la población con la función mean().

media.poblacion <- mean(poblacion.alumnos$promedio)
media.poblacion
## [1] 84.01415

Media de la muestra

Se obtiene la media aritmética de la variable promedio de la muestra con la función mean().

media.muestra <- mean(muestra.alumnos$promedio)
media.muestra
## [1] 84.15497

Histograma

Un histograma es una representación visual de datos cuantitativo en dos ejes: x & y, la gráfica es en forma de barras y representa como se distribuyen los datos cuantitativos, la altura de la barra indica cuantos datos hay de cada valor.

Se utiliza la función hist() para representar el histograma.

Histograma de la población de la variable promedio.

hist(x = poblacion.alumnos$promedio, main = "Histograma. Promedio de la población", xlab = "Promedios", ylab = "Cantidad")

Histograma de la muestra de la variable promedio.

hist(x = muestra.alumnos$promedio, main="Histograma. Promedio de la muestra", , xlab = "Promedios", ylab = "Cantidad")

Observaciones

Se hace un analisis obteniendo el la media poblacional y la media de la muestra; se muestra mediante el histograma los datos con respecto a la poblacion y a la muestra.

El universo consta de 6500 elementos registrados.

La muestra en cuestion debe de incluir a 300 registros dentro de la poblacion o universo.

El promedio entre toda la población consta de 84.01414 unidades.

La media de la muestra es de 84.18223 unidades.

Las muestras de la poblacion son datos escogidos al azar y comprenden elementos que forman parte del universo en el que vamos a trabajar.

El histograma muestra la distribucion de los registros involucrando ya sea la población o la muestra en cuestion, existen muchas notas de estudiantes que rondan por los 84 puntos.