Objetivo

Elaborar un análisis descriptivo de la variable promedios de alumnos una muestra de la población a partir de la lectura de un archivo promedios.csv

Descripción

Desarrollo

Importar los datos

poblacion.alumnos <- read.csv("https://raw.githubusercontent.com/rpizarrog/Trabajos-en-R-AD2021/main/datos/promedios.csv")

Mostrar los primeros y últimos registros

Con las funciones head() y tail() para extraer ciertos registros, en este caso los primeros y últimos diez registros.

head(poblacion.alumnos, 10)
##    no promedio
## 1   1 91.60891
## 2   2 86.68564
## 3   3 84.06292
## 4   4 80.94624
## 5   5 88.49800
## 6   6 85.42097
## 7   7 81.11855
## 8   8 78.97463
## 9   9 75.81317
## 10 10 86.60781
tail(poblacion.alumnos, 10)
##        no promedio
## 5591 5591 83.61431
## 5592 5592 78.48419
## 5593 5593 79.59696
## 5594 5594 83.86262
## 5595 5595 81.04476
## 5596 5596 87.74938
## 5597 5597 86.64384
## 5598 5598 88.44429
## 5599 5599 88.19806
## 5600 5600 83.74940

La variable de interés es promedio

Con str() se identifica las variables y el tipo de datos del conjunto de datos.

str(poblacion.alumnos)
## 'data.frame':    5600 obs. of  2 variables:
##  $ no      : int  1 2 3 4 5 6 7 8 9 10 ...
##  $ promedio: num  91.6 86.7 84.1 80.9 88.5 ...

Muestra de 300 registros

Se utiliza la función sample() para determinar la muestra, primero se determina con una variable llamada cuantas los registros que serán muestrados, y a partir de ella se determina la muestra.

  • ¿Que sería una muestra?. Sería una parte representativa y aleatoria de una población

  • ¿Como determinar una muestra? Se utiliza la función sample().

  • promedios$promedios significa la variable específica del conjunto de datos promedios

Determinando la variable N el total de registros de la población con la función nrow() para determinar cuántos registros.

N <- nrow(poblacion.alumnos)

Se determinan los registros de la muestra que pueen estar entre 1 y N con 1:N, replace= FALSE significa que el valor numérico encontrado aleatoriamente por sample, no se puede repetir o por el contrario si se puede repetir con la opción TRUE.

cuales <- sample(x = 1:N, 300, replace = FALSE)
cuales
##   [1] 3248 3884  731 3818 2645 3429 3213 4537 3317 1028  649 3399 3984 4795 2536
##  [16] 3378 4760 1257  308  173 1468  269 4100 2950  684 3250 3553  919   25 1949
##  [31]  652 3748 4744  658 3238 1637 4211   82 2757 4429 1385 1100 3567 1363 5487
##  [46] 1403 2498 3170 4833 5479 4272 3310 1832 3801 3715 4477 1090 3541  421 3656
##  [61] 5457 4983 3319 1916 2337 3520 3501 2005  280  708 2055 3947  616 1552  756
##  [76] 5122 1742 1014 4815 1774  792 3956 3267  198 2776  623 2654 1776 1818 3392
##  [91] 1241 3188 4223 5160 4755 2933 3400 5310 5106 2165 2227 5214 1296 4080 2541
## [106] 1279  256  246 4542 4627 2866 1475 4527 3519 3470 1757  674 3421 4277 4395
## [121] 5569  910 2983 2516 3951 1334 4644 3891 1206 3819 3570 3693 5200 5502 1945
## [136] 5229  470 3849 1041  626 3361 4227  603 1318 1908 3165 4689 4000 5365 1866
## [151]  712 2476 2647 3108  351 2544 4724    1 4027 3147 1781 3832  320 1276 2098
## [166]  202 1312 3053 4754 5047 5488 1644 3218 3599 3893 1772 3695 1948 5293  924
## [181] 4741 3137  678 4977 4172 4190 2278 2383  496 3796 4911 1414  638 4834 2418
## [196] 3800 1963   58 2910  413 1631  984 2521 2714 5560 1178  911 2845   42 5249
## [211] 4177 4458   59 4501 2004 2429  265 3073 3350 4386 1741 4628 4615 3498  376
## [226] 3242 5475 3176 4993 4796 2022 5196 3469  475 5526 2147 4186 3167 1770 1722
## [241] 1378 4255  882 4611 3548 2564 2069  786 4649 2182 5018 1790 3205 5537 1936
## [256] 4669 1270 4124 2601 4489  796 2812 5073 3552 4961 4865 5356 3249 4050 5309
## [271] 4414 1560 3280 4898  584  272 5313 4218  634  629 2091 4931 5563  909 2523
## [286]  839 1373  313 4126  293 5174 4232 4697 4941  344 4217  654  857 5489   50

Se determina la muestra de los valores numéricos que arroja la variable cuales con respecto a la población.Se utilizan los corchetes en formato [renglones, columnas] para identificar los registros.

muestra.alumnos <- poblacion.alumnos[cuales, ] # , espacio significa las dos columnas o todas las columnas
head(muestra.alumnos, 10)
##        no promedio
## 3248 3248 80.43638
## 3884 3884 78.39259
## 731   731 86.98235
## 3818 3818 87.06194
## 2645 2645 86.36475
## 3429 3429 82.83771
## 3213 3213 89.37940
## 4537 4537 81.59487
## 3317 3317 89.09143
## 1028 1028 83.94804
tail(muestra.alumnos, 10)
##        no promedio
## 5174 5174 90.30133
## 4232 4232 89.80564
## 4697 4697 76.02394
## 4941 4941 85.13983
## 344   344 86.85379
## 4217 4217 87.86866
## 654   654 95.59541
## 857   857 86.14857
## 5489 5489 87.43055
## 50     50 83.94042

Media de la población

Se obtiene la media aritmética de la variable promedio de toda la población con la función mean().

media.poblacion <- mean(poblacion.alumnos$promedio)
media.poblacion
## [1] 84.01415

Media de la muestra

Se obtiene la media aritmética de la variable promedio de la muestra con la función mean().

media.muestra <- mean(muestra.alumnos$promedio)
media.muestra
## [1] 83.6682

Histograma

Un histograma es una representación visual de datos cuantitativo en dos ejes: x & y, la gráfica es en forma de barras y representa como se distribuyen los datos cuantitativos, la altura de la barra indica cuantos datos hay de cada valor.

Se utiliza la función hist() para representar el histograma.

hist(x = poblacion.alumnos$promedio, main = "Histograma. Promedio de la población", xlab = "Promedios", ylab = "Cantidad")

hist(x = muestra.alumnos$promedio, main="Histograma. Promedio de la muestra", , xlab = "Promedios", ylab = "Cantidad")

Interpretación

Se hace un análisis descriptivo obteniendo el parámetro media poblacional y el estadístico media de la muestra de la variable promedio; se visualiza mediante un histograma la distribución de los datos con respecto a la población y a la muestra.

La población esta compuesta de 6500 registros u observaciones.

La muestra que se obtiene es de 300 registros

El promedio, que significa un valor numerico que tiene cada alumno con relacion a calificaciones escolares, es la variable de interes.

El promedio de la población es de 84.01415.

La media aritmética de la muestra de promedio es de 83.74212.

Los valores de las medias se parecen o son similares, lo que representa que al obtener muestras aleatorias a partir de poblaciones los estadisticos deben ser representativos en relacion a los parametros de la poblacion.

Las muestras deben ser aleatorias y representativas y estas son parte de una poblacion.

El histograma representa la distribuyen de los datos,esto significa que hay muchos promedios entre valores de 80 y 88 aproximadamente.