Objetivo

Elaborar un análisis descriptivo de la variable promedios de alumnos una muestra de la población a partir de la lectura de un archivo promedios.csv

Descripción

Desarrollo

Importar los datos

poblacion.alumnos <- read.csv("https://raw.githubusercontent.com/rpizarrog/Trabajos-en-R-AD2021/main/datos/promedios.csv")

Mostrar los primeros y últimos registros

Con las funciones head() y tail() para extraer ciertos registros, en este caso los primeros y últimos diez registros.

head(poblacion.alumnos, 10)
##    no promedio
## 1   1 91.60891
## 2   2 86.68564
## 3   3 84.06292
## 4   4 80.94624
## 5   5 88.49800
## 6   6 85.42097
## 7   7 81.11855
## 8   8 78.97463
## 9   9 75.81317
## 10 10 86.60781
tail(poblacion.alumnos, 10)
##        no promedio
## 5591 5591 83.61431
## 5592 5592 78.48419
## 5593 5593 79.59696
## 5594 5594 83.86262
## 5595 5595 81.04476
## 5596 5596 87.74938
## 5597 5597 86.64384
## 5598 5598 88.44429
## 5599 5599 88.19806
## 5600 5600 83.74940

La variable de interés es promedio

Con str() se identifica las variables y el tipo de datos del conjunto de datos.

str(poblacion.alumnos)
## 'data.frame':    5600 obs. of  2 variables:
##  $ no      : int  1 2 3 4 5 6 7 8 9 10 ...
##  $ promedio: num  91.6 86.7 84.1 80.9 88.5 ...

Muestra de 300 registros

Se utiliza la función sample() para determinar la muestra, primero se determina con una variable llamada cuantas los registros que serán muestrados, y a partir de ella se determina la muestra.

  • ¿Que sería una muestra?. Sería una parte representativa y aleatoria de una población

  • ¿Como determinar una muestra? Se utiliza la función sample().

  • promedios$promedios significa la variable específica del conjunto de datos promedios

Determinando la variable N el total de registros de la población con la función nrow() para determinar cuántos registros.

N <- nrow(poblacion.alumnos)

Se determinan los registros de la muestra que pueen estar entre 1 y N con 1:N, replace= FALSE significa que el valor numérico encontrado aleatoriamente por sample, no se puede repetir o por el contrario si se puede repetir con la opción TRUE.

cuales <- sample(x = 1:N, 300, replace = FALSE)
cuales
##   [1]  721 4611 4330 4510 1059 1436  733  838 1160 1872  679 4531 3733 3450 5226
##  [16] 4562  211 3031 2035  951 3597  303 4954 1868  399 1524 2972 5171 3154 2256
##  [31]  250  484 1362 4752 2002 2011  402  314 3853 2610 4926 2204  834 3928  735
##  [46] 5551 4522 3499 4140 4328 3618 2647 2717  474 1726  863 1617 3841 5279  754
##  [61] 4896 2714 2102 1023 2376 1608 4365 5111 1498 3370 3819 4814 1875 4598 4525
##  [76] 2194 4483 1361  637 4639 2594 2663 4305 1791 4113  968 4715 4004 4375 3826
##  [91] 2814 3427 1005 1668 4677 5594 1342 3346 4348 5485  528  569  692  190 3586
## [106] 3649 3637 3190 2872 2826 5038  893 4888 4961 2638 4455 4098 3423 1708 2851
## [121] 3164  185 1297 1079 2310 4995 2824 1900 4605 2387 5213 5366 2607 2181 4015
## [136] 4340 2463 5431 4251 2693  475 5347 1581 5378  108 3373  952  502 4797 4762
## [151] 2038 3867 1910 2459  392 2396 1272  843  180 2768 3563 4774 3074 1652 1407
## [166] 1897  461 5548 4699 4222  687 1800  840 1880 1466 4628 2133 4700  548   27
## [181] 5098 1064 2802 5116 1707 4475 3440  285 3992 3671  824 1954 2479 3559   21
## [196] 4688  201 1901 4454  901 5008 5482 2868 2662 3175 1825 1727  813 1468  940
## [211] 5426 2106 4960 5394 3281 4683 3379 4399 3817 4223 1503 3780 3983 3615 3820
## [226] 3663 2965 4273 1514 2368 5142 4356 1054 5274 4030  127 2242 1078  958  672
## [241] 3043 1042 2251 3213  836 2724 4748 4627 1656  121 2343  775 5443  885 3374
## [256] 3328 5491 4503 2395 4180 3299  294 4386 4741 2861  848 1488 3570 1179 1560
## [271] 4983 2297 3162 4991 2833 3669 1504 2453  932  551  817  136 2358 5488 3891
## [286] 2155 2615 3171  579 1826 5377 3395 3830 2907 2275  168 4397 2555 3131 2653

Se determina la muestra de los valores numéricos que arroja la variable cuales con respecto a la población.Se utilizan los corchetes en formato [renglones, columnas] para identificar los registros.

muestra.alumnos <- poblacion.alumnos[cuales, ] # , espacio significa las dos columnas o todas las columnas
head(muestra.alumnos, 10)
##        no promedio
## 721   721 82.49410
## 4611 4611 88.00833
## 4330 4330 92.40157
## 4510 4510 91.46553
## 1059 1059 82.10339
## 1436 1436 74.13841
## 733   733 74.81446
## 838   838 83.61503
## 1160 1160 93.71545
## 1872 1872 84.94072
tail(muestra.alumnos, 10)
##        no promedio
## 5377 5377 81.68311
## 3395 3395 84.23368
## 3830 3830 81.41751
## 2907 2907 77.93570
## 2275 2275 88.58495
## 168   168 80.32588
## 4397 4397 77.86146
## 2555 2555 81.80555
## 3131 3131 88.31154
## 2653 2653 76.43265

Media de la población

Se obtiene la media aritmética de la variable promedio de toda la población con la función mean().

media.poblacion <- mean(poblacion.alumnos$promedio)
media.poblacion
## [1] 84.01415

Media de la muestra

Se obtiene la media aritmética de la variable promedio de la muestra con la función mean().

media.muestra <- mean(muestra.alumnos$promedio)
media.muestra
## [1] 84.13893

Histograma

Un histograma es una representación visual de datos cuantitativo en dos ejes: x & y, la gráfica es en forma de barras y representa como se distribuyen los datos cuantitativos, la altura de la barra indica cuantos datos hay de cada valor.

Se utiliza la función hist() para representar el histograma.

hist(x = poblacion.alumnos$promedio, main = "Histograma. Promedio de la población", xlab = "Promedios", ylab = "Cantidad")

hist(x = muestra.alumnos$promedio, main="Histograma. Promedio de la muestra", , xlab = "Promedios", ylab = "Cantidad")

Interpretación

Se hace un análisis descriptivo obteniendo el parámetro media poblacional y el estadístico media de la muestra de la variable promedio; se visualiza mediante un histograma la distribución de los datos con respecto a la población y a la muestra.

La población se compon de 6500 registros u observaciones.

La muestra que se obtiene es de 300 registros

La variable de interés es el promedio que significa un valor numérico que tiene cada alumno con respeto a calificaciones académicas.

EL promedio de la población es de 84.0141468

La media aritmética de la muestra de promedio es de 84.1389256.

Los valores de las medias se parecen o son similares, lo que representa que al sacar muestras aleatorias a partir de poblaciones los estadísticos deben ser representativos con respecto a los parámetros de la población.

Las muestras son parte de una población y deben ser aleatorias y representativas.

El histograma representa como se distribuyen los datos, significa que hay muchos promedios entre valores de 80 y 88 aproximadamente.