Objetivo

Elaborar un análisis descriptivo de la variable promedios de alumnos una muestra de la población a partir de la lectura de un archivo promedios.csv

Descripción

Desarrollo

Importar los datos

poblacion.alumnos <- read.csv("https://raw.githubusercontent.com/rpizarrog/Trabajos-en-R-AD2021/main/datos/promedios.csv")

Mostrar los primeros y últimos registros

Con las funciones head() y tail() para extraer ciertos registros, en este caso los primeros y últimos diez registros.

head(poblacion.alumnos, 10)
##    no promedio
## 1   1 91.60891
## 2   2 86.68564
## 3   3 84.06292
## 4   4 80.94624
## 5   5 88.49800
## 6   6 85.42097
## 7   7 81.11855
## 8   8 78.97463
## 9   9 75.81317
## 10 10 86.60781
tail(poblacion.alumnos, 10)
##        no promedio
## 5591 5591 83.61431
## 5592 5592 78.48419
## 5593 5593 79.59696
## 5594 5594 83.86262
## 5595 5595 81.04476
## 5596 5596 87.74938
## 5597 5597 86.64384
## 5598 5598 88.44429
## 5599 5599 88.19806
## 5600 5600 83.74940

La variable de interés es promedio

Con str() se identifica las variables y el tipo de datos del conjunto de datos.

str(poblacion.alumnos)
## 'data.frame':    5600 obs. of  2 variables:
##  $ no      : int  1 2 3 4 5 6 7 8 9 10 ...
##  $ promedio: num  91.6 86.7 84.1 80.9 88.5 ...

Muestra de 300 registros

Se utiliza la función sample() para determinar la muestra, primero se determina con una variable llamada cuantas los registros que serán muestrados, y a partir de ella se determina la muestra.

  • ¿Que sería una muestra?. Sería una parte representativa y aleatoria de una población

  • ¿Como determinar una muestra? Se utiliza la función sample().

  • promedios$promedios significa la variable específica del conjunto de datos promedios

Determinando la variable N el total de registros de la población con la función nrow() para determinar cuántos registros.

N <- nrow(poblacion.alumnos)

Se determinan los registros de la muestra que pueen estar entre 1 y N con 1:N, replace= FALSE significa que el valor numérico encontrado aleatoriamente por sample, no se puede repetir o por el contrario si se puede repetir con la opción TRUE.

cuales <- sample(x = 1:N, 300, replace = FALSE)
cuales
##   [1] 2168 2588 2008 2646 2604 4018  981 2140 1187 2279 2401 1404 5000  707 1497
##  [16] 4340  465 2896 4871  430 1743 5201 4180 4084 2339 4291 1199 3178  695 3519
##  [31] 4121  893 3538 3639 4197 1331 4886  897  355 1190    7 4285 3051 4920  537
##  [46] 1112 1998 4464  317 2462 4921 2777 3698 3004 2415 4788 3352 4885 3967 4478
##  [61] 5099 4323 3498 4342 2752 5563 1619  454 4145 3100  489 1687 3642 5358 3228
##  [76] 5528 2300 2166 1067 2863 3648 1303 4310 4191 4634  473 4622 2815 4409   23
##  [91]   24 5430 2893 1020 5519 4097 2356 1654 3758 4223 2954 4471 3452 1376  258
## [106] 2407  250 1250 4144 3280 2636 5282 2635 3508 1409  725 3685 1812 4750 5568
## [121] 4394  887 5039  781 2139 1391 4341 4142 4043 2291 2684 1859 1443 4956 2323
## [136] 2825 5344 1838 1145 1143 1981  716 4069 1382  614 3615 5338 4332 4036  637
## [151] 5514 4605 1937 3851  534 3145 5093  756 5365 1710 1170 5317  737  378 4640
## [166] 1962 4597 2734 4250 1629 2839 2993  361 2969 3954 4531 2105  478 3323 3201
## [181] 3382 3379 4434  883 3411 3308 4822 3626 4432 1351 2217 1013 4088 4498 2932
## [196] 3578 3443  109 1488 1171 2133 4095 2383 1486 2729 4062 3886 3245 1711 2764
## [211] 2181 5392 1095  204 2528 2272 2950 4079 2995    8 3147 1637 2304 1019 2117
## [226] 4363 3246 4309  740 5380 3502 3928 5273 3449 1069 4364 2102 3117 1140 3645
## [241] 3515 3743 2366 5489 2994  697 2827 1168 4336  593 2330  270 1615 2180  143
## [256] 1943 4874 2806 4009 2045 3204 2911 2872 4556 4056 4752 3843 5536 2705 2115
## [271] 4244 3499  402 2816 4295 3950 3233 4495 3778 1631 4720 2303 5582 2210 4306
## [286]  323 3609 4179 2445 5200 4458 1440 2413 3850 2957 1511 5433   35 3054 4107

Se determina la muestra de los valores numéricos que arroja la variable cuales con respecto a la población.Se utilizan los corchetes en formato [renglones, columnas] para identificar los registros.

muestra.alumnos <- poblacion.alumnos[cuales, ] # , espacio significa las dos columnas o todas las columnas
head(muestra.alumnos, 10)
##        no promedio
## 2168 2168 81.87124
## 2588 2588 78.26411
## 2008 2008 79.87067
## 2646 2646 86.20502
## 2604 2604 85.87430
## 4018 4018 81.90026
## 981   981 82.65962
## 2140 2140 86.30805
## 1187 1187 89.49626
## 2279 2279 84.67808
tail(muestra.alumnos, 10)
##        no promedio
## 4458 4458 82.65453
## 1440 1440 91.58914
## 2413 2413 84.47553
## 3850 3850 87.11516
## 2957 2957 79.66749
## 1511 1511 83.75172
## 5433 5433 79.71687
## 35     35 93.47233
## 3054 3054 83.03597
## 4107 4107 84.86499

Media de la población

Se obtiene la media aritmética de la variable promedio de toda la población con la función mean().

media.poblacion <- mean(poblacion.alumnos$promedio)
media.poblacion
## [1] 84.01415

Media de la muestra

Se obtiene la media aritmética de la variable promedio de la muestra con la función mean().

media.muestra <- mean(muestra.alumnos$promedio)
media.muestra
## [1] 84.01258

Histograma

Un histograma es una representación visual de datos cuantitativo en dos ejes: x & y, la gráfica es en forma de barras y representa como se distribuyen los datos cuantitativos, la altura de la barra indica cuantos datos hay de cada valor.

Se utiliza la función hist() para representar el histograma.

hist(x = poblacion.alumnos$promedio, main = "Histograma. Promedio de la población", xlab = "Promedios", ylab = "Cantidad")

hist(x = muestra.alumnos$promedio, main="Histograma. Promedio de la muestra", , xlab = "Promedios", ylab = "Cantidad")

Interpretación

Se hace un análisis descriptivo obteniendo el parámetro media poblacional y el estadístico media de la muestra de la variable promedio; se visualiza mediante un histograma la distribución de los datos con respecto a la población y a la muestra.

La población se compon de 6500 registros u observaciones.

La muestra que se obtiene es de 300 registros

La variable de interés es el promedio que significa un valor numérico que tiene cada alumno con respeto a calificaciones académicas.

EL promedio de la población es de 84.0141468

La media aritmética de la muestra de promedio es de 84.0125831.

Los valores de las medias se parecen o son similares, lo que representa que al sacar muestras aleatorias a partir de poblaciones los estadísticos deben ser representativos con respecto a los parámetros de la población.

Las muestras son parte de una población y deben ser aleatorias y representativas.

El histograma representa como se distribuyen los datos, significa que hay muchos promedios entre valores de 80 y 88 aproximadamente.