Objetivo

Elaborar un análisis descriptivo de la variable promedios de alumnos una muestra de la población a partir de la lectura de un archivo promedios.csv

Descripción

Desarrollo

Importar los datos

poblacion.alumnos <- read.csv("https://raw.githubusercontent.com/rpizarrog/Trabajos-en-R-AD2021/main/datos/promedios.csv")

Mostrar los primeros y últimos registros

Con las funciones head() y tail() para extraer ciertos registros, en este caso los primeros y últimos diez registros.

head(poblacion.alumnos, 10)
##    no promedio
## 1   1 91.60891
## 2   2 86.68564
## 3   3 84.06292
## 4   4 80.94624
## 5   5 88.49800
## 6   6 85.42097
## 7   7 81.11855
## 8   8 78.97463
## 9   9 75.81317
## 10 10 86.60781
tail(poblacion.alumnos, 10)
##        no promedio
## 5591 5591 83.61431
## 5592 5592 78.48419
## 5593 5593 79.59696
## 5594 5594 83.86262
## 5595 5595 81.04476
## 5596 5596 87.74938
## 5597 5597 86.64384
## 5598 5598 88.44429
## 5599 5599 88.19806
## 5600 5600 83.74940

La variable de interés es promedio

Con str() se identifica las variables y el tipo de datos del conjunto de datos.

str(poblacion.alumnos)
## 'data.frame':    5600 obs. of  2 variables:
##  $ no      : int  1 2 3 4 5 6 7 8 9 10 ...
##  $ promedio: num  91.6 86.7 84.1 80.9 88.5 ...

Muestra de 300 registros

Se utiliza la función sample() para determinar la muestra, primero se determina con una variable llamada cuantas los registros que serán muestrados, y a partir de ella se determina la muestra.

  • ¿Que sería una muestra?. Sería una parte representativa y aleatoria de una población

  • ¿Como determinar una muestra? Se utiliza la función sample().

  • promedios$promedios significa la variable específica del conjunto de datos promedios

Determinando la variable N el total de registros de la población con la función nrow() para determinar cuántos registros.

N <- nrow(poblacion.alumnos)

Se determinan los registros de la muestra que pueen estar entre 1 y N con 1:N, replace= FALSE significa que el valor numérico encontrado aleatoriamente por sample, no se puede repetir o por el contrario si se puede repetir con la opción TRUE.

cuales <- sample(x = 1:N, 300, replace = FALSE)
cuales
##   [1] 3972 3165 2254  925 2552   37 4441 3866 3274 3732 5590 1174 3325 4921 5235
##  [16] 5165   90 1250 5099 4361   30  558 1230 4273 5287  797  786   31 4132 1809
##  [31] 1088 5242 5554 1408 1409  285 1144 4072 2310 1610 3598 3318 1894 2344 4113
##  [46]   12  515 3216 3751 4554 2296 1605 4688 3159 2516 3749 1180  719 3365 4547
##  [61] 1651 4417 2775  200 4829 2499  981 5011 2083 2128  500  201 2294   67 1961
##  [76] 1385 5218 2215 4659  610 5108 3660 1173 3429 5561 2193 1305 2158 1073 1185
##  [91] 2805 3944 3707 1471 2243  277 1959 2001 1873 5571 5265 3364 2267 4649 4256
## [106] 4911 3205 1547 4818 4760  778 4578  551 2410  301 2791  867 4271 5054 1188
## [121]  161 4149 4098 2412 2955 3162  231  777 2880  397 1433 1255 2320 1946  985
## [136] 1954   20 4193 1222  991 1498 1883 2404  604 4741 2693 1373 1828 1618  868
## [151] 1722   78  368 1326 4351 1526 3664  764 3243 5261 4388 1969 1897 2575 3106
## [166] 3317 1363  782 4205 3730 3830 4974 5399 2513 1405 5245 3766 1801 5309 2707
## [181] 5492 3114 5472 3010 5567  108 1093 2709 4371 4097 4535  294 1448 2737 1973
## [196] 5434 2793 4038 3943 1845 2298 4045 2579 4790 2111 2720  818 2833 1598 4207
## [211] 1387  530 5405 1275 3451  614 1905 2192 4025 2800 3656 1769  684 3154 1842
## [226] 4042 2441 2959 2624  886 3796 2453 4093  692 1108  858 5363 2942 4802 5248
## [241] 4110 1079 5403 3924 5254 4299 2021  884 5121 4699  358 2926 2512 2741 3974
## [256] 2974 4644  117 1069  910 4658 4874 1007  661 4798 2826 3176 2672  626 2918
## [271]  520 1553 3846 1728 5012 4187 2113 1390 1150 1606 1972 3151 3517 5394 4895
## [286] 3033 2175 3933   23  682 2802 1364 2153 2489 4246 4863 1854   25 1025   61

Se determina la muestra de los valores numéricos que arroja la variable cuales con respecto a la población.Se utilizan los corchetes en formato [renglones, columnas] para identificar los registros.

muestra.alumnos <- poblacion.alumnos[cuales, ] # , espacio significa las dos columnas o todas las columnas
head(muestra.alumnos, 10)
##        no promedio
## 3972 3972 85.33482
## 3165 3165 83.70763
## 2254 2254 86.52545
## 925   925 85.97795
## 2552 2552 93.53908
## 37     37 88.11766
## 4441 4441 75.96521
## 3866 3866 79.57699
## 3274 3274 79.06611
## 3732 3732 83.69757
tail(muestra.alumnos, 10)
##        no promedio
## 2802 2802 88.11501
## 1364 1364 89.05899
## 2153 2153 86.99828
## 2489 2489 82.42937
## 4246 4246 80.13092
## 4863 4863 78.24324
## 1854 1854 82.82333
## 25     25 87.56959
## 1025 1025 86.29407
## 61     61 84.29805

Media de la población

Se obtiene la media aritmética de la variable promedio de toda la población con la función mean().

media.poblacion <- mean(poblacion.alumnos$promedio)
media.poblacion
## [1] 84.01415

Media de la muestra

Se obtiene la media aritmética de la variable promedio de la muestra con la función mean().

media.muestra <- mean(muestra.alumnos$promedio)
media.muestra
## [1] 83.85752

Histograma

Un histograma es una representación visual de datos cuantitativo en dos ejes: x & y, la gráfica es en forma de barras y representa como se distribuyen los datos cuantitativos, la altura de la barra indica cuantos datos hay de cada valor.

Se utiliza la función hist() para representar el histograma.

hist(x = poblacion.alumnos$promedio, main = "Histograma. Promedio de la población", xlab = "Promedios", ylab = "Cantidad")

hist(x = muestra.alumnos$promedio, main="Histograma. Promedio de la muestra",  xlab = "Promedios", ylab = "Cantidad")

Interpretación

Se desarrollo un parámetro media poblacional y el estadístico media de la muestra es de 300 registros, las muestras son aleatorias y demostrativa La población se compone de 6500 registros u observaciones.

La variable en promedio que significa un valor numérico que tiene cada alumno con respeto a calificaciones académicas

EL promedio de la población es de 84.0141468

La media aritmética de la muestra de promedio es de 83.8575243.

Se acompaña tambien por un histograma dele promedio de la poblacion y junto con el histograma del promedio de muestra

Los valores de las medias se parecen o son similares,