Objetivo

Elaborar un análisis descriptivo de la variable promedios de alumnos una muestra de la población a partir de la lectura de un archivo promedios.csv Descripción

Importar datos de promedio en la dirección: https://raw.githubusercontent.com/rpizarrog/Trabajos-en-R-AD2021/main/datos/promedios.csv y dejarlo en un data.frame.

Mostrar solo los primeros diez registros y los últimos diez registros.

Identificar la variable de interés llamada promedio.

Determinar una muestra de 300 registros de la población. La población es todos los registros del archivo y la muestra es una parte de la población

Identifica la media de la población

Identificar la media de la muestra

Comparar las medias aritméticas

Crear un histograma de los datos

Realizar interpretación

Desarrollo Importar los datos

poblacion.alumnos <- read.csv("https://raw.githubusercontent.com/rpizarrog/Trabajos-en-R-AD2021/main/datos/promedios.csv")

Mostrar los primeros y últimos registros

Con las funciones head() y tail() para extraer ciertos registros, en este caso los primeros y últimos diez registros.

head(poblacion.alumnos, 10)
##    no promedio
## 1   1 91.60891
## 2   2 86.68564
## 3   3 84.06292
## 4   4 80.94624
## 5   5 88.49800
## 6   6 85.42097
## 7   7 81.11855
## 8   8 78.97463
## 9   9 75.81317
## 10 10 86.60781
##    no promedio
## 1   1 91.60891
## 2   2 86.68564
## 3   3 84.06292
## 4   4 80.94624
## 5   5 88.49800
## 6   6 85.42097
## 7   7 81.11855
## 8   8 78.97463
## 9   9 75.81317
## 10 10 86.60781

tail(poblacion.alumnos, 10)
##        no promedio
## 5591 5591 83.61431
## 5592 5592 78.48419
## 5593 5593 79.59696
## 5594 5594 83.86262
## 5595 5595 81.04476
## 5596 5596 87.74938
## 5597 5597 86.64384
## 5598 5598 88.44429
## 5599 5599 88.19806
## 5600 5600 83.74940
##        no promedio
## 5591 5591 83.61431
## 5592 5592 78.48419
## 5593 5593 79.59696
## 5594 5594 83.86262
## 5595 5595 81.04476
## 5596 5596 87.74938
## 5597 5597 86.64384
## 5598 5598 88.44429
## 5599 5599 88.19806
## 5600 5600 83.74940

La variable de interés es promedio

Con str() se identifica las variables y el tipo de datos del conjunto de datos.

str(poblacion.alumnos)
## 'data.frame':    5600 obs. of  2 variables:
##  $ no      : int  1 2 3 4 5 6 7 8 9 10 ...
##  $ promedio: num  91.6 86.7 84.1 80.9 88.5 ...
## 'data.frame':    5600 obs. of  2 variables:
##  $ no      : int  1 2 3 4 5 6 7 8 9 10 ...
##  $ promedio: num  91.6 86.7 84.1 80.9 88.5 ...

Muestra de 300 registros

Se utiliza la función sample() para determinar la muestra, primero se determina con una variable llamada cuantas los registros que serán muestrados, y a partir de ella se determina la muestra.

¿Que sería una muestra?. Sería una parte representativa y aleatoria de una población

¿Como determinar una muestra? Se utiliza la función sample().

promedios$promedios significa la variable específica del conjunto de datos promedios

Determinando la variable N el total de registros de la población con la función nrow() para determinar cuántos registros.

N <- nrow(poblacion.alumnos)
N
## [1] 5600
## [1] 5600

Se determinan los registros de la muestra que pueen estar entre 1 y N con 1:N, replace= FALSE significa que el valor numérico encontrado aleatoriamente por sample, no se puede repetir o por el contrario si se puede repetir con la opción TRUE.

La variable cuales indica los registros que se seleccionarán de entre 1 y 5600 de manera aleatoria.

cuales <- sample(x = 1:N, 300, replace = FALSE)
cuales
##   [1] 1824  987 4360 3052  324 1246 1241 1449 2247 3955 1482 2121 4255 1236  697
##  [16]  279 4421  682  257  349   36 3350 5353 4994 3414 4671  674  371 4951 4625
##  [31]  620 1268 2733  932 4541 1444 4052 1552 1179  121 4237 1240  804 4711 2986
##  [46] 1477 1453 2804 4405   29 4753 3481 3636 2248 3366 3065 3206 3670 2842  728
##  [61] 1370 3503 3168 1021 5174 3333 5503 3617 4375 1007 1926 2303 2252 1005  754
##  [76] 3131 2453 2441 4373 2523   69  519 2962 4759 3020 3969 3058 1900 2128 2274
##  [91] 3201 2035 3318 4589  710 2779 4592 3289 4520 1177 2890  521 4906 4199 1598
## [106] 1771  525 4622 2372 4189 3712 5560 5458 5257 5122 2266 4238 5489 5060 2395
## [121] 5117 1328 2798   77  742 1504  198 3028 2163  593 2907 3386 5320 5246 5296
## [136] 2879 1196 2505  683 4438 2671 4675 4177  892 5047 2717 3951  636 2720 5513
## [151] 4660  423 2386 5289 1130 5415 4016 4985  284 4440 1632 4874 5039 5575  841
## [166] 5258 2618 1845 2374 4576  553 4193 3321 3967  941 5555 4678  429 4615 1332
## [181] 4136 5070 5305 1855 5004 3781 3673  439 1639 1422 1024 1114 4202 1270 1710
## [196] 5165 3408  679  489 5481 4166 3595 4521 4365 4859    9 4910 2805 2980 4488
## [211] 4332 2670 4709  111 1037  584  609 2443 4536  138 1688 3698 4168 2118 3157
## [226] 1372 5266 3148 1098 2565 2609 2361 1884 2345 4142 2680 4828 5011 3164 4404
## [241] 3606 3236 2190 4567 1589 4739 4080 1142 1362   41 5574 1801 1764 3732 4423
## [256] 1550 2961 2050 1704 1870 1700 3819 2311  465 2055 4424 2394  117  911 4436
## [271] 1862   13 2854 5212 3214 4076  147  748 3539 3861 1585 1440 1078 5001 5044
## [286] 1927  190 1826 4911 3037 4885 2491 5059 4924 5172 3183  119  692 3341 3403
##   [1] 3839 1705 5594 2105 4359 2978 1851   20 1398  843 5141  885 2666 4878 5098
##  [16] 1677  929 5553 3753 1595 5314  734 4951 4600 1543  223 3077 4183 5122 1046
##  [31]  394 3046 1884 5174  344 2923 4202 2992 3639 3092 1290 1918 1111 2188  928
##  [46]   81 3375 2097 5586 3272 1438 2541 2516 1433 2065 2005 2087   49 2641 4491
##  [61] 1976 5465 4006 1700 5247 4564 3209 1506 4361  275 4187 2069 2940  686  316
##  [76]  270 2844 4583 1664 1472  963 1375 4609 2323 2407 3443 1545 4115 2789 2556
##  [91]  277 3685   32 3894 4302 3716 1885 2766 3851 4947  465 1858 3910 3571 3441
## [106] 1946 4748 3040  185 1117 4551 1936 1582  569  617 1588 5407 1654 1177  680
## [121] 3543 2825  342  476  516  133 1347 2370 1580 4778 4934 4261 4796 2819  687
## [136] 5264 1428 4990 1575 4727  833 3545 1675 4349   43 4775 1109 2741 5249 4043
## [151] 5118 2035 3581 5517 1591 1525 1030 2420 4155  217 1866 5188 1268 2074 3837
## [166] 5356 4563 5071 5473 5313 1265 1926 3880 2583  905 5076 3713 5272 3544 3649
## [181] 1047 3238 2347 4854 5339 4088 4905 1447 3352 3069 2254 1169 5304  805 2139
## [196] 4931 2835 3248 4094 2043 1556 2272 5027 4508 3228 1032 1501 4086 1216  265
## [211] 3252 3159  916 3163 2698 1217 3394 4489 4872 2704 2018 1571 4517 1706 3878
## [226] 5150 4280 2443 4203  796 4789 1748  968 5564 2003 2495 2204 3323 2958 3192
## [241]  448 4236 1352 4920 4736 1025 4707 4428 3614 1965 2554 3818 2858 5061 4478
## [256] 1242 4380 4035 1180   66 4493 2045  348 2693 1155 5523 2885 1317 1073 2479
## [271] 1570 2091 2017 4720  215 4263 2873 1193 3043 4991 5599 1656 2630  556 3393
## [286] 2214 4136  847  648 5483 2409 2503 2332 1378 1804 2504 2935 5325 1922 4245

Se determina la muestra de los valores numéricos que arroja la variable cuales con respecto a la población.Se utilizan los corchetes en formato [renglones, columnas] para identificar los registros.

muestra.alumnos <- poblacion.alumnos[cuales, ] # , espacio significa las dos columnas o todas las columnas [renglón, columna]
head(muestra.alumnos, 10)
##        no promedio
## 1824 1824 81.14169
## 987   987 84.07175
## 4360 4360 81.74878
## 3052 3052 78.08324
## 324   324 85.79473
## 1246 1246 88.44007
## 1241 1241 83.32664
## 1449 1449 81.32640
## 2247 2247 83.88962
## 3955 3955 72.37846
##        no promedio
## 3839 3839 82.07775
## 1705 1705 87.67480
## 5594 5594 83.86262
## 2105 2105 88.57047
## 4359 4359 88.28514
## 2978 2978 84.65853
## 1851 1851 81.08502
## 20     20 80.42439
## 1398 1398 69.69086
## 843   843 81.37681

tail(muestra.alumnos, 10)
##        no promedio
## 4885 4885 76.55201
## 2491 2491 75.46292
## 5059 5059 88.97593
## 4924 4924 90.22209
## 5172 5172 87.35326
## 3183 3183 88.91153
## 119   119 87.85723
## 692   692 82.29519
## 3341 3341 85.64728
## 3403 3403 81.76197
##        no promedio
## 2409 2409 87.74085
## 2503 2503 81.99985
## 2332 2332 75.91290
## 1378 1378 86.99332
## 1804 1804 90.81615
## 2504 2504 89.24675
## 2935 2935 81.49122
## 5325 5325 81.88547
## 1922 1922 87.49784
## 4245 4245 81.81940

Media de la población

Se obtiene la media aritmética de la variable promedio de toda la población con la función mean().

media.poblacion <- mean(poblacion.alumnos$promedio)
media.poblacion
## [1] 84.01415
## [1] 84.01415

Media de la muestra

Se obtiene la media aritmética de la variable promedio de la muestra con la función mean().

media.muestra <- mean(muestra.alumnos$promedio)
media.muestra
## [1] 84.03222
## [1] 84.23857

Histograma

Un histograma es una representación visual de datos cuantitativo en dos ejes: x & y, la gráfica es en forma de barras y representa como se distribuyen los datos cuantitativos, la altura de la barra indica cuantos datos hay de cada valor.

Se utiliza la función hist() para representar el histograma.

Histograma de la población de la variable promedio.

hist(x = poblacion.alumnos$promedio, main = "Histograma. Promedio de la población", xlab = "Promedios", ylab = "Cantidad")

Histograma de la muestra de la variable promedio.

hist(x = muestra.alumnos$promedio, main="Histograma. Promedio de la muestra", , xlab = "Promedios", ylab = "Cantidad")

Interpretación

Se hace un análisis descriptivo obteniendo el parámetro media poblacional y el estadístico media de la muestra de la variable promedio; se visualiza mediante un histograma la distribución de los datos con respecto a la población y a la muestra.

La población se compon de 6500 registros u observaciones.

La muestra que se obtiene es de 300 registros

La variable de interés es el promedio que significa un valor numérico que tiene cada alumno con respeto a calificaciones académicas.

EL promedio de la población es de 84.0141468

La media aritmética de la muestra de promedio es de 84.2385675.

Los valores de las medias se parecen o son similares, lo que representa que al sacar muestras aleatorias a partir de poblaciones los estadísticos deben ser representativos con respecto a los parámetros de la población.

Las muestras son parte de una población y deben ser aleatorias y representativas.

El histograma representa como se distribuyen los datos, significa que hay muchos promedios entre valores de 80 y 88 aproximadamente