Elaborar un análisis descriptivo de la variable promedios de alumnos una muestra de la población a partir de la lectura de un archivo promedios.csv
Importar datos de promedio en la dirección: <https://raw.githubusercontent.com/rpizarrog/Trabajos-en-R-AD2021/main/datos/promedios.csv> y dejarlo en un data.frame.
Mostrar solo los primeros diez registros y los últimos diez registros.
Identificar la variable de interés llamada promedio.
Determinar una muestra de 300 registros de la población. La población es todos los registros del archivo y la muestra es una parte de la población
Identifica la media de la población
Identificar la media de la muestra
Comparar las medias aritméticas
Crear un histograma de los datos
Realizar interpretación
poblacion.alumnos <- read.csv("https://raw.githubusercontent.com/rpizarrog/Trabajos-en-R-AD2021/main/datos/promedios.csv")
Con las funciones head() y tail() para extraer ciertos registros, en este caso los primeros y últimos diez registros.
head(poblacion.alumnos, 10)
## no promedio
## 1 1 91.60891
## 2 2 86.68564
## 3 3 84.06292
## 4 4 80.94624
## 5 5 88.49800
## 6 6 85.42097
## 7 7 81.11855
## 8 8 78.97463
## 9 9 75.81317
## 10 10 86.60781
tail(poblacion.alumnos, 10)
## no promedio
## 5591 5591 83.61431
## 5592 5592 78.48419
## 5593 5593 79.59696
## 5594 5594 83.86262
## 5595 5595 81.04476
## 5596 5596 87.74938
## 5597 5597 86.64384
## 5598 5598 88.44429
## 5599 5599 88.19806
## 5600 5600 83.74940
Con str() se identifica las variables y el tipo de datos del conjunto de datos.
str(poblacion.alumnos)
## 'data.frame': 5600 obs. of 2 variables:
## $ no : int 1 2 3 4 5 6 7 8 9 10 ...
## $ promedio: num 91.6 86.7 84.1 80.9 88.5 ...
Se utiliza la función sample() para determinar la muestra, primero se determina con una variable llamada cuantas los registros que serán muestrados, y a partir de ella se determina la muestra.
¿Que sería una muestra?. Sería una parte representativa y aleatoria de una población
¿Como determinar una muestra? Se utiliza la función sample().
promedios$promedios significa la variable específica del conjunto de datos promedios
Determinando la variable N el total de registros de la población con la función nrow() para determinar cuántos registros.
N <- nrow(poblacion.alumnos)
Se determinan los registros de la muestra que pueen estar entre 1 y N con 1:N, replace= FALSE significa que el valor numérico encontrado aleatoriamente por sample, no se puede repetir o por el contrario si se puede repetir con la opción TRUE.
cuales <- sample(x = 1:N, 300, replace = FALSE)
cuales
## [1] 3248 3884 731 3818 2645 3429 3213 4537 3317 1028 649 3399 3984 4795 2536
## [16] 3378 4760 1257 308 173 1468 269 4100 2950 684 3250 3553 919 25 1949
## [31] 652 3748 4744 658 3238 1637 4211 82 2757 4429 1385 1100 3567 1363 5487
## [46] 1403 2498 3170 4833 5479 4272 3310 1832 3801 3715 4477 1090 3541 421 3656
## [61] 5457 4983 3319 1916 2337 3520 3501 2005 280 708 2055 3947 616 1552 756
## [76] 5122 1742 1014 4815 1774 792 3956 3267 198 2776 623 2654 1776 1818 3392
## [91] 1241 3188 4223 5160 4755 2933 3400 5310 5106 2165 2227 5214 1296 4080 2541
## [106] 1279 256 246 4542 4627 2866 1475 4527 3519 3470 1757 674 3421 4277 4395
## [121] 5569 910 2983 2516 3951 1334 4644 3891 1206 3819 3570 3693 5200 5502 1945
## [136] 5229 470 3849 1041 626 3361 4227 603 1318 1908 3165 4689 4000 5365 1866
## [151] 712 2476 2647 3108 351 2544 4724 1 4027 3147 1781 3832 320 1276 2098
## [166] 202 1312 3053 4754 5047 5488 1644 3218 3599 3893 1772 3695 1948 5293 924
## [181] 4741 3137 678 4977 4172 4190 2278 2383 496 3796 4911 1414 638 4834 2418
## [196] 3800 1963 58 2910 413 1631 984 2521 2714 5560 1178 911 2845 42 5249
## [211] 4177 4458 59 4501 2004 2429 265 3073 3350 4386 1741 4628 4615 3498 376
## [226] 3242 5475 3176 4993 4796 2022 5196 3469 475 5526 2147 4186 3167 1770 1722
## [241] 1378 4255 882 4611 3548 2564 2069 786 4649 2182 5018 1790 3205 5537 1936
## [256] 4669 1270 4124 2601 4489 796 2812 5073 3552 4961 4865 5356 3249 4050 5309
## [271] 4414 1560 3280 4898 584 272 5313 4218 634 629 2091 4931 5563 909 2523
## [286] 839 1373 313 4126 293 5174 4232 4697 4941 344 4217 654 857 5489 50
Se determina la muestra de los valores numéricos que arroja la variable cuales con respecto a la población.Se utilizan los corchetes en formato [renglones, columnas] para identificar los registros.
muestra.alumnos <- poblacion.alumnos[cuales, ] # , espacio significa las dos columnas o todas las columnas
head(muestra.alumnos, 10)
## no promedio
## 3248 3248 80.43638
## 3884 3884 78.39259
## 731 731 86.98235
## 3818 3818 87.06194
## 2645 2645 86.36475
## 3429 3429 82.83771
## 3213 3213 89.37940
## 4537 4537 81.59487
## 3317 3317 89.09143
## 1028 1028 83.94804
tail(muestra.alumnos, 10)
## no promedio
## 5174 5174 90.30133
## 4232 4232 89.80564
## 4697 4697 76.02394
## 4941 4941 85.13983
## 344 344 86.85379
## 4217 4217 87.86866
## 654 654 95.59541
## 857 857 86.14857
## 5489 5489 87.43055
## 50 50 83.94042
Se obtiene la media aritmética de la variable promedio de toda la población con la función mean().
media.poblacion <- mean(poblacion.alumnos$promedio)
media.poblacion
## [1] 84.01415
Se obtiene la media aritmética de la variable promedio de la muestra con la función mean().
media.muestra <- mean(muestra.alumnos$promedio)
media.muestra
## [1] 83.6682
Un histograma es una representación visual de datos cuantitativo en dos ejes: x & y, la gráfica es en forma de barras y representa como se distribuyen los datos cuantitativos, la altura de la barra indica cuantos datos hay de cada valor.
Se utiliza la función hist() para representar el histograma.
hist(x = poblacion.alumnos$promedio, main = "Histograma. Promedio de la población", xlab = "Promedios", ylab = "Cantidad")
hist(x = muestra.alumnos$promedio, main="Histograma. Promedio de la muestra", , xlab = "Promedios", ylab = "Cantidad")
Se hace un análisis descriptivo obteniendo el parámetro media poblacional y el estadístico media de la muestra de la variable promedio; se visualiza mediante un histograma la distribución de los datos con respecto a la población y a la muestra.
La población esta compuesta de 6500 registros u observaciones.
La muestra que se obtiene es de 300 registros
El promedio, que significa un valor numerico que tiene cada alumno con relacion a calificaciones escolares, es la variable de interes.
El promedio de la población es de 84.01415.
La media aritmética de la muestra de promedio es de 83.74212.
Los valores de las medias se parecen o son similares, lo que representa que al obtener muestras aleatorias a partir de poblaciones los estadisticos deben ser representativos en relacion a los parametros de la poblacion.
Las muestras deben ser aleatorias y representativas y estas son parte de una poblacion.
El histograma representa la distribuyen de los datos,esto significa que hay muchos promedios entre valores de 80 y 88 aproximadamente.