Elaborar un análisis descriptivo de la variable promedios de alumnos una muestra de la población a partir de la lectura de un archivo promedios.csv
Importar datos de promedios en la dirección: <https://raw.githubusercontent.com/rpizarrog/Trabajos-en-R-AD2021/main/datos/promedios.csv> y dejarlo en un data.frame.
Mostrar solo los primeros diez registros y los últimos diez registros.
Identificar la variable de interés llamada promedio.
Determinar una muestra de 300 registros de la población. La población es todos los registros del archivo y la muestra es una parte de la población.
Identificar la media de la población.
Identificar la media de la muestra.
Comparar las medias aritméticas.
Crear un histograma de los datos.
Realizar interpretación.
poblacion.alumnos <-read.csv("https://raw.githubusercontent.com/rpizarrog/Trabajos-en-R-AD2021/main/datos/promedios.csv")
Con head() y tail()
head(poblacion.alumnos, 10)
## no promedio
## 1 1 91.60891
## 2 2 86.68564
## 3 3 84.06292
## 4 4 80.94624
## 5 5 88.49800
## 6 6 85.42097
## 7 7 81.11855
## 8 8 78.97463
## 9 9 75.81317
## 10 10 86.60781
tail(poblacion.alumnos, 10)
## no promedio
## 5591 5591 83.61431
## 5592 5592 78.48419
## 5593 5593 79.59696
## 5594 5594 83.86262
## 5595 5595 81.04476
## 5596 5596 87.74938
## 5597 5597 86.64384
## 5598 5598 88.44429
## 5599 5599 88.19806
## 5600 5600 83.74940
Con str() se identifica las variables y el tipo de datos del conjunto de datos
str(poblacion.alumnos)
## 'data.frame': 5600 obs. of 2 variables:
## $ no : int 1 2 3 4 5 6 7 8 9 10 ...
## $ promedio: num 91.6 86.7 84.1 80.9 88.5 ...
Se utiliza la función sample() para determinar la muestra, primero se determina con una variable llamada cuantas los registros que serán muestreados, y a partir de ella se determina la muestra.
¿Que seria una muestra?, Seria una parte representativa y aleatoria de una pobleción.
¿Como determinar una muestra? Se utiliza la funcion sample()
promedios$promedios significa la variable específica del conjunto de datos promedios
Determinando la variable N el total de registros de la población
N <- nrow(poblacion.alumnos)Se determinan los registros de la muestra.
cuales <- sample(x = 1:N, 300, replace = FALSE)
Se determina la muestra
muestra.alumnos <- poblacion.alumnos [cuales, ] #las dos columnas
head(muestra.alumnos, 10)
## no promedio
## 5501 5501 84.08601
## 876 876 81.96107
## 4353 4353 75.71053
## 461 461 75.51592
## 85 85 76.90170
## 1166 1166 86.37360
## 872 872 86.78779
## 2052 2052 91.80097
## 3231 3231 83.46910
## 3149 3149 86.96529
tail(muestra.alumnos, 10)
## no promedio
## 4583 4583 87.75504
## 3946 3946 84.41651
## 5252 5252 89.08937
## 4523 4523 84.32982
## 548 548 83.31462
## 2593 2593 86.41526
## 3691 3691 79.64776
## 2264 2264 77.11489
## 3278 3278 86.10732
## 3476 3476 84.29295
Se obtiene la media aritmética de la variable promedio de toda la población con la función mean()
media.poblacion <- mean(poblacion.alumnos$promedio)
media.poblacion
## [1] 84.01415
Se obtiene la media aritmética de la variable promedio de la muestra con la función mean()
media.muestra <- mean(muestra.alumnos$promedio)
media.muestra
## [1] 84.13864
El caso extrae a partir de un archivo que se encuentra en una dirección para poderlos trabajar en r studio, se identifíca cuantos registros exiten en la población que son alrededor de 5,600, de los cuáles la variable de interés se llama promedio; apartir de la población se determina una muestra de 300 registros, se determina la media de la población de la variable promedio, siendo esta 84.14 y también se determina la media de la muestra, siendo esta 84.54, se observa una diferencia ligera entre la media de la población contra la media de la muestra. Con esto se concluye que una muestra es representativa y aleatoria con respecto a la población.