Elaborar un analisis descriptivo de la variable promedios de alumnos una muestra de la población a partir de la lectura de un archivo promedios.csv
Importar datos de promedio en la direccion: <https://raw.githubusercontent.com/rpizarrog/Trabajos-en-R-AD2021/main/datos/promedios.csv> y dejarlo en un data.frame.
Mostrar solo los primeros diez registros y los ultimos diez registros.
Identificar la variable de interes llamada promedio.
Determinar una muestra de 300 registros de la poblacion. La poblacion es todos los registros del archivo y la muestra es una parte de la poblacion.
Identificar la media de la poblacion
Identificar la media de la muestra
Comparar las medias aritmeticas
Crear un histograma de los datos
Realizar interpretacion
poblacion.alumnos <- read.csv("https://raw.githubusercontent.com/rpizarrog/Trabajos-en-R-AD2021/main/datos/promedios.csv")
Con las funciones head() y tail() para extraer ciertos registros, en este caso los primeros y ultimos diez registros.
head(poblacion.alumnos, 10)
tail(poblacion.alumnos, 10)
Con str() se identifica las variables y el tipo de datos del conjunto de datos.
str(poblacion.alumnos)
Se utiliza la funcion sample() para determinar la muestra, primero se determina con una variable llamada cuantas los registros que seran muestrados, y a partir de ella se determina la muestra.
¿Que seria una muestra?. Seria una parte representativa y aleatoria de una poblacion
¿Como determinar una muestra? Se utiliza la funcion sample().
promedios$promedios significa la variable especifica del conjunto de datos promedios
Determinando la variable N el total de registros de la poblacion con la funcion nrow() para determinar cuantos registros.
N <- nrow(poblacion.alumnos)
Se determinan los registros de la muestra que pueen estar entre 1 y N con 1:N, replace= FALSE significa que el valor numerico encontrado aleatoriamente por sample, no se puede repetir o por el contrario si se puede repetir con la opción TRUE.
cuales <- sample(x = 1:N, 300, replace = FALSE)
cuales
Se determina la muestra de los valores numericos que arroja la variable cuales con respecto a la poblacion.Se utilizan los corchetes en formato [renglones, columnas] para identificar los registros.
muestra.alumnos <- poblacion.alumnos[cuales, ] # , espacio significa las dos columnas o todas las columnas
head(muestra.alumnos, 10)
tail(muestra.alumnos, 10)
Se obtiene la media aritmetica de la variable promedio de toda la poblacion con la funcion mean().
media.poblacion <- mean(poblacion.alumnos$promedio)
media.poblacion
Se obtiene la media aritmetica de la variable promedio de la muestra con la funcion mean().
media.muestra <- mean(muestra.alumnos$promedio)
media.muestra
Un histograma es una representacion visual de datos cuantitativo en dos ejes: x & y, la grafica es en forma de barras y representa como se distribuyen los datos cuantitativos, la altura de la barra indica cuantos datos hay de cada valor.
Se utiliza la funcion hist() para representar el histograma.
hist(x = poblacion.alumnos$promedio, main = "Histograma. Promedio de la población", xlab = "Promedios", ylab = "Cantidad")
hist(x = muestra.alumnos$promedio, main="Histograma. Promedio de la muestra", , xlab = "Promedios", ylab = "Cantidad")
Se hace un analisis descriptivo obteniendo el parametro media poblacional y el estadistico media de la muestra de la variable promedio; se visualiza mediante un histograma la distribucion de los datos con relacion a la poblacion y a la muestra.
La poblacion esta compuesta de 6500 registros u observaciones.
Son 300 registros los que se obtienen de la muestra.
El promedio, que significa un valor numerico que tiene cada alumno con relacion a calificaciones escolares, es la variable de interes.
EL promedio de la poblacion es de r media.poblacion
La media aritmetica de la muestra de promedio es de r media.muestra.
Los valores de las medias se parecen o son similares, lo que representa que al obtener muestras aleatorias a partir de poblaciones los estadisticos deben ser representativos en relacion a los parametros de la poblacion.
Las muestras deben ser aleatorias y representativas y estas son parte de una poblacion.
El histograma representa la distribuyen de los datos,esto significa que hay muchos promedios entre valores de 80 y 88 aproximadamente.