Objetivo

Elaborar un analisis descriptivo de la variable promedios de alumnos una muestra de la población a partir de la lectura de un archivo promedios.csv

Descripcion

Importar datos de promedio en la direccion: <https://raw.githubusercontent.com/rpizarrog/Trabajos-en-R-AD2021/main/datos/promedios.csv> y dejarlo en un data.frame.
Mostrar solo los primeros diez registros y los ultimos diez registros.
Identificar la variable de interes llamada promedio.
Determinar una muestra de 300 registros de la poblacion. La poblacion es todos los registros del archivo y la muestra es una parte de la poblacion.
Identificar la media de la poblacion
Identificar la media de la muestra
Comparar las medias aritmeticas
Crear un histograma de los datos
Realizar interpretacion

Desarrollo

Importar los datos

poblacion.alumnos <- read.csv("https://raw.githubusercontent.com/rpizarrog/Trabajos-en-R-AD2021/main/datos/promedios.csv")

Mostrar los primeros y ultimos registros

Con las funciones head() y tail() para extraer ciertos registros, en este caso los primeros y ultimos diez registros.

head(poblacion.alumnos, 10)
tail(poblacion.alumnos, 10)

La variable de interes es promedio

Con str() se identifica las variables y el tipo de datos del conjunto de datos.

str(poblacion.alumnos)

Muestra de 300 registros

Se utiliza la funcion sample() para determinar la muestra, primero se determina con una variable llamada cuantas los registros que seran muestrados, y a partir de ella se determina la muestra.

¿Que seria una muestra?. Seria una parte representativa y aleatoria de una poblacion
¿Como determinar una muestra? Se utiliza la funcion sample().
promedios$promedios significa la variable especifica del conjunto de datos promedios

Determinando la variable N el total de registros de la poblacion con la funcion nrow() para determinar cuantos registros.

N <- nrow(poblacion.alumnos)

Se determinan los registros de la muestra que pueen estar entre 1 y N con 1:N, replace= FALSE significa que el valor numerico encontrado aleatoriamente por sample, no se puede repetir o por el contrario si se puede repetir con la opción TRUE.

cuales <- sample(x = 1:N, 300, replace = FALSE)
cuales

Se determina la muestra de los valores numericos que arroja la variable cuales con respecto a la poblacion.Se utilizan los corchetes en formato [renglones, columnas] para identificar los registros.

muestra.alumnos <- poblacion.alumnos[cuales, ] # , espacio significa las dos columnas o todas las columnas
head(muestra.alumnos, 10)
tail(muestra.alumnos, 10)

Media de la poblacion

Se obtiene la media aritmetica de la variable promedio de toda la poblacion con la funcion mean().

media.poblacion <- mean(poblacion.alumnos$promedio)
media.poblacion

Media de la muestra

Se obtiene la media aritmetica de la variable promedio de la muestra con la funcion mean().

media.muestra <- mean(muestra.alumnos$promedio)
media.muestra

Histograma

Un histograma es una representacion visual de datos cuantitativo en dos ejes: x & y, la grafica es en forma de barras y representa como se distribuyen los datos cuantitativos, la altura de la barra indica cuantos datos hay de cada valor.

Se utiliza la funcion hist() para representar el histograma.

hist(x = poblacion.alumnos$promedio, main = "Histograma. Promedio de la población", xlab = "Promedios", ylab = "Cantidad")
hist(x = muestra.alumnos$promedio, main="Histograma. Promedio de la muestra", , xlab = "Promedios", ylab = "Cantidad")

Interpretacion.

Se hace un analisis descriptivo obteniendo el parametro media poblacional y el estadistico media de la muestra de la variable promedio; se visualiza mediante un histograma la distribucion de los datos con relacion a la poblacion y a la muestra.

La poblacion esta compuesta de 6500 registros u observaciones.

Son 300 registros los que se obtienen de la muestra.

El promedio, que significa un valor numerico que tiene cada alumno con relacion a calificaciones escolares, es la variable de interes.

EL promedio de la poblacion es de r media.poblacion

La media aritmetica de la muestra de promedio es de r media.muestra.

Los valores de las medias se parecen o son similares, lo que representa que al obtener muestras aleatorias a partir de poblaciones los estadisticos deben ser representativos en relacion a los parametros de la poblacion.

Las muestras deben ser aleatorias y representativas y estas son parte de una poblacion.

El histograma representa la distribuyen de los datos,esto significa que hay muchos promedios entre valores de 80 y 88 aproximadamente.

Caso 1. Analisis de promedios de alumnos

Marisol Ramírez García

9/9/2021