Objetivo

Elaborar un análisis descriptivo de la variable promedios de alumnos una muestra de la población a partir de la lectura de un archivo promedios.csv

Descripción

Desarrollo

Importar los datos

poblacion.alumnos <-read.csv("https://raw.githubusercontent.com/rpizarrog/Trabajos-en-R-AD2021/main/datos/promedios.csv")

Mostrar los primeros y últimos registros

Con head() y tail()

head(poblacion.alumnos, 10)
##    no promedio
## 1   1 91.60891
## 2   2 86.68564
## 3   3 84.06292
## 4   4 80.94624
## 5   5 88.49800
## 6   6 85.42097
## 7   7 81.11855
## 8   8 78.97463
## 9   9 75.81317
## 10 10 86.60781
tail(poblacion.alumnos, 10)
##        no promedio
## 5591 5591 83.61431
## 5592 5592 78.48419
## 5593 5593 79.59696
## 5594 5594 83.86262
## 5595 5595 81.04476
## 5596 5596 87.74938
## 5597 5597 86.64384
## 5598 5598 88.44429
## 5599 5599 88.19806
## 5600 5600 83.74940

La variable de interés es promedio

Con str() se identifica las variables y el tipo de datos del conjunto de datos

str(poblacion.alumnos)
## 'data.frame':    5600 obs. of  2 variables:
##  $ no      : int  1 2 3 4 5 6 7 8 9 10 ...
##  $ promedio: num  91.6 86.7 84.1 80.9 88.5 ...

Muestra de 300 registros

Se utiliza la función sample() para determinar la muestra, primero se determina con una variable llamada cuantas los registros que serán muestreados, y a partir de ella se determina la muestra.

  • ¿Que seria una muestra?, Seria una parte representativa y aleatoria de una pobleción.

  • ¿Como determinar una muestra? Se utiliza la funcion sample()

  • promedios$promedios significa la variable específica del conjunto de datos promedios

    Determinando la variable N el total de registros de la población

    N <- nrow(poblacion.alumnos)

Se determinan los registros de la muestra.

cuales <- sample(x = 1:N, 300, replace = FALSE)

Se determina la muestra

muestra.alumnos <- poblacion.alumnos [cuales, ] #las dos columnas 
head(muestra.alumnos, 10)
##        no promedio
## 5501 5501 84.08601
## 876   876 81.96107
## 4353 4353 75.71053
## 461   461 75.51592
## 85     85 76.90170
## 1166 1166 86.37360
## 872   872 86.78779
## 2052 2052 91.80097
## 3231 3231 83.46910
## 3149 3149 86.96529
tail(muestra.alumnos, 10)
##        no promedio
## 4583 4583 87.75504
## 3946 3946 84.41651
## 5252 5252 89.08937
## 4523 4523 84.32982
## 548   548 83.31462
## 2593 2593 86.41526
## 3691 3691 79.64776
## 2264 2264 77.11489
## 3278 3278 86.10732
## 3476 3476 84.29295

Media de la población

Se obtiene la media aritmética de la variable promedio de toda la población con la función mean()

media.poblacion <- mean(poblacion.alumnos$promedio)
media.poblacion
## [1] 84.01415

Media de la muestra

Se obtiene la media aritmética de la variable promedio de la muestra con la función mean()

media.muestra <- mean(muestra.alumnos$promedio)
media.muestra
## [1] 84.13864

Interpretación

El caso extrae a partir de un archivo que se encuentra en una dirección para poderlos trabajar en r studio, se identifíca cuantos registros exiten en la población que son alrededor de 5,600, de los cuáles la variable de interés se llama promedio; apartir de la población se determina una muestra de 300 registros, se determina la media de la población de la variable promedio, siendo esta 84.14 y también se determina la media de la muestra, siendo esta 84.54, se observa una diferencia ligera entre la media de la población contra la media de la muestra. Con esto se concluye que una muestra es representativa y aleatoria con respecto a la población.