Objetivo

Simular datos de una población y de una muestra describiendo la media poblacional y la media muestral para su adecuada interpretación.

Descripción

Marco teórico

Población y muestra

La información que se utiliza para aplicar técnicas estadísticas se colecta en forma de muestras o conjuntos de observaciones. Las muestras se reúnen a partir de poblaciones, que son conjuntos de todos los individuos o elementos individuales de un tipo específico.

En el lenguaje de la estadística, uno de los conceptos más elementales es el muestreo. En casi todos los problemas de estadística, un número especificado de mediciones o datos, es decir, una muestra, se toma de un cuerpo de mediciones más grande llamado población.

Parámetro y estadístico

Un parámetro es una medida usada para describir alguna característica de una población, tal como una media aritmética, una mediana, moda o una desviación estándar de una población.

Un estadístico es una medida que describe características de una muestra. Normalmente cuando se habla de muestra los estadísticos son estimadores dado que se acercan a los parámetros de una población.

Desarrollo

Cargar librerpias

library(ggplot2)
library(cowplot)

Crear datos

Genera los mismos números al ejecutar (run) de nuevo la función sample().

set.seed(2023)

Crear población

Se genera o construye una población de 6500 edades con valores entre 18 y 60.

poblacion <- sample(x = 28:84, 
                    size = 6500, 
                    replace = TRUE) 
# Poblacion de un universo de numeros entre 18-60
poblacion

Determinar N

La función length() determina la cantidad de elementos de un vector, de tal manera que N identifica el número de elementos de una población.

N <- length(poblacion)
N

Crear muestra

Se determina una muestra del 10% de la población de dichos números (edades), el 10%.

n <- N * 0.10 
muestra <- sample(x = poblacion, size = n, replace = FALSE)
muestra

Medias aritméticas de población y muestra

Media población

Se determina en parámetro media poblacional.

media_p <- mean(poblacion)
media_p

Media muestral

Se determina el estadístico media de la muestra

media_m <- mean(muestra)
media_m

Explorando los datos

Estructura de los datos

str(poblacion)
str(muestra)

Resumen de los datos

summary(poblacion)
summary(muestra)

Visualizar los datos

Vertical

Se crea grafica1 para los datos e población; se crea gráfica2 para los datos de muestra. se visualizan las dispersiones de ambos diagramas con la librería ggplot2 y la función ggplot().

g1 = ggplot()+
  geom_point(aes(x = 1:N, y = poblacion), col= 'blue') + 
  geom_hline(yintercept = media_p, col='red') +
  ggtitle(label = "Población", subtitle = paste("Media poblacional = ", round(media_p, 2)))
g2 = ggplot()+
  geom_point(aes(x = 1:n, y = muestra), col= 'green') + 
  geom_hline(yintercept = media_m, col='red') +
  ggtitle(label = "Población", subtitle = paste("Media muestral = ", round(media_m, 2)))
plot_grid(g1, g2)

Horizontal

Se crea grafica1 para los datos e población; se crea gráfica2 para los datos de muestra. se visualizan las dispersiones de ambos diagramas con la librería ggplot2 y la función ggplot().

g1 = ggplot()+
  geom_point(aes(x = poblacion, y = 1:N), col= 'blue') + 
  geom_vline(xintercept = media_p, col='red') +
  ggtitle(label = "Población", subtitle = paste("Media poblacional = ", round(media_p, 2)))
g2 = ggplot()+
  geom_point(aes(x = muestra, y = 1:n), col= 'green') + 
  geom_vline(xintercept = media_m, col='red') +
  ggtitle(label = "Población", subtitle = paste("Media muestral = ", round(media_m, 2)))
plot_grid(g1, g2)

Interpretación

Describir de 120 a 150 palabras para interpretar el caso contestando las siguientes preguntas como sugerencia:

¿Cuál es el contexto de los datos, es decir, ¿qué significan los datos?

Los datos usados son la cantidad de horas de sueño que tiene una persona en una semana

¿Cuántos datos tiene la población y la muestra respectivamente?,

La población consta de 6500 datos mientras que la muestra nos da solo 650 que es el 10%

¿Qué porcentaje de la muestra es de la población?

La muestra consta del 10% del total de la población que se tiene

¿Cuál es el el valor de la media poblacional y la media muestral?

55.99338 es la media poblacional y 55.88923 la media muestral

¿Que relación tiene la media poblacional y la media muestral?

La media muestral es un número que obtenemos de los mismos datos que la media poblacional solo que la media muestral considera una pequeña parte y la poblacional todos los datos

¿Cómo se obtiene la media ?

Se suman los datos a nuestra disposición y se dividen entre el número de datos usados

¿Como se obtiene la estructura de los datos (str()) y qué valores arroja?

La estructura str nos muestra los datos que fueron obtenidos en la población y la muestra que se obtuvo

¿Cómo se describen los datos? con summary() y qué valores arroja?

summary nos muestra los datos anteriormente obtenidos como lo son la media poblacional, la media muestral pero tambien añade el valor minimo y máximo obtenido