Caso 1. Población y muestra
Pedro Monreal Quiñones
01 de Agosto del 2022
Simular datos de una población y de una muestra describiendo la media poblacional y la media muestral para su adecuada interpretación.
Generar una población de 1000 números con valores entre 250 y 600
Determinar una muestra del 10% de la población de dichos números
Identificar la estructura de los datos
Determinar el parámetro la media de la población
Determinar el estadístico de la media de la muestra
Mostrar el resumen de los datos de población y muestra
Comparar valores de medias del parámetro poblacional contra el estadístico de la muestra.
Se visualiza la dispersión de los datos con la función ggplot() de la librería “ggplot2”.
Interpretar el caso
La información que se utiliza para aplicar técnicas estadísticas se colecta en forma de muestras o conjuntos de observaciones. Las muestras se reúnen a partir de poblaciones, que son conjuntos de todos los individuos o elementos individuales de un tipo específico.
En el lenguaje de la estadística, uno de los conceptos más elementales es el muestreo. En casi todos los problemas de estadística, un número especificado de mediciones o datos, es decir, una muestra, se toma de un cuerpo de mediciones más grande llamado población.
Un parámetro es una medida usada para describir alguna característica de una población, tal como una media aritmética, una mediana, moda o una desviación estándar de una población.
Un estadístico es una medida que describe características de una muestra. Normalmente cuando se habla de muestra los estadísticos son estimadores dado que se acercan a los parámetros de una población.
library(ggplot2)
Genera los mismos números al ejecutar (run) de nuevo la función sample().
set.seed(30082022)
Se genera o construye una población de 1000 números con valores entre 250 y 600.
poblacion <- sample(x = 250:600,
size = 1000,
replace = TRUE)
# Poblacion de un universo de numeros entre 250-600
poblacion
La función length() determina la cantidad de elementos de un vector, de tal manera que N identifica el número de elementos de una población.
N <- length(poblacion)
N
Se determina una muestra del 10% de la población de dichos números, 1000 * 0.10 es 100 o el 10%.
n <- N * 0.10
muestra <- sample(x = poblacion, size = n, replace = FALSE)
muestra
Se determina en parámetro media poblacional.
media.p <- mean(poblacion)
media.p
Se determina el estadístico media de la muestra
media.m <- mean(muestra)
media.m
str(poblacion)
str(muestra)
summary(poblacion)
summary(muestra)
Se muestra un diagrama de dispersión con librería ggplot2 y la función ggplot().
Hide
ggplot()+
geom_point(aes(x = 1:N, y = poblacion), col= 'blue') +
geom_hline(yintercept = media.p, col='red') +
ggtitle(label = "Población", subtitle = paste("Media poblacional = ", media.p))
===Representan la poblacion de 1000 avitantes entre los numeros 250 y 6000===
===Contiene 1000 datos con una muestra del 10%===
===10%===
===media poblacionar con un valor de 422.816 y la media muestral con un valor de 418.05===
===Que son valores cercanos a 420 solo se aproximan pero nadamas pues representan o intenta reprecentar una cantidad muy grande y se redondea con muetras===
===sumando todas las cantidades descritas, una vez teniedo el resultado de esa sumatoria se dividen por la cantidad de numeros decritos===
===solo meneja numeros enteros con una espacio del 1 al 1000 encarrados en corchetes===
===meneja clasificasiones para los datos de nuemero entero===