aqui empezamos
Simular datos de una población y de una muestra describiendo la media poblacional y la media muestral para su adecuada interpretación.
Construir una población de 1500 números con valores entre 1 y 8. Las horas de uso del celular
Determinar una muestra del 10% de la población de dichas horas
Identificar la estructura de los datos
Determinar el parámetro la media de la población
Determinar el estadístico de la media de la muestra
Mostrar el resumen de los datos de población y muestra
Comparar valores de medias del parámetro poblacional contra el estadístico de la muestra.
Se visualiza la dispersión de los datos con la función ggplot() de la librería “ggplot2”. Se identifica la media poblacional y la media muestral
Interpretar el caso # Marco teórico
La información que se utiliza para aplicar técnicas estadísticas se colecta en forma de muestras o conjuntos de observaciones. Las muestras se reúnen a partir de poblaciones, que son conjuntos de todos los individuos o elementos individuales de un tipo específico.
En el lenguaje de la estadística, uno de los conceptos más elementales es el muestreo. En casi todos los problemas de estadística, un número especificado de mediciones o datos, es decir, una muestra, se toma de un cuerpo de mediciones más grande llamado población.
Un parámetro es una medida usada para describir alguna característica de una población, tal como una media aritmética, una mediana, moda o una desviación estándar de una población.
Un estadístico es una medida que describe características de una muestra. Normalmente cuando se habla de muestra los estadísticos son estimadores dado que se acercan a los parámetros de una población.
Cargar librerpias
library(ggplot2)
library(cowplot)
Genera los mismos números al ejecutar (run) de nuevo la función sample().
set.seed(2023)
Se genera o construye una población de 1500 edades con valores entre 1 y 8.
poblacion <- sample(x = 1:8,
size = 1500,
replace = TRUE)
# Poblacion de un universo de numeros entre 18-60
poblacion
## [1] 5 8 7 1 8 3 2 4 2 1 1 5 1 1 5 5 8 7 2 3 7 5 4 8 5 8 8 1 7 1 6 2 8 6 6 5 1
## [38] 2 7 6 6 7 7 1 5 4 8 6 7 1 6 4 6 6 2 2 3 8 4 8 7 8 6 1 5 6 2 4 4 1 8 5 2 3
## [75] 8 1 4 2 7 5 2 4 4 7 4 3 1 1 3 6 3 4 6 8 2 4 8 2 8 3 5 7 6 4 4 1 6 2 2 5 5
## [112] 8 3 3 3 7 1 6 2 8 6 1 8 4 5 4 1 1 2 8 7 8 1 4 8 3 3 7 8 2 3 8 8 3 7 7 8 7
## [149] 4 1 5 1 5 4 1 6 8 7 1 2 8 4 8 2 2 6 4 8 4 7 7 1 5 4 4 8 6 7 1 2 8 6 2 3 5
## [186] 6 4 2 3 5 7 6 5 2 6 3 1 4 5 1 8 4 6 5 2 5 8 7 3 5 5 4 3 6 5 8 1 2 2 3 8 5
## [223] 1 4 5 3 8 1 7 7 7 2 2 3 4 2 2 1 3 6 8 6 3 5 7 4 6 5 5 3 1 1 3 5 1 8 4 3 5
## [260] 4 4 1 4 4 3 8 1 5 8 2 5 7 1 1 5 2 3 5 3 3 4 6 5 8 4 2 4 7 2 8 5 7 5 2 8 6
## [297] 4 7 6 2 8 8 8 1 4 4 2 8 8 6 3 6 6 3 4 7 8 8 7 1 4 8 2 3 3 2 4 6 3 5 5 6 3
## [334] 7 7 1 7 8 5 2 3 6 8 6 8 5 3 6 7 3 2 7 8 4 3 5 3 5 6 2 2 6 1 2 7 4 6 7 2 4
## [371] 8 3 4 1 7 6 7 7 7 6 5 8 3 6 4 1 3 7 5 1 1 4 8 4 7 8 1 4 5 3 5 3 7 8 7 2 6
## [408] 8 6 3 4 7 3 2 7 4 7 6 8 6 8 7 3 4 7 4 7 5 4 2 8 7 6 1 1 4 7 1 8 2 1 6 2 4
## [445] 2 6 4 7 6 5 7 7 8 3 6 8 7 5 2 4 8 5 2 3 7 5 4 7 7 2 7 5 4 6 2 3 7 5 2 5 3
## [482] 2 6 1 2 7 7 8 5 3 1 3 8 6 2 7 3 3 6 7 8 5 6 1 1 5 3 1 7 4 8 1 3 4 1 8 3 6
## [519] 3 2 3 5 6 8 6 8 2 4 6 8 8 1 3 4 3 2 5 7 2 6 2 1 8 3 3 5 3 8 5 8 3 3 1 7 2
## [556] 3 3 2 3 4 5 4 1 6 8 2 4 8 1 5 6 2 8 3 3 5 7 6 8 2 2 1 6 1 3 2 3 7 3 7 7 6
## [593] 8 2 1 2 3 7 7 2 6 5 8 5 3 3 2 6 4 2 7 5 6 7 5 1 1 2 5 8 6 3 2 6 1 6 2 4 2
## [630] 7 3 5 1 3 4 5 2 6 5 3 7 2 6 2 2 7 3 5 7 7 2 7 5 4 4 1 6 1 3 2 3 1 3 1 3 6
## [667] 1 4 7 8 1 2 6 8 4 7 2 6 4 2 1 8 2 2 6 8 8 1 5 1 3 8 6 5 8 7 1 4 4 3 7 8 2
## [704] 4 1 1 1 3 3 6 7 8 6 3 1 4 2 2 3 3 3 5 3 2 2 4 6 5 7 8 7 8 7 8 7 7 5 6 5 2
## [741] 1 4 7 5 6 2 5 8 4 4 2 7 2 6 2 6 1 8 1 1 4 2 2 4 7 4 7 1 5 8 1 4 5 6 8 4 8
## [778] 8 5 6 3 8 4 3 1 5 7 6 5 4 8 3 8 1 1 1 5 3 8 5 5 2 2 8 8 6 3 1 2 6 5 3 3 6
## [815] 8 4 4 5 1 5 4 4 7 4 1 3 1 7 2 2 4 1 3 8 3 2 4 2 1 6 1 7 6 8 8 8 3 3 7 6 7
## [852] 4 5 1 5 5 8 7 3 7 5 7 1 3 4 4 2 4 5 3 5 2 4 8 2 7 4 6 1 4 1 1 2 2 4 7 2 3
## [889] 2 5 8 1 4 8 2 3 6 1 3 8 7 4 2 2 4 4 6 7 2 6 5 7 6 8 1 2 1 6 4 6 1 8 2 2 5
## [926] 8 8 7 5 3 5 3 3 3 6 1 1 2 2 7 1 5 3 3 1 5 7 5 6 6 5 7 4 8 1 4 6 8 3 7 1 1
## [963] 8 4 5 6 7 7 8 1 8 6 7 3 6 1 6 1 2 7 3 2 3 2 8 5 6 5 8 6 8 8 7 5 8 8 2 7 3
## [1000] 7 8 2 3 1 3 3 6 2 5 8 3 2 6 7 4 5 2 8 8 6 3 6 1 2 2 3 4 1 2 5 3 6 7 8 2 1
## [1037] 2 2 6 7 8 3 6 6 5 1 8 2 7 6 4 7 6 7 5 4 7 2 4 3 3 3 3 2 8 3 3 4 4 3 1 8 4
## [1074] 3 3 1 8 8 5 1 1 5 4 8 3 7 1 2 4 1 7 7 3 2 1 6 4 2 5 5 7 7 7 5 8 1 5 7 7 5
## [1111] 4 1 8 1 6 2 8 6 2 1 3 6 7 5 5 8 4 5 7 8 5 2 1 6 6 2 5 8 5 2 1 4 5 1 3 3 6
## [1148] 8 1 4 2 8 8 5 2 4 6 1 6 1 5 5 3 5 1 8 4 4 7 4 4 7 8 7 1 7 1 3 6 5 3 5 7 2
## [1185] 3 5 5 6 5 5 3 1 7 7 2 2 7 5 1 2 4 1 7 3 4 7 2 4 5 1 3 5 8 7 4 4 8 3 7 2 4
## [1222] 4 1 4 6 1 7 4 7 6 2 6 7 6 8 8 4 1 5 1 7 1 4 6 8 1 6 6 3 2 5 1 3 2 5 7 7 7
## [1259] 7 7 3 1 1 1 6 7 5 4 6 2 8 1 3 3 2 8 4 1 4 1 5 6 5 7 5 1 5 5 6 8 7 3 2 1 7
## [1296] 3 8 1 6 1 7 8 5 6 1 6 2 6 1 8 1 1 1 8 5 6 7 7 1 8 2 2 7 1 2 6 1 7 7 6 7 4
## [1333] 1 7 7 2 6 3 5 4 3 7 7 8 1 6 1 8 3 8 8 2 6 3 7 1 8 3 4 4 1 8 6 8 2 3 6 1 8
## [1370] 7 1 4 6 8 6 4 1 8 7 6 2 8 5 2 7 2 7 7 3 6 3 2 3 7 4 7 2 7 5 5 7 8 8 1 7 5
## [1407] 2 6 1 6 3 6 6 8 3 6 7 1 7 7 3 5 4 2 5 3 8 3 7 1 7 2 4 7 3 2 2 6 3 5 3 3 2
## [1444] 8 5 3 3 3 5 7 6 3 4 4 1 5 5 7 6 4 2 5 2 1 5 4 7 1 1 1 6 4 4 1 1 8 8 3 3 8
## [1481] 8 4 4 7 1 5 7 1 1 6 8 8 5 8 1 5 1 3 6 1
La función length() determina la cantidad de elementos de un vector, de tal manera que N identifica el número de elementos de una población.
N <- length(poblacion)
N
## [1] 1500
Se determina una muestra del 10% de la población de dichos números (Horas), el 10%.
n <- N * 0.10
muestra <- sample(x = poblacion, size = n, replace = FALSE)
muestra
## [1] 4 2 3 1 8 5 2 3 5 7 7 5 8 2 7 8 2 5 8 5 8 2 3 8 3 5 1 3 7 1 1 1 7 1 5 1 5
## [38] 8 3 8 2 3 6 3 4 1 8 6 8 8 8 2 1 4 6 1 8 5 8 6 5 6 6 1 5 3 3 5 6 5 8 3 6 6
## [75] 8 2 3 1 1 6 1 1 1 4 3 7 2 6 4 6 5 3 4 7 7 4 5 6 2 6 4 5 6 4 3 6 4 2 7 4 6
## [112] 6 3 7 4 7 4 8 3 6 4 4 3 1 4 6 8 2 3 5 2 8 2 7 2 6 3 5 2 4 8 4 1 1 4 3 2 3
## [149] 6 3
Se determina en parámetro media poblacional.
media_p <- mean(poblacion)
media_p
## [1] 4.498667
Se determina el estadístico media de la muestra
media_m <- mean(muestra)
media_m
## [1] 4.426667
str(poblacion)
## int [1:1500] 5 8 7 1 8 3 2 4 2 1 ...
str(muestra)
## int [1:150] 4 2 3 1 8 5 2 3 5 7 ...
summary(poblacion)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.000 2.000 5.000 4.499 7.000 8.000
summary(muestra)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.000 3.000 4.000 4.427 6.000 8.000
Se crea grafica1 para los datos e población; se crea gráfica2 para los datos de muestra. se visualizan las dispersiones de ambos diagramas con la librería ggplot2 y la función ggplot().
g1 = ggplot()+
geom_point(aes(x = 1:N, y = poblacion), col= 'blue') +
geom_hline(yintercept = media_p, col='red') +
ggtitle(label = "Población", subtitle = paste("Media poblacional = ", round(media_p, 2)))
g2 = ggplot()+
geom_point(aes(x = 1:n, y = muestra), col= 'green') +
geom_hline(yintercept = media_m, col='red') +
ggtitle(label = "Población", subtitle = paste("Media muestral = ", round(media_m, 2)))
plot_grid(g1, g2)
Se crea grafica1 para los datos e población; se crea gráfica2 para los datos de muestra. se visualizan las dispersiones de ambos diagramas con la librería ggplot2 y la función ggplot().
g1 = ggplot()+
geom_point(aes(x = poblacion, y = 1:N), col= 'blue') +
geom_vline(xintercept = media_p, col='red') +
ggtitle(label = "Población", subtitle = paste("Media poblacional = ", round(media_p, 2)))
g2 = ggplot()+
geom_point(aes(x = muestra, y = 1:n), col= 'green') +
geom_vline(xintercept = media_m, col='red') +
ggtitle(label = "Población", subtitle = paste("Media muestral = ", round(media_m, 2)))
plot_grid(g1, g2)
Describir de 120 a 150 palabras para interpretar el caso contestando las siguientes preguntas como sugerencia:
¿Cuál es el contexto de los datos, es decir, ¿qué significan los datos?
¿Cuántos datos tiene la población y la muestra respectivamente?,
¿Qué porcentaje de la muestra es de la población?
¿Cuál es el el valor de la media poblacional y la media muestral?
¿Que relación tiene la media poblacional y la media muestral?
¿Cómo se obtiene la media ?
¿Como se obtiene la estructura de los datos (str()) y qué valores arroja?
¿Cómo se describen los datos? con summary() y qué valores arroja?
Los datos significan la representacion de la poblacion y la muestra de cuanto usan el celular durante el dia y asi poder calcular una muestra entre toda una población, asi como la media, la moda respectivamente; donde podríamos sacar datos para una investigación del como el uso del celular afecta a la salud con la luz azul o por la mera distracción que representan; la poblacion cuenta con 1500 datos mientras que 150 la muestra y el porcentaje de la muestra representa un 4.5 respectivamente, la relacion de la media poblacion y la media muestral es que corresponde un porcentaje similar. La media se obtiene con respecto a la poblacion y la edad de horas en promedio entre toda la poblacion.