#Paso 1:
Para el código correspondiente es necesario primero definir nuestra variable de densidad en R. Posteriormente se genera la población de 100000 ingresos mensuales según la función de densidad
Una vez definida graficamos la distribucion de ingresos mensuales en la población
Se genera una función que permita obtener una muestra aleatoria de la población de tamaño n (en este caso elegimos trabajar con n=100 principalmente). Para estas muestras deben calcular: el promedio de los ingreso y la proporción de veces que el ingreso se encontró entre 14.900.000 a 15.000.000
En este caso decidimos realizar un apartado de prueba donde podemos observar como a partir de distintas muestras se obtienen promedios de ingresos similares y cuya proporción de veces el promedio estuvo entre un rango especifico.
## El promedio de ingresos es 14.81446 y la proporción entre $14.900.000 y $15.000.000 es 0.04
## El promedio de ingresos es 15.60573 y la proporción entre $14.900.000 y $15.000.000 es 0
## El promedio de ingresos es 14.2294 y la proporción entre $14.900.000 y $15.000.000 es 0
## El promedio de ingresos es 15.55999 y la proporción entre $14.900.000 y $15.000.000 es 0
## El promedio de ingresos es 15.33425 y la proporción entre $14.900.000 y $15.000.000 es 0
## El promedio de ingresos es 14.8642 y la proporción entre $14.900.000 y $15.000.000 es 0
## El promedio de ingresos es 14.9243 y la proporción entre $14.900.000 y $15.000.000 es 0.01
## El promedio de ingresos es 14.68995 y la proporción entre $14.900.000 y $15.000.000 es 0.03
## El promedio de ingresos es 14.93638 y la proporción entre $14.900.000 y $15.000.000 es 0.01
## El promedio de ingresos es 15.06531 y la proporción entre $14.900.000 y $15.000.000 es 0.01
#Paso 3
Se debe repetir la función del punto anterior 10,000 veces (se usa n_simulations como la variable que determinar el numero de simulaciones). A todos estos resultados los familiariza el tamaño de muestra que como se acordo en el anterior punto este fue de 100. Para ello se realiza el histograma de los estimadores calculados, la gráfica cumple un papel fundamental para estudiar su distribución.
¿Qué tan simétricos o sesgados son los resultados obtenidos? y ¿qué se puede observar en cuanto a la variabilidad? Para continuar con esta pregunta debemos aclarar ciertos datos:
En primer lugar, el contexto del paso 3 , donde se calcula la proporción de ingresos entre 14.900.000 y 15.000.000, la proporción se calculará dividiendo el número de ingresos en ese rango por el número total de ingresos en la muestra. Por ejemplo, si de una muestra de 100 ingresos, 30 ingresos están entre 14.900.000 y 15.000.000, entonces la proporción sería:
Proporción = (Número de ingresos entre 14.900.000 y 15.000.000) / (Número total de ingresos en la muestra) = 30 / 100 = 0.30
La densidad de estos valores los representa la gráfica de la izquierda.
Ahora bien para definir si los resultados son simétricos o sesgados debemos tener en cuenta que Una distribución es simétrica si su forma es similar en ambos lados de la media, mientras que una distribución sesgada tiene una cola más larga en un lado que en el otro. Para evaluar esto, podemos observar visualmente los histogramas. En nuestro caso es posible decir que para el caso de los promedios se da a lugar histogramas de carácter simétrico. Por otro lado, la gráfica de proporciones da a lugar a una asimetria positiva.
Es perceptible cierta variabilidad puesto que cada muestra se escoge completamente aleatoria y sin un cáracter particular, aunque a juzgar por los resultados obtenidos es posible inferir que esta variabilidad es muy ligera ya que en todos los casos y a pesar de las disitintas muestras los resultados siempre tienden a un valor o rango de valores especifico.
#Paso 4
Se repiten con el mismo número de simulaciones que en el punto 3 la función pero a partir de distintos tamaños de muestra (5, 10, 15, 20, 30, 50, 60, 100, 200, 500). El 100 no es necesario puesto que lo hicimos previamente. De este modo, solo es necesario analizar los histogramas de la función. A continuación se presentarán los diferentes gráficos en orden de manera sucesiva:
HistogramaS
# Paso 4: Repetir los puntos 2 y 3 para diferentes tamaños de muestra
sizes <- c(5, 10, 15, 20, 30, 50, 60, 100, 200, 500)
for (n in sizes) {
# Generar resultados para n
resultados <- replicate(n_simulations, generate_sample(n))
# Graficar histogramas
par(mfrow = c(1, 2))
hist(resultados[1, ], breaks = 30, xlim = c(5, 25), freq = FALSE, main = paste("Promedio de Ingresos (n =", n, ")"), xlab = "Promedio de Ingresos (millones de pesos)")
hist(resultados[2, ], breaks = 30, xlim = c(0, 1), freq = FALSE, main = paste("Proporción de Ingresos (n =", n, ")"), xlab = "Proporción de Ingresos")
}
par(mfrow = c(1, 1))
##Conclusiones
A partir de los histogramas realizados es posible notar ciertas similitudes, esto puesto que a pesar de ser de tamaños de muestras distintas, todas se reiteran o se similan una cantidad muy grande de veces, especificamente 10000. Por lo tanto a medida que las simulaciones aumentan y a pesar de la variabilidad de cada muestra siempre van a reflejar cierta tendencia o particularidad en su distribución. De principio la distribución se mantiene normal tanto en la población como en los promedios de muestra. Ambas graficas comparten su promedio en el mismo punto. La proporción es una herramienta que se utiliza para medir la frecuencia relativa de eventos de interés dentro de un conjunto de datos y puede ser útil para entender cuántos de los ingresos caen dentro de un cierto intervalo específico. Finalmente, la actividad concluye con base a comparar los diferentes estimadores pertenecientes a una muestra para acercarnos a una aproximación real e incluso casi exacta al párametro usado en la población.
library(ggplot2)
## Warning: package 'ggplot2' was built under R version 4.3.3
par(mfrow = c(1, 2))
normal_vector <- rnorm(n = 100000, mean = 15, sd = 3)
qqnorm(normal_vector)
qqline(normal_vector)
resultado500 <- replicate(n_simulations, generate_sample(500))
qqnorm(resultado500[1,]) # Ejemplo para n = 500
qqline(resultado500[1,])
Para concluir, ya que las dos graficas son similares podemos concluir varias cosas como por ejemplo que es muy probable que las distribuciones de las muestras sean muy similares, pero es posible que haya algunas diferencias sutiles.
Tambien podemos decir que los valores atípicos pueden distorsionar los gráficos QQ y dificultar la comparación de las distribuciones. Las muestras más grandes tienden a tener gráficos QQ más cercanos a una línea recta, incluso si las distribuciones no son exactamente normales.