Caso de estudio
Abril 2025
Caso de estudio
Una entidad gubernamental de transporte y bienestar social ha recopilado datos de ciudadanos para analizar cómo factores como el ingreso, el acceso al transporte, el estado civil y la educación impactan en su calidad de vida. Además, se estudia el efecto de una intervención en la salud de las personas a través de un programa de control de peso.
Objetivo de estudio
Evaluar la relación entre variables socioeconómicas, el uso del transporte público y el bienestar personal, medido en términos de peso, ingresos y nivel educativo
Datos demográficos
Datos económicos
Datos sobre trasnporte
Datos sobre Salud
Librerias
library(tidyverse) library(readxl)
Importar el set de datos
Datos <- read_xlsx("DATOS.xlsx")
rmarkdown::paged_table(Datos)
Punto 1: ¿Cuál es la probabilidad de que, al seleccionar 8 personas al azar, al menos 6 califiquen el transporte como “Bueno”?
X: Cantidad de personas que califican el servicio de transporte público como bueno
X ~ Binomial (n1,p1)
x1 <- 6 n1 <- 8 p1 <- mean(Datos$CALIFICACION_SERVICIO_TRANSPORTE == "BUENO") 1 - pbinom(x1-1, n1, p1, TRUE)
## [1] 0.008442069
La probabilidad de que en una muestra aleatoria de 8 personas, por lo menos 6 de ellas califiquen el servicio de transporte público como bueno, es de 0.0084
Punto 2: Si el número de viajes al mes se distribuye como Poisson con una media de 20, ¿cuál es la probabilidad de que alguien haga 25 viajes?
X: Cantidad de viajes que realiza una persona al mes
X ~ Poisson (\(\lambda\))
x2 <- 25 Lambda <- 20 ppois(x2, Lambda, FALSE)
## [1] 0.112185
La probabilidad de que una persona realice 25 viajes en un mes es de 0.1122
Punto 3: Si el ingreso sigue una distribución normal con media 1200 y desviación estándar 250, ¿cuál es la probabilidad de que una persona gane más de $1500?
X: Ingreso de una persona ($miles/mes)
X ~ Normal (\(\mu,\sigma\))
x3 <- 1500 mu1 <- 1200 sigma1 <- 250 1 - pnorm(x3, mu1, sigma1, TRUE)
## [1] 0.1150697
La probabilidad de que los ingresos mensuales de una persona sean mayores a $1500 mil es de 0.1151
Punto 4: Si los gastos mensuales siguen una distribución lognormal, ¿cuál es la mediana esperada del gasto?
X: Gasto de una persona ($miles/mes)
X ~ Lognormal (\(\mu,\sigma\))
Para estimar los dos parámetros se emplea el método de máxima verosimilitud para la función de densidad de la distribución log-normal. El parámetro estimado \(\mu\) de máxima verosimilitud es
\(\mu_{mv} = \frac{1}{n} \sum\limits_{i=1}^n ln(x_i)\)
Por otro lado, la mediana de la ditribución es \(med(X) = e^\mu\)
Punto 4: Si los gastos mensuales siguen una distribución lognormal, ¿cuál es la mediana esperada del gasto?
mu_mv <- mean(log(Datos$GASTOS)) ; mu_mv
## [1] 7.089442
med <- exp(mu_mv) ; med
## [1] 1199.238
Dado que los gastos mensuales de una persona siguen una distribución log-normal, se espera que el 50% de las personas tengan gastos de máximo $1199.24 miles al mes.
Punto 5: Si la variable “ingreso” tiene una media desconocida y una muestra de 25 personas tiene media 1200 y desviación estándar 300, ¿cuál es la probabilidad de observar un ingreso promedio mayor a 1300?
X: Ingreso de una persona ($miles/mes)
Se asume que X ~ Normal (\(\mu,\sigma\))
mu_est <- 1200 desv_est <- 300 n <- 25 x5 <- 1300 t_muestra <- (x5-mu_est)/(desv_est/sqrt(n)) 1 - pt(t_muestra, n-1, lower.tail = TRUE)
## [1] 0.05429006
La probabilidad de que el ingreso medio mensual de una muestra de 25 personas supere los $1300 miles es de 0.0543
Punto 6: ¿Cuál es la probabilidad de que una variable con distribución chi-cuadrada y 5 grados de libertad sea menor que 3?
X ~ ji-cuadrado (\(v\))
pchisq(3, 5, lower.tail = TRUE)
## [1] 0.3000142
La probabilidad de que la variable tome un valor menor a 3 es de 0.3000
Punto 7: ¿La varianza de ingreso es diferente a la varianza de Gastos?
\(X_A\): Ingresos de una persona ($miles/mes)
\(X_B\): Gastos de una persona ($miles/mes)
Se asume que tanto \(X_A\) como \(X_B\) se distribuyen de forma normal
\(H_0: \sigma_A^2 = \sigma_B^2\)
\(H_0: \sigma_A^2 \neq \sigma_B^2\)
var.test(x = Datos$INGRESO, y = Datos$GASTOS)
Punto 7: ¿La varianza de ingreso es diferente a la varianza de Gastos?
## ## F test to compare two variances ## ## data: Datos$INGRESO and Datos$GASTOS ## F = 1.3177, num df = 87, denom df = 87, p-value = 0.2002 ## alternative hypothesis: true ratio of variances is not equal to 1 ## 95 percent confidence interval: ## 0.8631851 2.0115934 ## sample estimates: ## ratio of variances ## 1.317717
Como el valor-p del test es mayor al 5% no se rechaza la hipótesis nula.
A un nivel de significancia del 5% no hay evidencia estadística que muestre que haya diferencia significativa entre las varianzas de los ingresos y gastos mensuales de una persona.
Punto 1: ¿Cuál es el ingreso promedio por nivel educativo?
Datos %>% group_by(NIVEL_EDUCATIVO) %>% reframe(Ingreso_medio = mean(INGRESO)) %>% data.frame() %>% arrange(-Ingreso_medio)
## NIVEL_EDUCATIVO Ingreso_medio ## 1 POSTGRADO 3491.667 ## 2 UNIVERSITARIO 1845.000 ## 3 TECNICO 1322.500 ## 4 BACHILLER 1098.000 ## 5 PRIMARIA 1045.000
Se observa que el ingreso mensual medio de una persona aumenta a medida que asciende en su nivel educativo. Las personas con postgrado tiene ingresos mensuales medios de $3491.7 miles mientras que las personas que alcanzaron sólo a la primaria tienen unos ingresos menssuales medios de $1045 miles.
Punto 2: ¿Cómo varía el número de hijos según el estado civil?
Datos %>% group_by(ESTADO_CIVIL) %>% reframe(numhijos_medio = mean(HIJOS)) %>% data.frame()
## ESTADO_CIVIL numhijos_medio ## 1 CASADO 2.022727 ## 2 DIVORCIADO 2.666667 ## 3 OTRO 2.533333 ## 4 SOLTERO 0.350000
Se observa que las personas divorciadas, en promedio, tienen más hijos que los demás estados civiles (2.7 hijos). Las personas solteras, como era de esperarse, presentan el menor número promedio de hijos
Punto 3: ¿Qué nivel educativo es más frecuente entre los hombres y las mujeres?
table(Datos$GENERO, Datos$NIVEL_EDUCATIVO)
## ## BACHILLER POSTGRADO PRIMARIA TECNICO UNIVERSITARIO ## HOMBRE 4 9 9 12 10 ## MUJER 6 9 11 8 10
En los hhombres, son más frecuentes los técnicos, mientras que en las mujeres son más frecuentes la primaria
Punto 4: ¿Cuál es el tiempo promedio de transporte por género?
Datos %>% group_by(GENERO) %>% reframe(tiempo_medio = mean(TIEMPO_RECORRIDO)) %>% data.frame()
## GENERO tiempo_medio ## 1 HOMBRE 29.52273 ## 2 MUJER 30.97727
En promedio, las mujeres emplean más tiempo en le transporte público que los hombres (30.98 vs 29.97 min)
Punto 5: ¿Cuál es la edad promedio según el nivel educativo alcanzado?
Datos %>% group_by(NIVEL_EDUCATIVO) %>% reframe(edad_media = mean(EDAD)) %>% data.frame()
## NIVEL_EDUCATIVO edad_media ## 1 BACHILLER 43.60000 ## 2 POSTGRADO 35.94444 ## 3 PRIMARIA 39.90000 ## 4 TECNICO 32.15000 ## 5 UNIVERSITARIO 41.65000
Las personas que alcanzron sólo hasta el bachiller presentan la mayor edad promedio (43.6 años) mientras que los más jóvenes son técnicos