1. Use la prueba de Kruskal Wallis para determinar si existen diferencias significativas en los pesos de los sacos envasados en cada planta.
En R el test de Kruskal Wallis se implementa así:
kruskal.test(pregunta1$planta, pregunta1$pesos)
##
## Kruskal-Wallis rank sum test
##
## data: pregunta1$planta and pregunta1$pesos
## Kruskal-Wallis chi-squared = 10.64, df = 16, p-value = 0.8311
Esto nos permite ver que dado un \(H(16)=10.6, p>0.05\), no tenemos evidencia suficiente para rechazar la hipótesis de que muestras provienen de poblaciones idénticas, o que tenemos evidencia para sugerir que no hay diferencias de pesos envasados entre las plantas.
2. En este caso, ¿califica el set de datos para aplicar ANOVA? Utilice los tests revisados en clases y concluya.
Para este caso evaluaremos 2 instancias: 1) si cada grupo presenta distribución normal, y 2) si las varianzas son iguales.
Para el primer caso, usaremos el test Shapiro-Wilk, lo que implementaremos así:
# asignamos un vector con cada tipo de grupo
ps <- paste0("P", 1:4)
# iteramos por cada grupo
lapply(ps, function(ps){
shapiro.test(pregunta1$pesos[pregunta1$planta==ps])
})
## [[1]]
##
## Shapiro-Wilk normality test
##
## data: pregunta1$pesos[pregunta1$planta == ps]
## W = 0.89058, p-value = 0.36
##
##
## [[2]]
##
## Shapiro-Wilk normality test
##
## data: pregunta1$pesos[pregunta1$planta == ps]
## W = 0.94401, p-value = 0.6944
##
##
## [[3]]
##
## Shapiro-Wilk normality test
##
## data: pregunta1$pesos[pregunta1$planta == ps]
## W = 0.94894, p-value = 0.7296
##
##
## [[4]]
##
## Shapiro-Wilk normality test
##
## data: pregunta1$pesos[pregunta1$planta == ps]
## W = 0.94793, p-value = 0.7224
Esto nos permite apreciar que ninguno de los grupos presenta evidencia suficiente para señalar que se desvían significativamente de una distribución típica.
Respecto a la homogenidad de varianzas, ello lo evaluaremos con el test de Levene, el cual implementamos de esta forma
leveneTest(pregunta1$pesos~pregunta1$planta)
## Levene's Test for Homogeneity of Variance (center = median)
## Df F value Pr(>F)
## group 3 1.0522 0.3967
## 16
Dado que el test nos da un \(F(3)=1.05, p>0.05\), no se encuentra evidencia suficiente para indicar que varianzas son significativamente distintas.
3. ¿Se condicen los hallazgos de la parte anterior con la evidencia descriptiva que usted podría generar? Discuta.
Graficaremos sus distribuciones, lo que se ve así:
Si bien el test estadístico nos arroja que no hay evidencia para pensar que muestras vienen de poblaciones distintas, al generar la gráfica eligiendo la escala del eje x de manera automática, se aprecia el escenario del lado izquierdo de la figura anterior, donde se observan diferencias importantes, que pudieran hacer creer lo contrario a lo indicado por el test, aunque, como se ilustra en la gráfica del lado derecho, también puede ser efecto visual; al modificar la escala, diferencias parecen más pequeñas.
Algo similar se puede decir respecto de la homogeneidad de las varianzas, el test nos indica que no parecen distintas, sin embargo es posible ver que cada grupo tiene datos más dispersos que otros.
No obstante Si miramos los cuantiles 25, 50 y 75 -visualizados en la siguiente tabla-, no se encuentran diferencias muy marcadas, aunque parece que los grupos P1 y P3, así como el P2 y P4 serían más similares entre sí.
pregunta1 %>%
group_by(planta) %>%
summarize(q1 = quantile(pesos, .25),
mediana = median(pesos),
q3 = quantile(pesos, .75)) %>%
kbl(digits = 1,
caption = "Percentiles de pesos",
col.names = c("Plantas", "Cuantil 25", "Mediana", "Cuantil 75")) %>%
kable_classic(full_width = F, html_font = "Cambria")
| Plantas | Cuantil 25 | Mediana | Cuantil 75 |
|---|---|---|---|
| P1 | 58.7 | 59.1 | 60.9 |
| P2 | 60.3 | 62.7 | 63.1 |
| P3 | 55.9 | 56.1 | 57.3 |
| P4 | 60.7 | 60.9 | 61.4 |
Esto nos lleva a concluir que el análisis descriptivo y el estadístico no parecen coincidir bien, de todos modos, esto podría explicarse en parte por lo pequeño de las muestras. Por otro lado, se requerirían test post-hoc para evaluar posibles diferencias entre ciertos grupos por separado.
1. ¿Con cuál de los puntajes presentados, la variable Satis (satisfacción general) evidencia el mayor nivel de correlación?
Para esto realizaremos un correlograma, el cual en R implementamos así:
# generamos la matriz de correlaciones
cormat <- cor(pregunta2)
# generamos la matriz de p.valores
cormat.p <- cor.mtest(pregunta2)$p
# generamos el correlograma
corrplot(cormat,
type = "lower",
addCoef.col = "black",
method = "circle",
p.mat = cormat.p,
insig = "blank",
sig.level = .05,
diag = F,
order = "hclust",
title = "Correlograma de encuesta de satisfacción",
tl.srt = 0,
mar=c(0,0,1,0))
Así podemos apreciar que la variable que más correlaciona con el nivel de satisfacción es la calidad con un \(r=0.43, p<0.05\), seguida de la presencia de promociones, \(r=0.39, p<0.05\).
2. Discuta y proporcione evidencia sobre: la correlación muestral entre Satis y cada uno de los puntajes obtenidos en los 4 ámbitos proporciona evidencia para asumir sin problemas que ρ es 0 en cada caso. Escoja un test apropiado para analizar este problema.
Primero debemos verificar si los supuestos de distribución de la correlación de pearson se cumplen, lo cual evaluremos por medio del test Kolmogorov-Smirnov en la siguiente rutina:
lapply(1:5, function(x){
ks.test(pregunta2[, x],
"pnorm",
mean = mean(pregunta2[, x]),
sd = sd(pregunta2[, x]))
})
## [[1]]
##
## One-sample Kolmogorov-Smirnov test
##
## data: pregunta2[, x]
## D = 0.19544, p-value = 0.004436
## alternative hypothesis: two-sided
##
##
## [[2]]
##
## One-sample Kolmogorov-Smirnov test
##
## data: pregunta2[, x]
## D = 0.093174, p-value = 0.4909
## alternative hypothesis: two-sided
##
##
## [[3]]
##
## One-sample Kolmogorov-Smirnov test
##
## data: pregunta2[, x]
## D = 0.15391, p-value = 0.04519
## alternative hypothesis: two-sided
##
##
## [[4]]
##
## One-sample Kolmogorov-Smirnov test
##
## data: pregunta2[, x]
## D = 0.096213, p-value = 0.4494
## alternative hypothesis: two-sided
##
##
## [[5]]
##
## One-sample Kolmogorov-Smirnov test
##
## data: pregunta2[, x]
## D = 0.11092, p-value = 0.2786
## alternative hypothesis: two-sided
Esto nos permite dar cuenta que nuestra primera variable, correspondiente a la satisfacción, se desvía significativamente de una distribución típica con un \(D=0.19, p<0.05\). Dado ello se optó por correlacionar el nivel de satisfacción y cada una de las otras 4 variables por medio de la correlación de spearman, lo cual implementamos de esta forma.
lapply(2:5, function(x){
cor.test(pregunta2[, 1], pregunta2[, x], method = "spearman")
})
## [[1]]
##
## Spearman's rank correlation rho
##
## data: pregunta2[, 1] and pregunta2[, x]
## S = 63203, p-value = 0.02024
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
## rho
## 0.2592242
##
##
## [[2]]
##
## Spearman's rank correlation rho
##
## data: pregunta2[, 1] and pregunta2[, x]
## S = 73532, p-value = 0.2216
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
## rho
## 0.138164
##
##
## [[3]]
##
## Spearman's rank correlation rho
##
## data: pregunta2[, 1] and pregunta2[, x]
## S = 53619, p-value = 0.0006905
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
## rho
## 0.3715551
##
##
## [[4]]
##
## Spearman's rank correlation rho
##
## data: pregunta2[, 1] and pregunta2[, x]
## S = 52696, p-value = 0.0004648
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
## rho
## 0.3823776
Esto nos permite apreciar que la afirmación de \(\rho = 0\), \(\forall \rho{(Satis, Y_i)}\), en gran parte no se cumple, a excepción de la relación entre la satisfacción y el precio, la cual da un \(\rho = 0.14, p>0.05\), señalando que el precio no parece afectar el nivel de satisfacción.
3. A través de Análisis Exploratorio, indique qué ámbitos resultan críticos, desde su perspectiva, para mejorar la experiencia del cliente.
Tal como sugieren los análisis anteriores, el factor que parece central en la satisfacción del cliente, es no perjudicar la calidad de los productos, por cuanto es la variable que muestra la asociación más fuerte con el nivel de satisfacción.
No obstante, como se aprecia en la siguiente gráfica, es posible constatar que la presencia de promociones, así como la variedad de prodcutos también son aspectos bastante asociados a la satisfacción.
De esta forma, la mejor manera de mejorar la experiencia del cliente, es con una combinación de promociones y variedad de productos, que ante todo, tengan cierto nivel de calidad que no se deteriore.
1. Escoja 5 de las 10 variables medidas en el cuestionario. Presente un resumen empleando tablas, gráficos o medidas que considere apropiadas y comente cómo cambian estos indicadores por grupo (Áreas N1 y N2).
De las variables se elgirán TM, TBP, HLM, EE, y DI.
Primero exploraremos si existen diferencias en promedio en cada uno de los indicadores, para los 2 grupos, lo cual se visualiza así.
Esto nos permite apreciar que para las 5 variables definidas, no habrían diferencias importantes en sus promedios.
Algo similar se observa si graficamos las distribuciones por medio de un diagrama de cajón y bigotes, este permite ver que la distribución y rangos intercuartículos de cada variable en ambos grupos parecen iguales.
2. Realice una comparación, en el contexto de estas 5 variables, que permita estudiar si existen diferencias significativas entre los grupos (N1 y N2), cuidando de validar los supuestos necesarios y escogiendo el test de hipótesis que corresponda. Comente sus resultados y concluya.
Para evaluar si tales diferencias entre grupos existen, se harán comparación de medias para grupos independientes. Dado que las muestras son grandes, se aplicará un estadístico t si las variables presentan distribución típica y varianzas iguales, o Wilcoxon en caso de que uno de estos supuestos no se cumpla.
Para esto programaremos una rutina que ejecute el test según corresponda, lo que implementaremos así
# Generamos un vector con el nombre de las variables seleccionadas
variables <- unique(pregunta3$dimension)
# Importamos nuestros datos en su formato original
pregunta3.1 <- read.csv2("P5.csv") %>%
select(2:7)
# función para evaluar supuestos de normalidad y homogeneidad de varianzas
cumple <- function(x, y){
val1 <- ks.test(x,
"pnorm",
mean(x, na.rm = T),
sd(x, na.rm = T))$p.value < .05
val2 <- ks.test(y,
"pnorm",
mean(y, na.rm = T),
sd(y, na.rm = T))$p.value < .05
valores <- c(x, y)
grupos <- as.factor(c(rep(1, length(x)), rep(2, length(y))))
val3 <- leveneTest(valores~grupos)$`Pr(>F)` < .05
return(val1 | val2 | val3)
}
# iteración aplicando test y validando supuestos
lapply(variables, function(x){
# validar dist normal y homogeneidad de var
val <- cumple(pregunta3.1[, x][pregunta3.1$AREA=="N1"],
pregunta3.1[, x][pregunta3.1$AREA=="N2"])
# ejecutar el test correspondiente
if(val){
wilcox.test(pregunta3.1[, x][pregunta3.1$AREA=="N1"],
pregunta3.1[, x][pregunta3.1$AREA=="N2"])
} else {
t.test(pregunta3.1[, x][pregunta3.1$AREA=="N1"],
pregunta3.1[, x][pregunta3.1$AREA=="N2"])
}
})
## [[1]]
##
## Welch Two Sample t-test
##
## data: pregunta3.1[, x][pregunta3.1$AREA == "N1"] and pregunta3.1[, x][pregunta3.1$AREA == "N2"]
## t = 0.25449, df = 315.95, p-value = 0.7993
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -1.990951 2.582511
## sample estimates:
## mean of x mean of y
## 67.07784 66.78206
##
##
## [[2]]
##
## Welch Two Sample t-test
##
## data: pregunta3.1[, x][pregunta3.1$AREA == "N1"] and pregunta3.1[, x][pregunta3.1$AREA == "N2"]
## t = 0.017887, df = 310.12, p-value = 0.9857
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -2.323008 2.365631
## sample estimates:
## mean of x mean of y
## 72.64824 72.62693
##
##
## [[3]]
##
## Welch Two Sample t-test
##
## data: pregunta3.1[, x][pregunta3.1$AREA == "N1"] and pregunta3.1[, x][pregunta3.1$AREA == "N2"]
## t = 0.90977, df = 299.39, p-value = 0.3637
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -1.272944 3.461833
## sample estimates:
## mean of x mean of y
## 72.31912 71.22468
##
##
## [[4]]
##
## Welch Two Sample t-test
##
## data: pregunta3.1[, x][pregunta3.1$AREA == "N1"] and pregunta3.1[, x][pregunta3.1$AREA == "N2"]
## t = 0.48835, df = 321.5, p-value = 0.6256
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -1.744561 2.896603
## sample estimates:
## mean of x mean of y
## 63.67602 63.10000
##
##
## [[5]]
##
## Welch Two Sample t-test
##
## data: pregunta3.1[, x][pregunta3.1$AREA == "N1"] and pregunta3.1[, x][pregunta3.1$AREA == "N2"]
## t = -0.17753, df = 325.16, p-value = 0.8592
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -3.883349 3.240495
## sample estimates:
## mean of x mean of y
## 45.48206 45.80348
Esto nos permite apreciar que la totalidad de las variables cumplen con los supuestos de normalidad y homogeneidad de varianza, por lo cual se aplicaron las pruebas t, las cuales reflejan que la totalidad de las variables no muestran diferencias significativas, donde en cada caso tenemos:
Todas con \(p > 0.05\)
3. ¿Cómo podría implementar un test de \(\chi^2\) para variables categóricas, que le permita estudiar la relación entre las áreas (N1 y N2) y el desempeño en las pruebas? Implemente, resuelva y concluya para las 5 variables escogidas.
Para aplicar el text a variables categóricas se generará una variable de ordinal para cada una de las 5 variables elegidas, tal que
\[ nivel_i = \begin{cases} & \text{ if } X_i \leq X_{q_1}, nivel_i= Bajo\\ & \text{ if } X_{q_1} < X_i \leq X_{q_3}, nivel_i = Medio \\ & \text{ if } X_i > X_{q_3},nivel_i=Alto \end{cases} \]
Donde cada \(X_{q_i}\) corresponde al respectivo quintil de la escala 0 a 100, así el \(X_{q_1}\) donde \(x \in [0, 100]\), corresonde a 25.75, esto es, el quintil 25. Esto lo haremos sobre la base de que la observación descriptiva y estadística nos arrojó que no existían diferencias distribucionales distintas para las variables entre los grupos.
Generaremos una función en R, y crearemos una nueva matriz con las variables ordinales.
# función para nivelar variables
nivel <- function(x){
case_when(
x <= quantile(x, .25, na.rm = T) ~ "Bajo",
x <= quantile(x, .75, na.rm = T) ~ "Medio",
x > quantile(x, .75, na.rm = T) ~ "Alto"
) %>%
return()
}
# nuevo dataset con variables niveladas
p3_nivelada <- data.frame(
area = pregunta3.1$AREA,
tm = nivel(pregunta3.1$TM),
tbp = nivel(pregunta3.1$TBP),
hlm = nivel(pregunta3.1$HLM),
ee = nivel(pregunta3.1$EE),
di = nivel(pregunta3.1$DI)
)
# generamos un vactor con nuestras variables
variables <- colnames(p3_nivelada)[c(2:6)]
# iteramos ejecutando pruebas t
lapply(variables, function(x){
chisq.test(table(p3_nivelada$area, p3_nivelada[, x]))
})
## [[1]]
##
## Pearson's Chi-squared test
##
## data: table(p3_nivelada$area, p3_nivelada[, x])
## X-squared = 0.23138, df = 2, p-value = 0.8907
##
##
## [[2]]
##
## Pearson's Chi-squared test
##
## data: table(p3_nivelada$area, p3_nivelada[, x])
## X-squared = 1.1497, df = 2, p-value = 0.5628
##
##
## [[3]]
##
## Pearson's Chi-squared test
##
## data: table(p3_nivelada$area, p3_nivelada[, x])
## X-squared = 0.50341, df = 2, p-value = 0.7775
##
##
## [[4]]
##
## Pearson's Chi-squared test
##
## data: table(p3_nivelada$area, p3_nivelada[, x])
## X-squared = 0.93802, df = 2, p-value = 0.6256
##
##
## [[5]]
##
## Pearson's Chi-squared test
##
## data: table(p3_nivelada$area, p3_nivelada[, x])
## X-squared = 0.11492, df = 2, p-value = 0.9442
Así vemos que se replica la tendencia anteriormente observada de no existir diferencias significativas entre los grupos para ninguna de las variables, teniendo como resultado de la asociación con Area, y
Dieta de 3 semanas plantea readucir peso en 4.9 kilogramos
1. Realice un Análisis Descriptivo de los datos registrados antes y después de la dieta, planteando explícitamente sus expectativas con respecto a la eficacia de la propuesta.
Primero comparemos los promedios de pesos antes y después de la dieta, lo que se observa en la siguiente tabla.
| Promedio | Desv. estándar | |
|---|---|---|
| Peso.antes | 61.6 | 3.4 |
| Peso.despues | 58.5 | 2.5 |
Esto nos permite ver que el peso promedio después de la dieta es ligeramente inferior al pre dieta, sugiriendo que si bien esta podría ser efectiva, no alcanzaría para reducir peso en los 4.9 kg hipotetizados.
Otra forma de visualizar esto es graficando la distribución de pesos antes y despues, lo que se aprecia en la siguiente figura.
Así se observa que la distribución post dieta es más concetrada y más cargada a la izquierda -menores pesos- que la distribución pre dieta.
2. Plantee un test apropiado, considerando las características de los datos disponibles en la tabla, que le permita soportar o contradecir lo planteado por el profesional.
Para este caso se aplicarán dos pruebas t para muestras pareadas, una para probar si existen diferencias significativas pre y post dieta en general, y otra para validar si tal diferencia es de 4.9 kilogramos, lo cual implementamos así:
# prueba t para muestras pareadas
t.test(pesos$Peso.antes, pesos$Peso.despues, paired = T)
##
## Paired t-test
##
## data: pesos$Peso.antes and pesos$Peso.despues
## t = 4.0613, df = 9, p-value = 0.002836
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## 1.382142 4.857858
## sample estimates:
## mean of the differences
## 3.12
# prueba t para muestras pareadas para diferencia de 4.9 kilogramos
t.test(pesos$Peso.antes, pesos$Peso.despues, mu = 4.9, paired = T)
##
## Paired t-test
##
## data: pesos$Peso.antes and pesos$Peso.despues
## t = -2.317, df = 9, p-value = 0.04571
## alternative hypothesis: true difference in means is not equal to 4.9
## 95 percent confidence interval:
## 1.382142 4.857858
## sample estimates:
## mean of the differences
## 3.12
En el primer caso tenemos un \(t(9)=4.06, p=0.003\), por lo que hay evidencia suficiente para afirmar que dieta es efectiva, en la medida que hay diferencias significativas entre los pesos pre y post dieta.
No obstante en el segundo caso tenemos un \(t(9)=-2.32, p=0.046\), lo que si bien está bajo el umbral de \(\alpha=0.05\), aún es demasiado cercano a este como para afirmar tajantemente que tal diferencia es real, sugiriendo la necesidad de repetir el estudio o aumentar el tamaño muestral.
1. Plantee un ejemplo y aplique la prueba de suma de rangos de Wilcoxon en su versión original, para el caso de 2 muestras.
Para este caso tomaremos el dataset de la encuesta CASEN 2017, y compararemos los ingresos autónomos entre hombres y mujeres de 20 a 45 años. Sabemos que estos datos no distribuyen normal, ya que la gran mayoría gana sueldos bajos o medios, y una minoría gana sueldos extremadamente altos, lo que se observa en la suguiente gráfica.
Por lo demás en ambos grupos la prueba Kolmogorov-Smirnov arrojó un \(p< 0.001\), como se muestra en el anexo, más abajo.
Tomando esto en cuenta, se procederá a aplicar la prueba de Wilcox, la que implementamos así
wilcox.test(casen$yautcor ~ casen$sexo)
##
## Wilcoxon rank sum test with continuity correction
##
## data: casen$yautcor by casen$sexo
## W = 431363868, p-value < 0.00000000000000022
## alternative hypothesis: true location shift is not equal to 0
Tales antecedentes, nos permiten rechazar la hipótesis de que ambos grupos, hombres y mujeres, provienen de la misma población, mostrando un \(p< 0.001\), por lo que existirían diferencias significativas en lo que refiere a ingresos.
2. Compare los resultados obtenidos al emplear la Teoría Normal de aproximación propuesta aquí
En este caso, haremos la aproximación normal calculando la media según la fórmula
\[ \mu_{U_1}= \frac{n_{mujeres}*n_{hombres}}{2} \] La varianza con \[ \sigma^2_{U_1}= \frac{n_{mujeres}*n_{hombres}*(1+n_{hombres}+n_{mujeres})}{12} \] Por otro lado, definimos nuestro parámetro \(U = min(u_1, u_2)\) dado que usaremos un test a 2 colas, donde \(u_i\) se obtiene por \[ u_i = w_i - \frac{n_i*(1+n_j)}{2} \] Donde \(w_i = \sum{rango(X_i)}\). Con estos elementos, partimos calculando las respectivas sumas de rangos.
# rankeamos los ingresos
casen$rango_ingreso <- rank(casen$yautcor, ties.method = "average")
# calculamos la suma de cada rango
w1 <- sum(casen$rango_ingreso[casen$sexo=="Mujer"])
w2 <- sum(casen$rango_ingreso[casen$sexo=="Hombre"])
Luego computamos nuestro \(U = min(u_1, u_2)\)
# Extraemos los tamaños muestrales de cada grupo
n1 <- length(casen$rango_ingreso[casen$sexo=="Mujer"])
n2 <- length(casen$rango_ingreso[casen$sexo=="Hombre"])
# Calculamos los respectivos u_i
u1 <- w1-((n1*(1+n1))/2)
u2 <- w2-((n2*(1+n2))/2)
# recuperamos el menor
U <- min(c(u1, u2))
Con estos elementos obtenemos nuestra media, varianza, valor Z, y por último el p valor
promedio <- (n1 * n2)/2
varianza <- ((n1*n2)*(1+n2+n1))/12
z = (U - promedio)/sqrt(varianza)
pnorm(z) * 2
## [1] 0.000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000001063152
Esto nos da un \(p < 0.001\), siendo coherente con resultado anterior, donde rechazamos la hipótesis de que ingresos de hombres y mujeres son iguales.
3. ¿Se condice su resultado con las expectativas que genera el Análisis Exploratorio? Comente.
La brecha salarial entre hombres y mujeres es tema bastante recurrente, y se expresa en los datos, por ejemplo si graficamos las distribuciones de ingreso en escala logarítmica de base 10, para apreciar mejor las diferencias, se ven así.
Aunque la diferencia no parece muy pronunciada, la distribución de ingresos de los hombres con respecto al de las mujeres, se proyecta más hacia la derecha (ingresos mayores). Otra forma de constatar esta diferencia, es observando las medianas, que para el caso de los hombres es de $400,000, mientras que para las mujeres es de $319,167, mostrando una diferencia favorable a los hombres.
De esta forma, tanto las observaciones descriptivas como las inferenciales concuerdan en la existencia de una diferencia de ingresos a nivel general.
Evaluación supuesto normalidad ingresos encuesta CASEN
# Normalidad de ingresos en hombres
ks.test(casen$yautcor[casen$sexo=="Hombre"],
"pnorm",
mean(casen$yautcor[casen$sexo=="Hombre"], na.rm = T),
sd(casen$yautcor[casen$sexo=="Hombre"], na.rm = T))
##
## One-sample Kolmogorov-Smirnov test
##
## data: casen$yautcor[casen$sexo == "Hombre"]
## D = 0.23577, p-value < 0.00000000000000022
## alternative hypothesis: two-sided
# Normalidad de ingresos en mujeres
ks.test(casen$yautcor[casen$sexo=="Mujer"],
"pnorm",
mean(casen$yautcor[casen$sexo=="Mujer"], na.rm = T),
sd(casen$yautcor[casen$sexo=="Mujer"], na.rm = T))
##
## One-sample Kolmogorov-Smirnov test
##
## data: casen$yautcor[casen$sexo == "Mujer"]
## D = 0.21087, p-value < 0.00000000000000022
## alternative hypothesis: two-sided