Para comprobar si la afirmación es cierta, se hara un gráfico 1 boxplot.
Para asegurar que los hombres ganan significativamente mas que las mujeres, se realizara un test de hipetesis para comparar las medias.
Para elegir el contratste T de mi hipotesis, se deberá evaluar si las varianzas son iguales o distintas.
El parametro de interes, será la media de ingreso (Salario) segun su género.
\[H_0: \mu_H - \mu_M = 0\] \[H_1: \mu_H - \mu_M > 0\]
Siendo \(\mu_M\) , la media de ingresos de las mujeres y \(\mu_H\), la media de ingresos de los hombres de la muestra.
Para determinar que T utilizar para el contraste de mi hipotesis, se realizará un test de varianza, definido de la siguiente manera: H_0: Las varianzas son iguales. H_1: Las varianzas son distintas.
\[H_0: \sigma^2_H - \sigma^2_M = 0\] \[H_1: \sigma^2_H - \sigma^2_M \neq 0\]
##
## F test to compare two variances
##
## data: salario_h and salario_m
## F = 0.91686, num df = 37, denom df = 13, p-value = 0.7926
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
## 0.3281721 2.0885159
## sample estimates:
## ratio of variances
## 0.9168634
El valor-p es mayor a 0.05, por lo que se no se rechaza \(H_{0}\), es decir no hay evidencia significativa para rechazar que las varianzas son iguales.
##
## Two Sample t-test
##
## data: salario_h and salario_m
## t = 1.6449, df = 50, p-value = 0.05313
## alternative hypothesis: true difference in means is greater than 0
## 95 percent confidence interval:
## -6.337359 Inf
## sample estimates:
## mean of x mean of y
## 1337.508 1001.336
\[Valor-P:0.053\]
Dado que: \[Valor-P:0.053\] es mayor a 0.05, no se rechaza \(H_0\), es decir no hay evidencia significativa para indicar que en la media de los salarios de los hombres es mayor a la media de salarios de las mujeres. En conclusión no es posible afirmar que los hombres ganan mas que las mujeres.
Para comprobar si la afirmación es cierta, se hara un gráfico 2 boxplot.
Para asegurar que existe una diferencia significativa entre los salarios medios segun el cargo, al tener que analizar 3 medias, se realizará un test de ANOVA.
Para elegir el contratste T de mi hipotesis, se deberá evaluar si las varianzas son iguales o distintas.
El parametro de interes, será la media de ingreso (Salario) segun su cargo. En total existen 3 medias a evaluar.
\[H_0: \mu_A = \mu_P = \mu_J\] \[H_1: \mu_A \neq\mu_P \neq \mu_J\]
Siendo \(\mu_A\) , el salario medio de los cargos administrativos, \(\mu_P\) el salario medio de los cargos profesionales y \(\mu_J\) el salario medio de los cargos administrativos.
## Df Sum Sq Mean Sq F value Pr(>F)
## Base_Salarios$Salario 1 34.69 34.69 535.9 <2e-16 ***
## Residuals 50 3.24 0.06
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
El valor-p es menor a 0.05, se rechaza \(H_{0}\), es decir si existe evidencia significativa en el Salario segun el tipo de cargo que tenga la persona.
\[H_0: X ∼ Normal\] \[H_1: X ∼ NoNormal\]
## Warning in ks.test(Anova_1$residuals, "pnorm", mean(Anova_1$residuals), : ties
## should not be present for the Kolmogorov-Smirnov test
##
## One-sample Kolmogorov-Smirnov test
##
## data: Anova_1$residuals
## D = 0.10122, p-value = 0.6611
## alternative hypothesis: two-sided
##
## Shapiro-Wilk normality test
##
## data: Anova_1$residuals
## W = 0.97639, p-value = 0.3861
Dado que ambos valores p dieron mayores a 0.05, se acepta la normalidad de los residuos, lo cual concuerda con el grafico del Q-Q plot obtenido anteriormente.
##
## studentized Breusch-Pagan test
##
## data: Anova_1
## BP = 12.792, df = 1, p-value = 0.0003481
Dado que el Valor-p fue menor a 0.05, si existe homocedasticidad. Esto implica que la varianza de los errores es constante.
Como se rechazo \(H_0\), evaluaremos las 3 medias para conocer cual es mayor o menor.
## Tukey multiple comparisons of means
## 95% family-wise confidence level
##
## Fit: aov(formula = Base_Salarios$Salario ~ Base_Salarios$Cargo_)
##
## $`Base_Salarios$Cargo_`
## diff lwr upr p adj
## Jefatura-Administrativo 1468.9183 1327.6301 1610.2066 0
## Profesional-Administrativo 553.2976 398.3302 708.2650 0
## Profesional-Jefatura -915.6207 -1067.1603 -764.0812 0
Con el test de Tukey, se puede concluir que aquellas personas en cargo “Jefatura”, reciben un mayor salario. Ademas permite ordenar de mayor a mejor salario segun cargo, de la siguiente manera:
\[Administrativo < Profesional < Jefaturas \]
Dado que: - Existe diferencia significativa en la media de los salarios segun cargo. - La muertra cumple con el propiedad de homocedasticidad. - El cargo jefatura, en promedio gana significativamente mas que los otros estamentos.
El parametro de interes, será la media de ingreso (Salario) segun su género.
\[H_0: \mu_H - \mu_M \leq 300\] \[H_1: \mu_H - \mu_M > 300\] Dada nuestra hipotesis, se utilizará “Greater”. Se asume ademas del desarrollo de la pregunta letra A, que no se rechaza que las varianzas sean iguales.
##
## Two Sample t-test
##
## data: salario_h and salario_m
## t = 0.17699, df = 50, p-value = 0.4301
## alternative hypothesis: true difference in means is greater than 300
## 95 percent confidence interval:
## -6.337359 Inf
## sample estimates:
## mean of x mean of y
## 1337.508 1001.336
\[Valor-P:0.43\]
Dado que: \[Valor-P:0.43\] es mayor a 0.05, no se rechaza \(H_0\), es decir no hay evidencia significativa para indicar que en la media de los salarios de los hombres ganan mas de 300 mil que la media de los salarios de las mujeres.
Para analizar si existe asociación entre las variables, se realiza un test Chi-Cuadrad para variables categoricas, es decir test de independencia.
Una tabla para conocer las variables a analizar:| Básico | Full equipo | Semi full | |
|---|---|---|---|
| 4X4 | 10 | 61 | 57 |
| Automóvil | 77 | 59 | 100 |
| Camioneta | 58 | 13 | 38 |
| Familiar | 5 | 22 | 29 |
\[H_0: Las variables tipo de vehiculo y equipamiento son independientes\] \[H_1: Las variables tipo de vehiculo y equipamiento NO son independientes\]
#####Valor del estadístico
Test_chi <- chisq.test(tabla_v)
Test_chi##
## Pearson's Chi-squared test
##
## data: tabla_v
## X-squared = 83.879, df = 6, p-value = 5.635e-16
\[Valor-P:0\]
Dado que: \[Valor-P:0\] es menor a 0.05, se rechaza \(H_0\), es decir no hay evidencia significativa para rechazar que existe algun grado de asociación entre las variables tipo de vehículo y equipamiento.
Tabla de asociación en %:
| Básico | Full equipo | Semi full | |
|---|---|---|---|
| 4X4 | 2 | 12 | 11 |
| Automóvil | 15 | 11 | 19 |
| Camioneta | 11 | 2 | 7 |
| Familiar | 1 | 4 | 5 |
Para analizar si existe asociación entre las variables, se realiza un test Chi-Cuadrad para variables categoricas, es decir test de independencia.
Una tabla para conocer las variables a analizar:| Corea | Francia | Japón | USA | |
|---|---|---|---|---|
| 4X4 | 40 | 9 | 46 | 33 |
| Automóvil | 73 | 24 | 77 | 62 |
| Camioneta | 28 | 14 | 31 | 36 |
| Familiar | 10 | 3 | 22 | 21 |
\[H_0: Las variables tipo de vehiculo y equipamiento son independientes\] \[H_1: Las variables tipo de vehiculo y equipamiento NO son independientes\]
#####Valor del estadístico
Test_chi_2 <- chisq.test(tabla_v3)
Test_chi_2##
## Pearson's Chi-squared test
##
## data: tabla_v3
## X-squared = 11.354, df = 9, p-value = 0.2522
\[Valor-P:0.252\]
Dado que: \[Valor-P:0.252\] es mayor a 0.05, por lo que no puede rechazar \(H_0\), es decir no hay evidencia significativa para rechazar que son indepedientes.
#### c) Hay diferencia significativa en el kilometraje medio y el tipo de vehículo?
a_familiar <- filter(Base_Vehiculos, Tvehículo =="Familiar")
a_camioneta <- filter(Base_Vehiculos, Tvehículo =="Camioneta")
a_automovil <- filter(Base_Vehiculos, Tvehículo =="Automóvil")
a_4X4 <- filter(Base_Vehiculos, Tvehículo =="4X4")Para elegir el contratste T de mi hipotesis, se deberá evaluar si las varianzas son iguales o distintas.
El parametro de interes, será la media de kilometraje segun el tipo de vehículo. En total existen 4 medias a evaluar.
\[H_0: Las medias son iguales\] \[H_1: Las medias no son iguales\]
## Df Sum Sq Mean Sq F value Pr(>F)
## Base_Vehiculos$Tvehículo 3 108309 36103 97.07 <2e-16 ***
## Residuals 525 195259 372
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
El valor-p es menor a 0.05, se rechaza \(H_{0}\), es decir si existe evidencia significativa entre las medias.
\[H_0: X ∼ Normal\] \[H_1: X ∼ NoNormal\]
## Warning in ks.test(Anova_3$residuals, "pnorm", mean(Anova_3$residuals), : ties
## should not be present for the Kolmogorov-Smirnov test
##
## One-sample Kolmogorov-Smirnov test
##
## data: Anova_3$residuals
## D = 0.03205, p-value = 0.6488
## alternative hypothesis: two-sided
##
## Shapiro-Wilk normality test
##
## data: Anova_3$residuals
## W = 0.99391, p-value = 0.03218
Se considerará el ks.test, dada la cantidad de datos (n>50). Para este test, el valores p dieron mayores a 0.05, es decir se acepta la normalidad de los residuos, lo cual concuerda con el grafico del Q-Q plot obtenido anteriormente.
##
## studentized Breusch-Pagan test
##
## data: Anova_3
## BP = 25.294, df = 3, p-value = 1.34e-05
Dado que el Valor-p fue menor a 0.05, si existe homocedasticidad. Esto implica que la varianza de los errores es constante.
Como se rechazo \(H_0\), evaluaremos las 4 medias para conocer cual es mayor o menor.
## Tukey multiple comparisons of means
## 95% family-wise confidence level
##
## Fit: aov(formula = Base_Vehiculos$kilometraje ~ Base_Vehiculos$Tvehículo)
##
## $`Base_Vehiculos$Tvehículo`
## diff lwr upr p adj
## Automóvil-4X4 34.2091631 28.753131 39.665195 0.0000000
## Camioneta-4X4 33.3319667 26.853934 39.810000 0.0000000
## Familiar-4X4 20.8629464 12.899572 28.826321 0.0000000
## Camioneta-Automóvil -0.8771964 -6.633285 4.878893 0.9794311
## Familiar-Automóvil -13.3462167 -20.734246 -5.958187 0.0000243
## Familiar-Camioneta -12.4690203 -20.640899 -4.297142 0.0005511
El test de Tukey permite ordenar de mayor el tipo de vehículo segun kilometraje, de la siguiente manera:
\[4x4 < Familiar < Camioneta < Automóvil \]