1. Base: Salarios

a) ¿Es posible afirmar que los hombres ganan significativamente mas que las mujeres?

Para comprobar si la afirmación es cierta, se hara un gráfico 1 boxplot.

Para asegurar que los hombres ganan significativamente mas que las mujeres, se realizara un test de hipetesis para comparar las medias.

Para elegir el contratste T de mi hipotesis, se deberá evaluar si las varianzas son iguales o distintas.

Gráfico
Parametros de interes

El parametro de interes, será la media de ingreso (Salario) segun su género.

Plantear la hipotesis

\[H_0: \mu_H - \mu_M = 0\] \[H_1: \mu_H - \mu_M > 0\]

Siendo \(\mu_M\) , la media de ingresos de las mujeres y \(\mu_H\), la media de ingresos de los hombres de la muestra.

Para determinar que T utilizar para el contraste de mi hipotesis, se realizará un test de varianza, definido de la siguiente manera: H_0: Las varianzas son iguales. H_1: Las varianzas son distintas.

\[H_0: \sigma^2_H - \sigma^2_M = 0\] \[H_1: \sigma^2_H - \sigma^2_M \neq 0\]

## 
##  F test to compare two variances
## 
## data:  salario_h and salario_m
## F = 0.91686, num df = 37, denom df = 13, p-value = 0.7926
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
##  0.3281721 2.0885159
## sample estimates:
## ratio of variances 
##          0.9168634

El valor-p es mayor a 0.05, por lo que se no se rechaza \(H_{0}\), es decir no hay evidencia significativa para rechazar que las varianzas son iguales.

Valor del estadistico
## 
##  Two Sample t-test
## 
## data:  salario_h and salario_m
## t = 1.6449, df = 50, p-value = 0.05313
## alternative hypothesis: true difference in means is greater than 0
## 95 percent confidence interval:
##  -6.337359       Inf
## sample estimates:
## mean of x mean of y 
##  1337.508  1001.336
Valor-p

\[Valor-P:0.053\]

Conclusión

Dado que: \[Valor-P:0.053\] es mayor a 0.05, no se rechaza \(H_0\), es decir no hay evidencia significativa para indicar que en la media de los salarios de los hombres es mayor a la media de salarios de las mujeres. En conclusión no es posible afirmar que los hombres ganan mas que las mujeres.

b) ¿Hay diferencia significativa entre los salarios medios segun el cargo de la persona?

Para comprobar si la afirmación es cierta, se hara un gráfico 2 boxplot.

Para asegurar que existe una diferencia significativa entre los salarios medios segun el cargo, al tener que analizar 3 medias, se realizará un test de ANOVA.

Para elegir el contratste T de mi hipotesis, se deberá evaluar si las varianzas son iguales o distintas.

Gráfico
Parametros de interes

El parametro de interes, será la media de ingreso (Salario) segun su cargo. En total existen 3 medias a evaluar.

Plantear la hipotesis

\[H_0: \mu_A = \mu_P = \mu_J\] \[H_1: \mu_A \neq\mu_P \neq \mu_J\]

Siendo \(\mu_A\) , el salario medio de los cargos administrativos, \(\mu_P\) el salario medio de los cargos profesionales y \(\mu_J\) el salario medio de los cargos administrativos.

##                       Df Sum Sq Mean Sq F value Pr(>F)    
## Base_Salarios$Salario  1  34.69   34.69   535.9 <2e-16 ***
## Residuals             50   3.24    0.06                   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

El valor-p es menor a 0.05, se rechaza \(H_{0}\), es decir si existe evidencia significativa en el Salario segun el tipo de cargo que tenga la persona.

Prueba de supuestos

Test de Normalidad.

\[H_0: X ∼ Normal\] \[H_1: X ∼ NoNormal\]

## Warning in ks.test(Anova_1$residuals, "pnorm", mean(Anova_1$residuals), : ties
## should not be present for the Kolmogorov-Smirnov test
## 
##  One-sample Kolmogorov-Smirnov test
## 
## data:  Anova_1$residuals
## D = 0.10122, p-value = 0.6611
## alternative hypothesis: two-sided
## 
##  Shapiro-Wilk normality test
## 
## data:  Anova_1$residuals
## W = 0.97639, p-value = 0.3861

Dado que ambos valores p dieron mayores a 0.05, se acepta la normalidad de los residuos, lo cual concuerda con el grafico del Q-Q plot obtenido anteriormente.

Test de homocedasticidad:
## 
##  studentized Breusch-Pagan test
## 
## data:  Anova_1
## BP = 12.792, df = 1, p-value = 0.0003481

Dado que el Valor-p fue menor a 0.05, si existe homocedasticidad. Esto implica que la varianza de los errores es constante.

Valor-p

Como se rechazo \(H_0\), evaluaremos las 3 medias para conocer cual es mayor o menor.

##   Tukey multiple comparisons of means
##     95% family-wise confidence level
## 
## Fit: aov(formula = Base_Salarios$Salario ~ Base_Salarios$Cargo_)
## 
## $`Base_Salarios$Cargo_`
##                                 diff        lwr       upr p adj
## Jefatura-Administrativo    1468.9183  1327.6301 1610.2066     0
## Profesional-Administrativo  553.2976   398.3302  708.2650     0
## Profesional-Jefatura       -915.6207 -1067.1603 -764.0812     0

Con el test de Tukey, se puede concluir que aquellas personas en cargo “Jefatura”, reciben un mayor salario. Ademas permite ordenar de mayor a mejor salario segun cargo, de la siguiente manera:

\[Administrativo < Profesional < Jefaturas \]

Conclusión

Dado que: - Existe diferencia significativa en la media de los salarios segun cargo. - La muertra cumple con el propiedad de homocedasticidad. - El cargo jefatura, en promedio gana significativamente mas que los otros estamentos.

c) Se plantea que los hombres ganan mas de 300 mil sobre lo que ganan las mujeres ¿Que diria de esta afirmacion?

Parametros de interes

El parametro de interes, será la media de ingreso (Salario) segun su género.

Plantear la hipotesis

\[H_0: \mu_H - \mu_M \leq 300\] \[H_1: \mu_H - \mu_M > 300\] Dada nuestra hipotesis, se utilizará “Greater”. Se asume ademas del desarrollo de la pregunta letra A, que no se rechaza que las varianzas sean iguales.

Valor del estadistico
## 
##  Two Sample t-test
## 
## data:  salario_h and salario_m
## t = 0.17699, df = 50, p-value = 0.4301
## alternative hypothesis: true difference in means is greater than 300
## 95 percent confidence interval:
##  -6.337359       Inf
## sample estimates:
## mean of x mean of y 
##  1337.508  1001.336
Valor-p

\[Valor-P:0.43\]

Conclusión

Dado que: \[Valor-P:0.43\] es mayor a 0.05, no se rechaza \(H_0\), es decir no hay evidencia significativa para indicar que en la media de los salarios de los hombres ganan mas de 300 mil que la media de los salarios de las mujeres.

2. Base: Vehículo

a) ¿Hay asociación entre el tipo de vehículo y el equipamiento?

Para analizar si existe asociación entre las variables, se realiza un test Chi-Cuadrad para variables categoricas, es decir test de independencia.

Una tabla para conocer las variables a analizar:
Básico Full equipo Semi full
4X4 10 61 57
Automóvil 77 59 100
Camioneta 58 13 38
Familiar 5 22 29
Plantear la hipotesis

\[H_0: Las variables tipo de vehiculo y equipamiento son independientes\] \[H_1: Las variables tipo de vehiculo y equipamiento NO son independientes\]

#####Valor del estadístico

Test_chi <- chisq.test(tabla_v)
Test_chi
## 
##  Pearson's Chi-squared test
## 
## data:  tabla_v
## X-squared = 83.879, df = 6, p-value = 5.635e-16
Valor-p

\[Valor-P:0\]

Conclusión

Dado que: \[Valor-P:0\] es menor a 0.05, se rechaza \(H_0\), es decir no hay evidencia significativa para rechazar que existe algun grado de asociación entre las variables tipo de vehículo y equipamiento.

Gráfico

Tabla de asociación en %:

Básico Full equipo Semi full
4X4 2 12 11
Automóvil 15 11 19
Camioneta 11 2 7
Familiar 1 4 5

b) >Hay asociación entre el tipo de vehículo y la procedencia?

Para analizar si existe asociación entre las variables, se realiza un test Chi-Cuadrad para variables categoricas, es decir test de independencia.

Una tabla para conocer las variables a analizar:
Corea Francia Japón USA
4X4 40 9 46 33
Automóvil 73 24 77 62
Camioneta 28 14 31 36
Familiar 10 3 22 21
Plantear la hipotesis

\[H_0: Las variables tipo de vehiculo y equipamiento son independientes\] \[H_1: Las variables tipo de vehiculo y equipamiento NO son independientes\]

#####Valor del estadístico

Test_chi_2 <- chisq.test(tabla_v3)
Test_chi_2
## 
##  Pearson's Chi-squared test
## 
## data:  tabla_v3
## X-squared = 11.354, df = 9, p-value = 0.2522
Valor-p

\[Valor-P:0.252\]

Conclusión

Dado que: \[Valor-P:0.252\] es mayor a 0.05, por lo que no puede rechazar \(H_0\), es decir no hay evidencia significativa para rechazar que son indepedientes.

Gráfico

#### c) Hay diferencia significativa en el kilometraje medio y el tipo de vehículo?

a_familiar <- filter(Base_Vehiculos, Tvehículo =="Familiar")
a_camioneta <- filter(Base_Vehiculos, Tvehículo =="Camioneta")
a_automovil <- filter(Base_Vehiculos, Tvehículo =="Automóvil")
a_4X4 <-   filter(Base_Vehiculos, Tvehículo =="4X4")

Para elegir el contratste T de mi hipotesis, se deberá evaluar si las varianzas son iguales o distintas.

Gráfico
Parametros de interes

El parametro de interes, será la media de kilometraje segun el tipo de vehículo. En total existen 4 medias a evaluar.

Plantear la hipotesis

\[H_0: Las medias son iguales\] \[H_1: Las medias no son iguales\]

##                           Df Sum Sq Mean Sq F value Pr(>F)    
## Base_Vehiculos$Tvehículo   3 108309   36103   97.07 <2e-16 ***
## Residuals                525 195259     372                   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

El valor-p es menor a 0.05, se rechaza \(H_{0}\), es decir si existe evidencia significativa entre las medias.

Prueba de supuestos

Test de Normalidad.

\[H_0: X ∼ Normal\] \[H_1: X ∼ NoNormal\]

## Warning in ks.test(Anova_3$residuals, "pnorm", mean(Anova_3$residuals), : ties
## should not be present for the Kolmogorov-Smirnov test
## 
##  One-sample Kolmogorov-Smirnov test
## 
## data:  Anova_3$residuals
## D = 0.03205, p-value = 0.6488
## alternative hypothesis: two-sided
## 
##  Shapiro-Wilk normality test
## 
## data:  Anova_3$residuals
## W = 0.99391, p-value = 0.03218

Se considerará el ks.test, dada la cantidad de datos (n>50). Para este test, el valores p dieron mayores a 0.05, es decir se acepta la normalidad de los residuos, lo cual concuerda con el grafico del Q-Q plot obtenido anteriormente.

Test de homocedasticidad:
## 
##  studentized Breusch-Pagan test
## 
## data:  Anova_3
## BP = 25.294, df = 3, p-value = 1.34e-05

Dado que el Valor-p fue menor a 0.05, si existe homocedasticidad. Esto implica que la varianza de los errores es constante.

Valor-p

Como se rechazo \(H_0\), evaluaremos las 4 medias para conocer cual es mayor o menor.

##   Tukey multiple comparisons of means
##     95% family-wise confidence level
## 
## Fit: aov(formula = Base_Vehiculos$kilometraje ~ Base_Vehiculos$Tvehículo)
## 
## $`Base_Vehiculos$Tvehículo`
##                            diff        lwr       upr     p adj
## Automóvil-4X4        34.2091631  28.753131 39.665195 0.0000000
## Camioneta-4X4        33.3319667  26.853934 39.810000 0.0000000
## Familiar-4X4         20.8629464  12.899572 28.826321 0.0000000
## Camioneta-Automóvil  -0.8771964  -6.633285  4.878893 0.9794311
## Familiar-Automóvil  -13.3462167 -20.734246 -5.958187 0.0000243
## Familiar-Camioneta  -12.4690203 -20.640899 -4.297142 0.0005511

El test de Tukey permite ordenar de mayor el tipo de vehículo segun kilometraje, de la siguiente manera:

\[4x4 < Familiar < Camioneta < Automóvil \]