A tarefa do seu grupo é:

1- Obter o modelo de regressão linear múltipla da variável Salário, explicando detalhadamente os resultados do modelo final, interpretando seus coeficientes, significâncias e métricas, e também discutindo eventuais motivos para a saída de variáveis;

2- Avaliar, por meio de um texto explicativo, se seu grupo concorda com a discriminação de gênero ou se outras variáveis, eventualmente, são as reais variáveis explicativas da diferença de salário.

A hipótese nula \(H_0\) a ser testada na Regressão Linear: “Não há diferenças significativas entre os salários dos indivíduos do sexo masculino e do sexo feminino”;

Hipótese alternativa \(H_1\): “Há diferenças significativas entre os salários dos indivíduos do sexo masculino e do sexo feminino”.

id -> Código do Funcionário na amostra;

grau_de_instrucao -> Grau de instrução do Funcionário;

raca -> Raça do Funcionário: Branco, Preto, Pardo ou Amarelo;

cargo -> Cargo atual do Funcionário;

sexo -> Gênero do Funcionário (Masculino ou Feminino);

idade -> Idade atual (em anos completos) do Funcionário;

anos_trabalho -> Anos de trabalho (em anos completos) do Funcionário;

idade_contratacao -> Idade (em anos completos) do Funcionário quando foi contratado;

? -> Variável a ser adicionada;

salario -> Salário anual (em reais) do Funcionário

Prepare a base, analisando as variáveis e criando eventuais variáveis dummies. A categorização das variáveis adotada deve constar do relatório e da planilha final a ser entregue.

IMPORTANTE 1: Cada grupo deverá definir e incorporar na base de dados uma nova variável, que deverá ser significante e ficar no modelo final do trabalho.

IMPORTANTE 2: Cada grupo deverá incorporar pelo menos 10 novos registros à base de dados (\(n \geq 110\)).

Lendo a base de dados fornecida

Criaremos a nova_variável baseada na variável salario porque a ordem de grandeza dos valores da variável salario está na casa da dezena de milhar, portanto valores muito elevados em relação à ordem de grandeza dos valores das demais variáveis, que apresentam valores na casa das unidades e dezenas.

Portanto o que faremos será a “normalização” da base de dados, isto é, uniformizaremos a ordem de grandeza das variáveis da base de dados.

Primeiro dividiremos os valores da variável salario por 1000 e depois calcularemos o log natural desses valores.

A nova_variavel será o resultado do cálculo: nova_variavel = log(salario/1000)

\[\huge novavariavel = log(\frac{salario}{1000})\]

Renomearemos a nova_variavel para log_salario_1000

Qual a vantagem de utilizar o cálculo do logaritmo natural para uma variável?

Vamos ver os histogramas das variáveis salario e log_salario_1000

Segunda nova variável: categoria_sexo, será uma variável dummy (dicotômica, binomial), que receberá o valor categoria_sexo=0 se o funcionário for do sexo feminino e o valor categoria_{sexo}=1 se o funcionário for do sexo masculino.

Terceira nova variável: categoria_raca, será uma variável categórica que assumirá os valores:

Se a Raça do Funcionário for: Branco => categoria_raca = 1;
Se a Raça do Funcionário for: Preto => categoria_raca = 2;
Se a Raça do Funcionário for: Pardo => categoria_raca = 3;
Se a Raça do Funcionário for: Amarelo => categoria_raca = 4

Quarta nova variável: categoria_grau_instrucao, será uma variável categórica que assumirá os valores:

Se o Grau de Instrução for: Bacharel => categoria_grau_instrucao = 1;
Se o Grau de Instrução for: Mestre => categoria_grau_instrucao = 2

Quinta nova variável: categoria_cargo, será uma variável categórica que assumirá os valores:

Se o Cargo do Funcionário for: Analista => categoria_cargo = 1;
Se o Cargo do Funcionário for: Assistente => categoria_cargo = 2;
Se o Cargo do Funcionário for: Especialista => categoria_cargo = 3;

Vamos incorporar 20 novos registros à base de dados

Apresente e analise as relações entre pares de variáveis, envolvendo ou não a variável dependente. Utilize-se de diagramas de dispersão, tabelas de contingência com medidas, box-plots e/ou matrizes de correlações para sua análise.

Cálculo e apresentação gráfica da correlação entre os pares de variáveis:

Interpretação dos resultados da correlação acima:

Nas informações apresentadas nos gráficos das correlações notamos que os pares de variáveis que apresentaram valores de correlação forte ou muito forte (direta ou inversa) foram:

Gráficos de dispersão entre as variáveis que obtiveram correlações fortes

Explore modelos de regressão intermediários até chegar ao modelo que julgar como final. Se necessário, selecione adequadamente as variáveis do modelo (manualmente) para escolher um modelo final. Comente os resultados (teste F, testes t, \(R^2\), \(R^2_{ajustado}\) e VIFs). Apresente, de alguma forma, essa trajetória até o modelo final.

Modelo considerado para a primeira regressão:

\[salario=\beta_0+\beta_1 \times categoriasexo+\beta_2 \times categoriaraca+\beta_3 \times categoriacargo+\beta_4 \times categoriagrauinstrucao+\] \[+\beta_5 \times idade+\beta_6 \times anostrabalho+\beta_7 \times idadecontratacao+u\]

% Table created by stargazer v.5.2.3 by Marek Hlavac, Social Policy Institute. E-mail: marek.hlavac at gmail.com % Date and time: seg, nov 28, 2022 - 19:34:14

Analisando os valores das significâncias (p-valores) do modelo:

Hipótese nula \(H_0\) para a regressão linear: \(\beta_1=\beta_2=...=\beta_n=0\)
Hipótese alternativa \(H_1\) para a regressão linear: Pelo menos um dos coeficientes não é igual a zero

Analisando os sinais dos coeficientes do modelo:

Analisando os parâmetros do modelo:

Observando o coeficiente de determinação \(R^2=0.692\) e o coeficiente de determinação ajustado \(R^2_{ajustado}=0.676\) podemos dizer que as variáveis preditoras do modelo são responsáveis por 67.6% do valor da variável resposta \(salario\).
A pequena diferença entre os valores do coeficiente de determinação \(R^2\) e o coeficiente de determinação ajustado \(R^2_{ajustado}\) se deve porque os valores das significâncias \(p-valor\) dos coeficientes do modelo são ligeiramente maiores que zero.
O valor da estatistica F do teste é \(F_{estatistica}=42.315\), que nos mostra o quanto a variância explicada do modelo é maior relativamente à variância não explicada no modelo.

Reconstruindo o modelo - o modelo_1 deverá ser:

\[salario=\beta_0+\beta_1 \times categoriasexo+\beta_2 \times idade+\beta_3 \times anostrabalho+u\]

Recalculando o modelo:

% Table created by stargazer v.5.2.3 by Marek Hlavac, Social Policy Institute. E-mail: marek.hlavac at gmail.com % Date and time: seg, nov 28, 2022 - 19:34:14

Analisando os valores das significâncias (p-valores) do modelo:

Hipótese nula \(H_0\) para a regressão linear: \(\beta_1=\beta_2=...=\beta_n=0\)
Hipótese alternativa \(H_1\) para a regressão linear: Pelo menos um dos coeficientes não é igual a zero

Analisando os sinais dos coeficientes do modelo:

Analisando os parâmetros do modelo:

Observando o coeficiente de determinação \(R^2=0.683\) e o coeficiente de determinação ajustado \(R^2_{ajustado}=0.674\) podemos dizer que as variáveis preditoras do modelo são responsáveis por 67.4% do valor da variável resposta \(salario\).
A pequena diferença entre os valores do coeficiente de determinação \(R^2\) e o coeficiente de determinação ajustado \(R^2_{ajustado}\) se deve porque os valores das significâncias \(p-valor\) dos coeficientes do modelo são ligeiramente maiores que zero.
O valor da estatistica F do teste é \(F_{estatistica}=83.174\), que nos mostra o quanto a variância explicada do modelo é maior relativamente à variância não explicada no modelo.

Analisando o termo de erro “u”:

Para considerarmos no modelo os menores valores para cada termo, adotamos:

Substituindo no modelo:

\[salario=14554.32+3531.52 \times 0+205.48 \times 26+436.87 \times 0+u\]

Obtemos:

\[salario=14554.32+205.48 \times 26+u\] Portanto:

\[salario=19896.8+u\] Para nosso modelo corresponder à realidade precisamos incluir o valor do termo de erro considerando o valor salarial (salário mínimo) para um funcionário do sexo feminino, com 26 anos de idade e sem experiência de trabalho.
O valor do salário mínimo atual \(salario-minimo=R\$ 1212,00\)

Portanto, o termo de erro no modelo deverá ser:

\[u=1212.00 - 19896.8\] \[u=-18684.8\] E o modelo completo ficará:

\[salario=14554.32+3531.52 \times categoriasexo+205.48 \times idade+436.87 \times anostrabalho-18684.8\]

Cálculo do VIF (Valor do Fator de Inflação) para o modelo_1

categoria_sexo idade anos_trabalho 1.263493 2.677520 2.702220

O VIF é calculado para cada preditor de um modelo preditivo. Um valor de 1 significa que o preditor não está correlacionado com as outras variáveis. Quanto maior o valor, maior a correlação da variável com outras variáveis. Valores de mais de 4 ou 5 são algumas vezes considerados moderados a altos, com valores de 10 ou mais sendo considerados muito altos.

Portanto notamos pelo resultado obtido que a variável \(categoria-sexo\) não está correlacionada com as demais variáveis e as variáveis \(idade\) e \(anos-trabalho\) apresentaram valores maiores, porém abaixo do valor 4, que não configura a multicolinearidade.

Modelo considerado para a segunda regressão:

\[logsalario1000=\beta_0+\beta_1 \times categoriasexo+\beta_2 \times idade+\beta_3 \times anostrabalho+u\]

Call: lm(formula = log_salario_1000 ~ categoria_sexo + idade + anos_trabalho, data = empresa2)

Residuals: Min 1Q Median 3Q Max -0.21876 -0.06350 -0.01010 0.04538 0.58400

Coefficients: Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.879105 0.060987 47.208 < 0.0000000000000002 categoria_sexo 0.094583 0.023021 4.109 0.000074509056 idade 0.006367 0.001723 3.696 0.000336 anos_trabalho 0.015498 0.002264 6.845 0.000000000385 — Signif. codes: 0 ‘’ 0.001 ’’ 0.01 ’’ 0.05 ‘.’ 0.1 ’ ’ 1

Residual standard error: 0.1112 on 116 degrees of freedom Multiple R-squared: 0.7566, Adjusted R-squared: 0.7503 F-statistic: 120.2 on 3 and 116 DF, p-value: < 0.00000000000000022

% Table created by stargazer v.5.2.3 by Marek Hlavac, Social Policy Institute. E-mail: marek.hlavac at gmail.com % Date and time: seg, nov 28, 2022 - 19:34:14

Analisando os valores das significâncias (p-valores) do modelo:

Hipótese nula \(H_0\) para a regressão linear: \(\beta_1=\beta_2=...=\beta_n=0\)
Hipótese alternativa \(H_1\) para a regressão linear: Pelo menos um dos coeficientes não é igual a zero

Analisando os sinais dos coeficientes do modelo:

Analisando os parâmetros do modelo:

Observando o coeficiente de determinação \(R^2=0.745\) e o coeficiente de determinação ajustado \(R^2_{ajustado}=0.738\) podemos dizer que as variáveis preditoras do modelo são responsáveis por 73.8% do valor da variável resposta \(log-salario-1000\).
A pequena diferença entre os valores do coeficiente de determinação \(R^2\) e o coeficiente de determinação ajustado \(R^2_{ajustado}\) se deve porque os valores das significâncias \(p-valor\) dos coeficientes do modelo são ligeiramente maiores que zero.
O valor da estatistica F do teste é \(F_{estatistica}=112.790\), que nos mostra o quanto a variância explicada do modelo é maior relativamente à variância não explicada no modelo.

Analisando o termo de erro “u”:

Para considerarmos no modelo os menores valores para cada termo, adotamos:

Substituindo no modelo:

\[7.1=2.893+0.120 \times 0+0.006 \times 26+0.014 \times 0+u\] Portanto \(u=7.1-(2.893+0.006 \times 26)\) => \(u=4.051\)

O modelo_2 ficará:

\[logsalario1000=2.893+0.120 \times categoriasexo+0.006 \times idade+0.014 \times anostrabalho+4.051\]

Cálculo do VIF (Valor do Fator de Inflação) para o modelo_2

categoria_sexo idade anos_trabalho 1.263493 2.677520 2.702220 Portanto notamos pelo resultado obtido que a variável \(categoria-sexo\) não está correlacionada com as demais variáveis e as variáveis \(idade\) e \(anos-trabalho\) apresentaram valores maiores, porém abaixo do valor 4, que não configura a multicolinearidade.

Modelo considerado para a terceira regressão:

Incluiremos dois termos quadráticos no modelo_3: um relativo à variável \(idade\) e o outro relativo à variável \(anos-trabalho\) para compensar possíveis distorções devido ao acúmulo acentuado de valores devido às variáveis dependentes do tempo:

\[logsalario1000=\beta_0+\beta_1 \times categoriasexo+\beta_2 \times idade+\beta_3 \times idade^2+\beta_4 \times anostrabalho+\beta_5 \times anostrabalho^2+u\]

% Table created by stargazer v.5.2.3 by Marek Hlavac, Social Policy Institute. E-mail: marek.hlavac at gmail.com % Date and time: seg, nov 28, 2022 - 19:34:14

Analisando os valores das significâncias (p-valores) do modelo:

Hipótese nula \(H_0\) para a regressão linear: \(\beta_1=\beta_2=...=\beta_n=0\)
Hipótese alternativa \(H_1\) para a regressão linear: Pelo menos um dos coeficientes não é igual a zero

Analisando os sinais dos coeficientes do modelo:

Analisando os parâmetros do modelo:

Observando o coeficiente de determinação \(R^2=0.748\) e o coeficiente de determinação ajustado \(R^2_{ajustado}=0.737\) podemos dizer que as variáveis preditoras do modelo são responsáveis por 73.7% do valor da variável resposta \(log-salario-1000\).
A pequena diferença entre os valores do coeficiente de determinação \(R^2\) e o coeficiente de determinação ajustado \(R^2_{ajustado}\) se deve porque os valores das significâncias \(p-valor\) dos coeficientes do modelo são ligeiramente maiores que zero.
O valor da estatistica F do teste é \(F_{estatistica}=67.593\), que nos mostra o quanto a variância explicada do modelo é maior relativamente à variância não explicada no modelo.

Redefinindo o modelo_3:

\[logsalario1000=\beta_0+\beta_1 \times categoriasexo+u\]

% Table created by stargazer v.5.2.3 by Marek Hlavac, Social Policy Institute. E-mail: marek.hlavac at gmail.com % Date and time: seg, nov 28, 2022 - 19:34:14

Analisando os valores das significâncias (p-valores) do modelo:

Hipótese nula \(H_0\) para a regressão linear: \(\beta_1=\beta_2=...=\beta_n=0\)
Hipótese alternativa \(H_1\) para a regressão linear: Pelo menos um dos coeficientes não é igual a zero

Analisando os sinais dos coeficientes do modelo:

Analisando os parâmetros do modelo:

Observando o coeficiente de determinação \(R^2=0.3436\) e o coeficiente de determinação ajustado \(R^2_{ajustado}=0.338\) podemos dizer que as variáveis preditoras do modelo são responsáveis por 33.8% do valor da variável resposta \(log-salario-1000\).
A pequena diferença entre os valores do coeficiente de determinação \(R^2\) e o coeficiente de determinação ajustado \(R^2_{ajustado}\) se deve porque os valores das significâncias \(p-valor\) dos coeficientes do modelo são ligeiramente maiores que zero.
O valor da estatistica F do teste é \(F_{estatistica}=61.76\), que nos mostra o quanto a variância explicada do modelo é maior relativamente à variância não explicada no modelo.

Estime e apresente o modelo final da regressão do salário. Comente os resultados (teste F, testes t, \(R^2\), $R^2_{ajustado} e VIFs).

Comparação dos modelos 1, 2 e 3:

% Table created by stargazer v.5.2.3 by Marek Hlavac, Social Policy Institute. E-mail: marek.hlavac at gmail.com % Date and time: seg, nov 28, 2022 - 19:34:14

Pela tabela comparativa acima, vemos que o modelo que melhor performa os dados fornecidos é o Modelo 2, porque:

1- Apresenta o maior valor do Coeficiente de Determinação Ajustado \(R^2_{ajustado}=76.0\%\);
2- Apresenta o maior valor da estatística F \(F=126.731\), que nos mostra o quanto a variância explicada do modelo é maior relativamente à variância não explicada no modelo.

3- VIF (Valor do Fator de Inflação) para o Modelo 2

categoria_sexo idade anos_trabalho 1.263493 2.677520 2.702220 O resultado obtido mostra que a variável \(categoria-sexo\) não está correlacionada com as demais variáveis e as variáveis \(idade\) e \(anos-trabalho\) apresentaram valores maiores, porém abaixo do valor 4, que não configura a multicolinearidade.

Portanto o modelo final da regressão é:

\[logsalario1000=2.893+0.120 \times categoriasexo+0.006 \times idade+0.014 \times anostrabalho+4.051\]

Já considerando o valor do termo de erro calculado no Passo 3.

Analise se os pressupostos do modelo de regressão linear múltipla são respeitados (apresente gráficos que suportem suas análises).

Pressupostos para a Regressão Linear:

Pressuposto 1- Multicolinearidade pelo Valor do Fator de Inflação (VIF)
Como verificado anteriormente no Passo 4, não há ocorrência de multicolinearidade entre as variáveis do modelo 2.

Pressuposto 2 - Verificando a normalidade dos resíduos para o modelo 2
A verificação da normalidade dos resíduos é observada no primeiro gráfico da sequência abaixo, onde a curva vermelha tem tendência horizontal e próxima do valor “0” (zero) no eixo “y”.

Pressuposto 3- Verificação da Heterocedasticidade do modelo 3

studentized Breusch-Pagan test

data: modelo_2 BP = 0.89391, df = 3, p-value = 0.8269

O resultado do teste de Breusch-Pagan tem uma estatística de teste baixa \(BP=1.0689\) e um \(p-valor\) acima de 0.05 \(p-value = 0.7846\). Portanto, adotamos a hipótese nula e concluímos que este modelo de regressão não viola a suposição de homocedasticidade e portanto não há heteroscedasticidade nos resíduos do modelo 2.

Consequências da Heterocedasticidade

Como mencionado anteriormente, a heterocedasticidade ocorre quando a variância de todas as observações em um conjunto de dados não é a mesma. Por outro lado, quando a variância para todas as observações é igual, chamamos isso de homocedasticidade. Por que devemos nos preocupar com a heterocedasticidade? Porque é uma violação da suposição ordinária dos mínimos quadrados que \(var(y_i)=var(e_i)=\sigma^2\). Na presença de heterocedasticidade, existem duas consequências principais nos estimadores de mínimos quadrados:

1- O estimador de mínimos quadrados ainda é um estimador linear e imparcial, mas não é mais o melhor. Ou seja, existe outro estimador com uma variância menor;

2- Os erros padrão calculados para os estimadores de mínimos quadrados estão incorretos. Isso pode afetar os intervalos de confiança e testes de hipóteses que usam esses erros padrão, o que pode levar a conclusões enganosas.

A maioria dos dados do mundo real provavelmente será heterocedástica. No entanto, ainda pode-se usar mínimos quadrados ordinários sem corrigir a heterocedasticidade porque se o tamanho da amostra for grande o suficiente, a variância do estimador de mínimos quadrados ainda pode ser suficientemente pequena para obter estimativas precisas.

Pressuposto 4- Teste de autocorrelação dos resíduos do modelo 2 por Durbin-Watson:

Durbin-Watson test

data: modelo_2 DW = 2.031, p-value = 0.5462 alternative hypothesis: true autocorrelation is greater than 0

Conclusão do teste de Durbin-Watson

\(H_0\) (hipótese nula): Não há correlação entre os resíduos.

\(H_1\) (hipótese alternativa): Os resíduos são autocorrelacionados.

Conclusão do teste de Durbin-Watson para o modelo 2: Os resíduos não são correlacionados \(p-value = 0.4922\).

Conclusão dos pressupostos da Regressão Linear para o MOdelo 2:

Todos os pressupostos estão atendidos no Modelo 2

O modelo final da regressão é:

\[logsalario1000=2.893+0.120 \times categoriasexo+0.006 \times idade+0.014 \times anostrabalho+4.051\]

% Table created by stargazer v.5.2.3 by Marek Hlavac, Social Policy Institute. E-mail: marek.hlavac at gmail.com % Date and time: seg, nov 28, 2022 - 19:34:16

Comentários

Analisando os valores das significâncias (p-valores) do modelo:

Hipótese nula \(H_0\) para a regressão linear: \(\beta_1=\beta_2=...=\beta_n=0\)
Hipótese alternativa \(H_1\) para a regressão linear: Pelo menos um dos coeficientes não é igual a zero

Analisando os sinais dos coeficientes do modelo:

Analisando os parâmetros do modelo:

Observando o coeficiente de determinação \(R^2=0.745\) e o coeficiente de determinação ajustado \(R^2_{ajustado}=0.738\) podemos dizer que as variáveis preditoras do modelo são responsáveis por 73.8% do valor da variável resposta \(log-salario-1000\).
A pequena diferença entre os valores do coeficiente de determinação \(R^2\) e o coeficiente de determinação ajustado \(R^2_{ajustado}\) se deve porque os valores das significâncias \(p-valor\) dos coeficientes do modelo são ligeiramente maiores que zero.
O valor da estatistica F do teste é \(F_{estatistica}=112.790\), que nos mostra o quanto a variância explicada do modelo é maior relativamente à variância não explicada no modelo.

Analisando o termo de erro “u”:

Para considerarmos no modelo os menores valores para cada termo, adotamos:

Substituindo no modelo:

\[7.1=2.893+0.120 \times 0+0.006 \times 26+0.014 \times 0+u\] Portanto \(u=7.1-(2.893+0.006 \times 26)\) => \(u=4.051\)

Dê exemplo de uma previsão (estimativa pontual) de Salário a partir das variáveis independentes. Para isso, escolha valores para as variáveis independentes do modelo. Atente para os limites das variáveis independentes para que problemas de extrapolação sejam evitados.

Modelo:

\[logsalario1000=2.893+0.120 \times categoriasexo+0.006 \times idade+0.014 \times anostrabalho+4.051\]

Para a predição do valor da variável resposta consideraremos: funcionária mulher, com idade de 35 anos e 15 anos de trabalho

\(categoria-sexo=0\)
\(idade=35\)
\(anos-trabalho=15\)

   fit      lwr      upr

1 3.334427 3.274666 3.394188

O valor considerado é o \(valor_{ajustado}=3.336223 + u\) => \(valor_{ajustado}=3.336223 + 4.051\) => \(valor_{ajustado}=7.387223\)

Portanto, o valor do log_salário_1000 nestas condições:

\[logsalario_{1000}=7.387223\]

E o salário correspondente:

\[Salario=e^{7.387223}=1615.21\]

Complete o trabalho elaborando as considerações finais. Analise, se possível, possíveis causas, no contexto da diferença de gêneros, para explicar as variáveis que eventualmente não apresentaram significância no modelo final (por quê essas variáveis foram retiradas?).

Respondendo à Hipótese formulada no início do trabalho para avaliar se existem diferenças entre os salários de homens e mulheres na empresa:

A hipótese nula \(H_0\) a ser testada na Regressão Linear: “Não há diferenças significativas entre os salários dos indivíduos do sexo masculino e do sexo feminino”;

Hipótese alternativa \(H_1\): “Há diferenças significativas entre os salários dos indivíduos do sexo masculino e do sexo feminino”.

Efetuaremos o teste de Chow para responder a esta questão.

O teste de Chow é aplicado a variáveis dummy = variável binária = variável dicotômica

Modelo:

\[logsalario1000=\beta_0+\delta_0 \times categoriasexo+\beta_1 \times idade+\beta_2 \times anostrabalho+u\]

Se: \(dummy=0\) => \(logsalario1000=\beta_0+\beta_1 \times idade+\beta_2 \times anostrabalho+u\)
Se: \(dummy=1\) => \(logsalario1000=(\beta_0+\delta_0)+\beta_1 \times idade+\beta_2 \times anostrabalho+u\)

A média de \(y\) dado \(x\) para \(dummy=1\) : \(E_1(y|x, d=1)\)
A média de \(y\) dado \(x\) para \(dummy=0\) : \(E_0(y|x, d=0)\)

Portanto: \(E_1-E_0=[(\beta_0+\delta_0)+\beta_1 \times idade+\beta_2 \times anostrabalho+u]-[\beta_0+\beta_1 \times idade+\beta_2 \times anostrabalho+u]\) => \(E_1-E_0=\delta_0\)

No Modelo 2, calculado no Passo 3, obtivemos os valores abaixo:

\(\delta_0=0.120\) e a significância(p) para \(p_{\delta_0}=0.000055057628\)

\(\delta_0\) -> mede a diferença do \(log-salario-1000\) médio entre funcionários do sexo feminino e do sexo masculino, com os mesmos valores para \(idade\) e \(anos-trabalho\).
\(\beta_0\) -> \(log-salario-1000\) médio, considerando todos os termos da equação nulos.

O valor da significância(p) \(p_{\delta_0}0.000055057628\) (menor do que 0,05 ou 5%) indica que a Hipótese nula \(H_0\) deve ser rejeitada e adotamos a Hipótese alternativa \(H_1\). Portanto há diferenças significativas entre os salários dos indivíduos do sexo masculino e do sexo feminino.

Resposta do Passo 8: