Iniciando
Escreva tudo por aqui….
– Pergunta de pesquisa: Indivíduos com maior nível de comportamento Pró-ambiental gastam mais (ou menos) em diferentes categorias de consumo (transporte, vestuário, alimentação e despesas pessoais intimas)?
Hipóteses:
– H0: Os gastos não afetam o comportamento pró-ambiental. – H1: Existe uma relação significativa entre os gastos e o comportamento pró-ambiental.
Passo 1
Salvar o arquivo em Excel dados.xlsx e esse arquivo do RStudio juntos em uma pasta do seu computador.
Passo 2:
Utilizar a linha de código abaixo do pacote readxl para ler arquivos em Excel com .xlsx. Clique no ícone verde no canto direito do código, ao colocar o cursor em cima vai aparecer “Run Current Chunk”.
Passo 3: Modelo Matemático
Modelo Linear
- Saber qual a função matemática (Package)
- Saber como descrever essa função (selecionar as variáveis conforme a pergunta a ser respondida).
O modelo é uma regressão linear onde vamos analisamos o impacto do conjunto dos gastos no comportamento pro-ambiental.
A fórmula do modelo é: modelo <- lm(Pro_ambiente ~ Gasto_vest + Gasto_alim + Gasto_transp + Gasto_int)
- Variável dependente = Pro_ambiente
- Variáveis explicativas/independentes = Gasto_vest + Gasto_alim + Gasto_transp + Gasto_int
##Análise Exploratória dos Dados
- Antes de realizar o modelo vamos examinar as características principais dos dados utilizando o summary.
- Clicar em code (na aba superior) e depois em insert chunk
##
## Call:
## lm(formula = Pro_ambiente ~ Gasto_vest + Gasto_alim + Gasto_transp +
## Gasto_int, data = dados)
##
## Residuals:
## Min 1Q Median 3Q Max
## -5.444 -1.300 0.375 1.556 3.700
##
## Coefficients: (2 not defined because of singularities)
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 18.10556 1.24578 14.533 < 2e-16 ***
## Gasto_vest -0.35056 0.04141 -8.465 6.74e-16 ***
## Gasto_alim -0.23250 0.02376 -9.784 < 2e-16 ***
## Gasto_transp NA NA NA NA
## Gasto_int NA NA NA NA
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.735 on 357 degrees of freedom
## Multiple R-squared: 0.212, Adjusted R-squared: 0.2076
## F-statistic: 48.04 on 2 and 357 DF, p-value: < 2.2e-16
Interpretando os resultados
1. Beta (Coeficiente Estimate)
Para GASTOS COM VESTUÁRIOS (Gast_vest) = o coeficiente negativo (-0.35056) sugere que gastos mais ALTOS em vestuário REDUZEM o comportamento Pro-ambiental (Pro_ambiente) em 0.35056 unidades. Ex.A cada R$1,00 a mais gasto em vestuário, o comportamento esperado diminui em 0,35 unidades.
Para GASTOS COM ALIMENTAÇÃO (Gast_alim)= o coeficiente negativo (-0.23250) sugere que gastos mais ALTOS em alimentação REDUZEM o comportamento ambiental em 0.23250 unidades. Ex.A cada R$1,00 a mais gasto com alimentação, o comportamento esperado diminui em 0,23 unidades.
Para Gastos com transporte e despesas íntimas o resultado Estimate “NA” (dados insuficientes para a estimativa, um problema na entrada dos dados ou que o modelo utilizado não consegue produzir um resultado).
Significância Estatística
- Variável Gasto_vest com Pr(>|t|) 6.74e-16 *** = tem influência significativa no comportamento Pro-ambiental.
- Variável Gasto_alim com Pr(>|t|) < 2e-16 *** = tem influência significativa no comportamento Pro-ambiental
R2 (R-quadrado)
- R² (R-quadrado): 0.212 (21,2%), ou seja, o modelo explica 21,2% da variação na variável dependente. Embora um R quadrado possa parecer baixo é comum ocorrer quando há muitos fatores externos influenciando o comportamento. Isso sugere que outras variáveis importantes não estão incluídas no modelo.
Considerações
Gasto em Vestuário - Um aumento nos gastos com vestuário está associado a uma redução significativa no comportamento esperado. Isso pode indicar que pessoas que consomem mais roupas tendem a adotar práticas menos ambientais. Esse é possivelmente um reflexo do consumismo no setor de moda (grande impacto ambiental).
Gasto em Alimentação - De forma semelhante, maior gasto em alimentos também está associado a uma redução no comportamento pró-ambiental esperado. Isso pode estar relacionado a padrões de consumo menos sustentáveis (ex.alta compra de itens industrializados ou descartáveis).
O modelo explica 21,2% da variação em Pro_ambiente (baixo valor do R-quadrado).
Políticas que incentivem gastos sustentáveis em vestuário e alimentação podem elevar o comportamento pró-ambiental.
Investigar mais detalhadamente o impacto negativo de gastos em vestuário pode ajudar a fomentar campanhas contra o consumismo não sustentável.
Limitações do modelo
Possível melhoria seria adicionar outras variáveis (ex. renda, idade, escolaridade) que possam impactar no comportamento ou explorar interações entre os tipos de gastos.
Comportamentos pró-ambientais podem ser influenciados por diversos outros fatores (ex. atitudes individuais, crenças, educação, classe econômica ou acesso a oportunidades sustentáveis) que não foram incluídos no modelo.
Despesas com transporte e despesas pessoais não foram calculados, por não apresentarem dados suficientes.
A regressão linear assume uma relação linear entre as variáveis explicativas e a variável dependente. No entanto, comportamentos humanos (ex. comportamento pró-ambiental) geralmente apresentam relações mais complexas.
Modelo Não Linear
– Pergunta de pesquisa: Como os gastos em diferentes categorias de consumo (transporte, vestuário, alimentação e despesas pessoais íntimas) influenciam a probabilidade de uma pessoa ser do sexo masculino)?
Hipóteses:
– H0: Os gastos não tem impacto significativo na probabilidade de uma pessoa ser homem. – H1: Os gastos influenciam a probabilidade de uma pessoa ser homem, com um aumento nos gastos estando associado ao aumento dessa probabilidade.
- Vamos inserir a variável Sexo (masculino 1, e feminino 0) como Variável Dependente. O modelo não linear analisamos o impacto do conjunto dos gastos por Sexo. O modelo busca prever a variável dependente (Sexo) com base nas variáveis explicativas: Gasto_vest, Gasto_alim, Gasto_transp e Gasto_int.
Fórmula do modelo não linear: modeloNL <- glm(Sexo ~ Gasto_vest + Gasto_alim + Gasto_transp + Gasto_int, data=dados, family = binomial)
modeloNL <- glm(Sexo ~ Gasto_vest + Gasto_alim + Gasto_transp + Gasto_int, data = dados, family = binomial)##Análise Exploratória dos Dados
- Antes de realizar o modelo vamos examinar as características principais dos dados utilizando o summary.
- Clicar em code (na aba superior) e depois em insert chunk
##
## Call:
## glm(formula = Sexo ~ Gasto_vest + Gasto_alim + Gasto_transp +
## Gasto_int, family = binomial, data = dados)
##
## Coefficients: (2 not defined because of singularities)
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -8.90668 1.60835 -5.538 3.06e-08 ***
## Gasto_vest 0.32958 0.05368 6.139 8.29e-10 ***
## Gasto_alim 0.15041 0.03005 5.006 5.56e-07 ***
## Gasto_transp NA NA NA NA
## Gasto_int NA NA NA NA
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 497.46 on 359 degrees of freedom
## Residual deviance: 452.81 on 357 degrees of freedom
## AIC: 458.81
##
## Number of Fisher Scoring iterations: 4
Interpretando os resultados
1. Beta (Coeficiente Estimate)
variável Sexo = 1 é homem e 0 é mulher.
β0 = -8.90668 e Erro padrão 1.60835.
Para GASTOS COM VESTUÁRIOS (Gast_vest) = o coeficiente é positivo (0.32958) e é significativo. Ex.A cada R$1,00 a mais gasto em vestuário a chance de ser HOMEM aumenta em 33%.
Para GASTOS COM ALIMENTAÇÃO (Gast_alim) = o coeficiente é positivo (0.15041) e é significativo. Ex.A cada R$1,00 a mais gasto com alimentação, a chance de ser HOMEM aumenta em 15%.
Gastos com vestuário tem impacto maior do que na alimentação, se for Homem.
Para Gastos com transporte e despesas íntimas o resultado Estimate “NA” (dados suficientes para a estimativa, um problema na entrada dos dados ou que o modelo utilizado não consegue produzir um resultado).
Significância Estatística
Variável Gasto_vest com Pr(>|t|) 8.29e-10 *** = tem influência significativa em relação a variável Sexo. Variável Gasto_alim com Pr(>|t|) 5.56e-07 *** = tem influência significativa em relação ao variável Sexo.
Considerações e limitações
A significância estatística é avaliada principalmente com base no p-valor (<0.05 é interpretado como significativo).
No exercício, Gasto_vest e Gasto_alim são variáveis significativas, indicando que ambas afetam as chances de ser homem a variável Sexo.
Variáveis insignificativas ou excluídas (ex. Gasto_transp e Gasto_int) podem ser remodeladas. No caso do exercício elas foram ignoradas. —————————————————————————————————-
##Gráficos Modelo Linear
modelo <- lm(Pro_ambiente ~ Gasto_vest + Gasto_alim, data = dados)
seq_gasto_vest <- seq(min(dados$Gasto_vest, na.rm = TRUE),
max(dados$Gasto_vest, na.rm = TRUE), length.out = 100)
grid <- data.frame(Gasto_vest = seq_gasto_vest,
Gasto_alim = mean(dados$Gasto_alim, na.rm = TRUE), # Mantendo Gasto_alim fixo na média
Gasto_transp = NA, # Não utilizado no modelo ajustado
Gasto_int = NA) # Não utilizado no modelo ajustado
grid$Pro_ambiente_predito <- predict(modelo, newdata = grid)
library(ggplot2)
ggplot(grid, aes(x = Gasto_vest, y = Pro_ambiente_predito)) +
geom_line(color = "blue", linewidth = 1.2) +
labs(title = "Efeito do Gasto com Vestuário sobre Pro_ambiente",
x = "Gasto com Vestuário",
y = "Preocupação Ambiental (Pro_ambiente)") +
theme_minimal()modelo <- lm(Pro_ambiente ~ Gasto_vest + Gasto_alim, data = dados)
seq_gasto_vest <- seq(min(dados$Gasto_vest, na.rm = TRUE),
max(dados$Gasto_vest, na.rm = TRUE), length.out = 100)
grid <- data.frame(Gasto_vest = seq_gasto_vest,
Gasto_alim = mean(dados$Gasto_alim, na.rm = TRUE), # Mantendo Gasto_alim fixo na média
Gasto_transp = NA, # Não utilizado no modelo ajustado
Gasto_int = NA) # Não utilizado no modelo ajustado
grid$Pro_ambiente_predito <- predict(modelo, newdata = grid)
library(ggplot2)
ggplot(grid, aes(x = Gasto_vest, y = Pro_ambiente_predito)) +
geom_line(color = "blue", linewidth = 1.2) +
labs(title = "Efeito do Gasto com Vestuário sobre Pro_ambiente",
x = "Gasto com Vestuário",
y = "Preocupação Ambiental (Pro_ambiente)") +
theme_minimal()##Gráficos Modelo Não Linear
modelo <- glm(Sexo ~ Gasto_vest + Gasto_alim,
family = binomial, data = dados)
seq_gasto_vest <- seq(min(dados$Gasto_vest, na.rm = TRUE),
max(dados$Gasto_vest, na.rm = TRUE), length.out = 100)
seq_gasto_alim <- seq(min(dados$Gasto_alim, na.rm = TRUE),
max(dados$Gasto_alim, na.rm = TRUE), length.out = 100)
grid <- expand.grid(Gasto_vest = seq_gasto_vest,
Gasto_alim = mean(dados$Gasto_alim, na.rm = TRUE)) # Média fixa de `Gasto_alim`
grid$Probabilidade_homem <- predict(modelo, newdata = grid, type = "response")
library(ggplot2)
ggplot(grid, aes(x = Gasto_vest, y = Probabilidade_homem)) +
geom_line(color = "blue", linewidth = 1.2) +
labs(title = "Efeito do Gasto com Vestuário na Probabilidade de Ser Homem",
x = "Gasto com Vestuário",
y = "Probabilidade de Ser Homem") +
theme_minimal()modelo <- glm(Sexo ~ Gasto_vest + Gasto_alim,
family = binomial, data = dados)
seq_gasto_vest <- seq(min(dados$Gasto_vest, na.rm = TRUE),
max(dados$Gasto_vest, na.rm = TRUE), length.out = 100)
seq_gasto_alim <- seq(min(dados$Gasto_alim, na.rm = TRUE),
max(dados$Gasto_alim, na.rm = TRUE), length.out = 100)
grid <- expand.grid(Gasto_vest = seq_gasto_vest,
Gasto_alim = mean(dados$Gasto_alim, na.rm = TRUE)) # Média fixa de `Gasto_alim`
grid$Probabilidade_homem <- predict(modelo, newdata = grid, type = "response")
grid_alim <- expand.grid(Gasto_alim = seq_gasto_alim,
Gasto_vest = mean(dados$Gasto_vest, na.rm = TRUE)) # Média fixa de `Gasto_vest`
grid_alim$Probabilidade_homem <- predict(modelo, newdata = grid_alim, type = "response")
ggplot(grid_alim, aes(x = Gasto_alim, y = Probabilidade_homem)) +
geom_line(color = "green", linewidth = 1.2) +
labs(title = "Efeito do Gasto com Alimentação na Probabilidade de Ser Homem",
x = "Gasto com Alimentação",
y = "Probabilidade de Ser Homem") +
theme_minimal()