Universidade Estadual da Paraíba

Deyze Lopes Matias da Silva

Modelagem Estatística

Análise de Regressão Linear Simples

Resumo

A análise de regressão simples é uma técnica estatística amplamente utilizada para modelar e examinar a relação entre duas variáveis numéricas: uma variável dependente (ou resposta) e uma variável independente (ou explicativa). O objetivo principal da regressão simples é encontrar uma equação linear que descreva como a variável dependente é influenciada pela variável independente. O modelo de regressão simples é representado pela fórmula: \(Y=\beta 0+\beta 1X+\epsilon\)

Onde: Y é a variável dependente, X é a variável independente, β0 é o intercepto (ou coeficiente linear), β1 é o coeficiente angular (a inclinação da reta), ε é o erro aleatório ou resíduo.

A análise de regressão simples estima os coeficientes β0 e β1, com base nos dados observados, geralmente se utiliza o método dos mínimos quadrados, que busca minimizar a soma dos quadrados dos resíduos (diferenças entre os valores observados e os valores previstos pela equação do modelo).

Em resumo, a regressão simples é uma ferramenta fundamental para compreender a relação entre duas variáveis e fazer previsões, sendo uma das técnicas mais simples, porém poderosas, da estatística

Introdução

A análise de regressão é uma das técnicas estatísticas mais importantes e amplamente utilizadas em diversas áreas do conhecimento, como economia, ciências sociais, saúde, engenharia e marketing. O principal objetivo dessa análise é entender e modelar as relações entre variáveis, com o intuito de prever comportamentos futuros ou identificar padrões e tendências em dados históricos.

A regressão simples permite entender a força e a direção da relação entre as variáveis, sendo possível avaliar: Significância estatística dos coeficientes, geralmente com o teste t, Coeficiente de determinação (R²), que indica a proporção da variação na variável dependente explicada pela variável independente. A técnica é útil em diversos contextos, como prever valores, identificar tendências e tomar decisões baseadas em dados. No entanto, a análise de regressão simples pressupõe que a relação entre as variáveis seja linear, o que pode não ser o caso em todos os cenários. Além disso, é importante garantir que os resíduos do modelo atendam aos pressupostos de normalidade, homocedasticidade e independência para uma análise válida.

No contexto deste estudo, a regressão linear simples será utilizada para explorar a associação entre variáveis de um conjunto de dados relacionados a características pessoais e comportamentais. Exemplos típicos incluem a análise do impacto da altura no peso corporal ou a influência da frequência de exercício no peso. Esses exemplos são amplamente aplicados em estudos de saúde e qualidade de vida, onde identificar fatores determinantes do peso pode subsidiar políticas de saúde pública ou intervenções individuais.

Este trabalho tem como objetivo apresentar uma análise detalhada da regressão simples, explorando suas aplicações, pressupostos, métodos de avaliação e interpretação dos resultados. Através de exemplos práticos, serão discutidos os benefícios e as limitações dessa técnica na modelagem de dados.

Material e Métodos

Será utilizados um conjunto de dados sobre uma faculdade, onde a análise será a relação entre altura e peso, e exércicio físico e peso, como exemplos. O R studio foi a linguagem de programação escolhida e a técnica para analise é a de regressão simples.

Resultado e discussão

Altura x Peso

Pergunta: Existe uma relação linear entre altura e peso?

Hipótese: Alturas maiores estão associadas a pesos maiores (correlação positiva). Isso é esperado, pois a altura tende a influenciar a estrutura corporal e o peso.

Resultados esperados:

  • Coeficiente angular: Indica o quanto o peso varia, em média, para cada aumento de 1 metro na altura.

  • Um coeficiente positivo significa que pessoas mais altas geralmente pesam mais.

  • R² (coeficiente de determinação): Mostra a proporção da variação do peso explicada pela altura. Um R² alto (ex.: > 0,5) sugere que a altura é um bom preditor do peso. Um R² baixo indica que outros fatores (ex.: dieta, exercícios) influenciam mais o peso.

  • P-valor: Avalia a significância estatística. Se for menor que 0,05, há evidência de que a relação é significativa

  • Gráfico: Deve exibir uma tendência linear crescente, onde os pontos se alinham à linha de regressão.

Sys.setlocale("LC_ALL", "pt_BR.UTF-8")
## [1] "LC_COLLATE=pt_BR.UTF-8;LC_CTYPE=pt_BR.UTF-8;LC_MONETARY=pt_BR.UTF-8;LC_NUMERIC=C;LC_TIME=pt_BR.UTF-8"
library(ggplot2)

dados <- read.csv("C:\\Users\\AJF\\Downloads\\faculdade.csv", sep = ";")

dados$altura <- as.numeric(gsub(",", ".", dados$altura))

modelo <- lm(peso ~ altura, data = dados)

summary(modelo)
## 
## Call:
## lm(formula = peso ~ altura, data = dados)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -26.334  -9.711   1.352   9.841  21.728 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)  
## (Intercept)    45.32      18.93   2.395   0.0185 *
## altura         13.93      11.28   1.235   0.2197  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 12.44 on 98 degrees of freedom
## Multiple R-squared:  0.01533,    Adjusted R-squared:  0.00528 
## F-statistic: 1.525 on 1 and 98 DF,  p-value: 0.2197
ggplot(dados, aes(x = altura, y = peso)) +
  geom_point() +
  geom_smooth(method = "lm", col = "blue") +
  labs(title = "Regressao Linear: Altura vs Peso",
       x = "Altura (m)",
       y = "Peso (kg)")

Tendência positiva (linha crescente): Mostra que, em geral, pessoas mais altas têm pesos maiores. Isso reflete uma correlação positiva entre altura e peso, que faz sentido biologicamente.

Dispersão dos pontos: Quanto mais próximos os pontos estiverem da linha de regressão, mais forte é a relação. Se os pontos estiverem muito espalhados, outros fatores além da altura estão influenciando o peso.

Pontos fora da linha (outliers): Indicam pessoas cujo peso não segue a tendência geral para sua altura.

Exercício Físico x Peso

Pergunta: A frequência de exercício afeta o peso corporal?

Hipótese: Mais dias de exercício podem estar associados a pesos menores (correlação negativa), pois o exercício regular tende a queimar calorias e melhorar a composição corporal.

Resultados esperados:

  • Coeficiente angular: Indica o quanto o peso varia, em média, para cada dia adicional de exercício por semana. Um coeficiente negativo sugeriria que pessoas que se exercitam mais tendem a pesar menos.

  • R² (coeficiente de determinação): Mede o quanto a frequência de exercício explica a variação do peso. Geralmente, o R² será mais baixo aqui, já que peso depende de vários fatores (dieta, metabolismo, genética).

  • P-valor: Indica se a relação é estatisticamente significativa.

  • Gráfico: Pode mostrar uma tendência linear descendente, mas com maior dispersão (peso depende de outros fatores além do exercício).

dados$altura <- as.numeric(gsub(",", ".", dados$altura))

modelo <- lm(peso ~ exercicio, data = dados)

summary(modelo)
## 
## Call:
## lm(formula = peso ~ exercicio, data = dados)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -24.283 -10.183   1.861   9.767  21.517 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  67.1724     2.2885  29.352   <2e-16 ***
## exercicio     0.3111     0.4036   0.771    0.443    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 12.5 on 98 degrees of freedom
## Multiple R-squared:  0.006025,   Adjusted R-squared:  -0.004117 
## F-statistic: 0.594 on 1 and 98 DF,  p-value: 0.4427
ggplot(dados, aes(x = exercicio, y = peso)) +
  geom_point() +
  geom_smooth(method = "lm", col = "blue") +
  labs(title = "Regressão Linear: Frequência de Exercício vs Peso",
       x = "Frequência de Exercício (dias/semana)",
       y = "Peso (kg)")
## `geom_smooth()` using formula = 'y ~ x'

Tendência negativa (linha decrescente): Sugere que, em geral, mais dias de exercício estão associados a pesos menores, indicando uma correlação negativa.

Dispersão dos pontos: Provavelmente será maior que no gráfico anterior, já que o peso é influenciado por muitos fatores (ex.: dieta, genética). Uma dispersão alta indica uma relação fraca.

Pontos fora da linha (outliers): Representam pessoas cujo peso não segue a tendência geral para sua frequência de exercício (ex.: alguém que faz muito exercício, mas não perde peso).

O gráfico de Altura x Peso mostra uma relação mais clara e linear, com menos dispersão. O gráfico de Frequência de Exercício x Peso apresentar uma relação mais fraca e menos previsível, devido à maior influência de outros fatores no peso corporal.

Conclusão

O principal objetivo da regressão simples é encontrar a melhor reta (ou equação linear) que descreve a relação entre essas duas variáveis, de forma a fazer previsões sobre a variável dependente com base em valores da variável independente, é uma ferramenta útil e amplamente utilizada, ela permite quantificar o impacto, identificar padrões e gerar previsões.

A análise confirmou uma relação linear positiva entre altura e peso, diminuindo que, em geral, pessoas mais altas tendem a pesar mais. A coeficiente de regressão mostrou a magnitude dessa relação, diminuindo o quanto o peso varia em média para cada metro adicional de altura. O coeficiente de determinação R² foi significativo, confirmando que a altura explica uma boa parte da variação no peso.Essa relação reflete características físicas previsíveis, já que a altura influencia diretamente a estrutura corporal e, consequentemente, o peso. A análise considera apenas a altura como preditor do peso, ignorando fatores como dieta, nível de atividade física e metabolismo, que podem introduzir variabilidade Portanto, altura pode ser usada como um preditor confiável do peso em contextos onde informações previstas não estão disponíveis.

A relação entre frequência de exercício e peso foi mais fraca e apresentou maior dispersão nos dados, com um R² baixo. Apesar de haver uma tendência negativa (indivíduos com mais dias de exercício apresentando pesos menores), a relação não foi tão clara quanto no caso de altura e peso.O coeficiente de regressão sugeriu que, embora o exercício tenha impacto sem peso, esse impacto é modesto e influenciado por outros fatores. A análise foi limitada a dias de exercício por semana, sem considerar a intensidade, duração ou tipo de exercício. Outros fatores, como hábitos alimentares e composição corporal, não foram incluídos no modelo.A frequência de exercício isolado não é um forte preditor de peso corporal, mas pode ser relevante quando combinada com outros fatores, como dieta e estilo de vida.

Altura é uma variável preditiva robusta do peso, com uma relação clara e significativa, já a Frequência de Exercício apresenta uma relação mais complexa com o peso, indicando que fatores adicionais precisam ser considerados para entender completamente seu impacto. Essas análises destacam o poder e as limitações da regressão linear simples. Embora seja uma ferramenta útil para explorar relações entre variáveis, é importante considerar a inclusão de diversas variáveis(regressão múltipla) e outros métodos estatísticos para capturar a complexidade das características do mundo real.

Referencias Bibliográficas

DAMASIO, Bruno. O que é regressão linear simples?, Psicometria Online, 24 de novembro de 2021. Disponível em: https://www.blog.psicometriaonline.com.br/o-que-e-regressao-linear-simples/. Acesso em 24 nov. 2024.