1 Apresentação do Capítulo

Este capítulo fornecerá uma base sólida para estudantes iniciantes em Matemática, Estatística e programação em R, preparando-os para uma compreensão abrangente de conceitos essenciais em Ciência de Dados.

Você começará sua jornada revisando conceitos fundamentais, como a definição de Estatística e sua relevância na Ciência de Dados, além de explorar aspectos cruciais da probabilidade e revisar noções básicas de álgebra linear. No âmbito da Estatística, aprofundaremos nosso conhecimento em Correlação, examinando tipos e aplicações, e detalharemos os coeficientes de Correlação de Pearson e Spearman, bem como a Correlação Parcial.

Ao avançar para a Regressão Linear, você explorará conceitos introdutórios, a diferença entre correlação e regressão, e a formulação matemática do modelo. O Método dos Mínimos Quadrados será discutido em detalhes, proporcionando uma compreensão abrangente dos resíduos e diagnósticos associados.

A Regressão Linear Múltipla expandirá seus horizontes para modelos com múltiplas variáveis, abordando formulação, coeficientes parciais e diagnósticos importantes, como colinearidade e testes de significância.

Você explorará a Regressão Polinomial, incluindo sua introdução, formulação, limitações e a implementação prática em R. A visualização de modelos polinomiais e a avaliação de desempenho também serão destacadas.

Na introdução à Regressão Logística, exploraremos fundamentos teóricos, aplicações em classificação e a interpretação dos coeficientes. A avaliação de modelos logísticos será abordada por meio de conceitos como matriz de confusão e curva ROC.

Concluiremos com a análise de resíduos em Regressão Polinomial e Logística, destacando a importância dessa análise na validação do modelo. Abordaremos também técnicas de validação não linear, como cross-validation e bootstrap.

2 Correlação

2.1 Introdução à Correlação

A correlação é uma medida estatística que descreve a relação linear entre duas variáveis. Essa medida quantifica a direção e a força dessa relação. O coeficiente de correlação varia de -1 a 1, onde -1 indica uma correlação negativa perfeita, 1 indica uma correlação positiva perfeita, e 0 indica ausência de correlação.

A fórmula para o coeficiente de correlação de Pearson (\(r\)) entre duas variáveis \(X\) e \(Y\) é dada por:

\[\begin{equation} r = \frac{\sum_{i=1}^{n}(X_i - \bar{X})(Y_i - \bar{Y})}{\sqrt{\sum_{i=1}^{n}(X_i - \bar{X})^2 \sum_{i=1}^{n}(Y_i - \bar{Y})^2}} \end{equation}\]

  • Correlação Positiva: Quando o aumento em uma variável está associado ao aumento na outra variável. O coeficiente de correlação é próximo de 1.

  • Correlação Negativa: Quando o aumento em uma variável está associado à diminuição na outra variável. O coeficiente de correlação é próximo de -1.

  • Correlação Nula: Quando não há relação linear aparente entre as variáveis. O coeficiente de correlação é próximo de 0.

2.1.1 Coeficiente de Correlação de Pearson

O coeficiente de correlação de Pearson (\(r\)) mede a força e a direção de uma relação linear entre duas variáveis. A fórmula para calcular \(r\) entre duas variáveis \(X\) e \(Y\) é:

\[ r = \frac{\sum_{i=1}^{n}(X_i - \bar{X})(Y_i - \bar{Y})}{\sqrt{\sum_{i=1}^{n}(X_i - \bar{X})^2 \sum_{i=1}^{n}(Y_i - \bar{Y})^2}} \]

onde \(\bar{X}\) e \(\bar{Y}\) são as médias de \(X\) e \(Y\), respectivamente.

  • \(r = 1\): Correlação positiva perfeita.
  • \(r = -1\): Correlação negativa perfeita.
  • \(r = 0\): Ausência de correlação linear.

O valor absoluto de \(r\) indica a força da correlação, sendo 0 para nenhuma correlação e 1 para correlação perfeita.

Esta correlação deve ser utilizada para dados que apresentam uma distribuição que segue uma distribuição normal. Vamos considerar dois conjuntos de dados, X e Y, e calcular o coeficiente de correlação de Pearson entre eles.

set.seed(123)
# Criando o dataSet
X = rnorm(n=100, mean=2450, sd=13)
Y = 1.65*X^2 - X*round(runif(n=1, min=500, max=1500))

df_normal <- data.frame(X,Y)
head(df_normal)
##          X       Y
## 1 2442.714 8040138
## 2 2447.008 8071608
## 3 2470.263 8243106
## 4 2450.917 8100310
## 5 2451.681 8105926
## 6 2472.296 8258180

Verificando a normalidade dos dados:

  1. Para a variavel X temos:
shapiro.test(df_normal$X)
## 
##  Shapiro-Wilk normality test
## 
## data:  df_normal$X
## W = 0.99388, p-value = 0.9349
  1. Para a variavel y temos:
shapiro.test(df_normal$Y)
## 
##  Shapiro-Wilk normality test
## 
## data:  df_normal$Y
## W = 0.99374, p-value = 0.9283

Ambos passaram no teste de shapiro, sendo considerados assim uma distribuição que segue a tendência de normalidade. Logo podemos fazer o teste de Pearson.

# Cálculo do coeficiente de correlação
correlacao <- cor(df_normal$X, df_normal$Y, method = 'pearson')

# Exibição do resultado
print(correlacao)
## [1] 0.9999936

Veja que obtivemos uma correlação positiva muito boa de 99% entre as duas variáveis.

2.1.2 Coeficiente de Correlação de Spearman

O coeficiente de correlação de Spearman (\(\rho\)) é uma medida não paramétrica que avalia a relação monotônica entre duas variáveis. Ele é especialmente útil quando os dados não seguem uma distribuição normal ou quando a relação entre as variáveis não é linear. Aplicações comuns incluem classificações, ranqueamentos e dados ordinais.

Enquanto o coeficiente de correlação de Pearson avalia a correlação linear, o coeficiente de Spearman avalia a correlação monotônica. Correlação monotônica significa que, à medida que uma variável aumenta, a outra também aumenta (ou diminui). O coeficiente de Spearman é menos sensível a outliers do que o de Pearson, tornando-o mais robusto em algumas situações.

Vamos considerar o dataset abaixo:

# Criando o dataSet
df_2 <- data.frame(
    Y = c(3011, 1305, 1879, 2654, 2849, 1068, 2892, 2543, 3074, 849, 2184, 2943, 1357, 2755, 2163, 3099, 1600, 353, 1778, 740, 2129, 3302, 2412, 2683, 2515, 2395, 2292, 1000, 600, 1864, 3027, 1978, 2791, 1982, 900, 1964, 1247, 3067, 700, 1500, 3110, 2644, 1378, 2601, 501, 1292, 2125, 1431, 2260, 1770),
    X = c(9714, 3728, 6062, 8845, 8378, 3338, 8507, 7947, 9915, 1632, 6825, 8918, 4100, 9184, 6180, 9997, 4500, 1069, 5925, 2466, 6083, 9712, 7780, 8383, 7185, 7483, 7640, 2100, 2000, 6012, 8902, 5345, 8210, 5662, 2700, 6546, 2900, 9894, 1500, 5000, 8885, 8813, 3446, 7881, 1164, 3401, 6641, 3329, 6648, 4800)
)
head(df)
##                                               
## 1 function (x, df1, df2, ncp, log = FALSE)    
## 2 {                                           
## 3     if (missing(ncp))                       
## 4         .Call(C_df, x, df1, df2, log)       
## 5     else .Call(C_dnf, x, df1, df2, ncp, log)
## 6 }

Verificando a normalidade dos dados:

  1. Para a variavel X temos:
shapiro.test(df_2$X)
## 
##  Shapiro-Wilk normality test
## 
## data:  df_2$X
## W = 0.93986, p-value = 0.01331
  1. Para a variavel y temos:
shapiro.test(df_2$Y)
## 
##  Shapiro-Wilk normality test
## 
## data:  df_2$Y
## W = 0.95319, p-value = 0.04619

Ambos não passaram no teste de shapiro, sendo considerados assim uma distribuição que não segue a tendência de normalidade. Logo podemos fazer o teste de Spearman

# Cálculo do coeficiente de correlação de Spearman
correlacao_spearman <- cor(df_2$X, df_2$Y, 
                           method = "spearman")

# Exibição do resultado
print(correlacao_spearman)
## [1] 0.9830012

Veja que obtivemos uma boa correlação positiva entre estes dois dados de 98% o que indicam que ambos possuem uma boa força relacional.

2.1.3 Correlação Parcial

A correlação parcial é uma medida estatística que avalia a relação entre duas variáveis, levando em consideração o efeito de uma ou mais variáveis de controle. Ela é particularmente útil quando queremos examinar a associação entre duas variáveis controlando o efeito de outras variáveis relevantes. A fórmula para calcular a correlação parcial entre duas variáveis \(X\) e \(Y\), controlando \(Z\), é dada por:

\[\begin{equation} r_{XY\cdot Z} = \frac{r_{XY} - r_{XZ} \cdot r_{YZ}}{\sqrt{(1 - r_{XZ}^2) \cdot (1 - r_{YZ}^2)}} \end{equation}\]

onde \(r_{XY}\) é a correlação entre \(X\) e \(Y\), \(r_{XZ}\) é a correlação entre \(X\) e \(Z\), e \(r_{YZ}\) é a correlação entre \(Y\) e \(Z\).

Suponha que estamos investigando a relação entre a quantidade de horas de estudo (X), o número de horas de sono (Y) e o desempenho acadêmico (Z). Queremos calcular a correlação parcial entre horas de estudo e desempenho acadêmico, controlando o efeito do número de horas de sono.

Exemplo em R:

# Dados de exemplo
horas_estudo <- c(5, 8, 6, 7, 9)
horas_sono <- c(7, 6, 8, 5, 7)
desempenho_academico <- c(80, 92, 75, 88, 95)

# Cálculo da correlação parcial
cor_parcial <- cor(horas_estudo, desempenho_academico,
                   method = "pearson") - 
  cor(horas_sono, desempenho_academico, method = "pearson") * 
  cor(horas_sono, horas_estudo, method = "pearson") / 
  sqrt((1 - cor(horas_sono, desempenho_academico, 
                method = "pearson")^2) * 
         (1 - cor(horas_sono, horas_estudo, method = "pearson")^2))

# Exibição do resultado
print(cor_parcial)
## [1] 0.7001423

Neste exemplo em R, calculamos a correlação parcial entre horas de estudo e desempenho acadêmico, controlando o efeito do número de horas de sono. Utilizamos a função cor() com o método de Pearson para calcular as correlações envolvidas e, em seguida, aplicamos a fórmula da correlação parcial. Este exemplo ilustra a aplicação prática da correlação parcial para entender a relação entre variáveis quando fatores adicionais precisam ser considerados.

2.2 Exercícios

  1. Defina o conceito de correlação e explique como ela quantifica a relação entre duas variáveis. Destaque a diferença entre correlação positiva, negativa e nula.

  2. Explique a diferença entre correlação e causalidade. Utilize exemplos para ilustrar por que uma correlação não implica necessariamente uma relação de causa e efeito.

  3. Suponha que você tenha um coeficiente de correlação de 0,75 entre duas variáveis. Interprete esse valor em termos de força e direção da relação.

  4. Compare e contraste os conceitos de correlação de Pearson e correlação de Spearman. Em que situações cada uma é mais apropriada?

  5. Descreva uma situação prática em que a análise de correlação pode auxiliar na tomada de decisões em um contexto de negócios ou pesquisa. Explique como a correlação é interpretada nesse cenário.

  6. Apresente a fórmula matemática do coeficiente de correlação de Pearson. Explique o significado de cada termo na fórmula.

  7. Qual é o intervalo de valores que o coeficiente de correlação de Pearson pode assumir? Explique como interpretar valores dentro desse intervalo.

  8. Se o coeficiente de correlação de Pearson entre duas variáveis for -0,6, como você interpretaria essa relação em termos de força e direção?

  9. Explique a condição de linearidade associada ao coeficiente de correlação de Pearson. Por que esse coeficiente pode não ser adequado para medir a correlação em relações não-lineares?

  10. Suponha que você está analisando dados financeiros e encontra um coeficiente de correlação de 0,85 entre duas variáveis. Como essa informação pode ser útil na análise financeira?

  11. Explique o conceito de correlação de Spearman e como ela difere do coeficiente de correlação de Pearson. Quando a correlação de Spearman é preferível?

  12. Se o coeficiente de correlação de Spearman entre duas variáveis for 0,75, como você interpretaria essa relação em termos de ordem e força?

  13. Discuta como a correlação de Spearman lida com outliers em comparação com o coeficiente de correlação de Pearson. Qual dos dois é mais robusto em presença de valores atípicos?

  14. Forneça um exemplo prático de situação em que a correlação de Spearman seria mais apropriada do que a correlação de Pearson.

  15. Compare e contrasta as situações em que o coeficiente de correlação de Pearson e o coeficiente de correlação de Spearman seriam mais adequados. Quando você escolheria usar um em vez do outro?

  16. Explique o conceito de correlação parcial. Em que cenários a análise de correlação parcial é valiosa?

  17. Apresente a fórmula matemática para o cálculo da correlação parcial entre duas variáveis, controlando o efeito de uma terceira variável.

  18. Como a correlação parcial ajuda a controlar o efeito de variáveis de confusão em uma análise de correlação?

  19. Suponha que você calculou a correlação parcial entre duas variáveis e obteve um valor de 0,60. Como interpretaria esse resultado em relação à relação entre essas variáveis?

  20. Forneça um exemplo prático de um cenário onde a análise de correlação parcial seria essencial na interpretação dos relacionamentos entre variáveis.