Este capítulo fornecerá uma base sólida para estudantes iniciantes em Matemática, Estatística e programação em R, preparando-os para uma compreensão abrangente de conceitos essenciais em Ciência de Dados.
Você começará sua jornada revisando conceitos fundamentais, como a definição de Estatística e sua relevância na Ciência de Dados, além de explorar aspectos cruciais da probabilidade e revisar noções básicas de álgebra linear. No âmbito da Estatística, aprofundaremos nosso conhecimento em Correlação, examinando tipos e aplicações, e detalharemos os coeficientes de Correlação de Pearson e Spearman, bem como a Correlação Parcial.
Ao avançar para a Regressão Linear, você explorará conceitos introdutórios, a diferença entre correlação e regressão, e a formulação matemática do modelo. O Método dos Mínimos Quadrados será discutido em detalhes, proporcionando uma compreensão abrangente dos resíduos e diagnósticos associados.
A Regressão Linear Múltipla expandirá seus horizontes para modelos com múltiplas variáveis, abordando formulação, coeficientes parciais e diagnósticos importantes, como colinearidade e testes de significância.
Você explorará a Regressão Polinomial, incluindo sua introdução, formulação, limitações e a implementação prática em R. A visualização de modelos polinomiais e a avaliação de desempenho também serão destacadas.
Na introdução à Regressão Logística, exploraremos fundamentos teóricos, aplicações em classificação e a interpretação dos coeficientes. A avaliação de modelos logísticos será abordada por meio de conceitos como matriz de confusão e curva ROC.
Concluiremos com a análise de resíduos em Regressão Polinomial e Logística, destacando a importância dessa análise na validação do modelo. Abordaremos também técnicas de validação não linear, como cross-validation e bootstrap.
A correlação é uma medida estatística que descreve a relação linear entre duas variáveis. Essa medida quantifica a direção e a força dessa relação. O coeficiente de correlação varia de -1 a 1, onde -1 indica uma correlação negativa perfeita, 1 indica uma correlação positiva perfeita, e 0 indica ausência de correlação.
A fórmula para o coeficiente de correlação de Pearson (\(r\)) entre duas variáveis \(X\) e \(Y\) é dada por:
\[\begin{equation} r = \frac{\sum_{i=1}^{n}(X_i - \bar{X})(Y_i - \bar{Y})}{\sqrt{\sum_{i=1}^{n}(X_i - \bar{X})^2 \sum_{i=1}^{n}(Y_i - \bar{Y})^2}} \end{equation}\]
Correlação Positiva: Quando o aumento em uma variável está associado ao aumento na outra variável. O coeficiente de correlação é próximo de 1.
Correlação Negativa: Quando o aumento em uma variável está associado à diminuição na outra variável. O coeficiente de correlação é próximo de -1.
Correlação Nula: Quando não há relação linear aparente entre as variáveis. O coeficiente de correlação é próximo de 0.
O coeficiente de correlação de Pearson (\(r\)) mede a força e a direção de uma relação linear entre duas variáveis. A fórmula para calcular \(r\) entre duas variáveis \(X\) e \(Y\) é:
\[ r = \frac{\sum_{i=1}^{n}(X_i - \bar{X})(Y_i - \bar{Y})}{\sqrt{\sum_{i=1}^{n}(X_i - \bar{X})^2 \sum_{i=1}^{n}(Y_i - \bar{Y})^2}} \]
onde \(\bar{X}\) e \(\bar{Y}\) são as médias de \(X\) e \(Y\), respectivamente.
O valor absoluto de \(r\) indica a força da correlação, sendo 0 para nenhuma correlação e 1 para correlação perfeita.
Esta correlação deve ser utilizada para dados que apresentam uma distribuição que segue uma distribuição normal. Vamos considerar dois conjuntos de dados, X e Y, e calcular o coeficiente de correlação de Pearson entre eles.
set.seed(123)
# Criando o dataSet
X = rnorm(n=100, mean=2450, sd=13)
Y = 1.65*X^2 - X*round(runif(n=1, min=500, max=1500))
df_normal <- data.frame(X,Y)
head(df_normal)
## X Y
## 1 2442.714 8040138
## 2 2447.008 8071608
## 3 2470.263 8243106
## 4 2450.917 8100310
## 5 2451.681 8105926
## 6 2472.296 8258180
Verificando a normalidade dos dados:
shapiro.test(df_normal$X)
##
## Shapiro-Wilk normality test
##
## data: df_normal$X
## W = 0.99388, p-value = 0.9349
shapiro.test(df_normal$Y)
##
## Shapiro-Wilk normality test
##
## data: df_normal$Y
## W = 0.99374, p-value = 0.9283
Ambos passaram no teste de shapiro, sendo considerados assim uma distribuição que segue a tendência de normalidade. Logo podemos fazer o teste de Pearson.
# Cálculo do coeficiente de correlação
correlacao <- cor(df_normal$X, df_normal$Y, method = 'pearson')
# Exibição do resultado
print(correlacao)
## [1] 0.9999936
Veja que obtivemos uma correlação positiva muito boa de 99% entre as duas variáveis.
O coeficiente de correlação de Spearman (\(\rho\)) é uma medida não paramétrica que avalia a relação monotônica entre duas variáveis. Ele é especialmente útil quando os dados não seguem uma distribuição normal ou quando a relação entre as variáveis não é linear. Aplicações comuns incluem classificações, ranqueamentos e dados ordinais.
Enquanto o coeficiente de correlação de Pearson avalia a correlação linear, o coeficiente de Spearman avalia a correlação monotônica. Correlação monotônica significa que, à medida que uma variável aumenta, a outra também aumenta (ou diminui). O coeficiente de Spearman é menos sensível a outliers do que o de Pearson, tornando-o mais robusto em algumas situações.
Vamos considerar o dataset abaixo:
# Criando o dataSet
df_2 <- data.frame(
Y = c(3011, 1305, 1879, 2654, 2849, 1068, 2892, 2543, 3074, 849, 2184, 2943, 1357, 2755, 2163, 3099, 1600, 353, 1778, 740, 2129, 3302, 2412, 2683, 2515, 2395, 2292, 1000, 600, 1864, 3027, 1978, 2791, 1982, 900, 1964, 1247, 3067, 700, 1500, 3110, 2644, 1378, 2601, 501, 1292, 2125, 1431, 2260, 1770),
X = c(9714, 3728, 6062, 8845, 8378, 3338, 8507, 7947, 9915, 1632, 6825, 8918, 4100, 9184, 6180, 9997, 4500, 1069, 5925, 2466, 6083, 9712, 7780, 8383, 7185, 7483, 7640, 2100, 2000, 6012, 8902, 5345, 8210, 5662, 2700, 6546, 2900, 9894, 1500, 5000, 8885, 8813, 3446, 7881, 1164, 3401, 6641, 3329, 6648, 4800)
)
head(df)
##
## 1 function (x, df1, df2, ncp, log = FALSE)
## 2 {
## 3 if (missing(ncp))
## 4 .Call(C_df, x, df1, df2, log)
## 5 else .Call(C_dnf, x, df1, df2, ncp, log)
## 6 }
Verificando a normalidade dos dados:
shapiro.test(df_2$X)
##
## Shapiro-Wilk normality test
##
## data: df_2$X
## W = 0.93986, p-value = 0.01331
shapiro.test(df_2$Y)
##
## Shapiro-Wilk normality test
##
## data: df_2$Y
## W = 0.95319, p-value = 0.04619
Ambos não passaram no teste de shapiro, sendo considerados assim uma distribuição que não segue a tendência de normalidade. Logo podemos fazer o teste de Spearman
# Cálculo do coeficiente de correlação de Spearman
correlacao_spearman <- cor(df_2$X, df_2$Y,
method = "spearman")
# Exibição do resultado
print(correlacao_spearman)
## [1] 0.9830012
Veja que obtivemos uma boa correlação positiva entre estes dois dados de 98% o que indicam que ambos possuem uma boa força relacional.
A correlação parcial é uma medida estatística que avalia a relação entre duas variáveis, levando em consideração o efeito de uma ou mais variáveis de controle. Ela é particularmente útil quando queremos examinar a associação entre duas variáveis controlando o efeito de outras variáveis relevantes. A fórmula para calcular a correlação parcial entre duas variáveis \(X\) e \(Y\), controlando \(Z\), é dada por:
\[\begin{equation} r_{XY\cdot Z} = \frac{r_{XY} - r_{XZ} \cdot r_{YZ}}{\sqrt{(1 - r_{XZ}^2) \cdot (1 - r_{YZ}^2)}} \end{equation}\]
onde \(r_{XY}\) é a correlação entre \(X\) e \(Y\), \(r_{XZ}\) é a correlação entre \(X\) e \(Z\), e \(r_{YZ}\) é a correlação entre \(Y\) e \(Z\).
Suponha que estamos investigando a relação entre a quantidade de horas de estudo (X), o número de horas de sono (Y) e o desempenho acadêmico (Z). Queremos calcular a correlação parcial entre horas de estudo e desempenho acadêmico, controlando o efeito do número de horas de sono.
Exemplo em R:
# Dados de exemplo
horas_estudo <- c(5, 8, 6, 7, 9)
horas_sono <- c(7, 6, 8, 5, 7)
desempenho_academico <- c(80, 92, 75, 88, 95)
# Cálculo da correlação parcial
cor_parcial <- cor(horas_estudo, desempenho_academico,
method = "pearson") -
cor(horas_sono, desempenho_academico, method = "pearson") *
cor(horas_sono, horas_estudo, method = "pearson") /
sqrt((1 - cor(horas_sono, desempenho_academico,
method = "pearson")^2) *
(1 - cor(horas_sono, horas_estudo, method = "pearson")^2))
# Exibição do resultado
print(cor_parcial)
## [1] 0.7001423
Neste exemplo em R, calculamos a correlação parcial entre horas de
estudo e desempenho acadêmico, controlando o efeito do número de horas
de sono. Utilizamos a função cor() com o método de Pearson
para calcular as correlações envolvidas e, em seguida, aplicamos a
fórmula da correlação parcial. Este exemplo ilustra a aplicação prática
da correlação parcial para entender a relação entre variáveis quando
fatores adicionais precisam ser considerados.
Defina o conceito de correlação e explique como ela quantifica a relação entre duas variáveis. Destaque a diferença entre correlação positiva, negativa e nula.
Explique a diferença entre correlação e causalidade. Utilize exemplos para ilustrar por que uma correlação não implica necessariamente uma relação de causa e efeito.
Suponha que você tenha um coeficiente de correlação de 0,75 entre duas variáveis. Interprete esse valor em termos de força e direção da relação.
Compare e contraste os conceitos de correlação de Pearson e correlação de Spearman. Em que situações cada uma é mais apropriada?
Descreva uma situação prática em que a análise de correlação pode auxiliar na tomada de decisões em um contexto de negócios ou pesquisa. Explique como a correlação é interpretada nesse cenário.
Apresente a fórmula matemática do coeficiente de correlação de Pearson. Explique o significado de cada termo na fórmula.
Qual é o intervalo de valores que o coeficiente de correlação de Pearson pode assumir? Explique como interpretar valores dentro desse intervalo.
Se o coeficiente de correlação de Pearson entre duas variáveis for -0,6, como você interpretaria essa relação em termos de força e direção?
Explique a condição de linearidade associada ao coeficiente de correlação de Pearson. Por que esse coeficiente pode não ser adequado para medir a correlação em relações não-lineares?
Suponha que você está analisando dados financeiros e encontra um coeficiente de correlação de 0,85 entre duas variáveis. Como essa informação pode ser útil na análise financeira?
Explique o conceito de correlação de Spearman e como ela difere do coeficiente de correlação de Pearson. Quando a correlação de Spearman é preferível?
Se o coeficiente de correlação de Spearman entre duas variáveis for 0,75, como você interpretaria essa relação em termos de ordem e força?
Discuta como a correlação de Spearman lida com outliers em comparação com o coeficiente de correlação de Pearson. Qual dos dois é mais robusto em presença de valores atípicos?
Forneça um exemplo prático de situação em que a correlação de Spearman seria mais apropriada do que a correlação de Pearson.
Compare e contrasta as situações em que o coeficiente de correlação de Pearson e o coeficiente de correlação de Spearman seriam mais adequados. Quando você escolheria usar um em vez do outro?
Explique o conceito de correlação parcial. Em que cenários a análise de correlação parcial é valiosa?
Apresente a fórmula matemática para o cálculo da correlação parcial entre duas variáveis, controlando o efeito de uma terceira variável.
Como a correlação parcial ajuda a controlar o efeito de variáveis de confusão em uma análise de correlação?
Suponha que você calculou a correlação parcial entre duas variáveis e obteve um valor de 0,60. Como interpretaria esse resultado em relação à relação entre essas variáveis?
Forneça um exemplo prático de um cenário onde a análise de correlação parcial seria essencial na interpretação dos relacionamentos entre variáveis.