Nesta atividade, utilizamos o dataset mtcars (já incluído no R) para demonstrar importação, manipulação e interpretação de resultados. As operações incluem ordenação, filtragem e criação de novas variáveis. Todo o código e as saídas estão descritos abaixo.
library(dplyr) # fornece verbos para manipulação tabular.
data("mtcars") # carrega o conjunto de dados.
# Visão geral do conjunto de dados original
dim(mtcars) # dimensões (linhas x colunas)
## [1] 32 11
head(mtcars, 5) # primeiras linhas
## mpg cyl disp hp drat wt qsec vs am gear carb
## Mazda RX4 21.0 6 160 110 3.90 2.620 16.46 0 1 4 4
## Mazda RX4 Wag 21.0 6 160 110 3.90 2.875 17.02 0 1 4 4
## Datsun 710 22.8 4 108 93 3.85 2.320 18.61 1 1 4 1
## Hornet 4 Drive 21.4 6 258 110 3.08 3.215 19.44 1 0 3 1
## Hornet Sportabout 18.7 8 360 175 3.15 3.440 17.02 0 0 3 2
# dim() e head() permitem inspecionar rapidamente as dimensões e as primeiras linhas.
mtcars_mod <- mtcars %>%
mutate(
# Conversão aproximada de milhas por galão (mpg) para km/l
consumo_km_l = mpg * 0.425,
# Classificação simples da potência (hp)
potencia_cat = ifelse(hp > 150, "Alta", "Baixa")
) %>%
# Exemplo de filtro: veículos com 4 ou mais marchas
filter(gear >= 4) %>%
# Ordena por eficiência de combustível (mpg) em ordem decrescente
arrange(desc(mpg))
# Visualiza o resultado manipulado
dplyr::glimpse(mtcars_mod)
## Rows: 17
## Columns: 13
## $ mpg <dbl> 33.9, 32.4, 30.4, 30.4, 27.3, 26.0, 24.4, 22.8, 22.8, 21.…
## $ cyl <dbl> 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 6, 6, 6, 6, 6, 8, 8
## $ disp <dbl> 71.1, 78.7, 75.7, 95.1, 79.0, 120.3, 146.7, 108.0, 140.8,…
## $ hp <dbl> 65, 66, 52, 113, 66, 91, 62, 93, 95, 109, 110, 110, 175, …
## $ drat <dbl> 4.22, 4.08, 4.93, 3.77, 4.08, 4.43, 3.69, 3.85, 3.92, 4.1…
## $ wt <dbl> 1.835, 2.200, 1.615, 1.513, 1.935, 2.140, 3.190, 2.320, 3…
## $ qsec <dbl> 19.90, 19.47, 18.52, 16.90, 18.90, 16.70, 20.00, 18.61, 2…
## $ vs <dbl> 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 0, 0, 0, 1, 1, 0, 0
## $ am <dbl> 1, 1, 1, 1, 1, 1, 0, 1, 0, 1, 1, 1, 1, 0, 0, 1, 1
## $ gear <dbl> 4, 4, 4, 5, 4, 5, 4, 4, 4, 4, 4, 4, 5, 4, 4, 5, 5
## $ carb <dbl> 1, 1, 2, 2, 1, 2, 2, 1, 2, 2, 4, 4, 6, 4, 4, 4, 8
## $ consumo_km_l <dbl> 14.4075, 13.7700, 12.9200, 12.9200, 11.6025, 11.0500, 10.…
## $ potencia_cat <chr> "Baixa", "Baixa", "Baixa", "Baixa", "Baixa", "Baixa", "Ba…
resumo <- mtcars_mod %>%
summarise(
qtd = n(),
media_mpg = mean(mpg, na.rm = TRUE),
media_km_l = mean(consumo_km_l, na.rm = TRUE),
media_hp = mean(hp, na.rm = TRUE)
)
resumo
## qtd media_mpg media_km_l media_hp
## 1 17 23.60588 10.0325 120.7059
#Interpretação:
#qtd = quantidade de veículos após o filtro.
#media_mpg, media_km_l, media_hp resumem o perfil médio dos selecionados.
library(DT)
datatable(
mtcars_mod,
options = list(pageLength = 5, autoWidth = TRUE),
caption = "Tabela interativa dos carros após manipulação (mtcars_mod)"
)
#Equação 1: Regressão Linear Múltipla
A Regressão Linear Múltipla é uma das ferramentas estatísticas e de Machine Learning mais fundamentais na Ciência de Dados. Ela busca modelar a relação linear entre uma variável dependente (resposta) e duas ou mais variáveis independentes (preditoras).
A equação que representa este modelo é:
\[ Y_i = \beta_0 + \sum_{j=1}^{p} \beta_j X_{ij} + \epsilon_i \]
| Símbolo | Nome | Descrição e Interpretação |
|---|---|---|
| \(Y_i\) | Variável Dependente (ou Resposta) | É o valor da variável que o modelo tenta prever ou explicar para a \(i\)-ésima observação. Deve ser uma variável contínua (numérica). |
| \(\beta_0\) | Coeficiente Linear (ou Intercepto) | Representa o valor esperado de \(Y_i\) quando todas as variáveis preditoras (\(X_{ij}\)) são iguais a zero. É o ponto onde o hiperplano de regressão cruza o eixo \(Y\). |
| \(X_{ij}\) | Variável Independente (ou Preditora) | É o valor da \(j\)-ésima variável preditora para a \(i\)-ésima observação. São as variáveis usadas para prever o \(Y\). |
| \(\beta_j\) | Coeficiente de Regressão (ou Inclinação) | É a mudança esperada em \(Y\) para cada aumento de uma unidade em \(X_j\), mantendo todas as outras variáveis \(X\) constantes (ceteris paribus). |
| \(\sum_{j=1}^{p} \beta_j X_{ij}\) | Soma Ponderada | Representa o efeito combinado e linear de todas as \(p\) variáveis preditoras sobre \(Y\). |
| \(\epsilon_i\) | Termo de Erro (ou Resíduo) | Representa a variação em \(Y_i\) que não é explicada pelo modelo. Inclui o erro aleatório de medição ou os efeitos de variáveis omitidas. |
O objetivo da Regressão Linear Múltipla é encontrar os valores dos coeficientes (\(\beta_0, \beta_1, \beta_2, \dots, \beta_p\)) que minimizam a soma dos quadrados dos erros (resíduos) — o método conhecido como Mínimos Quadrados. Ao fazer isso, o modelo ajusta um “hiperplano” (uma linha ou plano no espaço multidimensional) que melhor se encaixa aos dados observados, permitindo tanto a inferência (entender a relação) quanto a predição de novos valores de \(Y\).
#Equação 2: O Teorema de Bayes
\[P(A|B) = \frac{P(B|A) P(A)}{P(B)} \]Significado: O Teorema de Bayes é a base da Inferência Bayesiana. Ele calcula a probabilidade condicional \(P(A|B)\) (a probabilidade de A dado B), atualizando a probabilidade a priori \(P(A)\) com base em novas evidências \(P(B|A)\).
#Equação 3: Desvio Padrão Populacional
\[\sigma = \sqrt{\frac{1}{N} \sum\_{i=1}^{N} (x\_i - \mu)^2} \]Significado: \(\sigma\) (sigma) representa o Desvio Padrão da população. Ele mede a dispersão de um conjunto de valores em torno da média (\(\mu\)). \(N\) é o tamanho da população, e \(x_i\) são os valores individuais.
#Equação 4: Função de Perda (Loss Function) em Machine Learning
\[J(\theta) = \frac{1}{2m} \sum_{i=1}^{m} (h_\theta(x^{(i)}) - y^{(i)})^2\]Significado: Esta é a Função de Custo Quadrática Média (MSE), comumente usada em problemas de regressão. \(J(\theta)\) é a função que se deseja minimizar. \(h_\theta(x^{(i)})\) é o valor predito pelo modelo (com parâmetros \(\theta\)), e \(y^{(i)}\) é o valor real. \(m\) é o número de amostras.
#Equação 5: Z-Score (Escore Padronizado)
\[ Z = \frac{x - \mu}{\sigma} \]
Significado: O Z-Score mede o número de desvios-padrão (\(\sigma\)) que um ponto de dado (\(x\)) está afastado da média (\(\mu\)). É usado para padronizar (escalar) variáveis, o que é um passo crucial no pré-processamento de dados para muitos algoritmos de Machine Learning (como K-Means ou Regressão Logística), pois garante que todas as variáveis contribuam igualmente para a análise.
#Figura 1: Um lonk de imagem de um site de Ciências de Dados
knitr::include_graphics(https://assets.dio.me/8uFL_VpTIemALa3Ytrnw4pUkWy74wOrr7uLKUW3CfLQ/f:webp/q:80/L2FydGljbGVzL2NvdmVyL2ViMmFhNWIxLTg4YzYtNDNhMC1iMmI3LThmMWYwMDk2NGQwZC5qcGc)
#Figura 2: Uma imagem linkada de um site de Ciências de Dados
knitr::include_graphics(https://assets.dio.me/8uFL_VpTIemALa3Ytrnw4pUkWy74wOrr7uLKUW3CfLQ/f:webp/q:80/L2FydGljbGVzL2NvdmVyL2ViMmFhNWIxLTg4YzYtNDNhMC1iMmI3LThmMWYwMDk2NGQwZC5qcGc)
#📚Referências Bibliográficas