1 Relatório da Atividade

2 Tabelas e funcionalidade

2.1 1) Sobre

Nesta atividade, utilizamos o dataset mtcars (já incluído no R) para demonstrar importação, manipulação e interpretação de resultados. As operações incluem ordenação, filtragem e criação de novas variáveis. Todo o código e as saídas estão descritos abaixo.

2.2 1.1 Carregar pacotes e dados

2.2.1 2.2 Utilize o pacote DT para criar uma tabela interativa

library(dplyr)   # fornece verbos para manipulação tabular.
data("mtcars")   # carrega o conjunto de dados.

# Visão geral do conjunto de dados original
dim(mtcars)     # dimensões (linhas x colunas)
## [1] 32 11
head(mtcars, 5) # primeiras linhas
##                    mpg cyl disp  hp drat    wt  qsec vs am gear carb
## Mazda RX4         21.0   6  160 110 3.90 2.620 16.46  0  1    4    4
## Mazda RX4 Wag     21.0   6  160 110 3.90 2.875 17.02  0  1    4    4
## Datsun 710        22.8   4  108  93 3.85 2.320 18.61  1  1    4    1
## Hornet 4 Drive    21.4   6  258 110 3.08 3.215 19.44  1  0    3    1
## Hornet Sportabout 18.7   8  360 175 3.15 3.440 17.02  0  0    3    2
# dim() e head() permitem inspecionar rapidamente as dimensões e as primeiras linhas.

mtcars_mod <- mtcars %>%
mutate(
# Conversão aproximada de milhas por galão (mpg) para km/l
consumo_km_l = mpg * 0.425,
# Classificação simples da potência (hp)
potencia_cat = ifelse(hp > 150, "Alta", "Baixa")
) %>%

# Exemplo de filtro: veículos com 4 ou mais marchas

filter(gear >= 4) %>%

# Ordena por eficiência de combustível (mpg) em ordem decrescente

arrange(desc(mpg))

# Visualiza o resultado manipulado

dplyr::glimpse(mtcars_mod)
## Rows: 17
## Columns: 13
## $ mpg          <dbl> 33.9, 32.4, 30.4, 30.4, 27.3, 26.0, 24.4, 22.8, 22.8, 21.…
## $ cyl          <dbl> 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 6, 6, 6, 6, 6, 8, 8
## $ disp         <dbl> 71.1, 78.7, 75.7, 95.1, 79.0, 120.3, 146.7, 108.0, 140.8,…
## $ hp           <dbl> 65, 66, 52, 113, 66, 91, 62, 93, 95, 109, 110, 110, 175, …
## $ drat         <dbl> 4.22, 4.08, 4.93, 3.77, 4.08, 4.43, 3.69, 3.85, 3.92, 4.1…
## $ wt           <dbl> 1.835, 2.200, 1.615, 1.513, 1.935, 2.140, 3.190, 2.320, 3…
## $ qsec         <dbl> 19.90, 19.47, 18.52, 16.90, 18.90, 16.70, 20.00, 18.61, 2…
## $ vs           <dbl> 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 0, 0, 0, 1, 1, 0, 0
## $ am           <dbl> 1, 1, 1, 1, 1, 1, 0, 1, 0, 1, 1, 1, 1, 0, 0, 1, 1
## $ gear         <dbl> 4, 4, 4, 5, 4, 5, 4, 4, 4, 4, 4, 4, 5, 4, 4, 5, 5
## $ carb         <dbl> 1, 1, 2, 2, 1, 2, 2, 1, 2, 2, 4, 4, 6, 4, 4, 4, 8
## $ consumo_km_l <dbl> 14.4075, 13.7700, 12.9200, 12.9200, 11.6025, 11.0500, 10.…
## $ potencia_cat <chr> "Baixa", "Baixa", "Baixa", "Baixa", "Baixa", "Baixa", "Ba…
resumo <- mtcars_mod %>%
summarise(
qtd        = n(),
media_mpg  = mean(mpg, na.rm = TRUE),
media_km_l = mean(consumo_km_l, na.rm = TRUE),
media_hp   = mean(hp, na.rm = TRUE)
)
resumo
##   qtd media_mpg media_km_l media_hp
## 1  17  23.60588    10.0325 120.7059
#Interpretação:

#qtd = quantidade de veículos após o filtro.

#media_mpg, media_km_l, media_hp resumem o perfil médio dos selecionados.



library(DT)
datatable(
mtcars_mod,
options = list(pageLength = 5, autoWidth = TRUE),
caption = "Tabela interativa dos carros após manipulação (mtcars_mod)"
)

2.3 Equações

#Equação 1: Regressão Linear Múltipla

A Regressão Linear Múltipla é uma das ferramentas estatísticas e de Machine Learning mais fundamentais na Ciência de Dados. Ela busca modelar a relação linear entre uma variável dependente (resposta) e duas ou mais variáveis independentes (preditoras).

A equação que representa este modelo é:

\[ Y_i = \beta_0 + \sum_{j=1}^{p} \beta_j X_{ij} + \epsilon_i \]

2.3.1 🔍 Componentes e Significado

Símbolo Nome Descrição e Interpretação
\(Y_i\) Variável Dependente (ou Resposta) É o valor da variável que o modelo tenta prever ou explicar para a \(i\)-ésima observação. Deve ser uma variável contínua (numérica).
\(\beta_0\) Coeficiente Linear (ou Intercepto) Representa o valor esperado de \(Y_i\) quando todas as variáveis preditoras (\(X_{ij}\)) são iguais a zero. É o ponto onde o hiperplano de regressão cruza o eixo \(Y\).
\(X_{ij}\) Variável Independente (ou Preditora) É o valor da \(j\)-ésima variável preditora para a \(i\)-ésima observação. São as variáveis usadas para prever o \(Y\).
\(\beta_j\) Coeficiente de Regressão (ou Inclinação) É a mudança esperada em \(Y\) para cada aumento de uma unidade em \(X_j\), mantendo todas as outras variáveis \(X\) constantes (ceteris paribus).
\(\sum_{j=1}^{p} \beta_j X_{ij}\) Soma Ponderada Representa o efeito combinado e linear de todas as \(p\) variáveis preditoras sobre \(Y\).
\(\epsilon_i\) Termo de Erro (ou Resíduo) Representa a variação em \(Y_i\) que não é explicada pelo modelo. Inclui o erro aleatório de medição ou os efeitos de variáveis omitidas.

2.3.2 Objetivo Principal

O objetivo da Regressão Linear Múltipla é encontrar os valores dos coeficientes (\(\beta_0, \beta_1, \beta_2, \dots, \beta_p\)) que minimizam a soma dos quadrados dos erros (resíduos) — o método conhecido como Mínimos Quadrados. Ao fazer isso, o modelo ajusta um “hiperplano” (uma linha ou plano no espaço multidimensional) que melhor se encaixa aos dados observados, permitindo tanto a inferência (entender a relação) quanto a predição de novos valores de \(Y\).

#Equação 2: O Teorema de Bayes

\[P(A|B) = \frac{P(B|A) P(A)}{P(B)} \]Significado: O Teorema de Bayes é a base da Inferência Bayesiana. Ele calcula a probabilidade condicional \(P(A|B)\) (a probabilidade de A dado B), atualizando a probabilidade a priori \(P(A)\) com base em novas evidências \(P(B|A)\).

#Equação 3: Desvio Padrão Populacional

\[\sigma = \sqrt{\frac{1}{N} \sum\_{i=1}^{N} (x\_i - \mu)^2} \]Significado: \(\sigma\) (sigma) representa o Desvio Padrão da população. Ele mede a dispersão de um conjunto de valores em torno da média (\(\mu\)). \(N\) é o tamanho da população, e \(x_i\) são os valores individuais.

#Equação 4: Função de Perda (Loss Function) em Machine Learning

\[J(\theta) = \frac{1}{2m} \sum_{i=1}^{m} (h_\theta(x^{(i)}) - y^{(i)})^2\]Significado: Esta é a Função de Custo Quadrática Média (MSE), comumente usada em problemas de regressão. \(J(\theta)\) é a função que se deseja minimizar. \(h_\theta(x^{(i)})\) é o valor predito pelo modelo (com parâmetros \(\theta\)), e \(y^{(i)}\) é o valor real. \(m\) é o número de amostras.

#Equação 5: Z-Score (Escore Padronizado)

\[ Z = \frac{x - \mu}{\sigma} \]

Significado: O Z-Score mede o número de desvios-padrão (\(\sigma\)) que um ponto de dado (\(x\)) está afastado da média (\(\mu\)). É usado para padronizar (escalar) variáveis, o que é um passo crucial no pré-processamento de dados para muitos algoritmos de Machine Learning (como K-Means ou Regressão Logística), pois garante que todas as variáveis contribuam igualmente para a análise.


2.5 Bibliografia

#📚Referências Bibliográficas

  1. Wickham, H., & Grolemund, G. (2017). R for Data Science: Import, Tidy, Transform, Visualize, and Model Data. O’Reilly Media.
    • (Clássico para o uso eficiente do R e do ecossistema tidyverse, essencial para as técnicas de manipulação e visualização de dados utilizadas no Item 1 deste relatório).
  2. James, G., Witten, D., Hastie, T., & Tibshirani, R. (2013). An Introduction to Statistical Learning: with Applications in R. Springer.
    • (Um recurso padrão e acessível para o aprendizado de Machine Learning e modelagem estatística, abordando conceitos como a regressão múltipla).
  3. Hastie, T., Tibshirani, R., & Friedman, J. (2009). The Elements of Statistical Learning: Data Mining, Inference, and Prediction. Springer.
    • (Considerado a “Bíblia” do Machine Learning, cobrindo profundamente os fundamentos teóricos de modelos preditivos).
  4. McKinney, W. (2017). Python for Data Analysis: Data Wrangling with Pandas, NumPy, and IPython. O’Reilly Media.
    • (Embora focado em Python, este livro é uma referência crucial para as metodologias de limpeza, transformação e agregação de dados, princípios universais na Ciência de Dados).
  5. Tukey, J. W. (1977). Exploratory Data Analysis. Addison-Wesley.
    • (Obra seminal que estabeleceu os fundamentos da Análise Exploratória de Dados (EDA), um passo inicial e vital em qualquer projeto de ciência de dados).