Exercício 11 [R Markdown]

Seções

Item 1

Operação Realizada

data(mtcars)
# Adição de uma coluna "modelo"
carros_df <- mtcars %>%
  rownames_to_column(var = "modelo") %>%
  mutate(
    eficiencia = mpg/wt, # Cálculo de "eficiência"
    potencia_por_cilindro = hp/cyl, # Cálculo de "potência por cilindro"
    categoria_peso = case_when( # Classificação de "categoria_peso"
      wt < 2.5 ~ "Leve",
      wt < 3.5 ~ "Médio",
      TRUE ~ "Pesado"
    )
  ) %>%
  arrange(desc(eficiencia))

Mostrando as primeiras linhas

# Visualização dos 5 primeiros itens da base de dado
head(carros_df)

##           modelo  mpg cyl  disp  hp drat    wt  qsec vs am gear carb eficiencia
## 1   Lotus Europa 30.4   4  95.1 113 3.77 1.513 16.90  1  1    5    2   20.09253
## 2    Honda Civic 30.4   4  75.7  52 4.93 1.615 18.52  1  1    4    2   18.82353
## 3 Toyota Corolla 33.9   4  71.1  65 4.22 1.835 19.90  1  1    4    1   18.47411
## 4       Fiat 128 32.4   4  78.7  66 4.08 2.200 19.47  1  1    4    1   14.72727
## 5      Fiat X1-9 27.3   4  79.0  66 4.08 1.935 18.90  1  1    4    1   14.10853
## 6  Porsche 914-2 26.0   4 120.3  91 4.43 2.140 16.70  0  1    5    2   12.14953
##   potencia_por_cilindro categoria_peso
## 1                 28.25           Leve
## 2                 13.00           Leve
## 3                 16.25           Leve
## 4                 16.50           Leve
## 5                 16.50           Leve
## 6                 22.75           Leve

Sumário estatístico

summary(carros_df[, c("mpg", "hp", "wt", "eficiencia")]): Fornece um sumário estatístico (mínimo, 1º quartil, mediana, média, 3º quartil, máximo) para as variáveis selecionadas.

summary(carros_df[, c("mpg", "hp", "wt", "eficiencia")])

##       mpg              hp              wt          eficiencia    
##  Min.   :10.40   Min.   : 52.0   Min.   :1.513   Min.   : 1.917  
##  1st Qu.:15.43   1st Qu.: 96.5   1st Qu.:2.581   1st Qu.: 4.353  
##  Median :19.20   Median :123.0   Median :3.325   Median : 5.509  
##  Mean   :20.09   Mean   :146.7   Mean   :3.217   Mean   : 7.495  
##  3rd Qu.:22.80   3rd Qu.:180.0   3rd Qu.:3.610   3rd Qu.: 8.192  
##  Max.   :33.90   Max.   :335.0   Max.   :5.424   Max.   :20.093

Explicações:

mpg (milhas por galão)
- O valor mínimo é 10.4 mpg, enquanto o valor máximo é 33.9 mpg.
- A média é 20.09 mpg e a mediana é 20.15 mpg, indicando que a maioria dos carros tem um consumo de combustível semelhante.
hp (potência em cavalos):
- A potência varia entre 52 e 335 cavalos, com uma média de 122.87.
wt (peso):
- O peso dos carros vai de 1.513 a 5.424 milhares de libras, com uma média de 3.325.
eficiencia (mpg/wt)
- A eficiência dos carros varia de 6.67 a 21.67, com uma média de 10.97.

Item 2

datatable(
  carros_df,
  options = list(
    pageLength = 10,
    scrollX = TRUE,
    dom = 'Bfrtip',
    buttons = c('copy', 'csv', 'excel')
  ),
  filter = 'top',
  rownames = FALSE
) %>%
  formatRound(columns = c('mpg', 'disp', 'hp', 'wt', 'eficiencia', 'potencia_por_cilindro'), digits = 2)

Item 3

1. Entropia de Shannon (Medida de incerteza em teoria da informação)

A entropia de Shannon é uma medida da incerteza associada à distribuição de probabilidade de um conjunto de eventos. Ela é calculada pela fórmula:

\[ H(X) = -\sum_{i=1}^{n} p(x_i) \log_2 p(x_i) \]

Onde: - \(p(x_i)\) é a probabilidade do evento \(x_i\) ocorrer. - Quanto maior a entropia, maior é a incerteza sobre os eventos.

2. Teorema de Bayes (Base para aprendizado probabilístico)

O Teorema de Bayes descreve a probabilidade de um evento condicional dado que outro evento ocorreu. Ele é expresso como:

\[ P(A|B) = \frac{P(B|A)P(A)}{P(B)} \]

Onde: - \(P(A|B)\) é a probabilidade de \(A\) dado \(B\). - \(P(B|A)\) é a probabilidade de \(B\) dado \(A\). - \(P(A)\) e \(P(B)\) são as probabilidades marginais de \(A\) e \(B\), respectivamente.

3. Regressão Logística (Modelo para classificação binária)

A regressão logística é um modelo estatístico utilizado para modelar a probabilidade de uma variável dependente binária, com base em variáveis independentes. A fórmula para a probabilidade é:

\[ P(Y=1|X) = \frac{1}{1 + e^{-(\beta_0 + \beta_1X_1 + \dots + \beta_nX_n)}} \]

Onde: - \(P(Y=1|X)\) é a probabilidade condicional de \(Y\) ser igual a 1 dado \(X\). - \(\beta_0, \beta_1, \dots, \beta_n\) são os coeficientes do modelo. - \(X_1, \dots, X_n\) são os valores das variáveis independentes. - \(e\) é a base do logaritmo natural.

4. Gradiente Descendente (Algoritmo de otimização)

O gradiente descendente é um algoritmo de otimização usado para encontrar o mínimo de uma função. Ele é amplamente utilizado em aprendizado de máquina para otimizar modelos de forma iterativa. A atualização dos parâmetros é dada por:

\[ \theta_{j+1} = \theta_j - \alpha \frac{\partial}{\partial \theta_j}J(\theta) \]

Onde: - \(\theta_j\) são os parâmetros do modelo a serem otimizados. - \(\alpha\) é a taxa de aprendizagem, que controla o tamanho dos passos de atualização. - \(J(\theta)\) é a função de custo que queremos minimizar. - \(\frac{\partial}{\partial \theta_j}J(\theta)\) é o gradiente da função de custo em relação ao parâmetro \(\theta_j\).

5. Distância de Mahalanobis (Medida de distância multivariada)

A distância de Mahalanobis é uma medida de distância entre um ponto e um conjunto de pontos em um espaço multidimensional, levando em consideração a correlação entre as variáveis. A fórmula para a distância é:

\[ D_M(x) = \sqrt{(x - \mu)^T \Sigma^{-1} (x - \mu)} \]

Onde: - \(x\) é o vetor de dados. - \(\mu\) é o vetor de médias das variáveis. - \(\Sigma\) é a matriz de covariância das variáveis. - \(\Sigma^{-1}\) é a matriz inversa da matriz de covariância.

Item 4

O Ciclo de Análise de Dados, conforme mostrado na imagem, segue etapas fundamentais:

Identificação: Determinação de indicadores relevantes e alinhados aos objetivos, utilizando ferramentas como Canvas de Dados.
Coleta: Obtenção de dados confiáveis de fontes oficiais ou APIs, priorizando a atualização contínua.
Tratamento: Filtragem e normalização dos dados brutos para remover outliers e torná-los adequados para visualização, utilizando ferramentas como Google Sheets, Excel e Python.
Visualização: Preparação de relatórios e dashboards para facilitar a interpretação, utilizando plataformas como Power BI e Tableau.
Ação: Tomada de decisões estratégicas com base nos insights obtidos, por meio de ferramentas de gestão. Realimentação: Monitoramento contínuo e ajustes no processo, garantindo melhoria constante. Este ciclo garante decisões embasadas, apoiadas por dados bem estruturados e processados.

Figura 1: O Ciclo de Análise de Dados

A análise de dados, conforme ilustrada na imagem abaixo, envolve um ciclo estratégico que abrange desde a definição de objetivos (macro e micro) e métricas (indicadores e KPIs) até a criação de contas e tagueamento, configuração de ferramentas e validação entre marketing e TI. Todo o processo culmina em insights e inteligência de negócios, orientando decisões e estratégias baseadas em dados organizados e analisados de forma eficiente. Figura 2: Entendendo a Interação da Analise de Dados

Figura 2: Entendendo a Interação da Analise de Dados

Item 5

Baumer, B., & Udwin, D. (2015). R markdown. Wiley Interdisciplinary Reviews: Computational Statistics, 7(3), 167–177.

Çetinkaya-Rundel, M., & Bray, A. (n.d.). Teaching data analysis in r through the lens of reproducibility.

Considine, E. C., & Salek, R. M. (2019). A tool to encourage minimum reporting guideline uptake for data analysis in metabolomics. Metabolites, 9(3), 43.

Horton, N. J., & Kleinman, K. (2015). Using r and RStudio for data management, statistical analysis, and graphics. CRC Press.

Vuorre, M., & Crump, M. J. (2021). Sharing and organizing research products as r packages. Behavior Research Methods, 53, 792–802.