Exercício 11

Este relatório está dividido em abas, cada uma correspondendo a um item da atividade.

1. Processamento de dados

Vamos utilizar o dataset já presente no R mtcars, vamos carregá-los, filtrar pelo número de cinlindros (> 6), criar uma nova variável kg_por_hp e ordenar pela mesma.

dados_processados <- mtcars %>%
filter(cyl >= 6) %>%
  mutate(
    # "wt" está em "1000 lbs", vamos converter para kg
    peso_kg = wt * 1000 * 0.453592,

    # Vamos criar uma Relação de quilos por cavalo (hp)
    kg_por_hp = round(peso_kg / hp, 2)
  ) %>%
  # Ordenar pela nova variável (do mais eficiente para o menos)
  arrange(kg_por_hp)

2. Tabela interativa

Aqui temos a tabela com os dados processados anteriormente, com opções de pesquisa e ordenação, além de paginação da tabela.


3. Equações

Abaixo estão cinco equações complexas formatadas usando LaTeX, com seus significados.

1. Custo da Regressão Ridge

\[J_\text{ridge} = \sum^n_{i=1}(y_i-\hat{y}_i)^2+\lambda\sum^P_{j=1}\beta^2_j\]

Esta é a função de custo da Regressão Ridge. O objetivo do modelo é encontrar os coeficientes (\(\beta\)) que minimizam esse custo. Ela é composta por duas partes:

  1. Soma dos Erros Quadráticos (SEQ): \(\sum^n_{i=1}(y_i-\hat{y}_i)^2\). Esta é a medida padrão de “erro” da regressão, que calcula a diferença entre os valores reais e os previstos.
  2. Penalidade L2 (Termo Ridge): \(\lambda\sum^P_{j=1}\beta^2_j\). Esta é a penalidade de regularização. Ela adiciona um “custo” proporcional à soma dos quadrados dos coeficientes. Isso desencoraja o modelo de ter coeficientes muito grandes, “encolhendo-os” e ajudando a prevenir o overfitting.

Variáveis

  • \(J_\text{ridge}\): O valor final da função de custo que o modelo tenta minimizar.
  • \(n\): O número total de observações (amostras ou linhas) no seu conjunto de dados.
  • \(y_i\): O valor real (observado) da \(i\)-ésima observação.
  • \(\hat{y}_i\): O valor que o modelo previu para a \(i\)-ésima observação.
  • \(\lambda\) (Lambda): O hiperparâmetro de regularização. É um número (que você define) que controla a força da penalidade.
    • Se \(\lambda=0\), a penalidade desaparece e o modelo se torna uma regressão linear simples.
    • Quanto maior o \(\lambda\), mais forte a penalidade e mais os coeficientes são “encolhidos”.
  • \(P\): O número total de features (preditores ou colunas) no seu modelo.
  • \(\beta_j\) (Beta): O coeficiente (ou peso) associado à \(j\)-ésima feature.

2. Custo da Regressão Lasso

\[J_\text{lasso} = \sum^n_{i=1}(y_i-\hat{y}_i)^2+\lambda\sum^P_{j=1}|\beta_j|\] Esta é a função de custo da Regressão Lasso (Least Absolute Shrinkage and Selection Operator). Assim como a Ridge, ela busca minimizar o erro mais uma penalidade:

  1. Soma dos Erros Quadráticos (SEQ): \(\sum^n_{i=1}(y_i-\hat{y}_i)^2\). A medida de erro, idêntica à da Ridge.
  2. Penalidade L1 (Termo Lasso): \(\lambda\sum^P_{j=1}|\beta_j|\). Esta é a penalidade de regularização L1. Ela adiciona um “custo” proporcional à soma dos valores absolutos dos coeficientes. A grande diferença da L1 é que ela pode forçar os coeficientes de features menos importantes a se tornarem exatamente zero, realizando assim uma seleção automática de features.

Variáveis

  • \(J_\text{lasso}\): O valor final da função de custo do modelo Lasso.
  • \(n\): O número total de observações.
  • \(y_i\): O valor real da \(i\)-ésima observação.
  • \(\hat{y}_i\): O valor previsto para a \(i\)-ésima observação.
  • \(\lambda\) (Lambda): O hiperparâmetro que controla a força da penalidade L1.
  • \(P\): O número total de features.
  • \(|\beta_j|\): O valor absoluto do coeficiente associado à \(j\)-ésima feature.

3. Custo do Elastic Net

\[ J*\text{E-Net} = \sum^n*{i=1}(y*i-\hat{y}\_i)^2+\lambda\left[ (1-\alpha)\sum^P*{j=1}\beta^2*j+\alpha\sum^P*{j=1}|\beta_j| \right] \]

Esta é a função de custo do Elastic Net. Ele é simplesmente uma combinação das regressões Ridge e Lasso, pegando o melhor dos dois mundos. Sua função de custo inclui o erro e uma penalidade que é uma mistura ponderada das penalidades L1 e L2.

  1. Soma dos Erros Quadráticos (SEQ): \(\sum^n_{i=1}(y_i-\hat{y}_i)^2\). A medida de erro.
  2. Penalidade Combinada: \(\lambda[\dots]\). O Elastic Net tem dois hiperparâmetros para controlar a penalidade.
    • O termo \(\alpha\) (alpha) controla a mistura entre L1 (Lasso) e L2 (Ridge).
    • O termo \(\lambda\) (lambda) controla a força total da penalidade combinada.

Variáveis

  • \(J_\text{E-Net}\): O valor final da função de custo do modelo Elastic Net.
  • \(n\): O número total de observações.
  • \(y_i\): O valor real da \(i\)-ésima observação.
  • \(\hat{y}_i\): O valor previsto para a \(i\)-ésima observação.
  • \(\lambda\) (Lambda): O hiperparâmetro que controla a força geral da regularização (tanto L1 quanto L2).
  • \(\alpha\) (Alpha): O hiperparâmetro de mistura. É um valor entre 0 e 1.
    • Se \(\alpha=0\), o termo L1 desaparece e o modelo se torna 100% Ridge.
    • Se \(\alpha=1\), o termo L2 desaparece e o modelo se torna 100% Lasso.
    • Se \(0 < \alpha < 1\) (ex: \(\alpha=0.5\)), o modelo é uma mistura de ambos.
  • \(P\): O número total de features.
  • \(\beta_j\): O coeficiente associado à \(j\)-ésima feature.

4. Distribuição do Período Ocupado (Fila M/M/1)

\[ f(x) = \begin{cases} \frac{1}{t\sqrt{\rho}}e^{-(\lambda+\mu)^t}I_1(2t\sqrt{\lambda\mu}) & t > 0 \\ 0 & \text{caso contrário} \end{cases} \]

Esta é a Função de Densidade de Probabilidade (PDF) para a duração de um “período ocupado” em um sistema de fila M/M/1.

  • Contexto (Fila M/M/1): Refere-se a um sistema de fila simples com um único servidor (ex: um caixa), onde as chegadas de clientes seguem um processo de Poisson (M) e os tempos de atendimento seguem uma distribuição Exponencial (M).
  • Período Ocupado: É o período de tempo contínuo durante o qual o servidor está ocupado. Começa quando um cliente chega a um sistema vazio e termina quando o servidor fica vazio novamente (podendo ter atendido múltiplos clientes nesse meio tempo).
  • A Fórmula: Descreve a probabilidade de um período ocupado ter uma duração específica \(t\). É uma equação complexa que resulta da solução de processos estocásticos e envolve uma Função de Bessel Modificada (\(I_1\)).

Variáveis

  • \(f(t)\): A função de densidade de probabilidade da duração do período ocupado.
  • \(t\): A variável de interesse, representando o tempo (com \(t > 0\)).
  • \(\lambda\) (Lambda): A “taxa de chegada” média (ex: quantos clientes chegam por hora).
  • \(\mu\) (Mu): A “taxa de serviço” média (ex: quantos clientes o servidor atende por hora).
  • \(\rho\) (Rho): A “intensidade de tráfego” ou utilização do servidor, definida como \(\rho = \lambda / \mu\).
  • \(I_1(\dots)\): A Função de Bessel Modificada de primeira espécie e ordem um. É uma função matemática especial necessária para descrever este processo.

5. Distribuição do Tempo no Sistema (Fila M/M/1)

\[ f(x) = \begin{cases} (\mu-\lambda)e^{-(\mu-\lambda)t} & t > 0 \\ 0 & \text{caso contrário} \end{cases} \]

Esta é a Função de Densidade de Probabilidade (PDF) para o tempo total que um cliente passa no sistema (ou seja, o tempo gasto na fila + o tempo gasto sendo atendido).

  • Contexto (Fila M/M/1): O mesmo sistema de fila M/M/1 (um servidor, chegadas Poisson, serviço Exponencial).
  • A Fórmula: Esta é simplesmente a fórmula de uma Distribuição Exponencial com uma taxa de \(\mu - \lambda\).
  • Condição Importante: Esta equação só é válida se o sistema for estável, ou seja, se a taxa de serviço for maior que a taxa de chegada (\(\mu > \lambda\)). Se \(\lambda \ge \mu\), a fila cresceria infinitamente, e o tempo de espera não seguiria esta distribuição.

Variáveis

  • \(f(t)\): A função de densidade de probabilidade do tempo total no sistema.
  • \(t\): A variável de interesse, representando o tempo (com \(t > 0\)).
  • \(\lambda\) (Lambda): A “taxa de chegada” média.
  • \(\mu\) (Mu): A “taxa de serviço” média.
  • \((\mu - \lambda)\): A taxa da distribuição exponencial. O inverso disso, \(\frac{1}{\mu - \lambda}\), representa o tempo médio que um cliente passa no sistema.

4. Imagens

O que é ciência de dados?

O que é ciência de dados?
O que é ciência de dados?

Tipos de dados que encontramos

Tipos de dados
Tipos de dados

5. Referências Bibliográficas

Aqui temos as citações dos pacotes que que usamos (Wickham et al. 2023; Xie, Cheng, and Tan 2023) e livros clássicos da área (Hastie, Tibshirani, and Friedman 2009; Goodfellow, Bengio, and Courville 2016; R Core Team 2023).

Referências

Goodfellow, Ian, Yoshua Bengio, and Aaron Courville. 2016. Deep Learning. MIT Press. http://www.deeplearningbook.org.
Hastie, Trevor, Robert Tibshirani, and Jerome Friedman. 2009. The Elements of Statistical Learning: Data Mining, Inference, and Prediction. Second. New York, NY: Springer Science & Business Media.
R Core Team. 2023. R: A Language and Environment for Statistical Computing. Vienna, Austria: R Foundation for Statistical Computing. https://www.R-project.org/.
Wickham, Hadley, Romain François, Lionel Henry, and Kirill Müller. 2023. Dplyr: A Grammar of Data Manipulation. https://CRAN.R-project.org/package=dplyr.
Xie, Yihui, Joe Cheng, and Xianying Tan. 2023. DT: An r Interface to the DataTables Library. https://CRAN.R-project.org/package=DT.