1) Carregamento e manipulação de dados

O conjunto de dados airquality contém informações sobre qualidade do ar em Nova York, como variáveis como ozônio, temperatura, vento e mês de coleta. Dito isso, será feita uma manipulação básica para selecionar apenas as observações com temperatura acima de 70°F.

data_mod <- airquality[airquality$Temp > 70, ]

# Mostrar as primeiras linhas
head(data_mod, 10)
##    Ozone Solar.R Wind Temp Month Day
## 2     36     118  8.0   72     5   2
## 3     12     149 12.6   74     5   3
## 11     7      NA  6.9   74     5  11
## 22    11     320 16.6   73     5  22
## 29    45     252 14.9   81     5  29
## 30   115     223  5.7   79     5  30
## 31    37     279  7.4   76     5  31
## 32    NA     286  8.6   78     6   1
## 33    NA     287  9.7   74     6   2
## 35    NA     186  9.2   84     6   4

2) Tabela interativa

Abaixo temos os dados manipulados usando o pacote DT.

datatable(data_mod,
          options = list(pageLength = 5, autoWidth = TRUE, search = list(regex = TRUE)),
          rownames = FALSE)

3) Equações

Equação 1 — Regressão linear (forma normal)

\[\beta = (X^T X)^{-1} X^T y\]

Solução analítica dos coeficientes () em regressão linear ordinária (mínimos quadrados) onde (X) é a matriz de desenho (com coluna de 1 para intercepto) e (y) o vetor resposta (Hoerl; Kennard, 1970).

Equação 2 — Função sigmoide / regressão logística

\[\sigma(z) = \frac{1}{1 + e^{-z}}\]

A função sigmoide transforma a combinação linear (z = X) em uma probabilidade entre 0 e 1. Muito usada em classificação binária (Hosmer; Lemeshow, 1989).

Equação 3 — Decomposição espectral (PCA)

\[\Sigma = V \Lambda V^T\]

Matriz de covariância () é decomposta em autovalores () e autovetores (V). Em PCA, os autovetores correspondem às direções principais (Jolliffe, 2002).

Equação 4 — Teorema de Bayes

\[P(A \mid B) = \frac{P(B \mid A),P(A)}{P(B)}\]

Relação entre probabilidade condicionada e marginais base de muitos modelos probabilísticos e inferenciais (Bayes, 1763).

Equação 5 — Função de perda cross-entropy (para classificação binária)

\[L(y,\hat{y}) = -\frac{1}{n} \sum_{i=1}^n \bigl[ y_i \log(\hat{y}_i) + (1-y_i) \log(1-\hat{y}_i) \bigr]\]

Mede a discrepância entre rótulos verdadeiros (y) e probabilidades previstas (). Muito usada para treinar modelos de classificação probabilística (Bishop, 2006).

4) Figuras

A seguir são exibidas duas imagens de logos populares na área de ciência de dados: a linguagem R e a biblioteca Pandas do Python.

Logo da Linguagem R

Logo R
Logo R

Logo do Pandas (Python)

Logo Pandas
Logo Pandas

5) Referências

BAYES, Thomas. An essay towards solving a problem in the doctrine of chances. Philosophical Transactions of the Royal Society of London, v. 53, p. 370–418, 1763.
BISHOP, Christopher M. Pattern recognition and machine learning. Springer, 2006.
HOERL, Arthur E.; KENNARD, Robert W. Ridge regression: Biased estimation for nonorthogonal problems. Technometrics, v. 12, n. 1, p. 55–67, 1970.
HOSMER, David W.; LEMESHOW, Stanley. Applied logistic regression. New York, 1989.
JOLLIFFE, Ian T. Principal component analysis. Springer series in statistics, 2002.