O conjunto de dados airquality contém informações sobre
qualidade do ar em Nova York, como variáveis como ozônio, temperatura,
vento e mês de coleta. Dito isso, será feita uma manipulação básica para
selecionar apenas as observações com temperatura acima de 70°F.
data_mod <- airquality[airquality$Temp > 70, ]
# Mostrar as primeiras linhas
head(data_mod, 10)
## Ozone Solar.R Wind Temp Month Day
## 2 36 118 8.0 72 5 2
## 3 12 149 12.6 74 5 3
## 11 7 NA 6.9 74 5 11
## 22 11 320 16.6 73 5 22
## 29 45 252 14.9 81 5 29
## 30 115 223 5.7 79 5 30
## 31 37 279 7.4 76 5 31
## 32 NA 286 8.6 78 6 1
## 33 NA 287 9.7 74 6 2
## 35 NA 186 9.2 84 6 4
Abaixo temos os dados manipulados usando o pacote DT.
datatable(data_mod,
options = list(pageLength = 5, autoWidth = TRUE, search = list(regex = TRUE)),
rownames = FALSE)
\[\beta = (X^T X)^{-1} X^T y\]
Solução analítica dos coeficientes () em regressão linear ordinária (mínimos quadrados) onde (X) é a matriz de desenho (com coluna de 1 para intercepto) e (y) o vetor resposta (Hoerl; Kennard, 1970).
\[\sigma(z) = \frac{1}{1 + e^{-z}}\]
A função sigmoide transforma a combinação linear (z = X) em uma probabilidade entre 0 e 1. Muito usada em classificação binária (Hosmer; Lemeshow, 1989).
\[\Sigma = V \Lambda V^T\]
Matriz de covariância () é decomposta em autovalores () e autovetores (V). Em PCA, os autovetores correspondem às direções principais (Jolliffe, 2002).
\[P(A \mid B) = \frac{P(B \mid A),P(A)}{P(B)}\]
Relação entre probabilidade condicionada e marginais base de muitos modelos probabilísticos e inferenciais (Bayes, 1763).
\[L(y,\hat{y}) = -\frac{1}{n} \sum_{i=1}^n \bigl[ y_i \log(\hat{y}_i) + (1-y_i) \log(1-\hat{y}_i) \bigr]\]
Mede a discrepância entre rótulos verdadeiros (y) e probabilidades previstas (). Muito usada para treinar modelos de classificação probabilística (Bishop, 2006).
A seguir são exibidas duas imagens de logos populares na área de ciência de dados: a linguagem R e a biblioteca Pandas do Python.