data(mtcars)
# Adição de uma coluna "modelo"
carros_df <- mtcars %>%
rownames_to_column(var = "modelo") %>%
mutate(
eficiencia = mpg/wt, # Cálculo de "eficiência"
potencia_por_cilindro = hp/cyl, # Cálculo de "potência por cilindro"
categoria_peso = case_when( # Classificação de "categoria_peso"
wt < 2.5 ~ "Leve",
wt < 3.5 ~ "Médio",
TRUE ~ "Pesado"
)
) %>%
arrange(desc(eficiencia))
# Visualização dos 5 primeiros itens da base de dado
head(carros_df)
## modelo mpg cyl disp hp drat wt qsec vs am gear carb eficiencia
## 1 Lotus Europa 30.4 4 95.1 113 3.77 1.513 16.90 1 1 5 2 20.09253
## 2 Honda Civic 30.4 4 75.7 52 4.93 1.615 18.52 1 1 4 2 18.82353
## 3 Toyota Corolla 33.9 4 71.1 65 4.22 1.835 19.90 1 1 4 1 18.47411
## 4 Fiat 128 32.4 4 78.7 66 4.08 2.200 19.47 1 1 4 1 14.72727
## 5 Fiat X1-9 27.3 4 79.0 66 4.08 1.935 18.90 1 1 4 1 14.10853
## 6 Porsche 914-2 26.0 4 120.3 91 4.43 2.140 16.70 0 1 5 2 12.14953
## potencia_por_cilindro categoria_peso
## 1 28.25 Leve
## 2 13.00 Leve
## 3 16.25 Leve
## 4 16.50 Leve
## 5 16.50 Leve
## 6 22.75 Leve
summary(carros_df[, c("mpg", "hp", "wt", "eficiencia")]):
Fornece um sumário estatístico (mínimo, 1º quartil, mediana, média, 3º
quartil, máximo) para as variáveis selecionadas.
summary(carros_df[, c("mpg", "hp", "wt", "eficiencia")])
## mpg hp wt eficiencia
## Min. :10.40 Min. : 52.0 Min. :1.513 Min. : 1.917
## 1st Qu.:15.43 1st Qu.: 96.5 1st Qu.:2.581 1st Qu.: 4.353
## Median :19.20 Median :123.0 Median :3.325 Median : 5.509
## Mean :20.09 Mean :146.7 Mean :3.217 Mean : 7.495
## 3rd Qu.:22.80 3rd Qu.:180.0 3rd Qu.:3.610 3rd Qu.: 8.192
## Max. :33.90 Max. :335.0 Max. :5.424 Max. :20.093
mpg (milhas por galão)
hp (potência em cavalos):
wt (peso):
eficiencia (mpg/wt)
datatable(
carros_df,
options = list(
pageLength = 10,
scrollX = TRUE,
dom = 'Bfrtip',
buttons = c('copy', 'csv', 'excel')
),
filter = 'top',
rownames = FALSE
) %>%
formatRound(columns = c('mpg', 'disp', 'hp', 'wt', 'eficiencia', 'potencia_por_cilindro'), digits = 2)
A entropia de Shannon é uma medida da incerteza associada à distribuição de probabilidade de um conjunto de eventos. Ela é calculada pela fórmula:
\[ H(X) = -\sum_{i=1}^{n} p(x_i) \log_2 p(x_i) \]
Onde: - \(p(x_i)\) é a probabilidade do evento \(x_i\) ocorrer. - Quanto maior a entropia, maior é a incerteza sobre os eventos.
O Teorema de Bayes descreve a probabilidade de um evento condicional dado que outro evento ocorreu. Ele é expresso como:
\[ P(A|B) = \frac{P(B|A)P(A)}{P(B)} \]
Onde: - \(P(A|B)\) é a probabilidade de \(A\) dado \(B\). - \(P(B|A)\) é a probabilidade de \(B\) dado \(A\). - \(P(A)\) e \(P(B)\) são as probabilidades marginais de \(A\) e \(B\), respectivamente.
A regressão logística é um modelo estatístico utilizado para modelar a probabilidade de uma variável dependente binária, com base em variáveis independentes. A fórmula para a probabilidade é:
\[ P(Y=1|X) = \frac{1}{1 + e^{-(\beta_0 + \beta_1X_1 + \dots + \beta_nX_n)}} \]
Onde: - \(P(Y=1|X)\) é a probabilidade condicional de \(Y\) ser igual a 1 dado \(X\). - \(\beta_0, \beta_1, \dots, \beta_n\) são os coeficientes do modelo. - \(X_1, \dots, X_n\) são os valores das variáveis independentes. - \(e\) é a base do logaritmo natural.
O gradiente descendente é um algoritmo de otimização usado para encontrar o mínimo de uma função. Ele é amplamente utilizado em aprendizado de máquina para otimizar modelos de forma iterativa. A atualização dos parâmetros é dada por:
\[ \theta_{j+1} = \theta_j - \alpha \frac{\partial}{\partial \theta_j}J(\theta) \]
Onde: - \(\theta_j\) são os parâmetros do modelo a serem otimizados. - \(\alpha\) é a taxa de aprendizagem, que controla o tamanho dos passos de atualização. - \(J(\theta)\) é a função de custo que queremos minimizar. - \(\frac{\partial}{\partial \theta_j}J(\theta)\) é o gradiente da função de custo em relação ao parâmetro \(\theta_j\).
A distância de Mahalanobis é uma medida de distância entre um ponto e um conjunto de pontos em um espaço multidimensional, levando em consideração a correlação entre as variáveis. A fórmula para a distância é:
\[ D_M(x) = \sqrt{(x - \mu)^T \Sigma^{-1} (x - \mu)} \]
Onde: - \(x\) é o vetor de dados. - \(\mu\) é o vetor de médias das variáveis. - \(\Sigma\) é a matriz de covariância das variáveis. - \(\Sigma^{-1}\) é a matriz inversa da matriz de covariância.
O Ciclo de Análise de Dados, conforme mostrado na imagem, segue etapas fundamentais: