1 Introdução

Este relatório apresenta a análise de um conjunto de dados mtcars.

2 Manipulação dos Dados

# Carregando pacotes necessários
library(dplyr)
library(DT)
library(kableExtra)

# Carregando o conjunto de dados mtcars
dados <- mtcars

# Renomeando as colunas para português
colnames(dados) <- c("milhas_por_galao", "cilindros", "deslocamento", "potencia_bruta", 
                     "peso", "tempo_1_4_milha", "motor_v", "marchas_automaticas", 
                     "marchas", "carburadores", "engrenagens")

# Manipulação simples: Ordenação dos dados por milhas_por_galao e criação de uma nova variável (eficiência)
dados <- dados %>%
  arrange(desc(milhas_por_galao)) %>%
  mutate(eficiencia = ifelse(milhas_por_galao > 20, "Alta", "Baixa"))


# Visualizando os primeiros registros em uma tabela formatada
dados %>% 
  head() %>% 
  kable(caption = "Conjunto de Dados Formatado") %>%
  kable_styling(bootstrap_options = c("striped", "hover", "condensed", "responsive", "underline"))

Conjunto de Dados Formatado
	milhas_por_galao	cilindros	deslocamento	potencia_bruta	peso	tempo_1_4_milha	motor_v	marchas_automaticas	marchas	carburadores	engrenagens	eficiencia
Toyota Corolla	33.9	4	71.1	65	4.22	1.835	19.90	1	1	4	1	Alta
Fiat 128	32.4	4	78.7	66	4.08	2.200	19.47	1	1	4	1	Alta
Honda Civic	30.4	4	75.7	52	4.93	1.615	18.52	1	1	4	2	Alta
Lotus Europa	30.4	4	95.1	113	3.77	1.513	16.90	1	1	5	2	Alta
Fiat X1-9	27.3	4	79.0	66	4.08	1.935	18.90	1	1	4	1	Alta
Porsche 914-2	26.0	4	120.3	91	4.43	2.140	16.70	0	1	5	2	Alta

2.1 Dados ordenador por “milhas_por_galao” e criação de uma nova variável “eficiência”.

# Criando uma tabela interativa
datatable(dados, options = list(pageLength = 10, searchHighlight = TRUE))

3 Equações

3.1 Média Aritmética

A média aritmética de um conjunto de valores é dada por: \[\begin{equation} \bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i \end{equation}\]

3.2 Desvio Padrão

Mede a dispersão dos dados em relação à média: \[\begin{equation} \sigma = \sqrt{\frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})^2} \end{equation}\]

3.3 Correlação de Pearson

Mede a força da associação linear entre duas variáveis \[\begin{equation} r = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{n} (x_i - \bar{x})^2 \sum_{i=1}^{n} (y_i - \bar{y})^2}} \end{equation}\]

3.4 Coeficiente de Regressão Linear (Slope)

Na regressão linear simples, a inclinação é dada por: \[\begin{equation} \beta_1 = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^{n} (x_i - \bar{x})^2} \end{equation}\]

3.5 Erro Quadrático Médio (MSE)

Uma métrica de avaliação de modelos de regressão: \[\begin{equation} \text{MSE} = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 \end{equation}\]

4 Figuras

knitr::include_graphics("./img/cover.jpg")

knitr::include_graphics("./img/3_pasted-image-0-11.png")

5 Referências

Smith, J. (2020). Introduction to Statistical Learning. Springer.
Wickham, H., & Grolemund, G. (2017). R for Data Science. O’Reilly Media.
James, G., Witten, D., Hastie, T., & Tibshirani, R. (2013). An Introduction to Statistical Learning. Springer.
Kuhn, M., & Johnson, K. (2013). Applied Predictive Modeling. Springer.
Ripley, B. D. (1996). Pattern Recognition and Neural Networks. Cambridge University Press.

Relatório de Análise de Dados - Mtcars

J. Vitor Castro

2024-08-11