1. Carregamento e Manipulação dos Dados

Nesta seção, será utilizado o conjunto de dados mtcars, que já vem disponível no R. Esse conjunto contém informações sobre diferentes modelos de carros, como consumo de combustível, número de cilindros, peso, potência e outras variáveis.

library(dplyr)
library(DT)
library(ggplot2)

dados <- mtcars

dados <- dados %>%
  mutate(
    modelo = rownames(mtcars),
    consumo_categoria = ifelse(mpg >= mean(mpg), "Econômico", "Não econômico"),
    potencia_por_peso = hp / wt
  ) %>%
  arrange(desc(mpg))

head(dados)

##                 mpg cyl  disp  hp drat    wt  qsec vs am gear carb
## Toyota Corolla 33.9   4  71.1  65 4.22 1.835 19.90  1  1    4    1
## Fiat 128       32.4   4  78.7  66 4.08 2.200 19.47  1  1    4    1
## Honda Civic    30.4   4  75.7  52 4.93 1.615 18.52  1  1    4    2
## Lotus Europa   30.4   4  95.1 113 3.77 1.513 16.90  1  1    5    2
## Fiat X1-9      27.3   4  79.0  66 4.08 1.935 18.90  1  1    4    1
## Porsche 914-2  26.0   4 120.3  91 4.43 2.140 16.70  0  1    5    2
##                        modelo consumo_categoria potencia_por_peso
## Toyota Corolla Toyota Corolla         Econômico          35.42234
## Fiat 128             Fiat 128         Econômico          30.00000
## Honda Civic       Honda Civic         Econômico          32.19814
## Lotus Europa     Lotus Europa         Econômico          74.68605
## Fiat X1-9           Fiat X1-9         Econômico          34.10853
## Porsche 914-2   Porsche 914-2         Econômico          42.52336

As manipulações realizadas foram:

criação da variável modelo, contendo o nome dos modelos dos carros;
criação da variável consumo_categoria, classificando os carros como econômicos ou não econômicos;
criação da variável potencia_por_peso, calculando a relação entre potência e peso;
ordenação dos dados pelo consumo de combustível, do maior para o menor.

2. Tabela Interativa com DT

Nesta seção, foi utilizada a biblioteca DT para criar uma tabela interativa com recursos de busca, ordenação e paginação.

datatable(
  dados,
  options = list(
    pageLength = 10,
    searchHighlight = TRUE
  ),
  caption = "Tabela interativa do conjunto de dados mtcars"
)

3. Equações em LaTeX

Nesta seção, são apresentadas cinco equações importantes para a análise de dados, utilizando a sintaxe LaTeX.

3.1 Média Aritmética

\[ \bar{x} = \frac{1}{n}\sum_{i=1}^{n}x_i \]

A média aritmética representa o valor médio de um conjunto de dados. Ela é obtida pela soma de todos os valores dividida pela quantidade total de observações.

3.2 Variância

\[ \sigma^2 = \frac{\sum_{i=1}^{n}(x_i - \mu)^2}{n} \]

A variância mede o grau de dispersão dos dados em relação à média. Quanto maior a variância, mais espalhados estão os valores.

3.3 Desvio Padrão

\[ \sigma = \sqrt{\frac{\sum_{i=1}^{n}(x_i - \mu)^2}{n}} \]

O desvio padrão indica o quanto os valores se afastam, em média, da média do conjunto de dados.

3.4 Correlação de Pearson

\[ r = \frac{\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{n}(x_i - \bar{x})^2 \sum_{i=1}^{n}(y_i - \bar{y})^2}} \]

A correlação de Pearson mede a força e a direção da relação linear entre duas variáveis. O valor pode variar de -1 a 1.

3.5 Regressão Linear Simples

\[ y = \beta_0 + \beta_1x + \varepsilon \]

A regressão linear simples é utilizada para modelar a relação entre uma variável dependente e uma variável independente.

4. Figuras Relacionadas à Ciência de Dados

Nesta seção, são apresentados dois gráficos relacionados à análise de dados.

4.1 Consumo por Número de Cilindros

ggplot(dados, aes(x = factor(cyl), y = mpg)) +
  geom_boxplot() +
  labs(
    title = "Consumo de combustível por número de cilindros",
    x = "Número de cilindros",
    y = "Milhas por galão"
  )

O gráfico mostra como o consumo de combustível varia de acordo com o número de cilindros dos carros.

4.2 Relação entre Peso e Consumo

ggplot(dados, aes(x = wt, y = mpg)) +
  geom_point() +
  geom_smooth(method = "lm", se = FALSE) +
  labs(
    title = "Relação entre peso e consumo de combustível",
    x = "Peso do carro",
    y = "Milhas por galão"
  )

## `geom_smooth()` using formula = 'y ~ x'

O gráfico mostra a relação entre o peso do carro e o consumo de combustível. Em geral, carros mais pesados tendem a apresentar menor eficiência de consumo.

5. Referências Bibliográficas

WICKHAM, Hadley; GROLEMUND, Garrett. R for Data Science. O’Reilly Media, 2017.

WICKHAM, Hadley. ggplot2: Elegant Graphics for Data Analysis. Springer, 2016.

XIE, Yihui; ALLAIRE, J. J.; GROLEMUND, Garrett. R Markdown: The Definitive Guide. Chapman and Hall/CRC, 2018.

R CORE TEAM. R: A Language and Environment for Statistical Computing. R Foundation for Statistical Computing, Vienna, Austria.

CHANG, Winston et al. DT: A Wrapper of the JavaScript Library DataTables. R package documentation.

Relatório de Computação para Análise de Dados

Victor Vasconcelos Ferraz João