1. Introdução

Este relatório apresenta uma análise simples de dados utilizando a linguagem R no ambiente RStudio. O objetivo é demonstrar a manipulação de dados, a criação de tabelas interativas com o pacote DT, a apresentação de equações em LaTeX, a construção de figuras relacionadas à ciência de dados e a inclusão de referências bibliográficas.

O conjunto de dados utilizado será o mtcars, uma base já disponível no R. Essa base contém informações sobre diferentes modelos de carros, como consumo de combustível, número de cilindros, potência, peso e outras variáveis.

2. Preparação do ambiente

Nesta seção, carregamos os pacotes necessários para a análise.

library(dplyr)
library(DT)
library(ggplot2)
library(tidyr)

3. Carregamento e visualização inicial dos dados

O conjunto de dados utilizado é o mtcars. Ele será transformado em um data frame para facilitar a manipulação.

dados <- mtcars

dados <- as.data.frame(dados)

head(dados)
##                    mpg cyl disp  hp drat    wt  qsec vs am gear carb
## Mazda RX4         21.0   6  160 110 3.90 2.620 16.46  0  1    4    4
## Mazda RX4 Wag     21.0   6  160 110 3.90 2.875 17.02  0  1    4    4
## Datsun 710        22.8   4  108  93 3.85 2.320 18.61  1  1    4    1
## Hornet 4 Drive    21.4   6  258 110 3.08 3.215 19.44  1  0    3    1
## Hornet Sportabout 18.7   8  360 175 3.15 3.440 17.02  0  0    3    2
## Valiant           18.1   6  225 105 2.76 3.460 20.22  1  0    3    1

A base mtcars possui as seguintes variáveis principais:

  • mpg: consumo em milhas por galão;
  • cyl: número de cilindros;
  • disp: deslocamento do motor;
  • hp: potência do motor;
  • wt: peso do veículo;
  • gear: número de marchas;
  • carb: número de carburadores.

4. Manipulação simples dos dados

Nesta etapa, realizamos algumas operações simples nos dados, como criação de novas variáveis, filtragem e ordenação.

4.1 Criação de novas variáveis

A variável consumo_kml converte o consumo de milhas por galão para quilômetros por litro.
A conversão aproximada é:

1 mpg = 0,425144 km/l

dados_tratados <- dados %>%
  mutate(
    modelo = rownames(dados),
    consumo_kml = mpg * 0.425144,
    categoria_potencia = ifelse(hp >= mean(hp), "Potência alta", "Potência baixa")
  )

head(dados_tratados)
##                    mpg cyl disp  hp drat    wt  qsec vs am gear carb
## Mazda RX4         21.0   6  160 110 3.90 2.620 16.46  0  1    4    4
## Mazda RX4 Wag     21.0   6  160 110 3.90 2.875 17.02  0  1    4    4
## Datsun 710        22.8   4  108  93 3.85 2.320 18.61  1  1    4    1
## Hornet 4 Drive    21.4   6  258 110 3.08 3.215 19.44  1  0    3    1
## Hornet Sportabout 18.7   8  360 175 3.15 3.440 17.02  0  0    3    2
## Valiant           18.1   6  225 105 2.76 3.460 20.22  1  0    3    1
##                              modelo consumo_kml categoria_potencia
## Mazda RX4                 Mazda RX4    8.928024     Potência baixa
## Mazda RX4 Wag         Mazda RX4 Wag    8.928024     Potência baixa
## Datsun 710               Datsun 710    9.693283     Potência baixa
## Hornet 4 Drive       Hornet 4 Drive    9.098082     Potência baixa
## Hornet Sportabout Hornet Sportabout    7.950193      Potência alta
## Valiant                     Valiant    7.695106     Potência baixa

4.2 Filtragem dos dados

Agora filtramos apenas os carros com potência acima da média.

dados_filtrados <- dados_tratados %>%
  filter(hp > mean(hp))

dados_filtrados
##                      mpg cyl  disp  hp drat    wt  qsec vs am gear carb
## Hornet Sportabout   18.7   8 360.0 175 3.15 3.440 17.02  0  0    3    2
## Duster 360          14.3   8 360.0 245 3.21 3.570 15.84  0  0    3    4
## Merc 450SE          16.4   8 275.8 180 3.07 4.070 17.40  0  0    3    3
## Merc 450SL          17.3   8 275.8 180 3.07 3.730 17.60  0  0    3    3
## Merc 450SLC         15.2   8 275.8 180 3.07 3.780 18.00  0  0    3    3
## Cadillac Fleetwood  10.4   8 472.0 205 2.93 5.250 17.98  0  0    3    4
## Lincoln Continental 10.4   8 460.0 215 3.00 5.424 17.82  0  0    3    4
## Chrysler Imperial   14.7   8 440.0 230 3.23 5.345 17.42  0  0    3    4
## Dodge Challenger    15.5   8 318.0 150 2.76 3.520 16.87  0  0    3    2
## AMC Javelin         15.2   8 304.0 150 3.15 3.435 17.30  0  0    3    2
## Camaro Z28          13.3   8 350.0 245 3.73 3.840 15.41  0  0    3    4
## Pontiac Firebird    19.2   8 400.0 175 3.08 3.845 17.05  0  0    3    2
## Ford Pantera L      15.8   8 351.0 264 4.22 3.170 14.50  0  1    5    4
## Ferrari Dino        19.7   6 145.0 175 3.62 2.770 15.50  0  1    5    6
## Maserati Bora       15.0   8 301.0 335 3.54 3.570 14.60  0  1    5    8
##                                  modelo consumo_kml categoria_potencia
## Hornet Sportabout     Hornet Sportabout    7.950193      Potência alta
## Duster 360                   Duster 360    6.079559      Potência alta
## Merc 450SE                   Merc 450SE    6.972362      Potência alta
## Merc 450SL                   Merc 450SL    7.354991      Potência alta
## Merc 450SLC                 Merc 450SLC    6.462189      Potência alta
## Cadillac Fleetwood   Cadillac Fleetwood    4.421498      Potência alta
## Lincoln Continental Lincoln Continental    4.421498      Potência alta
## Chrysler Imperial     Chrysler Imperial    6.249617      Potência alta
## Dodge Challenger       Dodge Challenger    6.589732      Potência alta
## AMC Javelin                 AMC Javelin    6.462189      Potência alta
## Camaro Z28                   Camaro Z28    5.654415      Potência alta
## Pontiac Firebird       Pontiac Firebird    8.162765      Potência alta
## Ford Pantera L           Ford Pantera L    6.717275      Potência alta
## Ferrari Dino               Ferrari Dino    8.375337      Potência alta
## Maserati Bora             Maserati Bora    6.377160      Potência alta

4.3 Ordenação dos dados

A seguir, ordenamos os carros pelo consumo em quilômetros por litro, do maior para o menor.

dados_ordenados <- dados_tratados %>%
  arrange(desc(consumo_kml))

head(dados_ordenados)
##                 mpg cyl  disp  hp drat    wt  qsec vs am gear carb
## Toyota Corolla 33.9   4  71.1  65 4.22 1.835 19.90  1  1    4    1
## Fiat 128       32.4   4  78.7  66 4.08 2.200 19.47  1  1    4    1
## Honda Civic    30.4   4  75.7  52 4.93 1.615 18.52  1  1    4    2
## Lotus Europa   30.4   4  95.1 113 3.77 1.513 16.90  1  1    5    2
## Fiat X1-9      27.3   4  79.0  66 4.08 1.935 18.90  1  1    4    1
## Porsche 914-2  26.0   4 120.3  91 4.43 2.140 16.70  0  1    5    2
##                        modelo consumo_kml categoria_potencia
## Toyota Corolla Toyota Corolla    14.41238     Potência baixa
## Fiat 128             Fiat 128    13.77467     Potência baixa
## Honda Civic       Honda Civic    12.92438     Potência baixa
## Lotus Europa     Lotus Europa    12.92438     Potência baixa
## Fiat X1-9           Fiat X1-9    11.60643     Potência baixa
## Porsche 914-2   Porsche 914-2    11.05374     Potência baixa

5. Tabela interativa com o pacote DT

Nesta seção, apresentamos uma tabela interativa utilizando o pacote DT. A tabela permite ordenar colunas, pesquisar valores e navegar entre páginas.

datatable(
  dados_tratados,
  options = list(
    pageLength = 10,
    autoWidth = TRUE,
    searching = TRUE,
    ordering = TRUE
  ),
  caption = "Tabela interativa da base mtcars com variáveis tratadas"
)

6. Equações em LaTeX

Nesta seção, são apresentadas cinco equações importantes para a análise de dados e estatística.

6.1 Média aritmética

A média aritmética é utilizada para representar o valor central de um conjunto de dados.

\[ \bar{x} = \frac{1}{n}\sum_{i=1}^{n}x_i \]

Onde:

  • \(\bar{x}\) representa a média;
  • \(n\) representa a quantidade de observações;
  • \(x_i\) representa cada valor observado.

6.2 Variância

A variância mede o grau de dispersão dos dados em relação à média.

\[ s^2 = \frac{\sum_{i=1}^{n}(x_i - \bar{x})^2}{n - 1} \]

Onde:

  • \(s^2\) é a variância amostral;
  • \(x_i\) é cada valor observado;
  • \(\bar{x}\) é a média da amostra;
  • \(n\) é o número de observações.

6.3 Desvio padrão

O desvio padrão é a raiz quadrada da variância e indica o quanto os dados se afastam da média.

\[ s = \sqrt{\frac{\sum_{i=1}^{n}(x_i - \bar{x})^2}{n - 1}} \]

Quanto maior o desvio padrão, maior a dispersão dos dados.

6.4 Correlação de Pearson

A correlação de Pearson mede a força e a direção da relação linear entre duas variáveis.

\[ r = \frac{\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})} {\sqrt{\sum_{i=1}^{n}(x_i - \bar{x})^2}\sqrt{\sum_{i=1}^{n}(y_i - \bar{y})^2}} \]

Onde:

  • \(r\) é o coeficiente de correlação;
  • \(x_i\) e \(y_i\) são os valores das duas variáveis;
  • \(\bar{x}\) e \(\bar{y}\) são as médias das variáveis.

6.5 Regressão linear simples

A regressão linear simples é usada para modelar a relação entre uma variável independente e uma variável dependente.

\[ y = \beta_0 + \beta_1x + \varepsilon \]

Onde:

  • \(y\) é a variável dependente;
  • \(x\) é a variável independente;
  • \(\beta_0\) é o intercepto;
  • \(\beta_1\) é o coeficiente angular;
  • \(\varepsilon\) é o erro aleatório.

7. Figuras relacionadas à ciência de dados

Nesta seção, são apresentadas duas figuras construídas a partir dos dados analisados.

7.1 Figura 1: Relação entre peso e consumo

O gráfico abaixo mostra a relação entre o peso do veículo e o consumo em milhas por galão. Em geral, veículos mais pesados tendem a apresentar menor consumo.

ggplot(dados_tratados, aes(x = wt, y = mpg)) +
  geom_point(size = 3) +
  geom_smooth(method = "lm", se = FALSE) +
  labs(
    title = "Relação entre peso do veículo e consumo",
    x = "Peso do veículo",
    y = "Consumo em milhas por galão"
  ) +
  theme_minimal()
## `geom_smooth()` using formula = 'y ~ x'

7.2 Figura 2: Consumo médio por número de cilindros

O gráfico abaixo apresenta o consumo médio dos veículos de acordo com o número de cilindros.

dados_tratados %>%
  group_by(cyl) %>%
  summarise(consumo_medio = mean(mpg)) %>%
  ggplot(aes(x = as.factor(cyl), y = consumo_medio)) +
  geom_col() +
  labs(
    title = "Consumo médio por número de cilindros",
    x = "Número de cilindros",
    y = "Consumo médio em milhas por galão"
  ) +
  theme_minimal()

8. Análise dos resultados

A análise dos dados mostra que existe uma relação negativa entre o peso dos veículos e o consumo de combustível. Ou seja, carros mais pesados tendem a consumir mais combustível, apresentando menor valor de mpg.

Também é possível observar que veículos com maior número de cilindros apresentam, em média, menor consumo. Isso ocorre porque motores com mais cilindros costumam ser mais potentes, porém menos econômicos.

A criação da variável consumo_kml facilitou a interpretação dos dados para o contexto brasileiro, pois quilômetros por litro é uma unidade mais comum no Brasil.

9. Conclusão

Este relatório demonstrou como utilizar o R Markdown para criar um documento organizado e interativo. Foram realizadas etapas de carregamento, manipulação, filtragem, ordenação, criação de tabela interativa, apresentação de equações em LaTeX e construção de gráficos.

A atividade mostra que o R Markdown é uma ferramenta útil para unir código, análise estatística, visualização de dados e explicações textuais em um único documento.

10. Referências bibliográficas

WICKHAM, Hadley; GROLEMUND, Garrett. R for Data Science: Import, Tidy, Transform, Visualize, and Model Data. O’Reilly Media, 2017.

XIE, Yihui; ALLAIRE, J. J.; GROLEMUND, Garrett. R Markdown: The Definitive Guide. Chapman and Hall/CRC, 2018.

SIEVERT, Carson. Interactive Web-Based Data Visualization with R, plotly, and shiny. Chapman and Hall/CRC, 2020.

CHANG, Winston. R Graphics Cookbook: Practical Recipes for Visualizing Data. O’Reilly Media, 2018.

JAMES, Gareth et al. An Introduction to Statistical Learning: with Applications in R. Springer, 2021.