Este relatório apresenta uma análise simples de dados utilizando a
linguagem R no ambiente RStudio. O objetivo é demonstrar a manipulação
de dados, a criação de tabelas interativas com o pacote DT,
a apresentação de equações em LaTeX, a construção de figuras
relacionadas à ciência de dados e a inclusão de referências
bibliográficas.
O conjunto de dados utilizado será o mtcars, uma base já
disponível no R. Essa base contém informações sobre diferentes modelos
de carros, como consumo de combustível, número de cilindros, potência,
peso e outras variáveis.
Nesta seção, carregamos os pacotes necessários para a análise.
library(dplyr)
library(DT)
library(ggplot2)
library(tidyr)
O conjunto de dados utilizado é o mtcars. Ele será
transformado em um data frame para facilitar a manipulação.
dados <- mtcars
dados <- as.data.frame(dados)
head(dados)
## mpg cyl disp hp drat wt qsec vs am gear carb
## Mazda RX4 21.0 6 160 110 3.90 2.620 16.46 0 1 4 4
## Mazda RX4 Wag 21.0 6 160 110 3.90 2.875 17.02 0 1 4 4
## Datsun 710 22.8 4 108 93 3.85 2.320 18.61 1 1 4 1
## Hornet 4 Drive 21.4 6 258 110 3.08 3.215 19.44 1 0 3 1
## Hornet Sportabout 18.7 8 360 175 3.15 3.440 17.02 0 0 3 2
## Valiant 18.1 6 225 105 2.76 3.460 20.22 1 0 3 1
A base mtcars possui as seguintes variáveis
principais:
mpg: consumo em milhas por galão;cyl: número de cilindros;disp: deslocamento do motor;hp: potência do motor;wt: peso do veículo;gear: número de marchas;carb: número de carburadores.Nesta etapa, realizamos algumas operações simples nos dados, como criação de novas variáveis, filtragem e ordenação.
A variável consumo_kml converte o consumo de milhas por
galão para quilômetros por litro.
A conversão aproximada é:
1 mpg = 0,425144 km/l
dados_tratados <- dados %>%
mutate(
modelo = rownames(dados),
consumo_kml = mpg * 0.425144,
categoria_potencia = ifelse(hp >= mean(hp), "Potência alta", "Potência baixa")
)
head(dados_tratados)
## mpg cyl disp hp drat wt qsec vs am gear carb
## Mazda RX4 21.0 6 160 110 3.90 2.620 16.46 0 1 4 4
## Mazda RX4 Wag 21.0 6 160 110 3.90 2.875 17.02 0 1 4 4
## Datsun 710 22.8 4 108 93 3.85 2.320 18.61 1 1 4 1
## Hornet 4 Drive 21.4 6 258 110 3.08 3.215 19.44 1 0 3 1
## Hornet Sportabout 18.7 8 360 175 3.15 3.440 17.02 0 0 3 2
## Valiant 18.1 6 225 105 2.76 3.460 20.22 1 0 3 1
## modelo consumo_kml categoria_potencia
## Mazda RX4 Mazda RX4 8.928024 Potência baixa
## Mazda RX4 Wag Mazda RX4 Wag 8.928024 Potência baixa
## Datsun 710 Datsun 710 9.693283 Potência baixa
## Hornet 4 Drive Hornet 4 Drive 9.098082 Potência baixa
## Hornet Sportabout Hornet Sportabout 7.950193 Potência alta
## Valiant Valiant 7.695106 Potência baixa
Agora filtramos apenas os carros com potência acima da média.
dados_filtrados <- dados_tratados %>%
filter(hp > mean(hp))
dados_filtrados
## mpg cyl disp hp drat wt qsec vs am gear carb
## Hornet Sportabout 18.7 8 360.0 175 3.15 3.440 17.02 0 0 3 2
## Duster 360 14.3 8 360.0 245 3.21 3.570 15.84 0 0 3 4
## Merc 450SE 16.4 8 275.8 180 3.07 4.070 17.40 0 0 3 3
## Merc 450SL 17.3 8 275.8 180 3.07 3.730 17.60 0 0 3 3
## Merc 450SLC 15.2 8 275.8 180 3.07 3.780 18.00 0 0 3 3
## Cadillac Fleetwood 10.4 8 472.0 205 2.93 5.250 17.98 0 0 3 4
## Lincoln Continental 10.4 8 460.0 215 3.00 5.424 17.82 0 0 3 4
## Chrysler Imperial 14.7 8 440.0 230 3.23 5.345 17.42 0 0 3 4
## Dodge Challenger 15.5 8 318.0 150 2.76 3.520 16.87 0 0 3 2
## AMC Javelin 15.2 8 304.0 150 3.15 3.435 17.30 0 0 3 2
## Camaro Z28 13.3 8 350.0 245 3.73 3.840 15.41 0 0 3 4
## Pontiac Firebird 19.2 8 400.0 175 3.08 3.845 17.05 0 0 3 2
## Ford Pantera L 15.8 8 351.0 264 4.22 3.170 14.50 0 1 5 4
## Ferrari Dino 19.7 6 145.0 175 3.62 2.770 15.50 0 1 5 6
## Maserati Bora 15.0 8 301.0 335 3.54 3.570 14.60 0 1 5 8
## modelo consumo_kml categoria_potencia
## Hornet Sportabout Hornet Sportabout 7.950193 Potência alta
## Duster 360 Duster 360 6.079559 Potência alta
## Merc 450SE Merc 450SE 6.972362 Potência alta
## Merc 450SL Merc 450SL 7.354991 Potência alta
## Merc 450SLC Merc 450SLC 6.462189 Potência alta
## Cadillac Fleetwood Cadillac Fleetwood 4.421498 Potência alta
## Lincoln Continental Lincoln Continental 4.421498 Potência alta
## Chrysler Imperial Chrysler Imperial 6.249617 Potência alta
## Dodge Challenger Dodge Challenger 6.589732 Potência alta
## AMC Javelin AMC Javelin 6.462189 Potência alta
## Camaro Z28 Camaro Z28 5.654415 Potência alta
## Pontiac Firebird Pontiac Firebird 8.162765 Potência alta
## Ford Pantera L Ford Pantera L 6.717275 Potência alta
## Ferrari Dino Ferrari Dino 8.375337 Potência alta
## Maserati Bora Maserati Bora 6.377160 Potência alta
A seguir, ordenamos os carros pelo consumo em quilômetros por litro, do maior para o menor.
dados_ordenados <- dados_tratados %>%
arrange(desc(consumo_kml))
head(dados_ordenados)
## mpg cyl disp hp drat wt qsec vs am gear carb
## Toyota Corolla 33.9 4 71.1 65 4.22 1.835 19.90 1 1 4 1
## Fiat 128 32.4 4 78.7 66 4.08 2.200 19.47 1 1 4 1
## Honda Civic 30.4 4 75.7 52 4.93 1.615 18.52 1 1 4 2
## Lotus Europa 30.4 4 95.1 113 3.77 1.513 16.90 1 1 5 2
## Fiat X1-9 27.3 4 79.0 66 4.08 1.935 18.90 1 1 4 1
## Porsche 914-2 26.0 4 120.3 91 4.43 2.140 16.70 0 1 5 2
## modelo consumo_kml categoria_potencia
## Toyota Corolla Toyota Corolla 14.41238 Potência baixa
## Fiat 128 Fiat 128 13.77467 Potência baixa
## Honda Civic Honda Civic 12.92438 Potência baixa
## Lotus Europa Lotus Europa 12.92438 Potência baixa
## Fiat X1-9 Fiat X1-9 11.60643 Potência baixa
## Porsche 914-2 Porsche 914-2 11.05374 Potência baixa
Nesta seção, apresentamos uma tabela interativa utilizando o pacote
DT. A tabela permite ordenar colunas, pesquisar valores e
navegar entre páginas.
datatable(
dados_tratados,
options = list(
pageLength = 10,
autoWidth = TRUE,
searching = TRUE,
ordering = TRUE
),
caption = "Tabela interativa da base mtcars com variáveis tratadas"
)
Nesta seção, são apresentadas cinco equações importantes para a análise de dados e estatística.
A média aritmética é utilizada para representar o valor central de um conjunto de dados.
\[ \bar{x} = \frac{1}{n}\sum_{i=1}^{n}x_i \]
Onde:
A variância mede o grau de dispersão dos dados em relação à média.
\[ s^2 = \frac{\sum_{i=1}^{n}(x_i - \bar{x})^2}{n - 1} \]
Onde:
O desvio padrão é a raiz quadrada da variância e indica o quanto os dados se afastam da média.
\[ s = \sqrt{\frac{\sum_{i=1}^{n}(x_i - \bar{x})^2}{n - 1}} \]
Quanto maior o desvio padrão, maior a dispersão dos dados.
A correlação de Pearson mede a força e a direção da relação linear entre duas variáveis.
\[ r = \frac{\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})} {\sqrt{\sum_{i=1}^{n}(x_i - \bar{x})^2}\sqrt{\sum_{i=1}^{n}(y_i - \bar{y})^2}} \]
Onde:
A regressão linear simples é usada para modelar a relação entre uma variável independente e uma variável dependente.
\[ y = \beta_0 + \beta_1x + \varepsilon \]
Onde:
Nesta seção, são apresentadas duas figuras construídas a partir dos dados analisados.
O gráfico abaixo mostra a relação entre o peso do veículo e o consumo em milhas por galão. Em geral, veículos mais pesados tendem a apresentar menor consumo.
ggplot(dados_tratados, aes(x = wt, y = mpg)) +
geom_point(size = 3) +
geom_smooth(method = "lm", se = FALSE) +
labs(
title = "Relação entre peso do veículo e consumo",
x = "Peso do veículo",
y = "Consumo em milhas por galão"
) +
theme_minimal()
## `geom_smooth()` using formula = 'y ~ x'
O gráfico abaixo apresenta o consumo médio dos veículos de acordo com o número de cilindros.
dados_tratados %>%
group_by(cyl) %>%
summarise(consumo_medio = mean(mpg)) %>%
ggplot(aes(x = as.factor(cyl), y = consumo_medio)) +
geom_col() +
labs(
title = "Consumo médio por número de cilindros",
x = "Número de cilindros",
y = "Consumo médio em milhas por galão"
) +
theme_minimal()
A análise dos dados mostra que existe uma relação negativa entre o
peso dos veículos e o consumo de combustível. Ou seja, carros mais
pesados tendem a consumir mais combustível, apresentando menor valor de
mpg.
Também é possível observar que veículos com maior número de cilindros apresentam, em média, menor consumo. Isso ocorre porque motores com mais cilindros costumam ser mais potentes, porém menos econômicos.
A criação da variável consumo_kml facilitou a
interpretação dos dados para o contexto brasileiro, pois quilômetros por
litro é uma unidade mais comum no Brasil.
Este relatório demonstrou como utilizar o R Markdown para criar um documento organizado e interativo. Foram realizadas etapas de carregamento, manipulação, filtragem, ordenação, criação de tabela interativa, apresentação de equações em LaTeX e construção de gráficos.
A atividade mostra que o R Markdown é uma ferramenta útil para unir código, análise estatística, visualização de dados e explicações textuais em um único documento.
WICKHAM, Hadley; GROLEMUND, Garrett. R for Data Science: Import, Tidy, Transform, Visualize, and Model Data. O’Reilly Media, 2017.
XIE, Yihui; ALLAIRE, J. J.; GROLEMUND, Garrett. R Markdown: The Definitive Guide. Chapman and Hall/CRC, 2018.
SIEVERT, Carson. Interactive Web-Based Data Visualization with R, plotly, and shiny. Chapman and Hall/CRC, 2020.
CHANG, Winston. R Graphics Cookbook: Practical Recipes for Visualizing Data. O’Reilly Media, 2018.
JAMES, Gareth et al. An Introduction to Statistical Learning: with Applications in R. Springer, 2021.