Nesta seção, será utilizado o conjunto de dados mtcars,
que já vem disponível no R. Esse conjunto contém informações sobre
diferentes modelos de carros, como consumo de combustível, número de
cilindros, peso, potência e outras variáveis.
library(dplyr)
library(DT)
library(ggplot2)
dados <- mtcars
dados <- dados %>%
mutate(
modelo = rownames(mtcars),
consumo_categoria = ifelse(mpg >= mean(mpg), "Econômico", "Não econômico"),
potencia_por_peso = hp / wt
) %>%
arrange(desc(mpg))
head(dados)
## mpg cyl disp hp drat wt qsec vs am gear carb
## Toyota Corolla 33.9 4 71.1 65 4.22 1.835 19.90 1 1 4 1
## Fiat 128 32.4 4 78.7 66 4.08 2.200 19.47 1 1 4 1
## Honda Civic 30.4 4 75.7 52 4.93 1.615 18.52 1 1 4 2
## Lotus Europa 30.4 4 95.1 113 3.77 1.513 16.90 1 1 5 2
## Fiat X1-9 27.3 4 79.0 66 4.08 1.935 18.90 1 1 4 1
## Porsche 914-2 26.0 4 120.3 91 4.43 2.140 16.70 0 1 5 2
## modelo consumo_categoria potencia_por_peso
## Toyota Corolla Toyota Corolla Econômico 35.42234
## Fiat 128 Fiat 128 Econômico 30.00000
## Honda Civic Honda Civic Econômico 32.19814
## Lotus Europa Lotus Europa Econômico 74.68605
## Fiat X1-9 Fiat X1-9 Econômico 34.10853
## Porsche 914-2 Porsche 914-2 Econômico 42.52336
As manipulações realizadas foram:
modelo, contendo o nome dos modelos
dos carros;consumo_categoria, classificando os
carros como econômicos ou não econômicos;potencia_por_peso, calculando a
relação entre potência e peso;Nesta seção, foi utilizada a biblioteca DT para criar
uma tabela interativa com recursos de busca, ordenação e paginação.
datatable(
dados,
options = list(
pageLength = 10,
searchHighlight = TRUE
),
caption = "Tabela interativa do conjunto de dados mtcars"
)
Nesta seção, são apresentadas cinco equações importantes para a análise de dados, utilizando a sintaxe LaTeX.
\[ \bar{x} = \frac{1}{n}\sum_{i=1}^{n}x_i \]
A média aritmética representa o valor médio de um conjunto de dados. Ela é obtida pela soma de todos os valores dividida pela quantidade total de observações.
\[ \sigma^2 = \frac{\sum_{i=1}^{n}(x_i - \mu)^2}{n} \]
A variância mede o grau de dispersão dos dados em relação à média. Quanto maior a variância, mais espalhados estão os valores.
\[ \sigma = \sqrt{\frac{\sum_{i=1}^{n}(x_i - \mu)^2}{n}} \]
O desvio padrão indica o quanto os valores se afastam, em média, da média do conjunto de dados.
\[ r = \frac{\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{n}(x_i - \bar{x})^2 \sum_{i=1}^{n}(y_i - \bar{y})^2}} \]
A correlação de Pearson mede a força e a direção da relação linear entre duas variáveis. O valor pode variar de -1 a 1.
\[ y = \beta_0 + \beta_1x + \varepsilon \]
A regressão linear simples é utilizada para modelar a relação entre uma variável dependente e uma variável independente.
Nesta seção, são apresentados dois gráficos relacionados à análise de dados.
ggplot(dados, aes(x = factor(cyl), y = mpg)) +
geom_boxplot() +
labs(
title = "Consumo de combustível por número de cilindros",
x = "Número de cilindros",
y = "Milhas por galão"
)
O gráfico mostra como o consumo de combustível varia de acordo com o número de cilindros dos carros.
ggplot(dados, aes(x = wt, y = mpg)) +
geom_point() +
geom_smooth(method = "lm", se = FALSE) +
labs(
title = "Relação entre peso e consumo de combustível",
x = "Peso do carro",
y = "Milhas por galão"
)
## `geom_smooth()` using formula = 'y ~ x'
O gráfico mostra a relação entre o peso do carro e o consumo de combustível. Em geral, carros mais pesados tendem a apresentar menor eficiência de consumo.
WICKHAM, Hadley; GROLEMUND, Garrett. R for Data Science. O’Reilly Media, 2017.
WICKHAM, Hadley. ggplot2: Elegant Graphics for Data Analysis. Springer, 2016.
XIE, Yihui; ALLAIRE, J. J.; GROLEMUND, Garrett. R Markdown: The Definitive Guide. Chapman and Hall/CRC, 2018.
R CORE TEAM. R: A Language and Environment for Statistical Computing. R Foundation for Statistical Computing, Vienna, Austria.
CHANG, Winston et al. DT: A Wrapper of the JavaScript Library DataTables. R package documentation.