Análise Exploratória dos Dados

1. Manipulação dos Dados

1.1 Carregamento e Visualização Inicial

library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
library(ggplot2)
library(DT)
Exemplo MTCARS, já incluso no R
dados <- mtcars
dados$modelo <- rownames(mtcars)
head(dados)
##                    mpg cyl disp  hp drat    wt  qsec vs am gear carb
## Mazda RX4         21.0   6  160 110 3.90 2.620 16.46  0  1    4    4
## Mazda RX4 Wag     21.0   6  160 110 3.90 2.875 17.02  0  1    4    4
## Datsun 710        22.8   4  108  93 3.85 2.320 18.61  1  1    4    1
## Hornet 4 Drive    21.4   6  258 110 3.08 3.215 19.44  1  0    3    1
## Hornet Sportabout 18.7   8  360 175 3.15 3.440 17.02  0  0    3    2
## Valiant           18.1   6  225 105 2.76 3.460 20.22  1  0    3    1
##                              modelo
## Mazda RX4                 Mazda RX4
## Mazda RX4 Wag         Mazda RX4 Wag
## Datsun 710               Datsun 710
## Hornet 4 Drive       Hornet 4 Drive
## Hornet Sportabout Hornet Sportabout
## Valiant                     Valiant

O conjunto de dados mtcars contém características de diversos modelos de automóveis, como consumo (mpg), cilindros (cyl), potência (hp) etc.

1.2 Manipulação Simples

Ordenação

Vamos ordenar os carros por consumo (mpg) decrescente:

dados_ordenados <- arrange(dados, desc(mpg))
head(dados_ordenados)
##                 mpg cyl  disp  hp drat    wt  qsec vs am gear carb
## Toyota Corolla 33.9   4  71.1  65 4.22 1.835 19.90  1  1    4    1
## Fiat 128       32.4   4  78.7  66 4.08 2.200 19.47  1  1    4    1
## Honda Civic    30.4   4  75.7  52 4.93 1.615 18.52  1  1    4    2
## Lotus Europa   30.4   4  95.1 113 3.77 1.513 16.90  1  1    5    2
## Fiat X1-9      27.3   4  79.0  66 4.08 1.935 18.90  1  1    4    1
## Porsche 914-2  26.0   4 120.3  91 4.43 2.140 16.70  0  1    5    2
##                        modelo
## Toyota Corolla Toyota Corolla
## Fiat 128             Fiat 128
## Honda Civic       Honda Civic
## Lotus Europa     Lotus Europa
## Fiat X1-9           Fiat X1-9
## Porsche 914-2   Porsche 914-2

Filtragem

Filtrando apenas carros de 6 cilindros com consumo acima de 20 mpg:

dados_filtrados <- filter(dados, cyl == 6, mpg > 20)
dados_filtrados
##                 mpg cyl disp  hp drat    wt  qsec vs am gear carb
## Mazda RX4      21.0   6  160 110 3.90 2.620 16.46  0  1    4    4
## Mazda RX4 Wag  21.0   6  160 110 3.90 2.875 17.02  0  1    4    4
## Hornet 4 Drive 21.4   6  258 110 3.08 3.215 19.44  1  0    3    1
##                        modelo
## Mazda RX4           Mazda RX4
## Mazda RX4 Wag   Mazda RX4 Wag
## Hornet 4 Drive Hornet 4 Drive

Criação de Nova Variável

Criando uma variável de eficiência (‘Alta’ se mpg >= 25, caso contrário ‘Baixa’):

dados <- dados %>%
mutate(eficiencia = ifelse(mpg >= 25, "Alta", "Baixa"))
table(dados$eficiencia)
## 
##  Alta Baixa 
##     6    26

Explicação: - Primeiro é feita uma ordenação para identificar carros de maior eficiência; - Depois a filtragem permite analisar só os veículos que obedecem critérios definidos. - A nova coluna facilita análises segmentadas por eficiência.


2. Tabela Interativa (DT)

datatable(
dados,
options = list(pageLength = 5),
filter = 'top',
rownames = FALSE
)

A tabela acima permite ordenação, busca rápida e paginação, tornando a exploração dos dados eficiente para o usuário.


3. Equações em LaTeX

Equação 1: Regressão Linear

\[ y = \beta_0 + \beta_1x + \epsilon \]

Significado: Modelo linear para estimar \(y\) em função de \(x\), com erro \(\epsilon\).


Equação 2: Função Sigmoide

\[ \sigma(x) = \frac{1}{1 + e^{-x}} \]

Significado: Função de ativação comum em redes neurais.


Equação 3: Entropia de Shannon

\[ H(X) = -\sum_{i=1}^n p(x_i) \log p(x_i) \]

Significado: Mede a incerteza de uma variável aleatória \(X\), fundamental em teoria da informação.


Equação 4: Gradiente Descendente

\[ \theta_{n+1} = \theta_n - \eta \nabla f(\theta_n) \]

Significado: Algoritmo de otimização muito utilizado em machine learning.


Equação 5: Distância Euclidiana

\[ d(\mathbf{x}, \mathbf{y}) = \sqrt{\sum_{i=1}^{n} (x_i - y_i)^2} \]

Significado: Distância clássica entre dois pontos em um espaço n-dimensional.


4. Imagens sobre Ciência de Dados

knitr::include_graphics("/home/makaza/Pictures/image1.png")

knitr::include_graphics("https://ih1.redbubble.net/image.2342919483.1141/st,small,507x507-pad,600x600,f8f8f8.jpg")

Referências

(Murphy 2012; Mining 2006; Neto et al. 2018; Batista et al. 2015; Dueire Lins et al. 2021)

Batista, Jamilson, Rodolfo Ferreira, Hilário Tomaz, Rafael Ferreira, Rafael Dueire Lins, Steven Simske, Gabriel Silva, and Marcelo Riss. 2015. “A Quantitative and Qualitative Assessment of Automatic Text Summarization Systems.” In Proceedings of the 2015 ACM Symposium on Document Engineering, 65–68.
Dueire Lins, Rafael, Rodrigo Barros Bernardino, Elisa Barney Smith, and Ergina Kavallieratou. 2021. “ICDAR 2021 Competition on Time-Quality Document Image Binarization.”
Mining, What Is Data. 2006. “Data Mining: Concepts and Techniques.” Morgan Kaufinann 10 (559-569): 4.
Murphy, Kevin P. 2012. Machine Learning: A Probabilistic Perspective. MIT press.
Neto, Valter, Vitor Rolim, Rafael Ferreira, Vitomir Kovanović, Dragan Gašević, Rafael Dueire Lins, and Rodrigo Lins. 2018. “Automated Analysis of Cognitive Presence in Online Discussions Written in Portuguese.” In European Conference on Technology Enhanced Learning, 245–61. Springer.