Relatório

Item 1

1. Manipulação de Dados

Nesta seção, vamos carregar um conjunto de dados simples, realizar algumas manipulações, e explicar cada passo do processo.

Utilizaremos o dataset mtcars, que já vem embutido no R. Ele contém dados de desempenho de carros.

# Carregando o conjunto de dados
data("mtcars")
head(mtcars)
##                    mpg cyl disp  hp drat    wt  qsec vs am gear carb
## Mazda RX4         21.0   6  160 110 3.90 2.620 16.46  0  1    4    4
## Mazda RX4 Wag     21.0   6  160 110 3.90 2.875 17.02  0  1    4    4
## Datsun 710        22.8   4  108  93 3.85 2.320 18.61  1  1    4    1
## Hornet 4 Drive    21.4   6  258 110 3.08 3.215 19.44  1  0    3    1
## Hornet Sportabout 18.7   8  360 175 3.15 3.440 17.02  0  0    3    2
## Valiant           18.1   6  225 105 2.76 3.460 20.22  1  0    3    1

Manipulação

library(dplyr)

# Seleciono apenas os carros com mais de 20 milhas por galão (mpg) e 
# Crio uma nova variável indicando se o carro tem mais de 6 cilindros
mtcars_mod <- mtcars %>% filter(mpg > 20) %>%
  mutate(alto_cilindro = ifelse(cyl > 6, "Sim", "Não")) %>% arrange(desc(hp))

# Por fim, ordeno os dados por potência (hp) de forma decrescente
head(mtcars_mod)
##                 mpg cyl  disp  hp drat    wt  qsec vs am gear carb
## Lotus Europa   30.4   4  95.1 113 3.77 1.513 16.90  1  1    5    2
## Mazda RX4      21.0   6 160.0 110 3.90 2.620 16.46  0  1    4    4
## Mazda RX4 Wag  21.0   6 160.0 110 3.90 2.875 17.02  0  1    4    4
## Hornet 4 Drive 21.4   6 258.0 110 3.08 3.215 19.44  1  0    3    1
## Volvo 142E     21.4   4 121.0 109 4.11 2.780 18.60  1  1    4    2
## Toyota Corona  21.5   4 120.1  97 3.70 2.465 20.01  1  0    3    1
##                alto_cilindro
## Lotus Europa             Não
## Mazda RX4                Não
## Mazda RX4 Wag            Não
## Hornet 4 Drive           Não
## Volvo 142E               Não
## Toyota Corona            Não

Item 2

library(DT)

# Tabela interativa
datatable(mtcars_mod, 
          options = list(pageLength = 5, autoWidth = TRUE), 
          caption = 'Tabela 1: Carros com mais de 20 mpg')

Item 3

Equações

Abaixo estão cinco equações matemáticas relevantes para a ciência de dados e acompanhadas de explicações.

1. Regressão Linear Simples

\[ y = \beta_0 + \beta_1 x + \varepsilon \]

Significado: Modelo linear onde \(y\) depende de uma variável \(x\), com intercepto \(\beta_0\), coeficiente \(\beta_1\), e erro aleatório \(\varepsilon\).

2. Entropia de Shannon

\[ H(X) = -\sum_{i=1}^{n} p(x_i) \log_2 p(x_i) \]

Significado: Mede a incerteza de uma variável aleatória \(X\). Muito utilizada em algoritmos de aprendizado de máquina, como árvores de decisão.

3. Regra de Atualização do Gradiente Descendente

\[ \theta := \theta - \alpha \nabla J(\theta) \]

Significado: Expressa a atualização de parâmetros \(\theta\) para minimizar uma função de custo \(J(\theta)\), com uma taxa de aprendizado \(\alpha\).

4. Função Sigmoide

\[ \sigma(x) = \frac{1}{1 + e^{-x}} \]

Significado: Uma função de ativação usada em redes neurais, que mapeia qualquer valor real para o intervalo (0, 1).

5. Matriz de Covariância

\[ \Sigma = \frac{1}{n - 1}(X - \bar{X})^T (X - \bar{X}) \]

Significado: Mede a relação linear entre variáveis em uma matriz de dados \(X\), sendo amplamente usada em estatística multivariada e PCA.

Item 4

Imagem 1

Imagem 2

Item 5

Referências

(Rezende Francisco 2017), (Saldanha, Barcellos, and Pedroso 2021), (Kalinowski et al. 2023), (Silva Smolski et al. 2018), (Figueiredo Filho and Silva Júnior 2009)

Figueiredo Filho, Dalson Britto, and José Alexandre Silva Júnior. 2009. “Desvendando Os Mistérios Do Coeficiente de Correlação de Pearson (r).” Revista Polı́tica Hoje 18 (1): 115–46.
Kalinowski, Marcos, Tatiana Escovedo, Hugo Villamizar, and Hélio Lopes. 2023. Engenharia de Software Para Ciência de Dados: Um Guia de Boas Práticas Com ênfase Na Construção de Sistemas de Machine Learning Em Python. Casa do Código.
Rezende Francisco, Eduardo de. 2017. “Big Data Analytics e Ciencia de Dados: Pesquisa e Tomada de Decisao.” RAE 57 (2): 199–200.
Saldanha, Raphael de Freitas, Christovam Barcellos, and Marcel de Moraes Pedroso. 2021. “Ciência de Dados e Big Data: O Que Isso Significa Para Estudos Populacionais e Da Saúde?” Cadernos Saúde Coletiva 29 (spe): 51–58.
Silva Smolski, Felipe Micail da, Iara Endruweit Battisti, Tatiane Chassot, Denize Ivete Reis, Erikson Kaszubowski, and Djaina Sibiani Rieger. 2018. “Capacitação Em análise Estatı́stica de Dados Com Uso Do Software Livre r.” Revista Ciência Em Extensão 14 (3): 123–34.