Projeto de Análise de Dados

Aluno: Renato Rodrigues Alves
Curso: Engenharia Civil
Instituição: Faculdade Celso Lisboa
Disciplina: Análise de Dados
Local: Rio de Janeiro - RJ

1. Introdução

O trabalho consiste em uma análise estatística da base de dados do Instituto de Pesquisa Econômica Aplicada (Ipea) utilizando a linguagem R (RMarkdown). O objetivo principal é organizar e tratar os dados para avaliar o desempenho dos conjuntos de dados da instituição, focando em indicadores como volume de recursos, frequência de reuso e total de downloads para identificar as bases de maior impacto e acesso.

2. Carregamento de pacotes

library(readr)
library(dplyr)
library(ggplot2)
library(knitr)
library(scales)

3. Carregamento de planilha

dados <- read_delim(
  "conjunto-dados.csv",
  delim = "\t",
  locale = locale(encoding = "Latin1")
)

3.1 Visualização Inicial

## # A tibble: 6 × 1
##   Organização;Nome;Descrição;Tags;Quantidade Recursos;Quantidade Reusos;Qu…¹
##   <chr>                                                                         
## 1 IPEA - Instituto de Pesquisa Econômica Aplicada;Abate - bois - quantidade;Ab…
## 2 IPEA - Instituto de Pesquisa Econômica Aplicada;Abate - bovinos - quantidade…
## 3 IPEA - Instituto de Pesquisa Econômica Aplicada;Abate - bovinos - quantidade…
## 4 IPEA - Instituto de Pesquisa Econômica Aplicada;Abate - frangos - quantidade…
## 5 IPEA - Instituto de Pesquisa Econômica Aplicada;Abate - suínos - quantidade… 
## 6 IPEA - Instituto de Pesquisa Econômica Aplicada;Abate - vacas - quantidade;A…
## # ℹ abbreviated name:
## #   ¹​`Organização;Nome;Descrição;Tags;Quantidade Recursos;Quantidade Reusos;Quantidade Downloads`

4. Preparação e Tratamento dos Dados

Nesta etapa foram padronizados os nomes das colunas, removendo espaços, acentos e caracteres especiais. Também foram ajustados os tipos das variáveis numéricas.

names(dados) <- c(
  "organizacao",
  "nome",
  "descricao",
  "tags",
  "quantidade_recursos",
  "quantidade_reusos",
  "quantidade_downloads"
)

dados <- dados %>%
  mutate(
    quantidade_recursos = as.numeric('Quantidade Recursos'),
    quantidade_reusos = as.numeric('Quantidade Reusos'),
    quantidade_downloads = as.numeric('Quantidade Downloads'),
    nome = as.numeric('Nome')
  )

str(dados)
## tibble [3,013 × 5] (S3: tbl_df/tbl/data.frame)
##  $ organizacao         : chr [1:3013] "IPEA - Instituto de Pesquisa Econômica Aplicada;Abate - bois - quantidade;Abate de bois: quantidade (ABATE12_A"| __truncated__ "IPEA - Instituto de Pesquisa Econômica Aplicada;Abate - bovinos - quantidade;Abate de bovinos: quantidade (ABA"| __truncated__ "IPEA - Instituto de Pesquisa Econômica Aplicada;Abate - bovinos - quantidade;Abate de bovinos: quantidade (ABA"| __truncated__ "IPEA - Instituto de Pesquisa Econômica Aplicada;Abate - frangos - quantidade;Abate de frangos: quantidade (ABA"| __truncated__ ...
##  $ quantidade_recursos : num [1:3013] NA NA NA NA NA NA NA NA NA NA ...
##  $ quantidade_reusos   : num [1:3013] NA NA NA NA NA NA NA NA NA NA ...
##  $ quantidade_downloads: num [1:3013] NA NA NA NA NA NA NA NA NA NA ...
##  $ nome                : num [1:3013] NA NA NA NA NA NA NA NA NA NA ...
summary(dados)
##  organizacao        quantidade_recursos quantidade_reusos quantidade_downloads
##  Length:3013        Min.   : NA         Min.   : NA       Min.   : NA         
##  Class :character   1st Qu.: NA         1st Qu.: NA       1st Qu.: NA         
##  Mode  :character   Median : NA         Median : NA       Median : NA         
##                     Mean   :NaN         Mean   :NaN       Mean   :NaN         
##                     3rd Qu.: NA         3rd Qu.: NA       3rd Qu.: NA         
##                     Max.   : NA         Max.   : NA       Max.   : NA         
##                     NA's   :3013        NA's   :3013      NA's   :3013        
##       nome     
##  Min.   : NA   
##  1st Qu.: NA   
##  Median : NA   
##  Mean   :NaN   
##  3rd Qu.: NA   
##  Max.   : NA   
##  NA's   :3013

5. Verificação de Valores Ausentes

Coluna Valores_Ausentes
organizacao organizacao 0
quantidade_recursos quantidade_recursos 3013
quantidade_reusos quantidade_reusos 3013
quantidade_downloads quantidade_downloads 3013
nome nome 3013

6. Estatística Básica

A tabela abaixo apresenta média, mediana, desvio padrão, variância, valor máximo e valor mínimo das variáveis numéricas analisadas.

Variavel Media Mediana Desvio_Padrao Variancia Maximo Minimo
Quantidade de Recursos NaN NA NA NA -Inf Inf
Quantidade de Reusos NaN NA NA NA -Inf Inf
Quantidade de Downloads NaN NA NA NA -Inf Inf

7. Bases com Mais Downloads

nome quantidade_downloads
NA NA
NA NA
NA NA
NA NA
NA NA
NA NA
NA NA
NA NA
NA NA
NA NA

8. Gráfico de Colunas

9. Gráfico de Linha

10. Histograma

11. Boxplot

12. Gráfico de Pizza

13. Conclusão

A análise dos dados do Instituto de Pesquisa Econômica Aplicada (Ipea) revelou que a procura por informações é desigual, com temas específicos concentrando o maior volume de downloads. Através da estatística descritiva e da visualização gráfica, foi possível identificar padrões de reuso e identificar os conjuntos de dados de maior impacto. Por fim, o fluxo de trabalho no RStudio/RMarkdown mostrou-se eficiente para o tratamento automatizado e a organização profissional do projeto.