Aluno: Renato Rodrigues Alves
Curso: Engenharia Civil
Instituição: Faculdade Celso Lisboa
Disciplina: Análise de Dados
Local: Rio de Janeiro - RJ
O trabalho consiste em uma análise estatística da base de dados do Instituto de Pesquisa Econômica Aplicada (Ipea) utilizando a linguagem R (RMarkdown). O objetivo principal é organizar e tratar os dados para avaliar o desempenho dos conjuntos de dados da instituição, focando em indicadores como volume de recursos, frequência de reuso e total de downloads para identificar as bases de maior impacto e acesso.
library(readr)
library(dplyr)
library(ggplot2)
library(knitr)
library(scales)
dados <- read_delim(
"conjunto-dados.csv",
delim = "\t",
locale = locale(encoding = "Latin1")
)
## # A tibble: 6 × 1
## Organização;Nome;Descrição;Tags;Quantidade Recursos;Quantidade Reusos;Qu…¹
## <chr>
## 1 IPEA - Instituto de Pesquisa Econômica Aplicada;Abate - bois - quantidade;Ab…
## 2 IPEA - Instituto de Pesquisa Econômica Aplicada;Abate - bovinos - quantidade…
## 3 IPEA - Instituto de Pesquisa Econômica Aplicada;Abate - bovinos - quantidade…
## 4 IPEA - Instituto de Pesquisa Econômica Aplicada;Abate - frangos - quantidade…
## 5 IPEA - Instituto de Pesquisa Econômica Aplicada;Abate - suÃnos - quantidade…
## 6 IPEA - Instituto de Pesquisa Econômica Aplicada;Abate - vacas - quantidade;A…
## # ℹ abbreviated name:
## # ¹`Organização;Nome;Descrição;Tags;Quantidade Recursos;Quantidade Reusos;Quantidade Downloads`
Nesta etapa foram padronizados os nomes das colunas, removendo espaços, acentos e caracteres especiais. Também foram ajustados os tipos das variáveis numéricas.
names(dados) <- c(
"organizacao",
"nome",
"descricao",
"tags",
"quantidade_recursos",
"quantidade_reusos",
"quantidade_downloads"
)
dados <- dados %>%
mutate(
quantidade_recursos = as.numeric('Quantidade Recursos'),
quantidade_reusos = as.numeric('Quantidade Reusos'),
quantidade_downloads = as.numeric('Quantidade Downloads'),
nome = as.numeric('Nome')
)
str(dados)
## tibble [3,013 × 5] (S3: tbl_df/tbl/data.frame)
## $ organizacao : chr [1:3013] "IPEA - Instituto de Pesquisa Econômica Aplicada;Abate - bois - quantidade;Abate de bois: quantidade (ABATE12_A"| __truncated__ "IPEA - Instituto de Pesquisa Econômica Aplicada;Abate - bovinos - quantidade;Abate de bovinos: quantidade (ABA"| __truncated__ "IPEA - Instituto de Pesquisa Econômica Aplicada;Abate - bovinos - quantidade;Abate de bovinos: quantidade (ABA"| __truncated__ "IPEA - Instituto de Pesquisa Econômica Aplicada;Abate - frangos - quantidade;Abate de frangos: quantidade (ABA"| __truncated__ ...
## $ quantidade_recursos : num [1:3013] NA NA NA NA NA NA NA NA NA NA ...
## $ quantidade_reusos : num [1:3013] NA NA NA NA NA NA NA NA NA NA ...
## $ quantidade_downloads: num [1:3013] NA NA NA NA NA NA NA NA NA NA ...
## $ nome : num [1:3013] NA NA NA NA NA NA NA NA NA NA ...
summary(dados)
## organizacao quantidade_recursos quantidade_reusos quantidade_downloads
## Length:3013 Min. : NA Min. : NA Min. : NA
## Class :character 1st Qu.: NA 1st Qu.: NA 1st Qu.: NA
## Mode :character Median : NA Median : NA Median : NA
## Mean :NaN Mean :NaN Mean :NaN
## 3rd Qu.: NA 3rd Qu.: NA 3rd Qu.: NA
## Max. : NA Max. : NA Max. : NA
## NA's :3013 NA's :3013 NA's :3013
## nome
## Min. : NA
## 1st Qu.: NA
## Median : NA
## Mean :NaN
## 3rd Qu.: NA
## Max. : NA
## NA's :3013
| Coluna | Valores_Ausentes | |
|---|---|---|
| organizacao | organizacao | 0 |
| quantidade_recursos | quantidade_recursos | 3013 |
| quantidade_reusos | quantidade_reusos | 3013 |
| quantidade_downloads | quantidade_downloads | 3013 |
| nome | nome | 3013 |
A tabela abaixo apresenta média, mediana, desvio padrão, variância, valor máximo e valor mínimo das variáveis numéricas analisadas.
| Variavel | Media | Mediana | Desvio_Padrao | Variancia | Maximo | Minimo |
|---|---|---|---|---|---|---|
| Quantidade de Recursos | NaN | NA | NA | NA | -Inf | Inf |
| Quantidade de Reusos | NaN | NA | NA | NA | -Inf | Inf |
| Quantidade de Downloads | NaN | NA | NA | NA | -Inf | Inf |
| nome | quantidade_downloads |
|---|---|
| NA | NA |
| NA | NA |
| NA | NA |
| NA | NA |
| NA | NA |
| NA | NA |
| NA | NA |
| NA | NA |
| NA | NA |
| NA | NA |
A análise dos dados do Instituto de Pesquisa Econômica Aplicada (Ipea) revelou que a procura por informações é desigual, com temas específicos concentrando o maior volume de downloads. Através da estatística descritiva e da visualização gráfica, foi possível identificar padrões de reuso e identificar os conjuntos de dados de maior impacto. Por fim, o fluxo de trabalho no RStudio/RMarkdown mostrou-se eficiente para o tratamento automatizado e a organização profissional do projeto.