O presente documento tem como finalidade relatar as
funcionalidades do R, Rstudio e Rmarkdown utilizando dados do Estado do
Piauí disponibilizados pelo Instituto Brasileiro de Geografia e
Estatística - IBGE
A Análise acerca do banco de dados do Estado do Piauí, teve
como objetivo relatar os métodos do R, RStudio e a extensão RMarkdown
apresentados durante as aulas da disciplina de Introdução à Ciência de
Dados, de forma que foi necessário utilizar um banco de dados para a
realização do relatório, o conjunto de informações atribuido está
disponibilizado no site do Instituto Brasileiro de Geografia e
Estatística - IBGE
O material utilizado foi o banco de dados do estado do Piauí,
possibilitando uma pespectiva ampla e aprofundada sobre o estado em
questão. O ambiente utilizado para desenvolver a análise foi o RStudio
com a extensão RMarkdown e a linguagem de programação R. Foi
Implementado a biblioteca readxlpara ler os arquivos do
banco de dados no formato Excel(.xlsx), a variável meuxlsx
hospeda o arquivo Excel(.xlsx), no pacote readxl possui a
função read_excelque auxilia a variável Dados
a ler os arquivos do Excel(.xlsx) propriamente em um ambiente R. Em
seguida, foi adicionado o pathque oferece um caminho para o
arquivo Excel(.xlsx) que queremos ler, como também o sheet
que lê o número da planilha escolhida, a variável dados
recebe a variável Dadose a transforma em uma estrutura de
dados tabular data.frame.Tendo em vista que estamos
trabalhando com uma grande escala de dados, foi necessário usar
library(rmarkdown) paged_table(dados) para
estruturar os dados de forma organizada e completa com direito a abas,
bem como a função head()para conseguir visualizar os dados
de forma rápida e estruturada permitindo exibir quantas colunas desejar,
juntamente da função dim() que proporciona medir a dimensão
de um data.frame.
#Implementando a biblioteca
library(readxl)
#O `meuxlsx` hospeda o arquivo excel(.xlsx)
meuxlsx <- "piaui.xlsx"
#O `Dados` ler o arquivo excel(.xlsx)
Dados <- read_excel(path = meuxlsx, sheet = 1)
#O `dados` recebe `Dados` e o transforma em tabela
dados <- as.data.frame(Dados)
#Função para mostrar o tipo da variável
O banco de dados supracitado fornece um enorme conjunto de
dados estatísticos sobre o Estado do Piauí em diferentes campos,
como:
#Exibe uma tabela com abas de todos os dados estruturados
library(rmarkdown)
paged_table(dados)
#Exibe a dimensão do `data.frame`
dim(dados)
## [1] 224 11
#Comando `head` utilizado para ver as 6 primeiras linhas dos dados
head(dados)
## Município Prefeito [2021] AT PR
## 1 Acauã PAULO SERGIO DE SOUSA 1280.838 6420
## 2 Agricolândia ITALO JAMES ALENCAR DE SOUZA 112.392 4940
## 3 Água Branca JOSÉ RIBEIRO DA CRUZ JUNIOR 96.843 17573
## 4 Alagoinha do Piauí JORISMAR JOSÉ DA ROCHA 535.890 6819
## 5 Alegrete do Piauí MARIA LILIAN DE ALENCAR 243.732 4634
## 6 Alto Longá HENRIQUE CESAR SARAIVA AREA LEAO COSTA 1743.331 13479
## DD ESC IDHM MI RR DE PIB
## 1 5.01 97.5 0.528 23.81 16160.54709 15755.32908 8819.73
## 2 43.95 97.5 0.599 NA 14873.8781 13709.297979999999 8453.12
## 3 181.46 98.6 0.639 NA 49509.453110000002 44495.9755 12537.11
## 4 12.72 93.6 0.531 10.87 15041.139569999999 15044.569509999999 8772.48
## 5 19.01 96.7 0.585 17.86 14928.46141 13272.152529999999 11207.05
## 6 7.73 97.9 0.585 16.00 26948.286199999999 24944.331590000002 8341.81
#Exibe uma estrutura de dados completa e rápida
str(dados)
## 'data.frame': 224 obs. of 11 variables:
## $ Município : chr "Acauã" "Agricolândia" "Água Branca" "Alagoinha do Piauí" ...
## $ Prefeito [2021]: chr "PAULO SERGIO DE SOUSA" "ITALO JAMES ALENCAR DE SOUZA" "JOSÉ RIBEIRO DA CRUZ JUNIOR" "JORISMAR JOSÉ DA ROCHA" ...
## $ AT : num 1280.8 112.4 96.8 535.9 243.7 ...
## $ PR : num 6420 4940 17573 6819 4634 ...
## $ DD : num 5.01 43.95 181.46 12.72 19.01 ...
## $ ESC : num 97.5 97.5 98.6 93.6 96.7 97.9 97.6 97.4 97.2 96.9 ...
## $ IDHM : num 0.528 0.599 0.639 0.531 0.585 0.585 0.614 0.578 0.598 0.63 ...
## $ MI : num 23.8 NA NA 10.9 17.9 ...
## $ RR : chr "16160.54709" "14873.8781" "49509.453110000002" "15041.139569999999" ...
## $ DE : chr "15755.32908" "13709.297979999999" "44495.9755" "15044.569509999999" ...
## $ PIB : num 8820 8453 12537 8772 11207 ...
Os dados disponibilizados foram baixados em formato excel(.xlsx), de forma que fosse possível a visualização em planilha. Em seguida, as variáveis presentes no banco de dados foram resumidas em siglas para um melhor manuseio, após essas medidas o banco de dados foi implementado no RStudio, juntamente com a extensão RMarkdown em linguagem R. Os dados analisados fornecem informações importantes acerca da população residente, situação socioeconômica, setores econômicos, taxa de escolarização, taxa de mortalidade infantil e PIB per capita do Estado do Piauí constando os nomes dos(as) prefeitos(as) de cada munícipio no ano de 2021, essa análise evidencia a importância dos dados para uma melhor compreensão da situação e o planejamento de políticas públicas, bem como a tomada de decisões estratégicas em diferentes áreas do estado do Piauí. Segue abaixo a representação gráfica de alguns campos mencionados:
#Biblioteca de criação de gráficos
library(ggplot2)
#Biblioteca de manipulação de dados
library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
#Banco de dados com `pipe`
dados %>%
group_by(Município, PR) %>%
#Retorna a quantidade de população residente
count(PR) %>%
#Seleciona os primeiros 10 registros desses grupos
head(10) %>%
#Inicializa o gráfico
ggplot() +
#Adiciona colunas no gráfico
geom_col(
aes(Município,n, fill = PR)) +
#Utilizada para configurar titulos e legenda
labs(legend = TRUE,
title = "Dados do Estado do Piauí",
subtitle = "População Residente no ano de 2022",
#Eixo X e Y
x = "Municipios",
y = "População residente",
#Possibilita colocar a fonte dos dados mostrados
caption = "Fonte: Instituto Brasileiro de Geografia e Estatística") +
#Inverte os eixos do gráfico
coord_flip()
Quanto mais populoso o município for, o gráfico apresentará um azul claro conforme a legenda apresentada ao lado. Dessa forma, com essa analise podemos observar a distribuição da população em um determinado município, evidenciando as áreas mais e menos populosas do Estado do Piauí.
#Biblioteca de criação de gráficos
library(ggplot2)
#Biblioteca de manipulação de dados
library(dplyr)
#Banco de dados com `pipe`
dados %>%
group_by(Município, PIB) %>%
#Retorna a quantidade de população residente
count(PIB) %>%
#Seleciona os primeiros 10 registros desses grupos
head(10) %>%
#Inicializa o gráfico
ggplot() +
#Adiciona colunas no gráfico
geom_col(
aes(Município,n, fill = PIB)) +
#Utilizada para configurar titulos e legenda
labs(legend = TRUE,
title = "Dados do Estado do Piauí",
subtitle = "PIB per capita no ano de 2020",
#Eixo X e Y
x = "Municipios",
y = "PIB per capita",
#Possibilita colocar a fonte dos dados mostrados
caption = "Fonte: Instituto Brasileiro de Geografia e Estatística") +
#Inverte os eixos do gráfico
coord_flip()
Podemos observar acima o gráfico do produto interno bruto - PIB per capita de alguns municípios. Essa medida foi utilizada para calcular o nível de desenvolvimento econômico e bem-estar da população dos munícipios do Estado do Piauí.
#Biblioteca de criação de gráficos
library(ggplot2)
#Biblioteca de manipulação de dados
library(dplyr)
#Banco de dados com `pipe`
dados %>%
group_by(Município, ESC) %>%
#Retorna a quantidade de população residente
count(ESC) %>%
#Seleciona os primeiros 10 registros desses grupos
head(10) %>%
#Inicializa o gráfico
ggplot() +
#Adiciona colunas no gráfico
geom_col(
aes(Município,n, fill = ESC)) +
#Utilizada para configurar titulos e legenda
labs(legend = TRUE,
title = "Dados do Estado do Piauí",
subtitle = "Escolarização",
#Eixo X e Y
x = "Municipios",
y = "Escolarização",
#Possibilita colocar a fonte dos dados mostrados
caption = "Fonte: Instituto Brasileiro de Geografia e Estatística") +
#Inverte os eixos do gráfico
coord_flip()
Acima temos o gráfico da escolarização de alguns municípios do Estado do Piauí na faixa etária dos 6 aos 14 anos no ano de 2010, possibilitando a visualização da população em determinada faixa etária que se encontra matriculada em uma rede de ensino.
Portanto, o conjunto de informações utilizadas evidencia a importância do Instituto Brasileiro de Geografia e Estatística - IBGE, como grande provedora de informações do país, o ambiente RStudio com extensão RMarkdown proporcionou o desenvolvimento do relatório utilizando a linguagem R para a implementação de bibliotecas, funções, gráficos e a estruturação dos dados, bem como a importação do banco de dados do Piauí em formato Excel(.xlsx) para a realização deste documento com base nos conhecimentos adquiridos durante as aulas da disciplina de Introdução à Ciência de Dados e nas pesquisas academicas.
PERES, Fernanda.Canal YouTube: Estatística Aplicada à vida real Acesso em: 01 de Outubro de 2023
LAURO, Adriano.RPubs: Trabalhando com R - do básico ao avançado Acesso em: 03 de Outubro de 2023