This is an R Markdown document. Markdown is a simple formatting syntax for authoring HTML, PDF, and MS Word documents.
O primeiro passo nesse exercício é encontrar uma fonte de dados confíaveis. Faça, por exemplo, a seguinte pergunta ao ChatGPT: “onde pegar dados sobre taxas de crecimentos dos países?”.
A resposta dada foi a seguinte:
“Banco Mundial: O Banco Mundial é uma organização internacional que fornece empréstimos e assistência técnica aos países em desenvolvimento. Ele também fornece dados e estatísticas sobre a economia mundial, incluindo taxas de crescimento dos países. Você pode acessar os dados do Banco Mundial em seu site:
Vamos, então, no site indicado e baixemos os dados de taxas de crescimento dos diversos países do mundo.
Ao abrir a homepage indicada, clique em pesquisar (browse) por indicador (indicator). Em seguida, escolha a opção Economy & Growth.
Clique agora em GDP growth (annual %).
Na página que se abre é possível ver as taxas de crecimento dos diversos países, para o ultimo ano disponível. A lista está em ordem alfabética.
Agora é preciso baixar esses dados em seu computador (não utilizaremos aqui a opção de webscraping). Clique, para tanto, em CSV, disponível em Download.
Descompacte o arquivo baixado, que deve estar em sua pasta de Downloads. Clique na primeira opção, no caso o arquivo que começa com API.
Acho interessante salvar esse arquivo da base de dados com a qual iremos trabalhar com o nome mais prático, por exemplo, “txcrescpaises.CSV”.
O formato CSV (Comma-separated values) é uma maneira prática e antiga de se armazenar dados, pois facilita a sua formatação em tabelas. Tal formato foi desenvolvido antes mesmos dos primeiros PCs, aí por volta de 1972, para ser usado pelos computadores FORTRAN da IBM. Escolhi salvar os dados nesse formato (você pode salvar no formato adequado à sua planilha) para facilitar o uso dos dados pelo R. Salvando no formato de sua planilha, você já poderá responder ao nosso primeiro exercício.
Vamos agora proceder à limpeza de nossa base dados. Por limpeza entendam a estruturação da tabela de modo mais apresentável, eliminando as informações que não nos interessam. Também, a limpeza será necessária para facilitar a leitura, depois, pelo R.
Na limpeza que fiz, eu apaguei colunas e linhas que não me interessavam, deixando a tabela apenas com os nomes dos países e os anos. Apaguei, também, a coluna do ano 1960, pois não havia números nelas.
Pronto. Com a tabela limpa já posso começar a produzir informações econômicas.
Exercício: calcule as taxas médias de crecimento dos paíese do mundo, para o intervalo de tempo considerado (1961-2021). Ordene a tabela, então, das maiores para as menores taxas de crecimento.
Você poderá responder a esse exercício usando sua planilha. Mas, antes, atentem para o seguinte.
Quando salvamos os dados em CSV os números vêem em fornato usado nos EUA, ou seja, o decimal é separado por ponto. No Brasil, o decimal é separado por vírgula, logo para que a planilha reconheça os dados como números e não como texto, eu devo, primeiro, substituir os pontos por vírgulas.
No LibreOffice eu faço isso selecionando toda a tabela e em seguida clicando em Editar. Escolho Localizar e Substituir. Na janela que se abre eu localizo os pontos e os substituo por vírgulas, clicando em Substituir todos.
Em seguida, encontro a média dos crescimentos entre países. Nem todos os países tem dados desde de 1961, mas para nosso exercício está de bom tamanho.
Se você quiser apresentar os dados só por países, precisam tirar também as linhas com nomes de regiões e grupos de países.
Usando a excelente base de dados do Banco Mundial, vamos agora estudar a correlação entre crescimento econômico e educação.
É um exercício para comerçarmos a trabalhar com o R.
O primeiro passo será o de baixar as seguintes séries de dados:
GDP per capita, PPP (current international $)
GDP growth (annual %)
School enrollment, tertiary (% gross)
As tabelas baixadas em CSV trazem informações para 166 países. Vamos separar as colunas referentes a 2015. Vamos montar um arquivo com as seguintes colunas: paises, txpib, pibpc.
Será uma tabela com 267 linhas (a primeira é o título das colunas - header) e 4 colunas. Dei o nome de “pibcorr.CSV” ao arquivo. As colunas eu nomeei como “paises”, “pibpc”, “txpib”, “edu”. Você pode dar o nome que quiser.
Atenção: a tabela esta em CSV conforme usado nos EUA. Ou seja, os decimais são separados por pontos. Tanto é assim, que os números aparecem como texto na planilha. Acho melhor esse formado para facilitar a leitura pelo R (embora o R possa ler arquivo em CSV do Brasil também).
Devemos agora abrir o RStudio e criar um espaço de trabalho (script). Dê o nome a esse script e o salve (em “salvar como”).
Instale os seguintes pacotes, por meio do comando install.packages: tidyverse e GGally. O primeiro pacote é uma poderosa suíte para se trabalhar ciência de dados. O segundo é um pacote auxiliar ao muito usado ggplot2. O GGally vai nos permitir visualizar as correlações que iremos fazer.
Uma vez instalados os pacotes, precisamos acionálos em nosso espaço de trabalho. Isto é feito com o comando library:
library("tidyverse")
library("GGally")
Caso não tenha vindo mensagem de erro, os pacotes foram devidamente carregados.
Vamos criar uma tabela de trabalho no R. O comando para tanto é o seguinte:
pibedu<-read.csv("pibcorr.csv", header = T)
O nome que dei ao data frame criado foi “pibedu”. É com esse data frame que trabalharemos. Notem que no comando acima, escolhi preservar o nome das colunas, com a instrução header = T.
Você vê que o arquivo foi criado na janela Environment, ao lado. para visualizar a tabela criada, clique no quadrado na linha do arquivo.
A correlação, que varia de -1 a 1, mede como as séries de dados variam em conjunto. Se a relação é muito forte, por exemplo, se um PIB per capita alto está muito relacionado a um nível de educação também muito alto, o valor da correlação se aproxima de um. Se a relação entre duas variáveis é fortemente negativa, ou seja, quando uma cresce a outra diminui, o valor se aproxima de -1. Se as variáveis não guardam relação entre si, a correlação é próxima de zero. Mais em https://pt.wikipedia.org/wiki/Correlação.
É possível calcular a correlação entre duas variáveis de diversas formas no R. Vamos fazê-lo aqui de duas maneiras diferentes.
Primeiro usando a função cor que já vem no próprio R base. O comando é o seguinte:
corr<-cor(pibedu$pibpc, pibedu$edu, use = "complete.obs")
corr
## [1] 0.5528635
Observações sobre o comando acima. Usamos a função cor para calcular a correlação e jogamos o resultado em um objeto (Value) que denominamos “corr” (mais uma vez, você pode dar qualquer nome).
Queremos calcular a correlação entre a variável pibpc do data frame pibedu (por isso essa instrução: pibedu\(pibcp**) com a variável *edu*, do data frame *pibedu* (**pibedu\)edu). Ou seja, não estamos aqui trabalhando com todas as variáveis do data frame pibedu, mas apenas as duas que nos interessam no momento.
Como em nosso data frame há várias informações faltando, acrescentamos a instrução use = “complete.obs”. Ou seja, a conta será feita apenas para dados completos.
Para ver o resultado, digitamos corr.
Mais interessante e encontrar uma Matriz de Correlação. Agora as diversas correlações entre as variáveis de uma tabela são apresentadas de uma só vez.
O pacote GGally vai nos permitir não só fazer essa matriz, como apresentar resultados gráficos, enriquecendo nossa apresentação.
Assim, usamos a função ggcorr do pacote GGally:
ggcorr(pibedu[2:4], label = TRUE, label_round = 4)
Observações sobre o comando acima:
Notem que apliquei a função ggcorr a um trecho do data frame pibedu. O trecho é formado pelas colunas 2 a 4 (lembrem que a primeira coluna é só o nome dos países). Para esse tipo de seleção usamos colchetes “[]”.
A instrução label = TRUE permite que as correlações calculadas apareçam nas figuras. Já a instrução **label_round = 4” seleciona o número de casas decimais.
Por fim, notem que as cores da figura (vejam a barra de cores ao lado da figura) estão diretamente associadas aos graus de correlações encontrados.