Data Management
Exercício 2
O objetivo da lista é criar uma base de dados contendo todas as séries do Banco Mundial e fazer consultas SQL básicas à base. Os arquivos .csv com os dados (de até 2014) estão localizados na plataforma do curso. Eles ta,bém podem ser obtidos diretamente da fonte, no Kaggle https://www.kaggle.com/.
Parte 1: Criação da Base
- Crie uma base de dados vazia chamada wdi
- Crie uma tabela chamada CountryNotes. Ela deverá conter os campos:
- CountryCode, do tipo varchar(5),
- SeriesCode, do tipo varchar(100),
- Description, do tipo varchar(2000) Anteção: Você deve preencher a tabela a partir do arquivo CountryNotes.csv. Não esqueça de passar para o comando LOAD INFILE todo o caminho para o arquivo, utilizando o caracter \ para o escape.
Exiba os valores do campo CountryCode da tabela CountryNotes. Quantos caracteres são realmente necessários para cada campo desta coluna? Modifique o tipo do campo CountryCode, para que apenas um número fixo de caracteres seja aceito.
Crie as demais tabelas da base, de acordo com o diagrama ER da página seguinte. Os arquivos .csv correpondentes às tabelas são homônimos.
Anteção: Dica: Caso crie uma tabela cuja chave estranjeira pertence a uma tabela que ainda não foi criada, você pode adicionar a chave a esta tabela depois, via ALTER TABLE. Por exemplo, você pode precisar adicionar uma restrição à tabela CountryNotes.csv.
Gere o diagrama ER para a base de dadods wdi. Compara com o que foi fornecido e verifique se a estruura base está correta.
Exporte cada uma das bases para um arquivo externo. Você pode escolher qualquer formato que não seja .csv.
Anteção: Atenção: Envie seus scripts de criação, seu diagrama ER e seus arquivos de dados exportados para jonatha.costa@fgv.br.
Parte 2: Consulta à Base
Exporte Todos os resultados das consultas a seguir para algum formato de escolha que não seja .csx, exceto quando indicado.
- Qual a sigla/chave primária da Alemanha? Repare que os dados estão em inglês. Isso significa que você deve buscar por Germany.
- liste todas as séries disponíveis para cada país. Para isso, você deve criar uma query que devolva uma tabela com as seguintes colunas:
- SeriesCode, o código da série, da tabela Series,
- IndicatorName, o nome da série, da tabela Series,
- CountryCode, o código do país para o qual a série está disponível, da tabela Indicators
O MySQL indica quantas linhas sua consulta gerou. Então, quantas séries há na base do Banco Mundial? Não é necessário exportar os resultados.
Anteção: Dica: caso fique na dúvida em relação às chaves primárias/estrangeiraas ou aos campos das tabelas, consute o diagrama ER.
- Liste a quantidade de séries por país. Quais são os três países com maior número de séries?
Anteção: Dica: Você precisará das cláusulas GROUP BY e ORDER BY.
- Liste a definição curta (ShorDefinition), o nome da série e o código de todas as séries cujo nome contenha a palavra ‘gdp (sigla em inglês para o Gross Domestic Product, o PIB)’.
Anteção: Dica: Não precisa se preocupar com maiúsculas e minúscula.
- Qual o código da série do PIB per capita em dólares constantes? Em inglês, o nome da série é ‘GDP per capita (constant 2005 US$)’.
- No ano de 2012, em qual país o PIB per capita a dólares constantes foi o maior?
- Obtenha toda a série (isto é, todos os pares Value, Year) do PIB per capita a dólares constantes da Alemanha.
Anteção: Atenção: Envie seus scripts com as querys, suas respostas e seu arquivo de dados exportados para jonatha.costa@fgv.br.