Data Management
Exercício 1
O objetivo desta lista é exportar a tabela Titanic para o MySQL e fazer nela consultas básicas, para que o aluno ganhe familiaridade rapidamente com o software MySQL Workbench e a linguagem SQL. A tabela, originalmente, está dividida em duas e estes arquvios (test.csv e train.csv) estão disponíveis na pasta do curso. Elas também podem ser obtidas diretamente no site do Kaggle https://www.kaggle.com/c/titanic/dat.
Parte 1: Criação da Tabela
- Crie uma base de dados vazia chamada titanic. Selecione esta base como default.
- Crei uma tabela chamada passengers dentro da base titanic, contendo os seguintes campos:
- id, do tipo integer (chave primária),
- survived, do tipo char(1)
- class, do tipo integer,
- name, do tipo varchar(100),
- sex, do tipo char(6),
- age, do tipo float,
- sib_sp, do tipo integer,
- par_ch, do tipo integer,
- ticket_num, do tipo varchar(20),
- fare, do tipo float,
- cabin, do tipo varchar(50),
- embarked, do tipo char(1) - Carregue os dados tanto do arquivo train.csv quanto do arquivo test.csv para a tabela passengers, usando o comando LOAD DATA INFILE.
- Verifique se a tabela foi corretamente preenchida e se conta com 1309 linhas. Você pode fazer usando um simples
SELECT count(*) FROM titanic.passengers;. - Exporte a tabela para um arquivo externo. Você pode escolher qualquer formato que nao seja .csv.
Parte 2: Consultas à Tabela
- Responda a todas as perguntas abaixo usando consultas do tipo SELECT:
Anteção: Atenção: Para construir suas consultas (querys), você deve examinar cuidadosamente a maneira que os dados foram registrados. Este tipo de atividade faz parte do dia a dia de qualquer bom cientista de dados.
a. O passageiro de id 395 sobreviveu? E o Sr. Thomas O’Brien?
b. Qual é o nome da Sra. Thomas O’Brien? Ela sobreviveu?
c. Qual é o número do bilhete e o nome do passageiro de id 13?
d. Quantas mulheres havia no barco?
e. Quantas mulheres acima de 30 anos havia no barco?
f. Qual foi a tarifa mais cara do Titanic? Quem pagou?
g. Calcule a média das tarifas pagas por cada classe.
h. Há mais homens ou mulheres na 1ª classe?
- Suponha que você queira melhorar a legibilidade dos campos da coluna embarked. Modifique S para Southampton, Q para Queenstown e C para Cherbourg. Você deve perceber que, antes, precisa mudar o tipo da coluna.
Anteção: Atenção: Envie seus scripts com as querys, suas respostas e seu arquivo de dados exportados para jonatha.costa@fgv.br.