Data Management

O objetivo desta lista é exportar a tabela Titanic para o MySQL e fazer nela consultas básicas, para que o aluno ganhe familiaridade rapidamente com o software MySQL Workbench e a linguagem SQL. A tabela, originalmente, está dividida em duas e estes arquvios (test.csv e train.csv) estão disponíveis na pasta do curso. Elas também podem ser obtidas diretamente no site do Kaggle https://www.kaggle.com/c/titanic/dat.

Parte 1: Criação da Tabela

  1. Crie uma base de dados vazia chamada titanic. Selecione esta base como default.
  2. Crei uma tabela chamada passengers dentro da base titanic, contendo os seguintes campos:

- id, do tipo integer (chave primária), 
- survived, do tipo char(1) 
- class, do tipo integer, 
- name, do tipo varchar(100), 
- sex, do tipo char(6), 
- age, do tipo float, 
- sib_sp, do tipo integer, 
- par_ch, do tipo integer, 
- ticket_num, do tipo varchar(20), 
- fare, do tipo float, 
- cabin, do tipo varchar(50), 
- embarked, do tipo char(1) 
  1. Carregue os dados tanto do arquivo train.csv quanto do arquivo test.csv para a tabela passengers, usando o comando LOAD DATA INFILE.
  2. Verifique se a tabela foi corretamente preenchida e se conta com 1309 linhas. Você pode fazer usando um simples SELECT count(*) FROM titanic.passengers;.
  3. Exporte a tabela para um arquivo externo. Você pode escolher qualquer formato que nao seja .csv.

Parte 2: Consultas à Tabela

  1. Responda a todas as perguntas abaixo usando consultas do tipo SELECT:

Anteção: Atenção: Para construir suas consultas (querys), você deve examinar cuidadosamente a maneira que os dados foram registrados. Este tipo de atividade faz parte do dia a dia de qualquer bom cientista de dados.

a. O passageiro de id 395 sobreviveu? E o Sr. Thomas O’Brien? 
b. Qual é o nome da Sra. Thomas O’Brien? Ela sobreviveu? 
c. Qual é o número do bilhete e o nome do passageiro de id 13? 
d. Quantas mulheres havia no barco? 
e. Quantas mulheres acima de 30 anos havia no barco? 
f. Qual foi a tarifa mais cara do Titanic? Quem pagou? 
g. Calcule a média das tarifas pagas por cada classe. 
h. Há mais homens ou mulheres na 1ª classe? 
  1. Suponha que você queira melhorar a legibilidade dos campos da coluna embarked. Modifique S para Southampton, Q para Queenstown e C para Cherbourg. Você deve perceber que, antes, precisa mudar o tipo da coluna.

Anteção: Atenção: Envie seus scripts com as querys, suas respostas e seu arquivo de dados exportados para jonatha.costa@fgv.br.

Jonatha Azevedo

outubro 2018