Sugestões de Bases de Dados abertas p/ trabalho final

Author

Renato Barreira

Introdução

13 bases de dados públicas e abertas de diferentes áreas — política, economia, meio ambiente, linguagem, cultura e comportamento.

O artigo deve ter: introdução, análise exploratória, artefato e resultados.

Grupos de até 3 pessoas.

Referências bibliográficas: Os dois livros podem ser encontrados aqui O primeiro é o Morettin e Singer o outro é o Agresti estatística para ciências sociais (não subestimem o CS no título, ele é bem completo).

Além desses dois livros: Introduction to STatistical Learning para os modelos de aprendizado de máquina. e o STHDA que é um site bem completo bom para brainstorm de análise exploratória.


1. Emoções em Textos — Linguística e Psicologia

  • Fonte: Emotion Dataset — HuggingFace
  • Descrição: Textos curtos rotulados com emoções básicas (alegria, raiva, tristeza, etc.).
  • Sugestão Hipótese: Textos com emojis positivos têm maior probabilidade de expressar “alegria”.

2. Qualidade do Ar Global — Meio Ambiente

  • Fonte: OpenAQ Global Air Quality Database
  • Descrição: Dados diários sobre poluentes atmosféricos (PM2.5, NO₂, O₃) em centenas de cidades.
  • Sugestão Hipótese: Cidades mais populosas registram concentrações médias mais altas de PM2.5.

3. Desigualdade Global — Economia e Desenvolvimento

  • Fonte: World Income Inequality Database (WIID) — UNU-WIDER
  • Descrição: Medidas de desigualdade (Gini, renda média, percentis) por país e ano.
  • Sugestão Hipótese: Economias emergentes tendem a exibir maior desigualdade de renda do que economias desenvolvidas.

4. Mortalidade e Longevidade — Saúde Global

  • Fonte: Our World in Data – Mortality Dataset
  • Descrição: Indicadores de mortalidade por causas, sexo e faixa etária, em série temporal.
  • Sugestão Hipótese: Países com maior expectativa de vida apresentam menor taxa de mortalidade infantil.

5. Acidentes de Trânsito — Engenharia e Segurança Viária

  • Fonte: US Accidents Dataset (Kaggle)
  • Descrição: Milhões de registros de acidentes rodoviários nos EUA, com clima e hora do evento.
  • Sugestão Hipótese: Chuvas e baixa visibilidade aumentam a probabilidade de acidentes graves.

6. Comportamento de Compra Online — Economia Comportamental

  • Fonte: Online Shoppers Purchasing Intention Dataset (UCI)
  • Descrição: Registros de navegação em e-commerce e se houve conversão em compra, banco de dados muito desbalanceado, bom para experimentar com desbalenceamento.
  • Sugestão Hipótese: Usuários que passam mais tempo em páginas de produto têm maior chance de comprar.

7. Sustentabilidade Energética — Energia e Clima


8. Biodiversidade Oceânica — Ecologia e Conservação

  • Fonte: OBIS – Ocean Biodiversity Information System
  • Descrição: Registros globais de espécies marinhas e suas coordenadas geográficas.
  • Sugestão Hipótese: Áreas tropicais concentram maior diversidade de espécies do que regiões temperadas.

9. Criminalidade Urbana — Sociologia e Segurança Pública

  • Fonte: Los Angeles Crime Data (LA Open Data)
  • Descrição: Ocorrências criminais georreferenciadas em Los Angeles.
  • Sugestão Hipótese: Crimes violentos estão positivamente correlacionados à densidade populacional e desigualdade.

10. Democracia e Instituições — Ciência Política Comparada

  • Fonte: V-Dem (Varieties of Democracy Project)
  • Descrição: Indicadores anuais de democracia, liberdade civil e instituições políticas para mais de 200 países.
  • Sugestão Hipótese: Países com maior liberdade de imprensa tendem a apresentar maior estabilidade democrática.

12. Arte e Cultura — Humanidades Digitais

  • Fonte: The MET Museum Open Access Dataset
  • Descrição: Metadados de mais de 470 mil obras do Metropolitan Museum of Art, com informações sobre origem, época e material.
  • Hipótese: Obras europeias do século XIX apresentam maior proporção de retratos do que outras regiões/épocas.

13. Redes Sociais e Política — Comunicação Digital

  • Fonte: PoliTwitter Dataset (Harvard Dataverse)
  • Descrição: Tweets de políticos e figuras públicas coletados durante ciclos eleitorais.
  • Hipótese: O engajamento (retweets) é maior em mensagens com carga emocional negativa.