Sugestões de Bases de Dados abertas p/ trabalho final
Introdução
13 bases de dados públicas e abertas de diferentes áreas — política, economia, meio ambiente, linguagem, cultura e comportamento.
O artigo deve ter: introdução, análise exploratória, artefato e resultados.
Grupos de até 3 pessoas.
Referências bibliográficas: Os dois livros podem ser encontrados aqui O primeiro é o Morettin e Singer o outro é o Agresti estatística para ciências sociais (não subestimem o CS no título, ele é bem completo).
Além desses dois livros: Introduction to STatistical Learning para os modelos de aprendizado de máquina. e o STHDA que é um site bem completo bom para brainstorm de análise exploratória.
1. Emoções em Textos — Linguística e Psicologia
- Fonte: Emotion Dataset — HuggingFace
- Descrição: Textos curtos rotulados com emoções básicas (alegria, raiva, tristeza, etc.).
- Sugestão Hipótese: Textos com emojis positivos têm maior probabilidade de expressar “alegria”.
2. Qualidade do Ar Global — Meio Ambiente
- Fonte: OpenAQ Global Air Quality Database
- Descrição: Dados diários sobre poluentes atmosféricos (PM2.5, NO₂, O₃) em centenas de cidades.
- Sugestão Hipótese: Cidades mais populosas registram concentrações médias mais altas de PM2.5.
3. Desigualdade Global — Economia e Desenvolvimento
- Fonte: World Income Inequality Database (WIID) — UNU-WIDER
- Descrição: Medidas de desigualdade (Gini, renda média, percentis) por país e ano.
- Sugestão Hipótese: Economias emergentes tendem a exibir maior desigualdade de renda do que economias desenvolvidas.
4. Mortalidade e Longevidade — Saúde Global
- Fonte: Our World in Data – Mortality Dataset
- Descrição: Indicadores de mortalidade por causas, sexo e faixa etária, em série temporal.
- Sugestão Hipótese: Países com maior expectativa de vida apresentam menor taxa de mortalidade infantil.
5. Acidentes de Trânsito — Engenharia e Segurança Viária
- Fonte: US Accidents Dataset (Kaggle)
- Descrição: Milhões de registros de acidentes rodoviários nos EUA, com clima e hora do evento.
- Sugestão Hipótese: Chuvas e baixa visibilidade aumentam a probabilidade de acidentes graves.
6. Comportamento de Compra Online — Economia Comportamental
- Fonte: Online Shoppers Purchasing Intention Dataset (UCI)
- Descrição: Registros de navegação em e-commerce e se houve conversão em compra, banco de dados muito desbalanceado, bom para experimentar com desbalenceamento.
- Sugestão Hipótese: Usuários que passam mais tempo em páginas de produto têm maior chance de comprar.
7. Sustentabilidade Energética — Energia e Clima
- Fonte: Global Power Plant Database — World Resources Institute
- Descrição: Informações sobre mais de 30 mil usinas de energia, incluindo tipo, capacidade e emissões.
- Sugestão Hipótese: Regiões com maior participação de energia renovável emitem menos CO₂ per capita.
8. Biodiversidade Oceânica — Ecologia e Conservação
- Fonte: OBIS – Ocean Biodiversity Information System
- Descrição: Registros globais de espécies marinhas e suas coordenadas geográficas.
- Sugestão Hipótese: Áreas tropicais concentram maior diversidade de espécies do que regiões temperadas.
9. Criminalidade Urbana — Sociologia e Segurança Pública
- Fonte: Los Angeles Crime Data (LA Open Data)
- Descrição: Ocorrências criminais georreferenciadas em Los Angeles.
- Sugestão Hipótese: Crimes violentos estão positivamente correlacionados à densidade populacional e desigualdade.
10. Democracia e Instituições — Ciência Política Comparada
- Fonte: V-Dem (Varieties of Democracy Project)
- Descrição: Indicadores anuais de democracia, liberdade civil e instituições políticas para mais de 200 países.
- Sugestão Hipótese: Países com maior liberdade de imprensa tendem a apresentar maior estabilidade democrática.
12. Arte e Cultura — Humanidades Digitais
- Fonte: The MET Museum Open Access Dataset
- Descrição: Metadados de mais de 470 mil obras do Metropolitan Museum of Art, com informações sobre origem, época e material.
- Hipótese: Obras europeias do século XIX apresentam maior proporção de retratos do que outras regiões/épocas.
13. Redes Sociais e Política — Comunicação Digital
- Fonte: PoliTwitter Dataset (Harvard Dataverse)
- Descrição: Tweets de políticos e figuras públicas coletados durante ciclos eleitorais.
- Hipótese: O engajamento (retweets) é maior em mensagens com carga emocional negativa.