Introdução

A Dificuldade em Garantir Equidade

Historicamente, as mulheres enfrentaram barreiras no que tange às esferas da vida pública, sendo a educação e o esporte dois dos campos onde a exclusão é mais evidente. Durante séculos, a prática esportiva foi considerada predominantemente masculina fazendo com que o investimento e a visibilidade para mulheres fossem negligenciáveis ou inexistentes, sendo a própria prática feminina muitas vezes malvista. Essa discriminação era institucional e restringia oportunidades de desenvolvimento pessoal e profissional para as mulheres.


Figura 1: Em 1968, o protesto contra o concurso Miss América marcou o feminismo mundial. O movimento foi fundamental para retirar o universo feminino da invisibilidade do espaço doméstico, reivindicando que a igualdade de gênero não exista apenas na letra da lei, mas seja abraçada na prática por toda a sociedade.


O Papel do Esporte

O esporte vai além de uma atividade física; ele é uma força que traz inclusão social, liderança e empoderamento. A participação nessas práticas fortalece a saúde física e mental, além de impulsionar o desenvolvimento de habilidades cruciais no cotidiano tais como trabalho em equipe, resiliência e autoconfiança. Por isso, negar o acesso equitativo ao esporte foi mais uma forma de negar uma ferramenta fundamental de cidadania e ascensão social a uma parcela da civilização.


Figura 2: Em 1967, Kathrine Switzer tornou-se a primeira mulher a correr a Maratona de Boston com um número oficial. O diretor da prova tenta arrancá-la da pista à força


A Resposta Legislativa Americana: Title IX

Os Estados Unidos, uma das nações que mais investem em esportes no mundo, debateram e reconheceram essa disparidade histórica. Com base nisso, foi aprovado, em 1972, o Title IX — uma emenda que proíbe a discriminação com base no sexo em qualquer programa educacional financiado pelo governo. Efetivamente, esse passo foi um divisor de águas: ele obriga as instituições a oferecerem oportunidades iguais para homens e mulheres, transformando radicalmente o cenário do atletismo universitário e abrindo as portas para um futuro com oportunidades sem discriminação.


Figura 3: Em 1972, Richard Nixon assinou — Escondido em um pacote de emendas educacionais — o Title IX que proibiu a discriminação sexual em qualquer programa financiado pelo governo. Foram meras 37 palavras, mas elas resultaram em uma nova era de acesso à educação e revolucionaram o esporte feminino nos EUA.


O Problema Atual: Equidade vs. Igualdade

No entanto, apesar de décadas de vigência da lei e do aumento expressivo na participação feminina, a equidade financeira permanece uma questão crítica. A simples existência de times femininos não garante que eles recebam o mesmo nível de suporte que os masculinos. O problema central desta análise é investigar se a promessa histórica do Title IX se reflete nos cofres das universidades: o investimento financeiro (em bolsas, salários e infraestrutura) está sendo distribuído de forma justa, ou as velhas disparidades persistem disfarçadas nos orçamentos?

Abordagem Proposta

Para sair do campo teórico para o empírico e descrever a real dimensão da dificuldade histórica em garantir equidade, este estudo se fundamenta nos dados oficiais do Equity in Athletics Data Analysis (EADA). Especificamente na utilização do conjunto de dados mais recente disponível, os relatórios de 2024 (ano acadêmico 2023-2024), obtido diretamente do Departamento de Educação dos Estados Unidos.

O plano de análise está disposto na base de integrar duas dimensões de dados distintas que, originalmente, estão separadas:

  • Dimensão Financeira e Esportiva: Detalhes sobre receitas, despesas operacionais, salários de técnicos e contagem de participantes para cada modalidade esportiva.
  • Dimensão Institucional: Características das universidades, como setor (público/privado), localização e classificação na NCAA.

Através da fusão desses conjuntos de dados, será possível criar um panorama relacional que isola o efeito do gênero no financiamento esportivo, permitindo verificar se as disparidades observadas são sistêmicas ou casos isolados.

Técnicas Adotadas

O núcleo da análise depende da integração relacional. Como os dados financeiros e os demográficos se encontram em arquivos distintos, o primeiro passo é a junção desses conjuntos usando seus identificadores únicos (unitid). Isso permite, por exemplo, investigar o investimento em esportes femininos x masculinos não apenas pelo total, mas também por tipo de universidade (pública vs. privada).

Um desafio fundamental deste conjunto de dados é o tratamento de valores ausentes. Apenas remover essas colunas resultaria na perda massiva de informações e levando em considerção o contexto do dataset é possível inferir que a ausência de dados financeiros em uma modalidade indica a inexistência desse programa na instituição. Portanto, foram imputados zeros no lugar desses valores nulos de forma a preservar a integridade da amostra e refletir corretamente a realidade orçamentária da instituição.

Por fim, comparar orçamentos totais pode ser tendencioso devido à diferença no tamanho das equipes. Para mitigar isso, foram criadas métricas relativas, especificamente o Gasto por Atleta (ou Per Capita) e o Gap Financeiro (diferença direta entre gêneros), permitindo isolar o grau de investimento que cada atleta recebe, independentemente da popularidade do seu esporte.

Relevância e Potenciais Clientes

A utilidade desta análise vai além do âmbito acadêmico, servindo como ferramenta de fiscalização para diversos atores do ecossistema esportivo. Para administradores universitários, o estudo oferece benchmarks essenciais de conformidade com o Title IX, mitigando riscos legais. Simultaneamente, fornece a legisladores e associações de atletas evidências quantitativas para avaliar a eficácia das políticas públicas atuais e fundamentar reivindicações por maior equidade. Por fim, ao promover a transparência dos dados, o projeto empodera o jornalismo investigativo e a sociedade civil a monitorar se os recursos públicos e as receitas bilionárias do esporte estão, de fato, promovendo a inclusão prometida.

Pacotes

Carregamento

Todos os pacotes utilizados nesta análise são carregados antecipadamente para garantir a reprodutibilidade do código. A tabela abaixo detalha a função de cada biblioteca no projeto:

# 1. Carregando as bibliotecas
library(tidyverse)
library(readxl)
library(knitr)
library(scales)
library(DT)
Bibliotecas R Utilizadas no Projeto
Pacote Descrição
tidyverse Conjunto de ferramentas para manipulação de dados (dplyr) e visualização gráfica (ggplot2)
readxl Importação dos arquivos de dados originais diretamente do formato Excel (.xlsx)
knitr Engine de geração do relatório e formatação de tabelas customizadas (kable)
scales Formatação de escalas e eixos gráficos (transformação de números em formato monetário)
DT Criação de tabelas interativas que permitem busca e filtragem dos dados brutos.

Preparação dos Dados

Fonte e Documentação

Origem dos Dados Os dados primários desta análise provêm do EADA - Equity in Athletics Data Analysis (https://ope.ed.gov/athletics/#/datafile/list), a ferramenta oficial de transparência do governo americano para monitorar o cumprimento do Title IX. O recorte temporal é o ano acadêmico 2023-2024.

Arquivos de Documentação O conjunto de dados é acompanhado por dicionários técnicos (SchoolsDoc2024.doc e InstlevelDataDoc2024.doc) que definem as regras de negócio. A leitura destes documentos foi crucial para entender, por exemplo, que a variável EXP_MEN refere-se apenas a despesas operacionais de dia de jogo (Game Day Expenses), enquanto os salários e bolsas estão em colunas separadas no arquivo institucional.

Dicionário de Dados

Devido à extensão do conjunto de dados original (mais de 100 colunas por arquivo), foi realizada uma seleção das variáveis mais pertinentes para a análise de equidade financeira e que dão uma noção da natureza dos dados.

Nota Importante: As tabelas abaixo não listam todas as variáveis presentes nos arquivos originais. Elas detalham apenas as colunas principais selecionadas para este estudo.

Tabela 1: Dados Institucionais (instLevel.xlsx) Metadados da universidade e totais financeiros agregados.

Variável Descrição
unitid Identificador único da instituição (Chave Primária).
institution_name Nome oficial da universidade.
sector_name Classificação do setor (ex: Public, Private nonprofit).
classification_name Divisão atlética (ex: NCAA Division I-FBS).
EFMaleCount / Female Total de estudantes matriculados (Enrollment) por gênero.
STUDENTAID_MEN / WOMEN Total gasto com bolsas de estudo atléticas (Athletic Student Aid).
RECRUITEXP_MEN / WOMEN Despesas totais com recrutamento de atletas.
HDCOACH_SALARY_MEN / WOMEN Salário médio institucional dos técnicos principais (Head Coaches).
GRND_TOTAL_REVENUE Receita total bruta do departamento de atletismo.

Tabela 2: Dados por Esporte (schools.xlsx) Detalhes financeiros e de participação por modalidade.

Variável Descrição
unitid Chave estrangeira para junção com dados institucionais.
SPORTSCODE Código numérico que identifica a modalidade (ex: Futebol, Basquete).
PARTIC_MEN / WOMEN Contagem de participantes no dia da primeira competição oficial.
EXP_MEN / WOMEN Despesas Operacionais (Game Day Expenses): transporte, hospedagem, uniformes.
REV_MEN / WOMEN Receitas atribuíveis diretamente a cada equipe.
TOTAL_EXP_MENWOMEN Soma total das despesas operacionais das equipes.

Importação e Merge

Para dar início ao processamento, foi realizada a importação dos dois conjuntos de dados brutos obtidos no portal do EADA. Os arquivos estão em formato Excel (.xlsx) e representam, respectivamente, o cadastro das instituições e os registros financeiros detalhados de cada equipe esportiva.

Foi utilizada a função read_excel para a leitura e inner_join utilizando a variável unitid como chave para a junção dos arquivos.

# 1. Importação dos Arquivos Brutos
# Certifique-se que os arquivos .xlsx estão na mesma pasta do projeto
dados_instituicao <- read_excel("instLevel.xlsx")
dados_esportes <- read_excel("schools.xlsx")

# 2. Fusão dos Datasets (Inner Join)
# A chave 'unitid' conecta as características da escola aos dados do esporte
# O R detecta automaticamente colunas com mesmo nome e adiciona sufixos .x e .y
dados_completos <- inner_join(dados_esportes, dados_instituicao, by = "unitid")

Visualização da Base Carregada

A base consolidada (após a junção) possui 296 colunas e 17959 linhas.

A seguir temos uma visão breve dos 5 primeiros elementos da base com todas as colunas acessíveis via rolagem lateral:

# Visualização da base completa (todas as colunas) para as 5 primeiras linhas
# Scroll no eixo 'x' ativado e sem barra de busca ou paginação
datatable(head(dados_completos, 5), 
          options = list(scrollX = TRUE, dom = 't', paging = FALSE),
          caption = "Visão Inicial: Primeiras 5 linhas da base bruta")

Limpeza dos Dados

Nesta etapa, os dados brutos foram transformados em um formato analítico. O processo de refinamento foi guiado por critérios estatísticos rigorosos pensados para garantir a integridade da análise.

  1. Tratamento de NAs e Tipagem: Foi identificada a necessidade de converter todas as colunas financeiras e de participação para formato numérico estrito e preencher os valores vazios com zero. Isso corrige erros de cálculo onde a ausência de um time gerava valores nulos nas métricas.

  2. Fatores: As variáveis categóricas (sector_name, classification_name, Sports) foram convertidas em fatores para permitir o agrupamento mais intuitivo nas visualizações gráficas.

  3. Delimitação do Escopo (Filtro NCAA Divisão I): A análise foi deliberadamente restringida às instituições da NCAA Divisão I. Esta decisão justifica-se pela necessidade de garantir a homogeneidade da amostra. As regras de financiamento e concessão de bolsas variam drasticamente entre as divisões; misturar instituições de elite (com orçamentos multimilionários) com faculdades menores da Divisão III (que muitas vezes não oferecem bolsas esportivas) distorceria as médias e mascararia as reais disparidades financeiras.

dados_limpos <- dados_completos %>%
  mutate(
    # 1. LIMPEZA FINANCEIRA (Removendo texto e Zera NAs)
    REV_MEN = replace_na(suppressWarnings(as.numeric(REV_MEN)), 0),
    EXP_MEN = replace_na(suppressWarnings(as.numeric(EXP_MEN)), 0),
    REV_WOMEN = replace_na(suppressWarnings(as.numeric(REV_WOMEN)), 0),
    EXP_WOMEN = replace_na(suppressWarnings(as.numeric(EXP_WOMEN)), 0),
    
    # 2. LIMPEZA DE PARTICIPAÇÃO (Removendo texto e Zera NAs)
    PARTIC_MEN = replace_na(suppressWarnings(as.numeric(PARTIC_MEN)), 0),
    PARTIC_WOMEN = replace_na(suppressWarnings(as.numeric(PARTIC_WOMEN)), 0),
    PARTIC_COED_MEN = replace_na(suppressWarnings(as.numeric(PARTIC_COED_MEN)), 0),
    PARTIC_COED_WOMEN = replace_na(suppressWarnings(as.numeric(PARTIC_COED_WOMEN)), 0),
    
    # 3. Normalização Pós-Merge e Tipagem:
    # Recupera os nomes originais removendo os sufixos gerados
    # e converte variáveis categóricas em Fatores para permitir agrupamentos nos gráficos.
    sector_name = as.factor(sector_name.x),
    sector_name = as.factor(sector_name.x),
    institution_name = institution_name.x,
    classification_name = as.factor(classification_name.x),
    state_cd = state_cd.x,
    Sports = as.factor(Sports),
    
    # 4. Preenchendo dados institucionais (Removendo texto e Zera NAs)
    total_student_aid_men = replace_na(parse_number(as.character(STUDENTAID_MEN)), 0),
    total_student_aid_women = replace_na(parse_number(as.character(STUDENTAID_WOMEN)), 0),
    avg_salary_coach_men = replace_na(parse_number(as.character(HDCOACH_SALARY_MEN)), 0),
    avg_salary_coach_women = replace_na(parse_number(as.character(HDCOACH_SALARY_WOMEN)), 0)
  )

# 5. Filtragem e SELEÇÃO INICIAL
dados_brutos_tratados <- dados_limpos %>%
  # Foco na NCAA Division I (Justificativa no texto acima)
  filter(str_detect(classification_name, "NCAA Division I")) %>%
  mutate(
    # Totais de Participantes 
    total_particip_men = PARTIC_MEN + PARTIC_COED_MEN,
    total_particip_women = PARTIC_WOMEN + PARTIC_COED_WOMEN
  ) %>%
  # Seleção apenas dos DADOS BRUTOS limpos
  select(
    unitid, institution_name, state_cd, sector_name, classification_name, Sports,
    EXP_MEN, EXP_WOMEN, REV_MEN, REV_WOMEN, 
    PARTIC_MEN, PARTIC_WOMEN, total_particip_men, total_particip_women,
    total_student_aid_men, total_student_aid_women,
    avg_salary_coach_men, avg_salary_coach_women,
    GRND_TOTAL_REVENUE, GRND_TOTAL_EXPENSE
  )

Visualização Final

Após o processamento inicial, obteve-se uma base de dados limpa contendo apenas as variáveis brutas de interesse, prontas para a etapa de análise.

# Tabela Interativa Final
dados_brutos_tratados %>%
  head(100) %>%
  datatable(options = list(scrollX = TRUE, pageLength = 5), 
            caption = "Amostra: Dados Brutos Tratados (NCAA Divisão I)") %>%
  formatCurrency(columns = c('EXP_MEN', 'EXP_WOMEN', 'REV_MEN', 'REV_WOMEN',
                             'avg_salary_coach_men', 'avg_salary_coach_women',
                             'total_student_aid_men', 'total_student_aid_women', 'GRND_TOTAL_EXPENSE', 'GRND_TOTAL_REVENUE'), 
                 currency = "$", digits = 0)

Resumo Estatístico dos Dados Brutos

A tabela abaixo sintetiza as métricas financeiras fundamentais da amostra. Uma análise preliminar das medidas de tendência central revela uma disparidade estrutural imediata: a média de despesas com equipes masculinas é substancialmente superior à das femininas, um padrão que se repete nas receitas e nos salários dos técnicos.

# Tabela consolidada dos DADOS BRUTOS
# Trocamos 'digits = 0' por 'accuracy = 1' para corrigir o erro do scales

tabela_resumo_bruto <- dados_brutos_tratados %>%
  select(
    `Despesa Bruta (Homens)` = EXP_MEN,
    `Despesa Bruta (Mulheres)` = EXP_WOMEN,
    `Receita Bruta (Homens)` = REV_MEN,
    `Receita Bruta (Mulheres)` = REV_WOMEN,
    `Salário Médio Téc. (Homens)` = avg_salary_coach_men,
    `Salário Médio Téc. (Mulheres)` = avg_salary_coach_women
  ) %>%
  pivot_longer(cols = everything(), names_to = "Variável", values_to = "Valor") %>%
  group_by(Variável) %>%
  summarise(
    Média = dollar(mean(Valor, na.rm = TRUE), prefix = "$", big.mark = ",", accuracy = 1),
    Mediana = dollar(median(Valor, na.rm = TRUE), prefix = "$", big.mark = ",", accuracy = 1),
    `Desvio Padrão` = dollar(sd(Valor, na.rm = TRUE), prefix = "$", big.mark = ",", accuracy = 1),
    `Máximo` = dollar(max(Valor, na.rm = TRUE), prefix = "$", big.mark = ",", accuracy = 1)
  )

kable(tabela_resumo_bruto, 
      align = c("l", "r", "r", "r", "r"),
      caption = "Tabela 3: Estatísticas Descritivas dos Dados Financeiros Brutos")
Tabela 3: Estatísticas Descritivas dos Dados Financeiros Brutos
Variável Média Mediana Desvio Padrão Máximo
Despesa Bruta (Homens) $915,552 $136,438 $4,296,550 $112,230,118
Despesa Bruta (Mulheres) $470,019 $169,600 $833,529 $11,874,938
Receita Bruta (Homens) $1,088,850 $138,426 $6,765,880 $200,736,464
Receita Bruta (Mulheres) $419,660 $171,964 $722,606 $14,504,830
Salário Médio Téc. (Homens) $202,053 $61,490 $404,010 $2,782,637
Salário Médio Téc. (Mulheres) $77,402 $50,866 $77,371 $686,098

Enquanto a Mediana das despesas masculinas gira em torno de valores mais modestos, a Média é puxada drasticamente para cima por programas de elite com orçamentos que atingem o valor Máximo multi-milionário observado na tabela.

Outro ponto crítico é o Desvio Padrão elevado, que em muitos casos supera a própria média, sugerindo uma distribuição extremamente assimétrica. Isso reforça a necessidade de investigar se essa desigualdade se mantém quando ajustamos pelo número de atletas, ou se é fruto apenas do tamanho colossal de certos programas (como o Futebol Americano).

Esses dados brutos levantam a questão central que guiará a próxima etapa da análise: essa disparidade absoluta de investimento persiste quando ajustamos pelo número de atletas? Ou seja, o “gap” é fruto apenas de times masculinos maiores (como o Futebol Americano) ou existe uma desigualdade real na qualidade do investimento per capita? E como isso se reflete numa análise da esfera Pública vs. Privada?

Análise Exploratória

Criação de Indicadores

Para investigar a equidade de forma justa, faz-se necessário ir além dos números absolutos. Nesta etapa, foram criadas novas variáveis que permitem comparar o investimento relativo entre os gêneros, neutralizando o efeito da disparidade de tamanho amostral e reconhecendo, em média, quanto cada atleta ganha.

Os dois indicadores principais calculados foram:

  1. Gasto por Atleta (Per Capita): Despesa total dividida pelo número de participantes.
  2. Gap Financeiro: A diferença absoluta entre o orçamento masculino e feminino.
# Engenharia de Atributos (Métrica de Análise)
dados_analise <- dados_brutos_tratados %>%
  mutate(
    # 1. Gasto por Atleta (Evitando divisão por zero)
    exp_per_atleta_men = if_else(total_particip_men > 0, EXP_MEN / total_particip_men, 0),
    exp_per_atleta_women = if_else(total_particip_women > 0, EXP_WOMEN / total_particip_women, 0),
    
    # 2. Gap Financeiro (Positivo = Mais para Homens)
    gap_exp_total = EXP_MEN - EXP_WOMEN
  )

Visualização das Novas Variáveis

Abaixo, uma amostra das variáveis recém-criadas, confirmando a execução correta dos cálculos antes da análise gráfica.

dados_analise %>%
  select(institution_name, Sports, EXP_MEN, EXP_WOMEN, exp_per_atleta_men, exp_per_atleta_women, gap_exp_total) %>%
  head(10) %>%
  datatable(options = list(scrollX = TRUE, dom = 't', paging = FALSE),
            caption = "Amostra: Novos Indicadores Calculados") %>%
  formatCurrency(columns = c('EXP_MEN', 'EXP_WOMEN', 'gap_exp_total', 'exp_per_atleta_men', 'exp_per_atleta_women'), 
                 currency = "$", digits = 0)

Validação dos Indicadores: Onde a disparidade começa?

Abaixo, confronta-se o investimento per capita em homens versus mulheres. A linha vermelha tracejada representa a paridade perfeita (1:1), ou seja, o gasto por atleta é igual entre mulheres e homens.

# Gráfico de Dispersão: Homens vs Mulheres (Per Capita)
# Filtra-se zeros para permitir escala logarítmica
dados_analise %>%
  filter(exp_per_atleta_men > 0, exp_per_atleta_women > 0) %>%
  ggplot(aes(x = exp_per_atleta_men, y = exp_per_atleta_women)) +
  geom_point(alpha = 0.4, color = "#2c3e50", size = 2) +
  geom_abline(slope = 1, intercept = 0, color = "red", linetype = "dashed", size = 1) +
  scale_x_log10(labels = dollar_format()) +
  scale_y_log10(labels = dollar_format()) +
  labs(title = "Investimento por Atleta: Homens vs. Mulheres",
       subtitle = "A disparidade se acentua em orçamentos superiores\na $100k (lado direito do gráfico)",
       x = "Gasto por Atleta Homem (Log)",
       y = "Gasto por Atleta Mulher (Log)") +
  theme_minimal() +
  theme(plot.title = element_text(family = "serif", size = 16, face = "bold"))

Observa-se um comportamento revelador: para valores baixos (abaixo de $100.000 por atleta), os pontos tendem a se agrupar próximos à linha vermelha, indicando uma relativa equidade nas instituições menores. No entanto, à medida que avançamos no eixo X (investimento masculino), a nuvem de pontos se dispersa drasticamente para a direita e para baixo. Isso sugere que a disparidade se alarga consideravelmente nas instituições mais ricas. Quanto maior o orçamento, maior tende a ser o favorecimento masculino e menor o investimento feminino.

Gap de Investimento Total

A análise da diferença de investimento revela duas realidades distintas na NCAA Divisão I: o padrão geral da maioria e os casos extremos da elite esportiva.

1. O Cenário Geral

O gráfico abaixo foca na vasta maioria das instituições, aplicando um zoom na faixa entre -$8 milhões e +$8 milhões. A escala detalhada (marcas a cada $1 milhão) permite visualizar que, mesmo excluindo os extremos, a distribuição não é perfeitamente centrada: há uma clara tendência de deslocamento para a direita (laranja), indicando que o favorecimento masculino é a norma quando aumentamos a disparidade.

# 1. Preparação dos dados
dados_gap_visual <- dados_analise %>%
  filter(!is.na(gap_exp_total)) %>%
  mutate(
    Favorecido = if_else(gap_exp_total > 0, "Masculino", "Feminino")
  )

# 2. Gráfico com Zoom
ggplot(dados_gap_visual, aes(x = gap_exp_total, fill = Favorecido)) +
  geom_histogram(binwidth = 1000000, color = "white", alpha = 0.9, boundary = 0) +
  geom_vline(xintercept = 0, color = "black", linetype = "dashed", size = 1) +
  scale_fill_manual(values = cores_genero) +
  
  # ZOOM: Focando a visualização entre -8M e +8M
  coord_cartesian(xlim = c(-8000000, 8000000)) +
  
  scale_x_continuous(breaks = seq(-8000000, 8000000, 1000000),
                     labels = dollar_format(prefix = "$", scale = 1e-6, suffix = "M")) +
  
  labs(title = "Distribuição do Gap Financeiro",
       x = "Diferença de Investimento (Milhões USD)",
       y = "Número de Universidades",
       fill = "Gênero Favorecido") +
  
  theme_minimal() +
  theme(plot.title = element_text(family = "serif", size = 16, face = "bold"),
        axis.title = element_text(family = "sans"),
        legend.position = "bottom")

2. Os Extremos: A Assimetria do Topo

Ao investigar as maiores disparidades absolutas, observa-se que o fenômeno dos “super gaps” é exclusivamente masculino.

Para comprovar essa hipótese, comparou-se a maior vantagem financeira registrada para um programa feminino contra a 20ª maior vantagem masculina. O resultado demonstra que mesmo a universidade que mais investe proporcionalmente em mulheres não entraria no ranking das 20 maiores disparidades a favor dos homens.

# Calculando os extremos
max_gap_feminino <- min(dados_analise$gap_exp_total, na.rm = TRUE) # É negativo
min_gap_top20_masculino <- dados_analise %>%
  arrange(desc(gap_exp_total)) %>%
  slice(20) %>%
  pull(gap_exp_total)

# Criando uma tabela explicativa
tibble(
  Métrica = c("Maior Vantagem Feminina (Recorde)", "20ª Maior Vantagem Masculina (Corte do Top 20)"),
  Valor = c(max_gap_feminino, min_gap_top20_masculino),
  `Diferença de Escala` = c("Referência", paste0(round(min_gap_top20_masculino / abs(max_gap_feminino), 1), "x maior"))
) %>%
  kable(caption = "Comparativo de Magnitude: O Teto Feminino vs. O Piso da Elite Masculina",
        col.names = c("Indicador", "Valor (USD)", "Disparidade"))
Comparativo de Magnitude: O Teto Feminino vs. O Piso da Elite Masculina
Indicador Valor (USD) Disparidade
Maior Vantagem Feminina (Recorde) -6950711 Referência
20ª Maior Vantagem Masculina (Corte do Top 20) 57117597 8.2x maior

3. O Ranking dos Desiguais (Top 20)

Confirmada a inexistência de contrapartidas femininas nessa escala financeira, o gráfico abaixo lista as 20 instituições com as maiores disparidades absolutas de todo o dataset.

# Filtrando apenas os TOP 20 maiores gaps absolutos
top_outliers <- dados_analise %>%
  arrange(desc(abs(gap_exp_total))) %>%
  head(20) %>%
  mutate(
    # Truncando nomes longos para caber no gráfico
    institution_name = str_trunc(institution_name, 40),
    institution_name = reorder(institution_name, gap_exp_total),
    Favorecido = if_else(gap_exp_total > 0, "Masculino", "Feminino")
  )

ggplot(top_outliers, aes(x = gap_exp_total, y = institution_name, fill = Favorecido)) +
  geom_col(alpha = 0.9) + 
  scale_fill_manual(values = cores_genero) +
  scale_x_continuous(labels = dollar_format(prefix = "$", scale = 1e-6, suffix = "M")) +
  
  labs(title = "Top 20 Maiores Disparidades Financeiras",
       subtitle = "A lista é composta por vantagens masculinas, superando $30M",
       x = "Gap Financeiro (Milhões USD)",
       y = NULL,
       fill = "Favorecido") +
  
  theme_minimal() +
  theme(plot.title = element_text(family = "serif", size = 16, face = "bold"),
        legend.position = "bottom")

Geograficamente e culturalmente, observa-se a predominância de grandes universidades estaduais (“Power Five Conferences”), muitas localizadas no Sul e Centro-Oeste dos EUA. Essas instituições possuem programas de Futebol Americano historicamente lucrativos e caros, o que ajuda a explicar o tamanho do desbalanceamento nas contas finais.

Gasto por Atleta e o Efeito de Diluição

Para investigar a intensidade do investimento individual, optou-se inicialmente pelo uso de um Gráfico de Violino. Esta visualização revela a densidade dos dados: a “barriga” do gráfico indica onde a maioria das universidades se concentra, enquanto a extensão vertical mostra os valores extremos.

# Transformação do formato dos dados para o ggplot
dados_longos_percapita <- dados_analise %>%
  select(institution_name, exp_per_atleta_men, exp_per_atleta_women) %>%
  pivot_longer(cols = c(exp_per_atleta_men, exp_per_atleta_women),
               names_to = "Genero",
               values_to = "Gasto_Por_Atleta") %>%
  mutate(
    Genero = if_else(Genero == "exp_per_atleta_men", "Masculino", "Feminino")
  ) %>%
  filter(Gasto_Por_Atleta > 0)

# Cálculo das Medianas
medianas <- dados_longos_percapita %>%
  group_by(Genero) %>%
  summarise(Mediana = median(Gasto_Por_Atleta, na.rm = TRUE))

# Visualização (Violino + Boxplot)
ggplot(dados_longos_percapita, aes(x = Genero, y = Gasto_Por_Atleta, fill = Genero)) +
  geom_violin(alpha = 0.5, trim = FALSE, color = NA) +
  geom_boxplot(width = 0.1, color = "#2c3e50", alpha = 0.8, outlier.shape = NA) +
  
  geom_text(data = medianas, aes(y = Mediana, label = dollar(Mediana, accuracy = 1)), 
            vjust = -0.8, fontface = "bold", color = "#2c3e50") +
  
  scale_y_log10(labels = dollar_format()) +
  scale_fill_manual(values = cores_genero) +
  
  labs(title = "Distribuição do Gasto por Atleta",
       subtitle = "A mediana feminina é superior, mas o 'teto' de gastos masculino é mais alto",
       y = "Gasto por Atleta (USD - Escala Log)",
       x = NULL) + 
  
  theme_minimal() + 
  theme(legend.position = "none",
        plot.title = element_text(family = "serif", size = 16, face = "bold"))

Interpretação da Distribuição:

A análise visual do gráfico revela dois padrões contraditórios que exigem aprofundamento:

  1. O Paradoxo da Mediana: Numericamente, observa-se que a mediana do investimento por atleta feminino ($12.261) supera a masculina ($9.895). Isso indica que, na instituição típica da amostra, o gasto médio per capita é, de fato, ligeiramente maior para as mulheres.
  2. A Desigualdade no Teto (Cauda Superior): Apesar da mediana menor, a forma do violino masculino (Laranja) apresenta uma “cauda” superior muito mais longa e esticada. Isso demonstra que, nas instituições de elite, o teto de gastos para um atleta homem atinge valores exorbitantes, sem paralelo no esporte feminino. Enquanto os gastos com mulheres encontram um limite visível, o investimento de ponta nos homens continua crescendo exponencialmente.

A Lógica da Diluição: Comparando os Gigantes

O gráfico acima mostra que a mediana do investimento feminino per capita supera a masculina. Para explicar esse fenômeno, foi isolado o impacto das modalidades com maior investimento de cada gênero.

A tabela abaixo compara o tamanho médio das equipes do Futebol Americano (maior gasto masculino) contra o principal esporte feminino equivalente (dinamicamente identificado pelo maior volume de despesas, geralmente Basquete).

# Estatísticas Gerais
stats_gerais <- dados_analise %>%
  summarise(
    Total_Atletas_H = sum(total_particip_men, na.rm = TRUE),
    Total_Atletas_M = sum(total_particip_women, na.rm = TRUE),
    Media_Atletas_Time_H = mean(total_particip_men, na.rm = TRUE),
    Media_Atletas_Time_M = mean(total_particip_women, na.rm = TRUE)
  )

# Estatísticas do Carro-chefe Masculino
stats_football <- dados_analise %>%
  filter(str_detect(Sports, "Football") & total_particip_men > 0) %>%
  summarise(
    Nome = "Football",
    Media_Atletas = mean(total_particip_men, na.rm = TRUE)
  )

# Encontrando Carro-chefe Feminino
top_female_sport <- dados_analise %>%
  filter(EXP_WOMEN > 0) %>%
  group_by(Sports) %>%
  summarise(Media_Gasto = mean(EXP_WOMEN, na.rm = TRUE)) %>%
  arrange(desc(Media_Gasto)) %>%
  slice(1) %>%
  pull(Sports)

# Estatísticas do Carro-chefe Feminino
stats_female_top <- dados_analise %>%
  filter(Sports == top_female_sport & total_particip_women > 0) %>%
  summarise(
    Nome = as.character(top_female_sport),
    Media_Atletas = mean(total_particip_women, na.rm = TRUE)
  )

# Tabela Final Formatada
tabela_final_diluicao <- tibble(
  Métrica = c(
    "Total de Atletas na Amostra", 
    "Tamanho Médio das Equipes (Geral)", 
    "Esporte de Maior Investimento (Média Atletas)"
  ),
  Homens = c(
    scales::comma(stats_gerais$Total_Atletas_H, accuracy = 1),
    paste(round(stats_gerais$Media_Atletas_Time_H, 0), "atletas"),
    paste0(stats_football$Nome, ": ", round(stats_football$Media_Atletas, 0), " atletas")
  ),
  Mulheres = c(
    scales::comma(stats_gerais$Total_Atletas_M, accuracy = 1),
    paste(round(stats_gerais$Media_Atletas_Time_M, 0), "atletas"),
    paste0(stats_female_top$Nome, ": ", round(stats_female_top$Media_Atletas, 0), " atletas")
  )
)

kable(tabela_final_diluicao, 
      caption = "Tabela 4: O Efeito de Diluição dos Grandes Elencos")
Tabela 4: O Efeito de Diluição dos Grandes Elencos
Métrica Homens Mulheres
Total de Atletas na Amostra 302,259 232,664
Tamanho Médio das Equipes (Geral) 26 atletas 20 atletas
Esporte de Maior Investimento (Média Atletas) Football: 116 atletas Gymnastics: 22 atletas

A tabela confirma que o Futebol Americano distorce a métrica per capita masculina.

Enquanto o principal esporte feminino opera com uma média de cerca de 22 atletas, um time de Futebol Americano possui, em média, 116 atletas.

Esse denominador massivo no principal esporte masculino “dilui” o investimento total por atleta. Mesmo que o time receba milhões, esse valor é dividido por mais de 100 cabeças, puxando a média e a mediana masculina para baixo. Já no feminino, orçamentos menores são divididos por elencos enxutos, elevando artificialmente a métrica per capita. Portanto, a mediana inferior masculina não indica falta de recursos, mas sim uma estrutura de equipe radicalmente diferente.

Comparação Público vs. Privado

Por fim, a análise foi segmentada pelo tipo de controle da instituição (Setor). O objetivo desta etapa é verificar se universidades públicas, por estarem sujeitas a maior escrutínio fiscal e legislativo, apresentam padrões de equidade diferentes das instituições privadas.

Para isso, utilizou-se novamente a métrica de Gasto por Atleta, dividindo a visualização em dois painéis distintos.

# Simplificando os nomes para o gráfico
dados_setor <- dados_analise %>%
  select(institution_name, sector_name, exp_per_atleta_men, exp_per_atleta_women) %>%
  mutate(
    Setor_Simplificado = case_when(
      str_detect(sector_name, "Public") ~ "Instituições Públicas",
      str_detect(sector_name, "Private") ~ "Instituições Privadas",
      TRUE ~ "Outros"
    )
  ) %>%
  pivot_longer(cols = c(exp_per_atleta_men, exp_per_atleta_women),
               names_to = "Genero_Origem",
               values_to = "Gasto_Por_Atleta") %>%
  mutate(
    Genero = if_else(Genero_Origem == "exp_per_atleta_men", "Masculino", "Feminino")
  ) %>%
  filter(Gasto_Por_Atleta > 0)

# Boxplot
ggplot(dados_setor, aes(x = Genero, y = Gasto_Por_Atleta, fill = Genero)) +
  # Boxplot com outliers transparentes para focar na distribuição central
  geom_boxplot(alpha = 0.8, outlier.alpha = 0.1) +
  
  scale_y_log10(labels = dollar_format()) +
  scale_fill_manual(values = cores_genero) +
  
  # Facet_wrap divide o gráfico em dois (Público e Privado)
  facet_wrap(~ Setor_Simplificado) +
  
  labs(title = "Gasto por Atleta: Comparativo por Setor",
       subtitle = "A disparidade no teto de gastos (cauda superior) é visível em ambos os setores",
       y = "Gasto por Atleta (USD - Escala Log)",
       x = NULL) +
  
  theme_minimal() +
  theme(plot.title = element_text(family = "serif", size = 16, face = "bold"),
        legend.position = "none",
        strip.text = element_text(size = 12, face = "bold")) # Destaque para o título dos painéis

A segmentação revela que a desigualdade financeira no esporte universitário não depende da natureza jurídica da instituição. Tanto nas universidades públicas quanto nas privadas, observa-se o mesmo padrão: a “universidade média” tem um investimento por atleta que se mostra razoavelmente equivalente entre os gêneros, com medianas próximas. Ou seja, no nível operacional básico, as instituições cumprem os requisitos mínimos de equidade.

  • A Disparidade nos Extremos: No entanto, a verdadeira face da desigualdade se revela ao analisarmos os casos extremos (os pontos acima das “caudas” dos gráficos). Em ambos os setores, os outliers masculinos atingem valores de despesa per capita drasticamente superiores aos femininos. Enquanto os maiores investimentos em atletas mulheres encontram um “teto” visívelos gastos masculinos rompem essa barreira. Isso confirma que os “super programas” esportivos — caracterizados por orçamentos “ilimitados” — são um fenômeno exclusivamente masculino, persistindo com a mesma intensidade tanto na esfera pública quanto na privada.

Análise de Disparidade por Esporte

Além da visão institucional, buscou-se identificar quais modalidades esportivas mais contribuem para o desequilíbrio financeiro observado. Para isso, calculou-se a média do gap orçamentário (Despesa Masculina - Despesa Feminina) para cada esporte em toda a NCAA Divisão I.

O gráfico abaixo destaca os 10 esportes com as maiores disparidades médias, revelando tanto os motores da desigualdade masculina quanto as modalidades onde o investimento feminino predomina.

# 1. Cálculo do Gap Médio por Esporte
gap_por_esporte <- dados_analise %>%
  group_by(Sports) %>%
  summarise(
    Media_Gap = mean(gap_exp_total, na.rm = TRUE)
  ) %>%
  # Filtrar apenas os 10 com maior gap absoluto
  arrange(desc(abs(Media_Gap))) %>%
  head(10) %>%
  mutate(
    # Ordenar o fator para o gráfico ficar em ordem decrescente
    Sports = reorder(Sports, Media_Gap),
    Favorecido = if_else(Media_Gap > 0, "Masculino", "Feminino")
  )

# 2. Visualização
ggplot(gap_por_esporte, aes(x = Media_Gap, y = Sports, fill = Favorecido)) +
  geom_col(alpha = 0.9) +
  
  scale_fill_manual(values = cores_genero) +
  scale_x_continuous(labels = dollar_format(prefix = "$", scale = 1e-6, suffix = "M")) +
  
  labs(title = "Ranking de Desigualdade por Modalidade",
       subtitle = "O Futebol Americano é o outlier extremo, ofuscando as vantagens femininas em outros esportes",
       x = "Diferença Média de Investimento (Milhões USD)",
       y = NULL,
       fill = "Gênero Favorecido") +
  
  theme_minimal() +
  theme(plot.title = element_text(family = "serif", size = 16, face = "bold"),
        legend.position = "bottom",
        panel.grid.major.y = element_blank())

  • O Maior Outlier: O Futebol Americano distorce completamente a escala, apresentando uma vantagem média de quase $20 milhões para os homens. O Basquete, o Basebal e o Hóquei no Gelo aparecem em seguida, consolidando o domínio masculino nos esportes de alta receita.
  • Nichos Femininos: Observa-se que modalidades como Ginástica, Nado Sincronizado, Canoagem, Hipismo e Vôlei apresentam gaps negativos, indicando maior investimento médio nas equipes femininas.
  • Assimetria de Escala: Contudo, a comparação visual é indisputável: a maior vantagem feminina (Ginástica) é ínfima se comparada à vantagem masculina no Futebol. O “lucro” das mulheres em seus principais esportes não é suficiente para contrabalançar o volume massivo de recursos drenado por um único esporte masculino.

Conclusões

Resumo da Declaração do Problema

Esta análise buscou investigar se, após décadas de vigência do Title IX, a paridade de gênero no atletismo universitário americano se traduz em equidade financeira real. A hipótese inicial de que o investimento financeiro ainda privilegia desproporcionalmente o esporte masculino foi confirmada, porém com nuances importantes reveladas pelos dados. A desigualdade não se manifesta de forma linear em todas as instituições, mas apresenta-se como um fenômeno de “cauda longa”, impulsionado por uma elite de programas exclusivamente masculinos hiper-financiados.

Conclusão da Abordagem

A estratégia metodológica de integrar dados institucionais e esportivos (inner_join) e restringir o escopo à NCAA Divisão I provou-se fundamental para permitir a análise de subgrupos e o impacto dessa categorização nos achados. A criação de métricas relativas (gasto per capita e razão de gastos) permitiu neutralizar o viés introduzido pelo tamanho variado das amostras, revelando que a simples comparação de totais absolutos mascara a complexidade do problema (efeito de diluição dos grandes elencos).

Conclusão dos Insights

Os dados revelaram três padrões estruturais de desigualdade:

  1. A Assimetria dos Extremos: Enquanto a maioria das instituições apresenta um gap financeiro moderado, os “superávits” masculinos atingem escalas ($30M - $60M) que não encontram paralelo em nenhum programa feminino.
  2. O Paradoxo da Diluição: Embora os homens recebam a maior fatia do orçamento total, o tamanho massivo das equipes de Futebol Americano dilui esse recurso per capita devido ao valor pelo qual o orçamento que é dividido. Isso cria uma falsa aparência de equidade na mediana, desmentida pela análise dos valores máximos, onde o teto de gastos masculino parece inalcançável quando comparado aos femininos.
  3. Independência do Setor: A disparidade persiste com a mesma intensidade em universidades públicas e privadas, sugerindo que o mercado (receitas de TV e bilheteria) se sobrepõe à natureza jurídica da instituição.

Implicações da Análise

Para gestores universitários e formuladores de políticas públicas, os resultados indicam que a conformidade com o Title IX deve evoluir de uma métrica puramente quantitativa (número de vagas) para uma auditoria qualitativa (intensidade do investimento). Sem mecanismos de redistribuição das receitas geradas pelos “super esportes”, o abismo no topo da pirâmide se perpetuará.

Do Empurrão ao Teto Financeiro

Retomando a imagem histórica apresentada na introdução: se em 1967 a barreira para Kathrine Switzer era física — um oficial tentando arrancá-la da pista à força, os dados de 2024 revelam que a barreira moderna é financeira e invisível ao grande público.

Não há mais oficiais impedindo mulheres de competir; pelo contrário, as medianas mostram que o acesso básico foi conquistado. No entanto, a “cauda longa” dos dados revela um novo tipo de exclusão: um teto de vidro orçamentário. Enquanto a elite atlética masculina desfruta de investimentos ilimitados impulsionados pelo mercado, a elite feminina ainda opera dentro de limites financeiros muito mais modestos. A luta por equidade, portanto, migrou da pista de corrida para as planilhas orçamentárias.

Limitações e Próximos Passos

A principal limitação deste estudo reside no tratamento dos valores ausentes, que foram imputados como zero sob a premissa de inexistência do programa, o que pode subestimar despesas em casos de erro de reporte. Além disso, a análise focou em despesas operacionais de um período curto, não capturando integralmente os custos com infraestrutura (estádios) ou a progressão desses gapsdesde o surgimento da emenda.

Para trabalhos futuros, sugere-se:

  • Incorporar dados de séries temporais para investigar se o gap está diminuindo ou aumentando ao longo da última década.
  • Analisar a relação entre Receita vs. Despesa (Lucratividade) para verificar se o argumento de que “o futebol paga a conta” se sustenta matematicamente no caso de todas as instituições.