Historicamente, as mulheres enfrentaram barreiras no que tange às esferas da vida pública, sendo a educação e o esporte dois dos campos onde a exclusão é mais evidente. Durante séculos, a prática esportiva foi considerada predominantemente masculina fazendo com que o investimento e a visibilidade para mulheres fossem negligenciáveis ou inexistentes, sendo a própria prática feminina muitas vezes malvista. Essa discriminação era institucional e restringia oportunidades de desenvolvimento pessoal e profissional para as mulheres.
O Papel do Esporte
O esporte vai além de uma atividade física; ele é uma força que traz inclusão social, liderança e empoderamento. A participação nessas práticas fortalece a saúde física e mental, além de impulsionar o desenvolvimento de habilidades cruciais no cotidiano tais como trabalho em equipe, resiliência e autoconfiança. Por isso, negar o acesso equitativo ao esporte foi mais uma forma de negar uma ferramenta fundamental de cidadania e ascensão social a uma parcela da civilização.
A Resposta Legislativa Americana: Title IX
Os Estados Unidos, uma das nações que mais investem em esportes no mundo, debateram e reconheceram essa disparidade histórica. Com base nisso, foi aprovado, em 1972, o Title IX — uma emenda que proíbe a discriminação com base no sexo em qualquer programa educacional financiado pelo governo. Efetivamente, esse passo foi um divisor de águas: ele obriga as instituições a oferecerem oportunidades iguais para homens e mulheres, transformando radicalmente o cenário do atletismo universitário e abrindo as portas para um futuro com oportunidades sem discriminação.
Figura 3: Em 1972, Richard Nixon assinou — Escondido em um pacote de emendas educacionais — o Title IX que proibiu a discriminação sexual em qualquer programa financiado pelo governo. Foram meras 37 palavras, mas elas resultaram em uma nova era de acesso à educação e revolucionaram o esporte feminino nos EUA.
O Problema Atual: Equidade vs. Igualdade
No entanto, apesar de décadas de vigência da lei e do aumento expressivo na participação feminina, a equidade financeira permanece uma questão crítica. A simples existência de times femininos não garante que eles recebam o mesmo nível de suporte que os masculinos. O problema central desta análise é investigar se a promessa histórica do Title IX se reflete nos cofres das universidades: o investimento financeiro (em bolsas, salários e infraestrutura) está sendo distribuído de forma justa, ou as velhas disparidades persistem disfarçadas nos orçamentos?
Para sair do campo teórico para o empírico e descrever a real dimensão da dificuldade histórica em garantir equidade, este estudo se fundamenta nos dados oficiais do Equity in Athletics Data Analysis (EADA). Especificamente na utilização do conjunto de dados mais recente disponível, os relatórios de 2024 (ano acadêmico 2023-2024), obtido diretamente do Departamento de Educação dos Estados Unidos.
O plano de análise está disposto na base de integrar duas dimensões de dados distintas que, originalmente, estão separadas:
Através da fusão desses conjuntos de dados, será possível criar um panorama relacional que isola o efeito do gênero no financiamento esportivo, permitindo verificar se as disparidades observadas são sistêmicas ou casos isolados.
O núcleo da análise depende da integração relacional. Como os dados
financeiros e os demográficos se encontram em arquivos distintos, o
primeiro passo é a junção desses conjuntos usando seus identificadores
únicos (unitid). Isso permite, por exemplo, investigar o
investimento em esportes femininos x masculinos não apenas pelo total,
mas também por tipo de universidade (pública vs. privada).
Um desafio fundamental deste conjunto de dados é o tratamento de valores ausentes. Apenas remover essas colunas resultaria na perda massiva de informações e levando em considerção o contexto do dataset é possível inferir que a ausência de dados financeiros em uma modalidade indica a inexistência desse programa na instituição. Portanto, foram imputados zeros no lugar desses valores nulos de forma a preservar a integridade da amostra e refletir corretamente a realidade orçamentária da instituição.
Por fim, comparar orçamentos totais pode ser tendencioso devido à diferença no tamanho das equipes. Para mitigar isso, foram criadas métricas relativas, especificamente o Gasto por Atleta (ou Per Capita) e o Gap Financeiro (diferença direta entre gêneros), permitindo isolar o grau de investimento que cada atleta recebe, independentemente da popularidade do seu esporte.
A utilidade desta análise vai além do âmbito acadêmico, servindo como ferramenta de fiscalização para diversos atores do ecossistema esportivo. Para administradores universitários, o estudo oferece benchmarks essenciais de conformidade com o Title IX, mitigando riscos legais. Simultaneamente, fornece a legisladores e associações de atletas evidências quantitativas para avaliar a eficácia das políticas públicas atuais e fundamentar reivindicações por maior equidade. Por fim, ao promover a transparência dos dados, o projeto empodera o jornalismo investigativo e a sociedade civil a monitorar se os recursos públicos e as receitas bilionárias do esporte estão, de fato, promovendo a inclusão prometida.
Todos os pacotes utilizados nesta análise são carregados antecipadamente para garantir a reprodutibilidade do código. A tabela abaixo detalha a função de cada biblioteca no projeto:
# 1. Carregando as bibliotecas
library(tidyverse)
library(readxl)
library(knitr)
library(scales)
library(DT)| Pacote | Descrição |
|---|---|
| tidyverse | Conjunto de ferramentas para manipulação de dados (dplyr) e visualização gráfica (ggplot2) |
| readxl | Importação dos arquivos de dados originais diretamente do formato Excel (.xlsx) |
| knitr | Engine de geração do relatório e formatação de tabelas customizadas (kable) |
| scales | Formatação de escalas e eixos gráficos (transformação de números em formato monetário) |
| DT | Criação de tabelas interativas que permitem busca e filtragem dos dados brutos. |
Origem dos Dados Os dados primários desta análise provêm do EADA - Equity in Athletics Data Analysis (https://ope.ed.gov/athletics/#/datafile/list), a ferramenta oficial de transparência do governo americano para monitorar o cumprimento do Title IX. O recorte temporal é o ano acadêmico 2023-2024.
Arquivos de Documentação O conjunto de dados é
acompanhado por dicionários técnicos (SchoolsDoc2024.doc e
InstlevelDataDoc2024.doc) que definem as regras de negócio.
A leitura destes documentos foi crucial para entender, por exemplo, que
a variável EXP_MEN refere-se apenas a despesas operacionais
de dia de jogo (Game Day Expenses), enquanto os salários e
bolsas estão em colunas separadas no arquivo institucional.
Devido à extensão do conjunto de dados original (mais de 100 colunas por arquivo), foi realizada uma seleção das variáveis mais pertinentes para a análise de equidade financeira e que dão uma noção da natureza dos dados.
Nota Importante: As tabelas abaixo não listam todas as variáveis presentes nos arquivos originais. Elas detalham apenas as colunas principais selecionadas para este estudo.
Tabela 1: Dados Institucionais
(instLevel.xlsx) Metadados da universidade e
totais financeiros agregados.
| Variável | Descrição |
|---|---|
unitid |
Identificador único da instituição (Chave Primária). |
institution_name |
Nome oficial da universidade. |
sector_name |
Classificação do setor (ex: Public, Private nonprofit). |
classification_name |
Divisão atlética (ex: NCAA Division I-FBS). |
EFMaleCount / Female |
Total de estudantes matriculados (Enrollment) por gênero. |
STUDENTAID_MEN / WOMEN |
Total gasto com bolsas de estudo atléticas (Athletic Student Aid). |
RECRUITEXP_MEN / WOMEN |
Despesas totais com recrutamento de atletas. |
HDCOACH_SALARY_MEN /
WOMEN |
Salário médio institucional dos técnicos principais (Head Coaches). |
GRND_TOTAL_REVENUE |
Receita total bruta do departamento de atletismo. |
Tabela 2: Dados por Esporte
(schools.xlsx) Detalhes financeiros e de
participação por modalidade.
| Variável | Descrição |
|---|---|
unitid |
Chave estrangeira para junção com dados institucionais. |
SPORTSCODE |
Código numérico que identifica a modalidade (ex: Futebol, Basquete). |
PARTIC_MEN / WOMEN |
Contagem de participantes no dia da primeira competição oficial. |
EXP_MEN / WOMEN |
Despesas Operacionais (Game Day Expenses): transporte, hospedagem, uniformes. |
REV_MEN / WOMEN |
Receitas atribuíveis diretamente a cada equipe. |
TOTAL_EXP_MENWOMEN |
Soma total das despesas operacionais das equipes. |
Para dar início ao processamento, foi realizada a importação dos dois
conjuntos de dados brutos obtidos no portal do EADA. Os arquivos estão
em formato Excel (.xlsx) e representam, respectivamente, o
cadastro das instituições e os registros financeiros detalhados de cada
equipe esportiva.
Foi utilizada a função read_excel para a leitura e
inner_join utilizando a variável unitid como
chave para a junção dos arquivos.
# 1. Importação dos Arquivos Brutos
# Certifique-se que os arquivos .xlsx estão na mesma pasta do projeto
dados_instituicao <- read_excel("instLevel.xlsx")
dados_esportes <- read_excel("schools.xlsx")
# 2. Fusão dos Datasets (Inner Join)
# A chave 'unitid' conecta as características da escola aos dados do esporte
# O R detecta automaticamente colunas com mesmo nome e adiciona sufixos .x e .y
dados_completos <- inner_join(dados_esportes, dados_instituicao, by = "unitid")A base consolidada (após a junção) possui 296 colunas e 17959 linhas.
A seguir temos uma visão breve dos 5 primeiros elementos da base com todas as colunas acessíveis via rolagem lateral:
Nesta etapa, os dados brutos foram transformados em um formato analítico. O processo de refinamento foi guiado por critérios estatísticos rigorosos pensados para garantir a integridade da análise.
Tratamento de NAs e Tipagem: Foi identificada a necessidade de converter todas as colunas financeiras e de participação para formato numérico estrito e preencher os valores vazios com zero. Isso corrige erros de cálculo onde a ausência de um time gerava valores nulos nas métricas.
Fatores: As variáveis categóricas
(sector_name, classification_name,
Sports) foram convertidas em fatores para permitir o
agrupamento mais intuitivo nas visualizações gráficas.
Delimitação do Escopo (Filtro NCAA Divisão I): A análise foi deliberadamente restringida às instituições da NCAA Divisão I. Esta decisão justifica-se pela necessidade de garantir a homogeneidade da amostra. As regras de financiamento e concessão de bolsas variam drasticamente entre as divisões; misturar instituições de elite (com orçamentos multimilionários) com faculdades menores da Divisão III (que muitas vezes não oferecem bolsas esportivas) distorceria as médias e mascararia as reais disparidades financeiras.
dados_limpos <- dados_completos %>%
mutate(
# 1. LIMPEZA FINANCEIRA (Removendo texto e Zera NAs)
REV_MEN = replace_na(suppressWarnings(as.numeric(REV_MEN)), 0),
EXP_MEN = replace_na(suppressWarnings(as.numeric(EXP_MEN)), 0),
REV_WOMEN = replace_na(suppressWarnings(as.numeric(REV_WOMEN)), 0),
EXP_WOMEN = replace_na(suppressWarnings(as.numeric(EXP_WOMEN)), 0),
# 2. LIMPEZA DE PARTICIPAÇÃO (Removendo texto e Zera NAs)
PARTIC_MEN = replace_na(suppressWarnings(as.numeric(PARTIC_MEN)), 0),
PARTIC_WOMEN = replace_na(suppressWarnings(as.numeric(PARTIC_WOMEN)), 0),
PARTIC_COED_MEN = replace_na(suppressWarnings(as.numeric(PARTIC_COED_MEN)), 0),
PARTIC_COED_WOMEN = replace_na(suppressWarnings(as.numeric(PARTIC_COED_WOMEN)), 0),
# 3. Normalização Pós-Merge e Tipagem:
# Recupera os nomes originais removendo os sufixos gerados
# e converte variáveis categóricas em Fatores para permitir agrupamentos nos gráficos.
sector_name = as.factor(sector_name.x),
sector_name = as.factor(sector_name.x),
institution_name = institution_name.x,
classification_name = as.factor(classification_name.x),
state_cd = state_cd.x,
Sports = as.factor(Sports),
# 4. Preenchendo dados institucionais (Removendo texto e Zera NAs)
total_student_aid_men = replace_na(parse_number(as.character(STUDENTAID_MEN)), 0),
total_student_aid_women = replace_na(parse_number(as.character(STUDENTAID_WOMEN)), 0),
avg_salary_coach_men = replace_na(parse_number(as.character(HDCOACH_SALARY_MEN)), 0),
avg_salary_coach_women = replace_na(parse_number(as.character(HDCOACH_SALARY_WOMEN)), 0)
)
# 5. Filtragem e SELEÇÃO INICIAL
dados_brutos_tratados <- dados_limpos %>%
# Foco na NCAA Division I (Justificativa no texto acima)
filter(str_detect(classification_name, "NCAA Division I")) %>%
mutate(
# Totais de Participantes
total_particip_men = PARTIC_MEN + PARTIC_COED_MEN,
total_particip_women = PARTIC_WOMEN + PARTIC_COED_WOMEN
) %>%
# Seleção apenas dos DADOS BRUTOS limpos
select(
unitid, institution_name, state_cd, sector_name, classification_name, Sports,
EXP_MEN, EXP_WOMEN, REV_MEN, REV_WOMEN,
PARTIC_MEN, PARTIC_WOMEN, total_particip_men, total_particip_women,
total_student_aid_men, total_student_aid_women,
avg_salary_coach_men, avg_salary_coach_women,
GRND_TOTAL_REVENUE, GRND_TOTAL_EXPENSE
)Após o processamento inicial, obteve-se uma base de dados limpa contendo apenas as variáveis brutas de interesse, prontas para a etapa de análise.
# Tabela Interativa Final
dados_brutos_tratados %>%
head(100) %>%
datatable(options = list(scrollX = TRUE, pageLength = 5),
caption = "Amostra: Dados Brutos Tratados (NCAA Divisão I)") %>%
formatCurrency(columns = c('EXP_MEN', 'EXP_WOMEN', 'REV_MEN', 'REV_WOMEN',
'avg_salary_coach_men', 'avg_salary_coach_women',
'total_student_aid_men', 'total_student_aid_women', 'GRND_TOTAL_EXPENSE', 'GRND_TOTAL_REVENUE'),
currency = "$", digits = 0)Resumo Estatístico dos Dados Brutos
A tabela abaixo sintetiza as métricas financeiras fundamentais da amostra. Uma análise preliminar das medidas de tendência central revela uma disparidade estrutural imediata: a média de despesas com equipes masculinas é substancialmente superior à das femininas, um padrão que se repete nas receitas e nos salários dos técnicos.
# Tabela consolidada dos DADOS BRUTOS
# Trocamos 'digits = 0' por 'accuracy = 1' para corrigir o erro do scales
tabela_resumo_bruto <- dados_brutos_tratados %>%
select(
`Despesa Bruta (Homens)` = EXP_MEN,
`Despesa Bruta (Mulheres)` = EXP_WOMEN,
`Receita Bruta (Homens)` = REV_MEN,
`Receita Bruta (Mulheres)` = REV_WOMEN,
`Salário Médio Téc. (Homens)` = avg_salary_coach_men,
`Salário Médio Téc. (Mulheres)` = avg_salary_coach_women
) %>%
pivot_longer(cols = everything(), names_to = "Variável", values_to = "Valor") %>%
group_by(Variável) %>%
summarise(
Média = dollar(mean(Valor, na.rm = TRUE), prefix = "$", big.mark = ",", accuracy = 1),
Mediana = dollar(median(Valor, na.rm = TRUE), prefix = "$", big.mark = ",", accuracy = 1),
`Desvio Padrão` = dollar(sd(Valor, na.rm = TRUE), prefix = "$", big.mark = ",", accuracy = 1),
`Máximo` = dollar(max(Valor, na.rm = TRUE), prefix = "$", big.mark = ",", accuracy = 1)
)
kable(tabela_resumo_bruto,
align = c("l", "r", "r", "r", "r"),
caption = "Tabela 3: Estatísticas Descritivas dos Dados Financeiros Brutos")| Variável | Média | Mediana | Desvio Padrão | Máximo |
|---|---|---|---|---|
| Despesa Bruta (Homens) | $915,552 | $136,438 | $4,296,550 | $112,230,118 |
| Despesa Bruta (Mulheres) | $470,019 | $169,600 | $833,529 | $11,874,938 |
| Receita Bruta (Homens) | $1,088,850 | $138,426 | $6,765,880 | $200,736,464 |
| Receita Bruta (Mulheres) | $419,660 | $171,964 | $722,606 | $14,504,830 |
| Salário Médio Téc. (Homens) | $202,053 | $61,490 | $404,010 | $2,782,637 |
| Salário Médio Téc. (Mulheres) | $77,402 | $50,866 | $77,371 | $686,098 |
Enquanto a Mediana das despesas masculinas gira em torno de valores mais modestos, a Média é puxada drasticamente para cima por programas de elite com orçamentos que atingem o valor Máximo multi-milionário observado na tabela.
Outro ponto crítico é o Desvio Padrão elevado, que em muitos casos supera a própria média, sugerindo uma distribuição extremamente assimétrica. Isso reforça a necessidade de investigar se essa desigualdade se mantém quando ajustamos pelo número de atletas, ou se é fruto apenas do tamanho colossal de certos programas (como o Futebol Americano).
Esses dados brutos levantam a questão central que guiará a próxima etapa da análise: essa disparidade absoluta de investimento persiste quando ajustamos pelo número de atletas? Ou seja, o “gap” é fruto apenas de times masculinos maiores (como o Futebol Americano) ou existe uma desigualdade real na qualidade do investimento per capita? E como isso se reflete numa análise da esfera Pública vs. Privada?
Para investigar a equidade de forma justa, faz-se necessário ir além dos números absolutos. Nesta etapa, foram criadas novas variáveis que permitem comparar o investimento relativo entre os gêneros, neutralizando o efeito da disparidade de tamanho amostral e reconhecendo, em média, quanto cada atleta ganha.
Os dois indicadores principais calculados foram:
# Engenharia de Atributos (Métrica de Análise)
dados_analise <- dados_brutos_tratados %>%
mutate(
# 1. Gasto por Atleta (Evitando divisão por zero)
exp_per_atleta_men = if_else(total_particip_men > 0, EXP_MEN / total_particip_men, 0),
exp_per_atleta_women = if_else(total_particip_women > 0, EXP_WOMEN / total_particip_women, 0),
# 2. Gap Financeiro (Positivo = Mais para Homens)
gap_exp_total = EXP_MEN - EXP_WOMEN
)Visualização das Novas Variáveis
Abaixo, uma amostra das variáveis recém-criadas, confirmando a execução correta dos cálculos antes da análise gráfica.
dados_analise %>%
select(institution_name, Sports, EXP_MEN, EXP_WOMEN, exp_per_atleta_men, exp_per_atleta_women, gap_exp_total) %>%
head(10) %>%
datatable(options = list(scrollX = TRUE, dom = 't', paging = FALSE),
caption = "Amostra: Novos Indicadores Calculados") %>%
formatCurrency(columns = c('EXP_MEN', 'EXP_WOMEN', 'gap_exp_total', 'exp_per_atleta_men', 'exp_per_atleta_women'),
currency = "$", digits = 0)Validação dos Indicadores: Onde a disparidade começa?
Abaixo, confronta-se o investimento per capita em homens versus mulheres. A linha vermelha tracejada representa a paridade perfeita (1:1), ou seja, o gasto por atleta é igual entre mulheres e homens.
# Gráfico de Dispersão: Homens vs Mulheres (Per Capita)
# Filtra-se zeros para permitir escala logarítmica
dados_analise %>%
filter(exp_per_atleta_men > 0, exp_per_atleta_women > 0) %>%
ggplot(aes(x = exp_per_atleta_men, y = exp_per_atleta_women)) +
geom_point(alpha = 0.4, color = "#2c3e50", size = 2) +
geom_abline(slope = 1, intercept = 0, color = "red", linetype = "dashed", size = 1) +
scale_x_log10(labels = dollar_format()) +
scale_y_log10(labels = dollar_format()) +
labs(title = "Investimento por Atleta: Homens vs. Mulheres",
subtitle = "A disparidade se acentua em orçamentos superiores\na $100k (lado direito do gráfico)",
x = "Gasto por Atleta Homem (Log)",
y = "Gasto por Atleta Mulher (Log)") +
theme_minimal() +
theme(plot.title = element_text(family = "serif", size = 16, face = "bold"))Observa-se um comportamento revelador: para valores baixos (abaixo de $100.000 por atleta), os pontos tendem a se agrupar próximos à linha vermelha, indicando uma relativa equidade nas instituições menores. No entanto, à medida que avançamos no eixo X (investimento masculino), a nuvem de pontos se dispersa drasticamente para a direita e para baixo. Isso sugere que a disparidade se alarga consideravelmente nas instituições mais ricas. Quanto maior o orçamento, maior tende a ser o favorecimento masculino e menor o investimento feminino.
A análise da diferença de investimento revela duas realidades distintas na NCAA Divisão I: o padrão geral da maioria e os casos extremos da elite esportiva.
1. O Cenário Geral
O gráfico abaixo foca na vasta maioria das instituições, aplicando um zoom na faixa entre -$8 milhões e +$8 milhões. A escala detalhada (marcas a cada $1 milhão) permite visualizar que, mesmo excluindo os extremos, a distribuição não é perfeitamente centrada: há uma clara tendência de deslocamento para a direita (laranja), indicando que o favorecimento masculino é a norma quando aumentamos a disparidade.
# 1. Preparação dos dados
dados_gap_visual <- dados_analise %>%
filter(!is.na(gap_exp_total)) %>%
mutate(
Favorecido = if_else(gap_exp_total > 0, "Masculino", "Feminino")
)
# 2. Gráfico com Zoom
ggplot(dados_gap_visual, aes(x = gap_exp_total, fill = Favorecido)) +
geom_histogram(binwidth = 1000000, color = "white", alpha = 0.9, boundary = 0) +
geom_vline(xintercept = 0, color = "black", linetype = "dashed", size = 1) +
scale_fill_manual(values = cores_genero) +
# ZOOM: Focando a visualização entre -8M e +8M
coord_cartesian(xlim = c(-8000000, 8000000)) +
scale_x_continuous(breaks = seq(-8000000, 8000000, 1000000),
labels = dollar_format(prefix = "$", scale = 1e-6, suffix = "M")) +
labs(title = "Distribuição do Gap Financeiro",
x = "Diferença de Investimento (Milhões USD)",
y = "Número de Universidades",
fill = "Gênero Favorecido") +
theme_minimal() +
theme(plot.title = element_text(family = "serif", size = 16, face = "bold"),
axis.title = element_text(family = "sans"),
legend.position = "bottom")2. Os Extremos: A Assimetria do Topo
Ao investigar as maiores disparidades absolutas, observa-se que o fenômeno dos “super gaps” é exclusivamente masculino.
Para comprovar essa hipótese, comparou-se a maior vantagem financeira registrada para um programa feminino contra a 20ª maior vantagem masculina. O resultado demonstra que mesmo a universidade que mais investe proporcionalmente em mulheres não entraria no ranking das 20 maiores disparidades a favor dos homens.
# Calculando os extremos
max_gap_feminino <- min(dados_analise$gap_exp_total, na.rm = TRUE) # É negativo
min_gap_top20_masculino <- dados_analise %>%
arrange(desc(gap_exp_total)) %>%
slice(20) %>%
pull(gap_exp_total)
# Criando uma tabela explicativa
tibble(
Métrica = c("Maior Vantagem Feminina (Recorde)", "20ª Maior Vantagem Masculina (Corte do Top 20)"),
Valor = c(max_gap_feminino, min_gap_top20_masculino),
`Diferença de Escala` = c("Referência", paste0(round(min_gap_top20_masculino / abs(max_gap_feminino), 1), "x maior"))
) %>%
kable(caption = "Comparativo de Magnitude: O Teto Feminino vs. O Piso da Elite Masculina",
col.names = c("Indicador", "Valor (USD)", "Disparidade"))| Indicador | Valor (USD) | Disparidade |
|---|---|---|
| Maior Vantagem Feminina (Recorde) | -6950711 | Referência |
| 20ª Maior Vantagem Masculina (Corte do Top 20) | 57117597 | 8.2x maior |
3. O Ranking dos Desiguais (Top 20)
Confirmada a inexistência de contrapartidas femininas nessa escala financeira, o gráfico abaixo lista as 20 instituições com as maiores disparidades absolutas de todo o dataset.
# Filtrando apenas os TOP 20 maiores gaps absolutos
top_outliers <- dados_analise %>%
arrange(desc(abs(gap_exp_total))) %>%
head(20) %>%
mutate(
# Truncando nomes longos para caber no gráfico
institution_name = str_trunc(institution_name, 40),
institution_name = reorder(institution_name, gap_exp_total),
Favorecido = if_else(gap_exp_total > 0, "Masculino", "Feminino")
)
ggplot(top_outliers, aes(x = gap_exp_total, y = institution_name, fill = Favorecido)) +
geom_col(alpha = 0.9) +
scale_fill_manual(values = cores_genero) +
scale_x_continuous(labels = dollar_format(prefix = "$", scale = 1e-6, suffix = "M")) +
labs(title = "Top 20 Maiores Disparidades Financeiras",
subtitle = "A lista é composta por vantagens masculinas, superando $30M",
x = "Gap Financeiro (Milhões USD)",
y = NULL,
fill = "Favorecido") +
theme_minimal() +
theme(plot.title = element_text(family = "serif", size = 16, face = "bold"),
legend.position = "bottom")Geograficamente e culturalmente, observa-se a predominância de grandes universidades estaduais (“Power Five Conferences”), muitas localizadas no Sul e Centro-Oeste dos EUA. Essas instituições possuem programas de Futebol Americano historicamente lucrativos e caros, o que ajuda a explicar o tamanho do desbalanceamento nas contas finais.
Para investigar a intensidade do investimento individual, optou-se inicialmente pelo uso de um Gráfico de Violino. Esta visualização revela a densidade dos dados: a “barriga” do gráfico indica onde a maioria das universidades se concentra, enquanto a extensão vertical mostra os valores extremos.
# Transformação do formato dos dados para o ggplot
dados_longos_percapita <- dados_analise %>%
select(institution_name, exp_per_atleta_men, exp_per_atleta_women) %>%
pivot_longer(cols = c(exp_per_atleta_men, exp_per_atleta_women),
names_to = "Genero",
values_to = "Gasto_Por_Atleta") %>%
mutate(
Genero = if_else(Genero == "exp_per_atleta_men", "Masculino", "Feminino")
) %>%
filter(Gasto_Por_Atleta > 0)
# Cálculo das Medianas
medianas <- dados_longos_percapita %>%
group_by(Genero) %>%
summarise(Mediana = median(Gasto_Por_Atleta, na.rm = TRUE))
# Visualização (Violino + Boxplot)
ggplot(dados_longos_percapita, aes(x = Genero, y = Gasto_Por_Atleta, fill = Genero)) +
geom_violin(alpha = 0.5, trim = FALSE, color = NA) +
geom_boxplot(width = 0.1, color = "#2c3e50", alpha = 0.8, outlier.shape = NA) +
geom_text(data = medianas, aes(y = Mediana, label = dollar(Mediana, accuracy = 1)),
vjust = -0.8, fontface = "bold", color = "#2c3e50") +
scale_y_log10(labels = dollar_format()) +
scale_fill_manual(values = cores_genero) +
labs(title = "Distribuição do Gasto por Atleta",
subtitle = "A mediana feminina é superior, mas o 'teto' de gastos masculino é mais alto",
y = "Gasto por Atleta (USD - Escala Log)",
x = NULL) +
theme_minimal() +
theme(legend.position = "none",
plot.title = element_text(family = "serif", size = 16, face = "bold"))Interpretação da Distribuição:
A análise visual do gráfico revela dois padrões contraditórios que exigem aprofundamento:
A Lógica da Diluição: Comparando os Gigantes
O gráfico acima mostra que a mediana do investimento feminino per capita supera a masculina. Para explicar esse fenômeno, foi isolado o impacto das modalidades com maior investimento de cada gênero.
A tabela abaixo compara o tamanho médio das equipes do Futebol Americano (maior gasto masculino) contra o principal esporte feminino equivalente (dinamicamente identificado pelo maior volume de despesas, geralmente Basquete).
# Estatísticas Gerais
stats_gerais <- dados_analise %>%
summarise(
Total_Atletas_H = sum(total_particip_men, na.rm = TRUE),
Total_Atletas_M = sum(total_particip_women, na.rm = TRUE),
Media_Atletas_Time_H = mean(total_particip_men, na.rm = TRUE),
Media_Atletas_Time_M = mean(total_particip_women, na.rm = TRUE)
)
# Estatísticas do Carro-chefe Masculino
stats_football <- dados_analise %>%
filter(str_detect(Sports, "Football") & total_particip_men > 0) %>%
summarise(
Nome = "Football",
Media_Atletas = mean(total_particip_men, na.rm = TRUE)
)
# Encontrando Carro-chefe Feminino
top_female_sport <- dados_analise %>%
filter(EXP_WOMEN > 0) %>%
group_by(Sports) %>%
summarise(Media_Gasto = mean(EXP_WOMEN, na.rm = TRUE)) %>%
arrange(desc(Media_Gasto)) %>%
slice(1) %>%
pull(Sports)
# Estatísticas do Carro-chefe Feminino
stats_female_top <- dados_analise %>%
filter(Sports == top_female_sport & total_particip_women > 0) %>%
summarise(
Nome = as.character(top_female_sport),
Media_Atletas = mean(total_particip_women, na.rm = TRUE)
)
# Tabela Final Formatada
tabela_final_diluicao <- tibble(
Métrica = c(
"Total de Atletas na Amostra",
"Tamanho Médio das Equipes (Geral)",
"Esporte de Maior Investimento (Média Atletas)"
),
Homens = c(
scales::comma(stats_gerais$Total_Atletas_H, accuracy = 1),
paste(round(stats_gerais$Media_Atletas_Time_H, 0), "atletas"),
paste0(stats_football$Nome, ": ", round(stats_football$Media_Atletas, 0), " atletas")
),
Mulheres = c(
scales::comma(stats_gerais$Total_Atletas_M, accuracy = 1),
paste(round(stats_gerais$Media_Atletas_Time_M, 0), "atletas"),
paste0(stats_female_top$Nome, ": ", round(stats_female_top$Media_Atletas, 0), " atletas")
)
)
kable(tabela_final_diluicao,
caption = "Tabela 4: O Efeito de Diluição dos Grandes Elencos")| Métrica | Homens | Mulheres |
|---|---|---|
| Total de Atletas na Amostra | 302,259 | 232,664 |
| Tamanho Médio das Equipes (Geral) | 26 atletas | 20 atletas |
| Esporte de Maior Investimento (Média Atletas) | Football: 116 atletas | Gymnastics: 22 atletas |
A tabela confirma que o Futebol Americano distorce a métrica per capita masculina.
Enquanto o principal esporte feminino opera com uma média de cerca de 22 atletas, um time de Futebol Americano possui, em média, 116 atletas.
Esse denominador massivo no principal esporte masculino “dilui” o investimento total por atleta. Mesmo que o time receba milhões, esse valor é dividido por mais de 100 cabeças, puxando a média e a mediana masculina para baixo. Já no feminino, orçamentos menores são divididos por elencos enxutos, elevando artificialmente a métrica per capita. Portanto, a mediana inferior masculina não indica falta de recursos, mas sim uma estrutura de equipe radicalmente diferente.
Por fim, a análise foi segmentada pelo tipo de controle da instituição (Setor). O objetivo desta etapa é verificar se universidades públicas, por estarem sujeitas a maior escrutínio fiscal e legislativo, apresentam padrões de equidade diferentes das instituições privadas.
Para isso, utilizou-se novamente a métrica de Gasto por Atleta, dividindo a visualização em dois painéis distintos.
# Simplificando os nomes para o gráfico
dados_setor <- dados_analise %>%
select(institution_name, sector_name, exp_per_atleta_men, exp_per_atleta_women) %>%
mutate(
Setor_Simplificado = case_when(
str_detect(sector_name, "Public") ~ "Instituições Públicas",
str_detect(sector_name, "Private") ~ "Instituições Privadas",
TRUE ~ "Outros"
)
) %>%
pivot_longer(cols = c(exp_per_atleta_men, exp_per_atleta_women),
names_to = "Genero_Origem",
values_to = "Gasto_Por_Atleta") %>%
mutate(
Genero = if_else(Genero_Origem == "exp_per_atleta_men", "Masculino", "Feminino")
) %>%
filter(Gasto_Por_Atleta > 0)
# Boxplot
ggplot(dados_setor, aes(x = Genero, y = Gasto_Por_Atleta, fill = Genero)) +
# Boxplot com outliers transparentes para focar na distribuição central
geom_boxplot(alpha = 0.8, outlier.alpha = 0.1) +
scale_y_log10(labels = dollar_format()) +
scale_fill_manual(values = cores_genero) +
# Facet_wrap divide o gráfico em dois (Público e Privado)
facet_wrap(~ Setor_Simplificado) +
labs(title = "Gasto por Atleta: Comparativo por Setor",
subtitle = "A disparidade no teto de gastos (cauda superior) é visível em ambos os setores",
y = "Gasto por Atleta (USD - Escala Log)",
x = NULL) +
theme_minimal() +
theme(plot.title = element_text(family = "serif", size = 16, face = "bold"),
legend.position = "none",
strip.text = element_text(size = 12, face = "bold")) # Destaque para o título dos painéisA segmentação revela que a desigualdade financeira no esporte universitário não depende da natureza jurídica da instituição. Tanto nas universidades públicas quanto nas privadas, observa-se o mesmo padrão: a “universidade média” tem um investimento por atleta que se mostra razoavelmente equivalente entre os gêneros, com medianas próximas. Ou seja, no nível operacional básico, as instituições cumprem os requisitos mínimos de equidade.
Além da visão institucional, buscou-se identificar quais modalidades esportivas mais contribuem para o desequilíbrio financeiro observado. Para isso, calculou-se a média do gap orçamentário (Despesa Masculina - Despesa Feminina) para cada esporte em toda a NCAA Divisão I.
O gráfico abaixo destaca os 10 esportes com as maiores disparidades médias, revelando tanto os motores da desigualdade masculina quanto as modalidades onde o investimento feminino predomina.
# 1. Cálculo do Gap Médio por Esporte
gap_por_esporte <- dados_analise %>%
group_by(Sports) %>%
summarise(
Media_Gap = mean(gap_exp_total, na.rm = TRUE)
) %>%
# Filtrar apenas os 10 com maior gap absoluto
arrange(desc(abs(Media_Gap))) %>%
head(10) %>%
mutate(
# Ordenar o fator para o gráfico ficar em ordem decrescente
Sports = reorder(Sports, Media_Gap),
Favorecido = if_else(Media_Gap > 0, "Masculino", "Feminino")
)
# 2. Visualização
ggplot(gap_por_esporte, aes(x = Media_Gap, y = Sports, fill = Favorecido)) +
geom_col(alpha = 0.9) +
scale_fill_manual(values = cores_genero) +
scale_x_continuous(labels = dollar_format(prefix = "$", scale = 1e-6, suffix = "M")) +
labs(title = "Ranking de Desigualdade por Modalidade",
subtitle = "O Futebol Americano é o outlier extremo, ofuscando as vantagens femininas em outros esportes",
x = "Diferença Média de Investimento (Milhões USD)",
y = NULL,
fill = "Gênero Favorecido") +
theme_minimal() +
theme(plot.title = element_text(family = "serif", size = 16, face = "bold"),
legend.position = "bottom",
panel.grid.major.y = element_blank())Esta análise buscou investigar se, após décadas de vigência do Title IX, a paridade de gênero no atletismo universitário americano se traduz em equidade financeira real. A hipótese inicial de que o investimento financeiro ainda privilegia desproporcionalmente o esporte masculino foi confirmada, porém com nuances importantes reveladas pelos dados. A desigualdade não se manifesta de forma linear em todas as instituições, mas apresenta-se como um fenômeno de “cauda longa”, impulsionado por uma elite de programas exclusivamente masculinos hiper-financiados.
A estratégia metodológica de integrar dados institucionais e
esportivos (inner_join) e restringir o escopo à
NCAA Divisão I provou-se fundamental para permitir a
análise de subgrupos e o impacto dessa categorização nos achados. A
criação de métricas relativas (gasto per capita e razão de
gastos) permitiu neutralizar o viés introduzido pelo tamanho
variado das amostras, revelando que a simples comparação de totais
absolutos mascara a complexidade do problema (efeito de diluição dos
grandes elencos).
Os dados revelaram três padrões estruturais de desigualdade:
Para gestores universitários e formuladores de políticas públicas, os resultados indicam que a conformidade com o Title IX deve evoluir de uma métrica puramente quantitativa (número de vagas) para uma auditoria qualitativa (intensidade do investimento). Sem mecanismos de redistribuição das receitas geradas pelos “super esportes”, o abismo no topo da pirâmide se perpetuará.
Do Empurrão ao Teto Financeiro
Retomando a imagem histórica apresentada na introdução: se em 1967 a barreira para Kathrine Switzer era física — um oficial tentando arrancá-la da pista à força, os dados de 2024 revelam que a barreira moderna é financeira e invisível ao grande público.
Não há mais oficiais impedindo mulheres de competir; pelo contrário, as medianas mostram que o acesso básico foi conquistado. No entanto, a “cauda longa” dos dados revela um novo tipo de exclusão: um teto de vidro orçamentário. Enquanto a elite atlética masculina desfruta de investimentos ilimitados impulsionados pelo mercado, a elite feminina ainda opera dentro de limites financeiros muito mais modestos. A luta por equidade, portanto, migrou da pista de corrida para as planilhas orçamentárias.
A principal limitação deste estudo reside no tratamento dos valores ausentes, que foram imputados como zero sob a premissa de inexistência do programa, o que pode subestimar despesas em casos de erro de reporte. Além disso, a análise focou em despesas operacionais de um período curto, não capturando integralmente os custos com infraestrutura (estádios) ou a progressão desses gapsdesde o surgimento da emenda.
Para trabalhos futuros, sugere-se: