A Dificuldade de Garantir Equidade
Historicamente, as mulheres enfrentaram barreiras importantes na vida pública, e o esporte também refletiu esse processo de exclusão. Durante muito tempo, a prática esportiva foi tratada como um espaço predominantemente masculino, o que reduziu o investimento, a visibilidade e as oportunidades de desenvolvimento para atletas mulheres.
Figura 1: Protesto contra o concurso Miss América, em 1968, associado às reivindicações por igualdade de gênero.
O Papel do Esporte e a Resposta Legislativa
O esporte não se limita à competição; ele também funciona como espaço de formação, inclusão e acesso a oportunidades. Diante das desigualdades históricas entre homens e mulheres, os Estados Unidos aprovaram o Title IX em 1972. A emenda proibiu a discriminação por sexo em programas educacionais financiados pelo governo federal e passou a pressionar universidades a ampliar a participação feminina no atletismo universitário.
Figura 2: Assinatura do Title IX, em 1972, marco legal importante para a igualdade de oportunidades educacionais nos Estados Unidos.
A Evolução da Equidade e a Premissa da Lucratividade
No entanto, a existência de equipes femininas não garante, por si só, condições equivalentes de financiamento. Mesmo após mais de 50 anos da aprovação do Title IX, estudos e discussões recentes indicam que diferenças orçamentárias ainda persistem. Isso levanta uma pergunta central:
“Essa distância financeira está diminuindo ou aumentando com o tempo?”
Além disso, parte da justificativa institucional para maiores investimentos em modalidades masculinas é a ideia de que esportes de grande audiência, especialmente o futebol americano, sustentam financeiramente as demais modalidades.
O objetivo central desta análise é investigar a evolução histórica dessa diferença e verificar, a partir dos dados, em que medida a premissa de que “o futebol paga a conta” se sustenta na realidade financeira da maioria das instituições.
Para avaliar essa questão com dados, este estudo adota um recorte longitudinal. Foram utilizados microdados oficiais do Equity in Athletics Data Analysis (EADA), fornecidos pelo Departamento de Educação dos Estados Unidos, cobrindo 11 anos acadêmicos completos, de 2013 a 2024.
O trabalho consolida dezenas de arquivos anuais para cruzar duas dimensões que, na origem, são disponibilizadas separadamente:
A junção desses registros permite construir uma base relacional com mais de 22.000 observações institucionais, adequada para comparar mudanças ao longo do tempo e diferenças de financiamento por gênero.
A parte técnica do projeto foi organizada em três etapas principais:
NA), foi
adotada a regra descrita na documentação da base: em variáveis
esportivas selecionadas, a ausência de valor indica que a instituição
não ofertou aquela modalidade naquele ano. Nesses casos, os valores
foram preenchidos com zero.Os resultados deste relatório podem ser úteis para diferentes públicos:
Para facilitar a reprodução da análise, todas as bibliotecas utilizadas foram carregadas no início do documento. A tabela abaixo resume a função de cada pacote no código:
| Pacote | Descrição |
|---|---|
| tidyverse | Manipulação e limpeza dos dados (dplyr, tidyr) e criação dos gráficos base (ggplot2). |
| readxl | Leitura automatizada dos microdados originais direto das planilhas Excel (.xlsx). |
| knitr | Processamento do RMarkdown e geração estruturada do relatório final. |
| scales | Formatação visual dos eixos gráficos (como a conversão de valores brutos para formato monetário). |
| DT | Geração de tabelas HTML interativas, permitindo paginação e busca dinâmica. |
| plotly | Transformação dos gráficos estáticos em visuais interativos (hover, zoom e filtros). |
Esta etapa organiza os registros governamentais brutos em uma estrutura adequada para análise. Como o projeto trabalha com dados de vários anos, a padronização dos arquivos foi uma parte importante do processo.
SchoolsDoc.doc e
InstlevelDataDoc.doc) foram usados para interpretar as
tabelas. A partir deles, foi possível identificar, por exemplo, que
valores ausentes (NA) em colunas esportivas podem indicar
que a universidade não ofereceu determinada modalidade naquele ano.Os arquivos originais possuem milhares de colunas por ano, pois reúnem informações institucionais e financeiras em registros amplos. Para manter a análise focada, foram selecionadas apenas as variáveis mais relevantes para o estudo:
| Variável Original | Descrição Técnica e Regra de Negócio |
|---|---|
caminho_arquivo |
Variável criada durante a importação para identificar o ano de cada arquivo. |
unitid |
Identificador único do Ministério da Educação para a instituição (Chave Primária). |
institution_name |
Nome oficial da universidade. |
sector_name |
Classificação administrativa (ex: Public, Private nonprofit). |
classification_name |
Divisão atlética. Foco deste estudo: NCAA Division I. |
GRND_TOTAL_REVENUE |
Receita total bruta do departamento de atletismo. |
GRND_TOTAL_EXPENSE |
Despesa total bruta do departamento de atletismo. |
EXP_MEN / EXP_WOMEN |
Despesas Operacionais Totais por gênero (Game Day Expenses). |
REV_MEN / REV_WOMEN |
Receitas Totais atribuíveis diretamente a cada gênero. |
A transformação dos dados brutos seguiu um processo organizado para lidar com arquivos de diferentes anos e com a junção entre bases:
regex) para localizar automaticamente as pastas anuais.
Para reduzir problemas causados por mudanças de formatação ao longo dos
anos, todas as colunas foram inicialmente lidas como texto
(col_types = "text").unitid, permitindo cruzar
os dados esportivos com as informações institucionais do mesmo ano.# 1. Mapeamento dos arquivos (ignorando variações de maiúsculas/minúsculas)
caminho_raiz <- "~/Documentos/data_science/dados"
arquivos_inst <- list.files(path = caminho_raiz,
pattern = "(?i)instlevel\\.xlsx$",
recursive = TRUE, full.names = TRUE)
arquivos_schools <- list.files(path = caminho_raiz,
pattern = "(?i)schools\\.xlsx$",
recursive = TRUE, full.names = TRUE)
# 2. Função para ler em lote, empilhar e extrair o ano
empilhar_e_extrair_ano <- function(lista_arquivos) {
lista_arquivos %>%
set_names() %>%
map_dfr(~ read_excel(.x, col_types = "text"), .id = "caminho_arquivo") %>%
mutate(Ano_Academico = str_extract(caminho_arquivo, "20[0-9]{2}-20[0-9]{2}")) %>%
select(-caminho_arquivo)
}
# 3. Executando a leitura das duas dimensões de dados
dados_instituicao <- empilhar_e_extrair_ano(arquivos_inst)
dados_esportes <- empilhar_e_extrair_ano(arquivos_schools)
# 4. Fusão dos Datasets (Inner Join por chave composta)
dados_completos <- inner_join(dados_esportes, dados_instituicao,
by = c("unitid", "Ano_Academico"))
# 5. Limpeza, Tipagem Numérica e Filtro (NCAA Division I)
dados_limpos <- dados_completos %>%
rename(
sector_name = sector_name.x,
institution_name = institution_name.x,
classification_name = classification_name.x
) %>%
filter(str_detect(classification_name, "NCAA Division I")) %>%
mutate(
# Convertendo para número e zerando NAs com segurança
REV_MEN = replace_na(suppressWarnings(as.numeric(REV_MEN)), 0),
EXP_MEN = replace_na(suppressWarnings(as.numeric(EXP_MEN)), 0),
REV_WOMEN = replace_na(suppressWarnings(as.numeric(REV_WOMEN)), 0),
EXP_WOMEN = replace_na(suppressWarnings(as.numeric(EXP_WOMEN)), 0),
GRND_TOTAL_REVENUE = replace_na(suppressWarnings(as.numeric(GRND_TOTAL_REVENUE)), 0),
GRND_TOTAL_EXPENSE = replace_na(suppressWarnings(as.numeric(GRND_TOTAL_EXPENSE)), 0),
PARTIC_MEN = replace_na(suppressWarnings(as.numeric(PARTIC_MEN)), 0),
PARTIC_WOMEN = replace_na(suppressWarnings(as.numeric(PARTIC_WOMEN)), 0)
)Com as tabelas unidas e filtradas, a base final fica pronta para as análises seguintes. A tabela interativa abaixo mostra uma amostra dos dados consolidados, permitindo navegar pelos anos e pelas modalidades.
# Tabela Interativa usando DT
dados_limpos %>%
select(Ano_Academico, institution_name, classification_name, Sports,
EXP_MEN, EXP_WOMEN, REV_MEN, REV_WOMEN) %>%
head(100) %>%
datatable(options = list(scrollX = TRUE, pageLength = 5),
caption = "Amostra: Série Histórica EADA (NCAA Divisão I)") %>%
formatCurrency(columns = c('EXP_MEN', 'EXP_WOMEN', 'REV_MEN', 'REV_WOMEN'),
currency = "$", digits = 0)A tabela a seguir resume as principais métricas da amostra ao longo de todo o período analisado. Em vez de observar apenas anos isolados, a agregação da década ajuda a identificar padrões gerais no financiamento esportivo universitário.
# Resumo agrupando dados financeiros da década
tabela_resumo_bruto <- dados_limpos %>%
select(
`Despesa Bruta (Homens)` = EXP_MEN,
`Despesa Bruta (Mulheres)` = EXP_WOMEN,
`Receita Bruta (Homens)` = REV_MEN,
`Receita Bruta (Mulheres)` = REV_WOMEN
) %>%
pivot_longer(cols = everything(), names_to = "Variável", values_to = "Valor") %>%
group_by(Variável) %>%
summarise(
Média = dollar(mean(Valor, na.rm = TRUE), prefix = "$", big.mark = ",", accuracy = 1),
Mediana = dollar(median(Valor, na.rm = TRUE), prefix = "$", big.mark = ",", accuracy = 1),
`Desvio Padrão` = dollar(sd(Valor, na.rm = TRUE), prefix = "$", big.mark = ",", accuracy = 1),
`Máximo` = dollar(max(Valor, na.rm = TRUE), prefix = "$", big.mark = ",", accuracy = 1)
)
kable(tabela_resumo_bruto,
align = c("l", "r", "r", "r", "r"),
caption = "Estatísticas Descritivas Globais (2013-2024)")| Variável | Média | Mediana | Desvio Padrão | Máximo |
|---|---|---|---|---|
| Despesa Bruta (Homens) | $608,209 | $62,009 | $2,989,090 | $112,230,118 |
| Despesa Bruta (Mulheres) | $323,147 | $98,209 | $627,152 | $13,119,360 |
| Receita Bruta (Homens) | $742,836 | $61,712 | $5,073,292 | $200,736,464 |
| Receita Bruta (Mulheres) | $274,857 | $96,208 | $520,862 | $21,440,365 |
Primeiras observações: A média indica que as modalidades masculinas concentram receitas e despesas maiores. No entanto, o desvio padrão também é elevado, o que sugere grande variação entre instituições. A diferença entre média e mediana reforça que os valores totais são influenciados por uma minoria de programas com orçamentos muito altos, como aparece nos valores máximos observados para homens e mulheres.
Esse resultado motiva a análise exploratória: é necessário isolar variáveis, como despesa per capita e lucro líquido, para entender se a diferença aparece de forma generalizada ou se é fortemente influenciada por modalidades de grande orçamento, especialmente o futebol americano.
Nesta seção, a análise passa da descrição geral para comparações mais específicas sobre a assimetria orçamentária no esporte universitário. Os gráficos e tabelas interativos foram usados para facilitar a exploração dos dados ao longo da década.
Observar apenas os valores totais sugere que as equipes femininas recebem menos recursos. No entanto, uma comparação mais adequada precisa considerar o tamanho das equipes. Por isso, foi calculado o gasto por atleta, ou gasto per capita.
O gráfico de violino abaixo mostra a distribuição desse gasto no último ano acadêmico completo, 2023-2024, indicando onde a maior parte das observações se concentra.
# 1. Isolando 2024, calculando o Gasto Per Capita e pivotando
dados_per_capita <- dados_limpos %>%
filter(Ano_Academico == "2023-2024") %>%
# Removemos divisões por zero (esportes sem participantes)
filter(PARTIC_MEN > 0 | PARTIC_WOMEN > 0) %>%
mutate(
`Masculino` = ifelse(PARTIC_MEN > 0, EXP_MEN / PARTIC_MEN, NA),
`Feminino` = ifelse(PARTIC_WOMEN > 0, EXP_WOMEN / PARTIC_WOMEN, NA)
) %>%
pivot_longer(cols = c(`Masculino`, `Feminino`),
names_to = "Genero", values_to = "Gasto_Per_Capita") %>%
filter(!is.na(Gasto_Per_Capita))
# 2. Construção do Gráfico de Violino + Boxplot interno
g_violino <- ggplot(dados_per_capita, aes(x = Genero, y = Gasto_Per_Capita, fill = Genero)) +
geom_violin(alpha = 0.6, trim = FALSE) +
geom_boxplot(width = 0.1, fill = "white", outlier.shape = NA) +
scale_y_continuous(labels = dollar_format(prefix = "$"), limits = c(0, 150000)) +
scale_fill_manual(values = c("Masculino" = "#2C3E50", "Feminino" = "#E74C3C")) +
labs(
title = "Distribuição do Gasto Per Capita por Gênero (NCAA Divisão I)",
subtitle = "Ano Acadêmico 2023-2024",
x = "Gênero",
y = "Despesa por Atleta (USD)"
) +
theme_minimal() +
theme(legend.position = "none")
# 3. Tornando interativo
ggplotly(g_violino)O gráfico mostra um resultado que, à primeira vista, pode parecer contraintuitivo. A distribuição feminina aparece mais concentrada em valores um pouco superiores, com mediana em torno de $12.000, enquanto a mediana masculina fica próxima de $10.000. Isso não significa, necessariamente, que o financiamento feminino seja maior em termos absolutos. Uma explicação provável é o efeito de diluição: modalidades masculinas como o futebol americano têm orçamentos muito altos, mas também elencos numerosos, frequentemente com mais de 100 atletas. Assim, parte do orçamento masculino é dividida por um número maior de participantes, reduzindo o gasto per capita mediano e mantendo a concentração de grandes valores nos extremos da distribuição.
A primeira questão apresentada na introdução diz respeito ao comportamento histórico da diferença de investimento. Considerando que o Title IX já tem mais de 50 anos, seria razoável esperar uma redução gradual da distância orçamentária entre homens e mulheres.
Para avaliar essa tendência, foram somadas as despesas operacionais absolutas da NCAA Divisão I em cada ano acadêmico, separando os valores por gênero.
# 1. Agrupando por ano para obter os totais absolutos da década
evolucao_gap <- dados_limpos %>%
group_by(Ano_Academico) %>%
summarise(
`Masculino` = sum(EXP_MEN, na.rm = TRUE),
`Feminino` = sum(EXP_WOMEN, na.rm = TRUE)
) %>%
pivot_longer(cols = c(`Masculino`, `Feminino`),
names_to = "Gênero",
values_to = "Valor_Total")
# 2. Criação do Gráfico de Linhas Histórico
g_evolucao <- ggplot(evolucao_gap, aes(x = Ano_Academico, y = Valor_Total, color = Gênero, group = Gênero)) +
geom_line(linewidth = 1.2) +
geom_point(size = 3) +
scale_y_continuous(labels = label_number(prefix = "$", scale = 1e-6, suffix = "M")) +
scale_color_manual(values = c("Masculino" = "#2C3E50", "Feminino" = "#E74C3C")) +
labs(
title = "Evolução Histórica das Despesas Operacionais Totais",
x = "Ano Acadêmico",
y = "Despesa Total Cumulativa (Milhões USD)"
) +
theme_minimal() +
theme(axis.text.x = element_text(angle = 45, hjust = 1),
legend.position = "bottom")
# 3. Interatividade
ggplotly(g_evolucao, tooltip = c("x", "y", "color"))A visualização indica que a diferença orçamentária não diminuiu no período analisado. Pelo contrário, as linhas se afastam ao longo da série. Em 2013, a diferença era de cerca de $2,4 bilhões a favor das modalidades masculinas. Em 2024, essa diferença chegou a aproximadamente $5,6 bilhões anuais.
Outro ponto visível é a queda de gastos na temporada 2020-2021, compatível com o impacto da pandemia de COVID-19. Após esse período, a recuperação ocorreu em formato de “V”, mas com crescimento mais acentuado nas despesas masculinas. Com isso, a diferença entre os grupos voltou a se ampliar depois da pandemia.
Uma justificativa frequente para o maior investimento em esportes masculinos é a premissa de que modalidades de grande audiência, especialmente o futebol americano, geram receita suficiente para sustentar a si mesmas e ajudar a financiar outras modalidades da universidade.
Para verificar em que medida essa premissa aparece nos dados da Divisão I, foram isolados os registros de “Football” no último ano acadêmico, 2023-2024. Em seguida, foi calculado o lucro líquido de cada universidade, subtraindo as despesas totais das receitas.
# 1. Filtrando Futebol e Calculando o Lucro Líquido
lucro_futebol <- dados_limpos %>%
filter(Sports == "Football", Ano_Academico == "2023-2024") %>%
mutate(
Lucro_Liquido = REV_MEN - EXP_MEN,
Status_Financeiro = ifelse(Lucro_Liquido > 0, "Superávit (Deu Lucro)", "Déficit (Deu Prejuízo)")
)
# 2. Agrupando e calculando percentuais
resumo_lucro <- lucro_futebol %>%
count(Status_Financeiro) %>%
mutate(Percentual = n / sum(n))
# 3. Gráfico de Barras do Status Financeiro
g_lucro <- ggplot(resumo_lucro, aes(x = Status_Financeiro, y = n, fill = Status_Financeiro)) +
geom_col(width = 0.5) +
geom_text(aes(label = paste0(n, " univ. (", percent(Percentual, accuracy = 1), ")")),
vjust = -0.5, size = 4.5, fontface = "bold") +
scale_fill_manual(values = c("Déficit (Deu Prejuízo)" = "#E74C3C", "Superávit (Deu Lucro)" = "#27AE60")) +
scale_y_continuous(limits = c(0, max(resumo_lucro$n) * 1.15)) +
labs(
title = "A Realidade Financeira do Futebol Americano (2023-2024)",
subtitle = "NCAA Divisão I: Receita Total vs. Despesa Total da Modalidade",
x = "",
y = "Número de Universidades"
) +
theme_minimal() +
theme(legend.position = "none",
plot.title = element_text(face = "bold", size = 14))
# 4. Renderização
ggplotly(g_lucro, tooltip = c("y"))O gráfico sugere que a ideia do “futebol que paga a conta” não se aplica à maioria das instituições analisadas. Das 649 universidades da amostra, 65% (420 instituições) registraram déficit no futebol americano em 2023-2024. O superávit aparece concentrado em uma parcela menor, correspondente a 35% das instituições. Para muitas universidades, os custos de manter os programas ativos, como viagens, comissões técnicas e bolsas, superam a receita atribuída à modalidade. Esse resultado enfraquece a justificativa de que o maior investimento no esporte masculino seria compensado, de forma generalizada, por retornos financeiros do futebol americano.
A tabela interativa abaixo apresenta o balanço de cada programa, permitindo consultar individualmente as universidades analisadas.
# Tabela com as variáveis calculadas
lucro_futebol %>%
select(institution_name, state_cd = state_cd.x, REV_MEN, EXP_MEN, Lucro_Liquido, Status_Financeiro) %>%
arrange(desc(Lucro_Liquido)) %>%
datatable(
options = list(pageLength = 5, scrollX = TRUE),
rownames = FALSE,
caption = "Balanço Financeiro do Futebol Americano (Ordenável)",
colnames = c("Universidade", "Estado", "Receita", "Despesa", "Lucro Líquido", "Status")
) %>%
formatCurrency(columns = c('REV_MEN', 'EXP_MEN', 'Lucro_Liquido'), currency = "$", digits = 0) %>%
formatStyle(
'Status_Financeiro',
color = styleEqual(c("Superávit (Deu Lucro)", "Déficit (Deu Prejuízo)"), c('#27AE60', '#E74C3C')),
fontWeight = 'bold'
)Para encerrar a análise exploratória, foi avaliada uma hipótese ligada ao tipo de instituição. Como o Title IX é uma lei federal associada a programas educacionais com financiamento público, seria esperado que universidades públicas, sujeitas a maior fiscalização estatal, apresentassem métricas de equidade mais equilibradas do que instituições privadas.
Para observar essa relação, foi construído um boxplot do gap financeiro absoluto, segmentado pelo setor da universidade.
# 1. Calculando o Gap Absoluto por instituição e categorizando o Setor
dados_setor <- dados_limpos %>%
filter(Ano_Academico == "2023-2024") %>%
group_by(unitid, institution_name, sector_name) %>%
summarise(
Gap_Absoluto = sum(EXP_MEN, na.rm = TRUE) - sum(EXP_WOMEN, na.rm = TRUE),
.groups = "drop"
) %>%
mutate(
Tipo_Instituicao = ifelse(str_detect(sector_name, "Public"), "Universidade Pública", "Universidade Privada")
)
# 2. Gráfico Boxplot Comparativo
g_setor <- ggplot(dados_setor, aes(x = Tipo_Instituicao, y = Gap_Absoluto, fill = Tipo_Instituicao)) +
geom_boxplot(alpha = 0.7, outlier.color = "#E74C3C", outlier.size = 2.5) +
scale_y_continuous(labels = label_number(prefix = "$", scale = 1e-6, suffix = "M")) +
scale_fill_manual(values = c("Universidade Pública" = "#3498DB", "Universidade Privada" = "#9B59B6")) +
labs(
title = "Disparidade Financeira (Gap Masculino) por Controle Institucional",
subtitle = "Vantagem Orçamentária Masculina Absoluta (2023-2024)",
x = "Controle Institucional",
y = "Gap a favor do Masculino (Milhões USD)"
) +
theme_minimal() +
theme(legend.position = "none",
plot.title = element_text(face = "bold"))
ggplotly(g_setor, tooltip = c("y"))Os dados não confirmam a expectativa de que o controle governamental esteja associado, por si só, a maior equilíbrio orçamentário. Na amostra analisada, a disparidade é maior e mais variável entre universidades públicas. A mediana do gap a favor das modalidades masculinas nas instituições públicas ultrapassa $1,3 milhão, mais que o dobro da mediana observada nas instituições privadas, de cerca de $521 mil. Além disso, o terceiro quartil das universidades públicas chega a $6,1 milhões, contra $1,2 milhão nas privadas. O maior outlier da amostra também aparece em uma universidade pública, com mais de $112 milhões adicionais associados ao esporte masculino.
Este relatório investigou se a disparidade financeira entre homens e mulheres no esporte universitário de elite, representado pela NCAA Divisão I, diminuiu ao longo do tempo. A pergunta central foi: décadas após a criação do Title IX, o equilíbrio orçamentário avançou de forma consistente?
Para responder a essa pergunta, foram consolidados 11 anos de registros oficiais do EADA, de 2013 a 2024. Os dados foram limpos, empilhados e transformados em métricas comparáveis, como gasto per capita e lucro líquido, permitindo analisar a evolução do financiamento esportivo no período.
A análise exploratória indicou quatro pontos principais:
Os resultados podem apoiar discussões de gestores, reguladores e associações de atletas sobre a distribuição de recursos no esporte universitário. A constatação de que a maioria dos programas de futebol americano da amostra não gerou superávit sugere que a justificativa financeira para maiores investimentos masculinos deve ser analisada com cautela. O relatório também oferece visualizações e tabelas que podem auxiliar o acompanhamento público da aplicação do Title IX, especialmente em instituições públicas.
A principal limitação da análise é que a base governamental utilizada
foca em despesas operacionais, como custos de jogos, viagens e salários.
Custos estruturais, como construção de estádios e instalações
esportivas, não aparecem diretamente nessa conta. Por isso, a diferença
financeira real pode ser maior do que a observada nos gráficos. Além
disso, ao tratar valores ausentes (NA) como modalidades
inativas, existe o risco de subestimar algumas métricas em casos
pontuais de falha ou ausência de reporte.
Para trabalhos futuros, dois caminhos podem ampliar esta análise: