Autopercepção Genital e Função Sexual ao Longo da Residência em Ginecologia e Obstetrícia
Plano de análise estatística e cálculo amostral · Documento complementar ao projeto de mestrado da Dra. Nicolle Kayse sobre a associação entre nível de residência (R1, R2, R3), autoimagem genital (GSIS-20) e função sexual feminina (FSFI)
1 Contexto e Pergunta de Pesquisa
Estudo observacional transversal com médicas residentes de Ginecologia e Obstetrícia, estratificadas pelo ano de residência:
- R1: primeiro ano de residência;
- R2: segundo ano de residência;
- R3: terceiro ano de residência.
Pergunta: o nível de residência (e, portanto, o acúmulo de conhecimento e de contato clínico com a anatomia e a função sexual feminina) está associado a uma melhor autopercepção do aparelho reprodutivo e a uma melhor função/saúde sexual? A hipótese de trabalho é que residentes mais avançadas (R3) apresentem pontuações mais altas do que R1 e R2.
A avaliação usa dois instrumentos psicométricos validados para o português do Brasil:
- FSFI, Female Sexual Function Index (1,2): 19 itens, 6 domínios (desejo, excitação, lubrificação, orgasmo, satisfação e dor). Escore total varia de 2 a 36; quanto maior, melhor a função sexual. Ponto de corte de 26 discrimina risco de disfunção sexual (≤ 26 = maior risco) (3). A validação brasileira reportou consistência interna alta (α de Cronbach = 0,948) (2).
- GSIS-20, Genital Self-Image Scale (4): 20 itens, 4 domínios (confiança genital, apelo genital, função genital e conforto genital). Escore total varia de 0 a 40; quanto maior, melhor a autoimagem genital. A validação brasileira reportou α de Cronbach = 0,925 e, em mulheres jovens saudáveis, escore total de 34,72 ± 4,84 (nulíparas) e 34,12 ± 5,10 (primíparas) (4), parâmetros que ancoram o cálculo amostral deste documento (§4).
Natureza do desenho: por ser transversal e observacional, o estudo permite estimar associações e correlações, mas não inferir causalidade. A randomização não existe; por isso o equilíbrio entre grupos precisa ser documentado (Tabela 1) e potenciais confundidores declarados a priori, conforme a diretriz STROBE (5).
1.1 Variáveis e Desfechos
| Tipo | Variável | Unidade |
|---|---|---|
| Independente principal | Nível de residência (R1, R2, R3) | categórica |
| Dependente primária | Escore total do FSFI | 2–36 (contínuo) |
| Dependente primária | Escore total do GSIS-20 | 0–40 (contínuo) |
| Dependente binária (exploratória) | Risco de disfunção sexual (FSFI ≤ 26) | sim/não |
| Covariáveis / confundidores | Idade, IMC (peso e altura), orientação sexual, estado civil, raça, religião, paridade, contracepção, cirurgia ginecológica prévia, cirurgia íntima prévia, uso de psicofármaco, tabagismo, horas de sono, horas de plantão | variadas |
1.2 Hipóteses
| # | Hipótese | Teste principal |
|---|---|---|
| H1 | O escore total do FSFI difere entre R1, R2 e R3 | ANOVA 1-via / Kruskal-Wallis + pós-hoc |
| H2 | O escore total do GSIS-20 difere entre R1, R2 e R3 | ANOVA 1-via / Kruskal-Wallis + pós-hoc |
| H3 | FSFI e GSIS-20 estão correlacionados, e a força da correlação varia entre os grupos | Correlação (Pearson/Spearman) por grupo |
| H4 | Variáveis sociodemográficas distinguem os grupos extremos e ajudam a explicar a diferença | Regressão logística exploratória (R1 vs R3) |
Nível de significância: α = 0,05 bilateral. Correção para múltiplas comparações: Holm nos pós-hoc dos desfechos primários.
2 Plano de Análise
Escopo: análise clássica, replicável e amplamente reconhecida, suficiente para responder às hipóteses e para revisão por banca de mestrado. O corpo principal são as duas ANOVAs (FSFI e GSIS-20) entre R1, R2 e R3; as demais análises (correlação e regressão logística) são secundárias/exploratórias e ajudam a interpretar os achados.
2.1 Tabela 1: Caracterização da amostra e dos confundidores
Tabela descritiva com média ± DP ou mediana [IQR] (contínuas) e n (%) (categóricas) por grupo, para todas as covariáveis listadas em §1.1. Comparação inter-grupos por ANOVA (contínuas normais), Kruskal-Wallis (contínuas não-normais) ou qui-quadrado/Fisher (categóricas).
Esta tabela cumpre duas funções: (1) descreve o perfil das participantes (objetivo específico do projeto) e (2) documenta o equilíbrio basal: como não há randomização, é aqui que se identifica quais confundidores diferem entre os grupos e, portanto, mereceriam uma análise de sensibilidade posterior. É um requisito de relato STROBE (5). Por si só, esta tabela não exige que as covariáveis entrem nos modelos principais; ela apenas as declara.
2.2 Pressupostos das ANOVAs
- Normalidade dos resíduos por grupo: Shapiro-Wilk + inspeção visual via QQ-plot.
- Homogeneidade de variâncias: teste de Levene.
- Se ambos atendidos → ANOVA paramétrica. Caso contrário → Kruskal-Wallis (não-paramétrico, sem pressuposto distribucional). A variabilidade pode ser desigual entre grupos (residentes diferem em carga de trabalho e experiência), por isso o equivalente não-paramétrico é mantido como rota padrão.
2.3 H1: Escore total do FSFI entre R1, R2 e R3 (análise principal 1)
Teste principal: ANOVA de uma via com o fator Grupo (3 níveis: R1, R2, R3) e o escore total do FSFI como desfecho.
Pós-hoc (apenas se ANOVA significativa, p < 0,05): Tukey HSD para as três comparações pareadas (R1×R2, R1×R3, R2×R3), com correção de Holm. Equivalente não-paramétrico: Kruskal-Wallis + Dunn com Holm.
Tamanho de efeito: η² (eta-quadrado) e f de Cohen (6); reportar IC 95% para a diferença entre médias em cada par.
O que a ANOVA responde: apenas se existe diferença em pelo menos um par de grupos. Quem difere de quem é respondido pelo pós-hoc. A leitura é quantitativa, “o escore médio do R3 é superior ao do R1 em X pontos (IC 95% …)”, e não depende do ponto de corte 26, que serve para a leitura clínica complementar.
2.4 H2: Escore total do GSIS-20 entre R1, R2 e R3 (análise principal 2)
Estrutura idêntica à de H1, com o escore total do GSIS-20 como desfecho: ANOVA 1-via → pós-hoc Tukey/Dunn com Holm → η²/f de Cohen → IC 95% das diferenças pareadas. O GSIS-20 não possui ponto de corte clínico consolidado (4); portanto a interpretação é puramente comparativa (maior escore = melhor autoimagem genital).
2.5 H3: Correlação entre FSFI e GSIS-20 (secundária)
Correlação entre os escores totais do FSFI e do GSIS-20, dentro de cada grupo (R1, R2, R3 separadamente), por Pearson (se aproximadamente normal) ou Spearman (caso contrário). Reportar r, IC 95% e p por grupo. A análise por grupo é mais informativa que a correlação global: permite verificar se a associação entre autoimagem genital e função sexual se fortalece com o avanço da residência (ex.: r menor em R1, maior em R3), coerente com a hipótese do estudo.
2.6 H4: Regressão logística exploratória entre grupos extremos (exploratória)
Se a ANOVA/pós-hoc indicar diferença entre os extremos, modela-se a pertença ao grupo como desfecho binário (por exemplo R3 = 1 vs R1 = 0), tendo as variáveis sociodemográficas como covariáveis. O objetivo é exploratório: entender quais confundidores (idade, religião, estado civil, horas de plantão/sono etc.) mais distinguem os grupos e podem competir com o “tempo de residência” como explicação do resultado.
Restrição importante: o modelo compara apenas dois grupos por vez (não os três simultaneamente), conforme discutido na reunião. Como gancho clínico adicional, pode-se ajustar um modelo alternativo com o desfecho FSFI ≤ 26 (risco de disfunção) em função do grupo e covariáveis. Reportar OR, IC 95% e p; declarar explicitamente como análise secundária/exploratória, fora do corpo confirmatório.
2.7 Visualizações propostas (mock-up de layout)
2.8 Apresentação dos resultados
- Tabela 1. Caracterização da amostra e comparação dos confundidores entre R1/R2/R3.
- Tabela 2. FSFI e GSIS-20 (total): média ± DP, mediana [IQR], IC 95% da diferença e p, por grupo e por par.
- Tabela 3. Correlações FSFI × GSIS-20 dentro de cada grupo (r, IC 95%, p).
- Tabela 4. Regressão logística exploratória (OR, IC 95%, p): R1 vs R3.
- Figura 1. FSFI total por grupo (raincloud, com corte 26).
- Figura 2. GSIS-20 total por grupo (raincloud).
- Figura 3. Correlação FSFI × GSIS-20 por grupo.
3 Cálculo Amostral
3.1 Premissas e fonte dos parâmetros
O parâmetro crítico de um cálculo para ANOVA é o desvio-padrão (σ) do escore dentro de cada grupo. Ambos foram ancorados na literatura de validação, não arbitrados:
- GSIS-20: a validação brasileira (4) reporta, em mulheres jovens e saudáveis (perfil próximo ao das residentes), escore total de 34,72 ± 4,84 (nulíparas) e 34,12 ± 5,10 (primíparas), com DP observado em torno de 5, podendo chegar a 8 em amostras mais heterogêneas.
- FSFI: a validação brasileira (2) enfatiza consistência interna e estrutura fatorial; a literatura internacional do FSFI total (escala 2–36) aponta DP tipicamente entre 5 e 6.
Como os dois instrumentos têm DP na mesma ordem de grandeza, adota-se um único σ = 6 para todo o cálculo. A escolha é deliberadamente conservadora: é o teto da faixa do FSFI (5–6) e o piso-médio da faixa do GSIS-20 (5–8); se a variância real for menor, o estudo terá poder de sobra. Define-se o efeito como a diferença (Δ) entre os grupos extremos (R1 e R3), com R2 no ponto médio, o cenário de detecção mais exigente.
Código
# f de Cohen para 3 grupos com extremos em (μ - Δ/2, μ, μ + Δ/2) e DP comum σ:
# f = sqrt( Σ(μi - μ̄)² / 3 ) / σ = (Δ / σ) * sqrt(1/6)
cohen_f <- function(delta, sigma) (delta / sigma) * sqrt(1/6)
# Δ mínimo detectável (MDE): dado n por grupo e poder, obtém o f mínimo
# detectável e converte para pontos de escore via Δ = f * σ * sqrt(6)
# (inverso de cohen_f).
mde_delta <- function(n, sigma, power = 0.80) {
f <- pwr.anova.test(k = 3, n = n, sig.level = 0.05, power = power)$f
f * sigma * sqrt(6)
}3.2 Cálculo amostral consolidado (ANOVA 1-via, 3 grupos)
3.2.1 Grade principal: escolha pela diferença que se quer detectar
Comece por aqui: decida a menor diferença clinicamente relevante entre os grupos extremos (R1 e R3) e leia o n por grupo correspondente. A faixa coberta vai de médio a grande efeito (Δ = 4 a 6 pontos).
| Δ R1↔︎R3 (pontos) | f de Cohen | Magnitude | n / grupo | n total (3 grupos) |
|---|---|---|---|---|
| 4 | 0.27 | médio | 45 | 135 |
| 5 | 0.34 | médio–grande | 29 | 87 |
| 6 | 0.41 | grande | 21 | 63 |
3.2.2 Grade complementar: escolha pela viabilidade de recrutamento
O caminho inverso: se o número de residentes disponíveis é o fator limitante, parta do n que você consegue recrutar e leia a menor diferença que ele permite detectar (MDE).
| n / grupo | n total (3 grupos) | MDE (σ = 6, pontos) |
|---|---|---|
| 8 | 24 | 10.0 |
| 10 | 30 | 8.8 |
| 15 | 45 | 7.1 |
| 20 | 60 | 6.0 |
| 29 | 87 | 5.0 |
| 30 | 90 | 4.9 |
| 40 | 120 | 4.2 |
| 50 | 150 | 3.8 |
| 60 | 180 | 3.4 |
| 80 | 240 | 3.0 |
| 100 | 300 | 2.6 |
Como usar as duas grades: elas são duas portas para a mesma decisão. Pela grade principal, escolha a diferença que considera clinicamente relevante (4 a 6 pontos) e leia o n. Pela grade complementar, parta do n que é viável recrutar e veja o que ele permite detectar. O ponto de equilíbrio sugerido é Δ = 5 pontos (≈29/grupo, 87 no total): efeito médio-grande, defensável metodologicamente e factível. Diferenças menores exigem amostras substancialmente maiores; maiores, menores. A decisão final é dos contratantes, equilibrando rigor e viabilidade de recrutar residentes.
Poder do teste global × poder do contraste R1↔︎R3. As grades dimensionam o teste F omnibus da ANOVA (existe alguma diferença entre R1, R2 e R3?). A diferença entre os extremos R1 e R3 (coração da hipótese) é avaliada por pós-hoc pareado (Tukey/Holm), que tem poder próprio, menor que o do omnibus por causa da correção de multiplicidade. Para Δ = 5 (σ = 6): o omnibus exige ≈29/grupo, mas o contraste R1↔︎R3 corrigido exige ≈32/grupo (96 no total) para 80% de poder; com 29/grupo, esse contraste específico fica com ~76% de poder. Em resumo: com ≈29/grupo o estudo está plenamente powered para o teste global e ligeiramente abaixo para a comparação direta entre os extremos. Quem priorizar a afirmação “R1 difere de R3” deve mirar ≈32/grupo.
3.2.3 Grade por contraste: poder de cada comparação, não só do teste global
A tabela abaixo quantifica o aviso acima: partindo do n que se consegue recrutar (mesma coluna da grade complementar), mostra, para Δ = 5, o poder de cada comparação: o teste global, o salto entre os extremos (R1↔︎R3) e os passos entre anos consecutivos (R1↔︎R2 e R2↔︎R3).
| n / grupo | n total (3 grupos) | Poder omnibus (F) | Poder R1↔︎R3 (extremo) | Poder R1↔︎R2 = R2↔︎R3 (adjacente) |
|---|---|---|---|---|
| 8 | 24 | 26% | 19% | 5% |
| 10 | 30 | 33% | 25% | 6% |
| 15 | 45 | 49% | 41% | 10% |
| 20 | 60 | 63% | 56% | 13% |
| 29 | 87 | 80% | 76% | 20% |
| 30 | 90 | 82% | 77% | 21% |
| 32 | 96 | 84% | 81% | 22% |
| 40 | 120 | 92% | 90% | 29% |
| 50 | 150 | 97% | 96% | 37% |
| 60 | 180 | 99% | 98% | 44% |
| 80 | 240 | 100% | 100% | 59% |
| 100 | 300 | 100% | 100% | 70% |
Como ler esta tabela. O poder omnibus dimensiona “existe alguma diferença entre R1, R2 e R3?”. Os contrastes pareados respondem “quais anos diferem entre si?” e, por causa da correção de multiplicidade, exigem mais participantes para o mesmo poder. Como o efeito foi assumido linear (R2 equidistante de R1 e R3), os passos adjacentes valem metade da diferença total (Δ/2 = 2,5 pontos) e são os mais difíceis de detectar: só alcançam 80% de poder por volta de ~120/grupo (~360 no total). Configurações não lineares (por exemplo, estabilidade entre R1 e R2 com salto apenas no R3) redistribuiriam esse poder entre os dois adjacentes (um grande, outro próximo de zero). Mensagem prática: com um n factível (~30/grupo) o estudo está dimensionado para o salto R1↔︎R3, mas fica cego para diferenças entre anos consecutivos; afirmações sobre R1 vs R2 ou R2 vs R3 devem ser declaradas como exploratórias.
Estudos de questionário × detecção de diferença: quando o objetivo é estimar com precisão o escore de uma escala (não comparar grupos), os cálculos baseados em intervalo de confiança costumam exigir amostras de algumas centenas de participantes; daí muitos estudos psicométricos girarem em torno de 280–380 pessoas. O cálculo acima é de detecção de diferença entre grupos (o objetivo primário deste projeto), e por isso resulta em n menores. As duas lógicas respondem a perguntas distintas; este documento adota a segunda, alinhada à hipótese do estudo.
Resultados não significativos ≠ ausência de efeito. Com o n escolhido, o estudo é cego a diferenças menores que o MDE correspondente e mantém risco de erro tipo II (20% no limiar de 80% de poder). Por exemplo, com ≈29/grupo (Δ-alvo = 5), diferenças menores que ~5 pontos entre os grupos podem passar despercebidas. Esse limite deve ser declarado na Discussão, posicionando o trabalho como gerador de hipótese, não confirmatório.
4 Texto Pronto para a Tese
Versão concisa para a seção Análise estatística do projeto/dissertação. Substituir
[N]pelo n por grupo escolhido na grade de decisão (§4.4).
A análise estatística será conduzida em R (versão ≥ 4.3). A caracterização da amostra empregará média ± desvio-padrão ou mediana [intervalo interquartílico] para variáveis contínuas e n (%) para categóricas, com comparação entre os três grupos de residência (R1, R2, R3) por ANOVA, Kruskal-Wallis ou qui-quadrado/teste exato de Fisher, conforme apropriado. A normalidade será avaliada pelo teste de Shapiro-Wilk e a homogeneidade de variâncias pelo teste de Levene.
Os desfechos primários (escore total do FSFI e escore total do GSIS-20) serão comparados entre os três grupos por ANOVA de uma via, com pós-hoc de Tukey corrigido por Holm; o equivalente não-paramétrico (Kruskal-Wallis com Dunn-Holm) será aplicado se os pressupostos não forem atendidos. Os tamanhos de efeito serão reportados por eta-quadrado e f de Cohen, com intervalos de confiança de 95% para as diferenças pareadas. A associação entre FSFI e GSIS-20 será avaliada por correlação de Pearson ou Spearman dentro de cada grupo. Em caráter exploratório, uma regressão logística comparará dois grupos extremos (R1 vs R3), tendo as variáveis sociodemográficas como covariáveis, para investigar potenciais confundidores. O nível de significância adotado é α = 0,05 (bilateral nos contrastes pareados e nas correlações; o teste F da ANOVA é, por construção, unilateral).
O cálculo amostral foi conduzido para o objetivo primário (detecção de diferença no escore total entre os três grupos por ANOVA de uma via), com α = 0,05 e poder de 80%. Como os dois instrumentos apresentam desvio-padrão na mesma ordem de grandeza nas validações brasileiras, com σ entre 5 e 6 pontos para o FSFI (2) e em torno de 5 pontos para o GSIS-20 (escore total de 34,7 ± 4,8 e 34,1 ± 5,1 em mulheres jovens saudáveis) (4), adotou-se um único σ = 6 (valor conservador) para ambos os desfechos. Adotou-se n = [N] participantes por grupo (total = [3×N]), dimensionado para o teste F omnibus detectar uma diferença mínima de aproximadamente [MDE] pontos entre os grupos extremos (R1 e R3); ressalva-se que a comparação pareada R1 vs R3, após correção de multiplicidade, possui poder inferior ao do teste global para um mesmo n. Caso os pressupostos de normalidade ou homogeneidade de variâncias não sejam atendidos na coleta, a análise principal migrará para o equivalente não-paramétrico (Kruskal-Wallis).
5 Síntese e Limitações
5.1 O que esta análise responde
- Sim: o escore total do FSFI difere entre R1, R2 e R3? (H1, ANOVA)
- Sim: o escore total do GSIS-20 difere entre R1, R2 e R3? (H2, ANOVA)
- Sim: autoimagem genital e função sexual estão correlacionadas, e a força varia entre grupos? (H3, correlação por grupo)
- Sim (exploratório): quais confundidores distinguem os grupos extremos? (H4, regressão logística R1 vs R3)
5.2 Limitações declaradas
- Desenho transversal e observacional: permite identificar associação, não causalidade. Não é possível afirmar que o conhecimento adquirido na residência causa a melhora dos escores, apenas que estão associados.
- Confundimento residual: sem randomização, diferenças entre grupos podem refletir idade, estado civil, religião, carga de plantão etc. A Tabela 1 documenta esses fatores e a regressão exploratória os investiga, mas não os elimina.
- Parâmetros do cálculo amostral vêm de populações adjacentes (validações dos instrumentos), não de residentes. A variabilidade real será reavaliada na coleta; se divergir muito do assumido (σ = 6), o n deve ser revisto.
- Múltiplas comparações: dois desfechos primários + pós-hoc inflam o erro tipo I. A correção de Holm é aplicada aos pós-hoc; correlação e regressão são exploratórias e devem ser lidas como geradoras de hipótese.
- Resultados não significativos ≠ ausência de efeito com o n proposto (ver MDE na grade de decisão).
6 Informações Técnicas
Data da análise: 23/06/2026
R version: R version 4.5.1 (2025-06-13)
Pacotes principais: tidyverse, pwr, ggdist
Documento gerado por: relatorio_nicolle.qmd