Autopercepção Genital e Função Sexual ao Longo da Residência em Ginecologia e Obstetrícia

Plano de análise estatística e cálculo amostral · Documento complementar ao projeto de mestrado da Dra. Nicolle Kayse sobre a associação entre nível de residência (R1, R2, R3), autoimagem genital (GSIS-20) e função sexual feminina (FSFI)

Autores

Afiliações

Dra. Nicolle Kayse

Pesquisadora (mestranda)

Caio Sain Vallio

Cientista de Dados - Metropolis Analytics

Vitor Vallio

Cientista de Dados - Metropolis Analytics

Data de Publicação

23 de junho de 2026

1 Contexto e Pergunta de Pesquisa

Estudo observacional transversal com médicas residentes de Ginecologia e Obstetrícia, estratificadas pelo ano de residência:

R1: primeiro ano de residência;
R2: segundo ano de residência;
R3: terceiro ano de residência.

Pergunta: o nível de residência (e, portanto, o acúmulo de conhecimento e de contato clínico com a anatomia e a função sexual feminina) está associado a uma melhor autopercepção do aparelho reprodutivo e a uma melhor função/saúde sexual? A hipótese de trabalho é que residentes mais avançadas (R3) apresentem pontuações mais altas do que R1 e R2.

A avaliação usa dois instrumentos psicométricos validados para o português do Brasil:

FSFI, Female Sexual Function Index (1,2): 19 itens, 6 domínios (desejo, excitação, lubrificação, orgasmo, satisfação e dor). Escore total varia de 2 a 36; quanto maior, melhor a função sexual. Ponto de corte de 26 discrimina risco de disfunção sexual (≤ 26 = maior risco) (3). A validação brasileira reportou consistência interna alta (α de Cronbach = 0,948) (2).
GSIS-20, Genital Self-Image Scale (4): 20 itens, 4 domínios (confiança genital, apelo genital, função genital e conforto genital). Escore total varia de 0 a 40; quanto maior, melhor a autoimagem genital. A validação brasileira reportou α de Cronbach = 0,925 e, em mulheres jovens saudáveis, escore total de 34,72 ± 4,84 (nulíparas) e 34,12 ± 5,10 (primíparas) (4), parâmetros que ancoram o cálculo amostral deste documento (§4).

Natureza do desenho: por ser transversal e observacional, o estudo permite estimar associações e correlações, mas não inferir causalidade. A randomização não existe; por isso o equilíbrio entre grupos precisa ser documentado (Tabela 1) e potenciais confundidores declarados a priori, conforme a diretriz STROBE (5).

1.1 Variáveis e Desfechos

Tipo	Variável	Unidade
Independente principal	Nível de residência (R1, R2, R3)	categórica
Dependente primária	Escore total do FSFI	2–36 (contínuo)
Dependente primária	Escore total do GSIS-20	0–40 (contínuo)
Dependente binária (exploratória)	Risco de disfunção sexual (FSFI ≤ 26)	sim/não
Covariáveis / confundidores	Idade, IMC (peso e altura), orientação sexual, estado civil, raça, religião, paridade, contracepção, cirurgia ginecológica prévia, cirurgia íntima prévia, uso de psicofármaco, tabagismo, horas de sono, horas de plantão	variadas

1.2 Hipóteses

#	Hipótese	Teste principal
H1	O escore total do FSFI difere entre R1, R2 e R3	ANOVA 1-via / Kruskal-Wallis + pós-hoc
H2	O escore total do GSIS-20 difere entre R1, R2 e R3	ANOVA 1-via / Kruskal-Wallis + pós-hoc
H3	FSFI e GSIS-20 estão correlacionados, e a força da correlação varia entre os grupos	Correlação (Pearson/Spearman) por grupo
H4	Variáveis sociodemográficas distinguem os grupos extremos e ajudam a explicar a diferença	Regressão logística exploratória (R1 vs R3)

Nível de significância: α = 0,05 bilateral. Correção para múltiplas comparações: Holm nos pós-hoc dos desfechos primários.

2 Plano de Análise

Escopo: análise clássica, replicável e amplamente reconhecida, suficiente para responder às hipóteses e para revisão por banca de mestrado. O corpo principal são as duas ANOVAs (FSFI e GSIS-20) entre R1, R2 e R3; as demais análises (correlação e regressão logística) são secundárias/exploratórias e ajudam a interpretar os achados.

2.1 Tabela 1: Caracterização da amostra e dos confundidores

Tabela descritiva com média ± DP ou mediana [IQR] (contínuas) e n (%) (categóricas) por grupo, para todas as covariáveis listadas em §1.1. Comparação inter-grupos por ANOVA (contínuas normais), Kruskal-Wallis (contínuas não-normais) ou qui-quadrado/Fisher (categóricas).

Esta tabela cumpre duas funções: (1) descreve o perfil das participantes (objetivo específico do projeto) e (2) documenta o equilíbrio basal: como não há randomização, é aqui que se identifica quais confundidores diferem entre os grupos e, portanto, mereceriam uma análise de sensibilidade posterior. É um requisito de relato STROBE (5). Por si só, esta tabela não exige que as covariáveis entrem nos modelos principais; ela apenas as declara.

2.2 Pressupostos das ANOVAs

Normalidade dos resíduos por grupo: Shapiro-Wilk + inspeção visual via QQ-plot.
Homogeneidade de variâncias: teste de Levene.
Se ambos atendidos → ANOVA paramétrica. Caso contrário → Kruskal-Wallis (não-paramétrico, sem pressuposto distribucional). A variabilidade pode ser desigual entre grupos (residentes diferem em carga de trabalho e experiência), por isso o equivalente não-paramétrico é mantido como rota padrão.

2.3 H1: Escore total do FSFI entre R1, R2 e R3 (análise principal 1)

Teste principal: ANOVA de uma via com o fator Grupo (3 níveis: R1, R2, R3) e o escore total do FSFI como desfecho.

Pós-hoc (apenas se ANOVA significativa, p < 0,05): Tukey HSD para as três comparações pareadas (R1×R2, R1×R3, R2×R3), com correção de Holm. Equivalente não-paramétrico: Kruskal-Wallis + Dunn com Holm.

Tamanho de efeito: η² (eta-quadrado) e f de Cohen (6); reportar IC 95% para a diferença entre médias em cada par.

O que a ANOVA responde: apenas se existe diferença em pelo menos um par de grupos. Quem difere de quem é respondido pelo pós-hoc. A leitura é quantitativa, “o escore médio do R3 é superior ao do R1 em X pontos (IC 95% …)”, e não depende do ponto de corte 26, que serve para a leitura clínica complementar.

2.4 H2: Escore total do GSIS-20 entre R1, R2 e R3 (análise principal 2)

Estrutura idêntica à de H1, com o escore total do GSIS-20 como desfecho: ANOVA 1-via → pós-hoc Tukey/Dunn com Holm → η²/f de Cohen → IC 95% das diferenças pareadas. O GSIS-20 não possui ponto de corte clínico consolidado (4); portanto a interpretação é puramente comparativa (maior escore = melhor autoimagem genital).

2.5 H3: Correlação entre FSFI e GSIS-20 (secundária)

Correlação entre os escores totais do FSFI e do GSIS-20, dentro de cada grupo (R1, R2, R3 separadamente), por Pearson (se aproximadamente normal) ou Spearman (caso contrário). Reportar r, IC 95% e p por grupo. A análise por grupo é mais informativa que a correlação global: permite verificar se a associação entre autoimagem genital e função sexual se fortalece com o avanço da residência (ex.: r menor em R1, maior em R3), coerente com a hipótese do estudo.

2.6 H4: Regressão logística exploratória entre grupos extremos (exploratória)

Se a ANOVA/pós-hoc indicar diferença entre os extremos, modela-se a pertença ao grupo como desfecho binário (por exemplo R3 = 1 vs R1 = 0), tendo as variáveis sociodemográficas como covariáveis. O objetivo é exploratório: entender quais confundidores (idade, religião, estado civil, horas de plantão/sono etc.) mais distinguem os grupos e podem competir com o “tempo de residência” como explicação do resultado.

Restrição importante: o modelo compara apenas dois grupos por vez (não os três simultaneamente), conforme discutido na reunião. Como gancho clínico adicional, pode-se ajustar um modelo alternativo com o desfecho FSFI ≤ 26 (risco de disfunção) em função do grupo e covariáveis. Reportar OR, IC 95% e p; declarar explicitamente como análise secundária/exploratória, fora do corpo confirmatório.

2.7 Visualizações propostas (mock-up de layout)

Figura 1: Mock-up das figuras propostas (dados simulados apenas para ilustrar o layout; os valores reais serão preenchidos após a coleta). (a) FSFI total por grupo (raincloud: densidade + boxplot + pontos), com a linha do corte 26. (b) GSIS-20 total por grupo. (c) Correlação FSFI × GSIS-20 dentro de cada grupo.

Como interpretar: as figuras acima ilustram apenas o layout das saídas previstas. Os dados foram simulados a partir das estimativas usadas no cálculo amostral. Os valores reais serão preenchidos após a coleta.

2.8 Apresentação dos resultados

Tabela 1. Caracterização da amostra e comparação dos confundidores entre R1/R2/R3.
Tabela 2. FSFI e GSIS-20 (total): média ± DP, mediana [IQR], IC 95% da diferença e p, por grupo e por par.
Tabela 3. Correlações FSFI × GSIS-20 dentro de cada grupo (r, IC 95%, p).
Tabela 4. Regressão logística exploratória (OR, IC 95%, p): R1 vs R3.
Figura 1. FSFI total por grupo (raincloud, com corte 26).
Figura 2. GSIS-20 total por grupo (raincloud).
Figura 3. Correlação FSFI × GSIS-20 por grupo.

3 Cálculo Amostral

3.1 Premissas e fonte dos parâmetros

O parâmetro crítico de um cálculo para ANOVA é o desvio-padrão (σ) do escore dentro de cada grupo. Ambos foram ancorados na literatura de validação, não arbitrados:

GSIS-20: a validação brasileira (4) reporta, em mulheres jovens e saudáveis (perfil próximo ao das residentes), escore total de 34,72 ± 4,84 (nulíparas) e 34,12 ± 5,10 (primíparas), com DP observado em torno de 5, podendo chegar a 8 em amostras mais heterogêneas.
FSFI: a validação brasileira (2) enfatiza consistência interna e estrutura fatorial; a literatura internacional do FSFI total (escala 2–36) aponta DP tipicamente entre 5 e 6.

Como os dois instrumentos têm DP na mesma ordem de grandeza, adota-se um único σ = 6 para todo o cálculo. A escolha é deliberadamente conservadora: é o teto da faixa do FSFI (5–6) e o piso-médio da faixa do GSIS-20 (5–8); se a variância real for menor, o estudo terá poder de sobra. Define-se o efeito como a diferença (Δ) entre os grupos extremos (R1 e R3), com R2 no ponto médio, o cenário de detecção mais exigente.

Código

# f de Cohen para 3 grupos com extremos em (μ - Δ/2, μ, μ + Δ/2) e DP comum σ:
#   f = sqrt( Σ(μi - μ̄)² / 3 ) / σ = (Δ / σ) * sqrt(1/6)
cohen_f <- function(delta, sigma) (delta / sigma) * sqrt(1/6)

# Δ mínimo detectável (MDE): dado n por grupo e poder, obtém o f mínimo
# detectável e converte para pontos de escore via Δ = f * σ * sqrt(6)
# (inverso de cohen_f).
mde_delta <- function(n, sigma, power = 0.80) {
  f <- pwr.anova.test(k = 3, n = n, sig.level = 0.05, power = power)$f
  f * sigma * sqrt(6)
}

3.2 Cálculo amostral consolidado (ANOVA 1-via, 3 grupos)

3.2.1 Grade principal: escolha pela diferença que se quer detectar

Comece por aqui: decida a menor diferença clinicamente relevante entre os grupos extremos (R1 e R3) e leia o n por grupo correspondente. A faixa coberta vai de médio a grande efeito (Δ = 4 a 6 pontos).

Tabela 1: n por grupo necessário para detectar uma diferença Δ entre os grupos extremos R1 e R3, com R2 no ponto médio. ANOVA 1-via, 3 grupos, σ = 6, poder = 80%, α = 0,05 (teste F omnibus). Vale para FSFI e GSIS-20 (mesmo σ). Linha destacada: Δ = 5, ponto de equilíbrio entre rigor e viabilidade.

n por grupo por diferença-alvo (σ = 6, poder 80%)
Δ R1↔︎R3 (pontos)	f de Cohen	Magnitude	n / grupo	n total (3 grupos)
4	0.27	médio	45	135
5	0.34	médio–grande	29	87
6	0.41	grande	21	63

3.2.2 Grade complementar: escolha pela viabilidade de recrutamento

O caminho inverso: se o número de residentes disponíveis é o fator limitante, parta do n que você consegue recrutar e leia a menor diferença que ele permite detectar (MDE).

Tabela 2: Diferença mínima detectável (MDE, em pontos de escore) entre os grupos extremos R1 e R3, por tamanho de amostra. ANOVA 1-via, 3 grupos, σ = 6, poder = 80%, α = 0,05 (teste F omnibus). Vale para FSFI e GSIS-20 (mesmo σ). Linha destacada: n que detecta ~5 pontos (equilíbrio da grade principal).

MDE por tamanho de amostra (σ = 6, poder 80%)
n / grupo	n total (3 grupos)	MDE (σ = 6, pontos)
8	24	10.0
10	30	8.8
15	45	7.1
20	60	6.0
29	87	5.0
30	90	4.9
40	120	4.2
50	150	3.8
60	180	3.4
80	240	3.0
100	300	2.6

Figura 2: Poder estatístico em função do n por grupo, para diferentes magnitudes de Δ entre os grupos extremos (R1 e R3). ANOVA 1-via, 3 grupos, σ = 6, α = 0,05. Linha tracejada = 80% de poder. Vale para FSFI e GSIS-20.

Como usar as duas grades: elas são duas portas para a mesma decisão. Pela grade principal, escolha a diferença que considera clinicamente relevante (4 a 6 pontos) e leia o n. Pela grade complementar, parta do n que é viável recrutar e veja o que ele permite detectar. O ponto de equilíbrio sugerido é Δ = 5 pontos (≈29/grupo, 87 no total): efeito médio-grande, defensável metodologicamente e factível. Diferenças menores exigem amostras substancialmente maiores; maiores, menores. A decisão final é dos contratantes, equilibrando rigor e viabilidade de recrutar residentes.

Poder do teste global × poder do contraste R1↔︎R3. As grades dimensionam o teste F omnibus da ANOVA (existe alguma diferença entre R1, R2 e R3?). A diferença entre os extremos R1 e R3 (coração da hipótese) é avaliada por pós-hoc pareado (Tukey/Holm), que tem poder próprio, menor que o do omnibus por causa da correção de multiplicidade. Para Δ = 5 (σ = 6): o omnibus exige ≈29/grupo, mas o contraste R1↔︎R3 corrigido exige ≈32/grupo (96 no total) para 80% de poder; com 29/grupo, esse contraste específico fica com ~76% de poder. Em resumo: com ≈29/grupo o estudo está plenamente powered para o teste global e ligeiramente abaixo para a comparação direta entre os extremos. Quem priorizar a afirmação “R1 difere de R3” deve mirar ≈32/grupo.

3.2.3 Grade por contraste: poder de cada comparação, não só do teste global

A tabela abaixo quantifica o aviso acima: partindo do n que se consegue recrutar (mesma coluna da grade complementar), mostra, para Δ = 5, o poder de cada comparação: o teste global, o salto entre os extremos (R1↔︎R3) e os passos entre anos consecutivos (R1↔︎R2 e R2↔︎R3).

Tabela 3: Poder estatístico por tipo de comparação, por tamanho de amostra, para Δ = 5 pontos entre os grupos extremos (R1 e R3) e R2 no ponto médio. σ = 6, α = 0,05. O teste F omnibus pergunta se há alguma diferença entre os três grupos; os contrastes pareados são corrigidos por multiplicidade (Holm/Bonferroni no passo mais significativo, α/3). Como R2 está no meio, os dois contrastes adjacentes (R1↔︎R2 e R2↔︎R3) têm a mesma magnitude (Δ/2 = 2,5) e, portanto, o mesmo poder. Vale para FSFI e GSIS-20 (mesmo σ). Linha destacada: ≈32/grupo, alvo para a comparação direta R1↔︎R3 atingir 80%.

Poder por tipo de comparação (Δ = 5, σ = 6, α = 0,05)
n / grupo	n total (3 grupos)	Poder omnibus (F)	Poder R1↔︎R3 (extremo)	Poder R1↔︎R2 = R2↔︎R3 (adjacente)
8	24	26%	19%	5%
10	30	33%	25%	6%
15	45	49%	41%	10%
20	60	63%	56%	13%
29	87	80%	76%	20%
30	90	82%	77%	21%
32	96	84%	81%	22%
40	120	92%	90%	29%
50	150	97%	96%	37%
60	180	99%	98%	44%
80	240	100%	100%	59%
100	300	100%	100%	70%

Como ler esta tabela. O poder omnibus dimensiona “existe alguma diferença entre R1, R2 e R3?”. Os contrastes pareados respondem “quais anos diferem entre si?” e, por causa da correção de multiplicidade, exigem mais participantes para o mesmo poder. Como o efeito foi assumido linear (R2 equidistante de R1 e R3), os passos adjacentes valem metade da diferença total (Δ/2 = 2,5 pontos) e são os mais difíceis de detectar: só alcançam 80% de poder por volta de ~120/grupo (~360 no total). Configurações não lineares (por exemplo, estabilidade entre R1 e R2 com salto apenas no R3) redistribuiriam esse poder entre os dois adjacentes (um grande, outro próximo de zero). Mensagem prática: com um n factível (~30/grupo) o estudo está dimensionado para o salto R1↔︎R3, mas fica cego para diferenças entre anos consecutivos; afirmações sobre R1 vs R2 ou R2 vs R3 devem ser declaradas como exploratórias.

Premissas e plano B: a ANOVA assume normalidade e variâncias semelhantes entre grupos. Com amostras menores (quanto maior o Δ-alvo escolhido), essas premissas ficam mais sensíveis; se na coleta a normalidade ou a homogeneidade de variâncias falhar, a análise principal migra para Kruskal-Wallis (alternativa não paramétrica), sem mudança no n planejado.

Estudos de questionário × detecção de diferença: quando o objetivo é estimar com precisão o escore de uma escala (não comparar grupos), os cálculos baseados em intervalo de confiança costumam exigir amostras de algumas centenas de participantes; daí muitos estudos psicométricos girarem em torno de 280–380 pessoas. O cálculo acima é de detecção de diferença entre grupos (o objetivo primário deste projeto), e por isso resulta em n menores. As duas lógicas respondem a perguntas distintas; este documento adota a segunda, alinhada à hipótese do estudo.

Importante

Resultados não significativos ≠ ausência de efeito. Com o n escolhido, o estudo é cego a diferenças menores que o MDE correspondente e mantém risco de erro tipo II (20% no limiar de 80% de poder). Por exemplo, com ≈29/grupo (Δ-alvo = 5), diferenças menores que ~5 pontos entre os grupos podem passar despercebidas. Esse limite deve ser declarado na Discussão, posicionando o trabalho como gerador de hipótese, não confirmatório.

4 Texto Pronto para a Tese

Versão concisa para a seção Análise estatística do projeto/dissertação. Substituir [N] pelo n por grupo escolhido na grade de decisão (§4.4).

A análise estatística será conduzida em R (versão ≥ 4.3). A caracterização da amostra empregará média ± desvio-padrão ou mediana [intervalo interquartílico] para variáveis contínuas e n (%) para categóricas, com comparação entre os três grupos de residência (R1, R2, R3) por ANOVA, Kruskal-Wallis ou qui-quadrado/teste exato de Fisher, conforme apropriado. A normalidade será avaliada pelo teste de Shapiro-Wilk e a homogeneidade de variâncias pelo teste de Levene.

Os desfechos primários (escore total do FSFI e escore total do GSIS-20) serão comparados entre os três grupos por ANOVA de uma via, com pós-hoc de Tukey corrigido por Holm; o equivalente não-paramétrico (Kruskal-Wallis com Dunn-Holm) será aplicado se os pressupostos não forem atendidos. Os tamanhos de efeito serão reportados por eta-quadrado e f de Cohen, com intervalos de confiança de 95% para as diferenças pareadas. A associação entre FSFI e GSIS-20 será avaliada por correlação de Pearson ou Spearman dentro de cada grupo. Em caráter exploratório, uma regressão logística comparará dois grupos extremos (R1 vs R3), tendo as variáveis sociodemográficas como covariáveis, para investigar potenciais confundidores. O nível de significância adotado é α = 0,05 (bilateral nos contrastes pareados e nas correlações; o teste F da ANOVA é, por construção, unilateral).

O cálculo amostral foi conduzido para o objetivo primário (detecção de diferença no escore total entre os três grupos por ANOVA de uma via), com α = 0,05 e poder de 80%. Como os dois instrumentos apresentam desvio-padrão na mesma ordem de grandeza nas validações brasileiras, com σ entre 5 e 6 pontos para o FSFI (2) e em torno de 5 pontos para o GSIS-20 (escore total de 34,7 ± 4,8 e 34,1 ± 5,1 em mulheres jovens saudáveis) (4), adotou-se um único σ = 6 (valor conservador) para ambos os desfechos. Adotou-se n = [N] participantes por grupo (total = [3×N]), dimensionado para o teste F omnibus detectar uma diferença mínima de aproximadamente [MDE] pontos entre os grupos extremos (R1 e R3); ressalva-se que a comparação pareada R1 vs R3, após correção de multiplicidade, possui poder inferior ao do teste global para um mesmo n. Caso os pressupostos de normalidade ou homogeneidade de variâncias não sejam atendidos na coleta, a análise principal migrará para o equivalente não-paramétrico (Kruskal-Wallis).

5 Síntese e Limitações

5.1 O que esta análise responde

Sim: o escore total do FSFI difere entre R1, R2 e R3? (H1, ANOVA)
Sim: o escore total do GSIS-20 difere entre R1, R2 e R3? (H2, ANOVA)
Sim: autoimagem genital e função sexual estão correlacionadas, e a força varia entre grupos? (H3, correlação por grupo)
Sim (exploratório): quais confundidores distinguem os grupos extremos? (H4, regressão logística R1 vs R3)

5.2 Limitações declaradas

Desenho transversal e observacional: permite identificar associação, não causalidade. Não é possível afirmar que o conhecimento adquirido na residência causa a melhora dos escores, apenas que estão associados.
Confundimento residual: sem randomização, diferenças entre grupos podem refletir idade, estado civil, religião, carga de plantão etc. A Tabela 1 documenta esses fatores e a regressão exploratória os investiga, mas não os elimina.
Parâmetros do cálculo amostral vêm de populações adjacentes (validações dos instrumentos), não de residentes. A variabilidade real será reavaliada na coleta; se divergir muito do assumido (σ = 6), o n deve ser revisto.
Múltiplas comparações: dois desfechos primários + pós-hoc inflam o erro tipo I. A correção de Holm é aplicada aos pós-hoc; correlação e regressão são exploratórias e devem ser lidas como geradoras de hipótese.
Resultados não significativos ≠ ausência de efeito com o n proposto (ver MDE na grade de decisão).

6 Informações Técnicas

Data da análise: 23/06/2026

R version: R version 4.5.1 (2025-06-13)

Pacotes principais: tidyverse, pwr, ggdist

Documento gerado por: relatorio_nicolle.qmd

7 Referências

Raymond Rosen, C. Brown, J. Heiman, S. Leiblum, C. Meston, R. Shabsigh, D. Ferguson, R. D’Agostino. The Female Sexual Function Index (FSFI): a multidimensional self-report instrument for the assessment of female sexual function. Journal of Sex & Marital Therapy. 2000;26(2):191–208. doi:10.1080/009262300278597

Rodolfo de Carvalho Pacagnella, Edson Zangiacomi Martinez, Elisabeth Meloni Vieira. Validade de construto de uma versão em português do Female Sexual Function Index. Cadernos de Saúde Pública. 2009;25(11):2333–44. doi:10.1590/S0102-311X2009001100005

Markus Wiegel, Cindy Meston, Raymond Rosen. The Female Sexual Function Index (FSFI): cross-validation and development of clinical cutoff scores. Journal of Sex & Marital Therapy. 2005;31(1):1–20. doi:10.1080/00926230590475206

Denise Saquetto. Tradução, adaptação cultural e validação da Escala de Autoimagem Genital (GSIS-20) para a língua portuguesa (Brasil) [Disserta{\c c}{\~a}o de Mestrado]. [Santo André, SP]: Centro Universitário FMABC; 2023.

Erik von Elm, Douglas G. Altman, Matthias Egger, Stuart J. Pocock, Peter C. Gøtzsche, Jan P. Vandenbroucke. The Strengthening the Reporting of Observational Studies in Epidemiology (STROBE) statement: guidelines for reporting observational studies. The Lancet. 2007;370(9596):1453–7. doi:10.1016/S0140-6736(07)61602-X

Jacob Cohen. Statistical Power Analysis for the Behavioral Sciences. 2º ed. Hillsdale, NJ: Lawrence Erlbaum Associates; 1988.