дисциплины: Информационно-статистическая деятельность
на тему: Выборочный метод статистического исследования.
обучающегося: Шарафутдинова А.Н.
007 факультета 003 курса 23-ЛД-37/2 группы
по специальности: Лечебное дело
номер варианта: 016
дата выполнения: 25.06.26 г.
Методика оценки статистических гипотез
Выдвинутую гипотезу в математической статистике обычно называют основной (нулевой) гипотезой и обозначают \(Н0\). В противовес ей выступает так называемая альтернативная (конкурирующая) гипотеза, которая обозначается \(Н1\).
В дальнейшем мы будем рассматривать вопросы статистической проверки основной статистической гипотезы \(Н0\) против альтернативной гипотезы \(Н1\).
Выдвинутая гипотеза может быть правильной (истинной) или неправильной (ложной). Убедиться в истинности или ложности выдвинутой гипотезы можно путем проверки.
Проверка гипотез осуществляется прямым способом логически или экспериментально; если это невозможно, то косвенным способом.
Косвенный способ проверки гипотез заключается в анализе следствий, которые вытекают из неё. Эту проверку проводят статистическими методами, поэтому говорят о “статистической проверке статистической гипотезы”.
Ошибки, принципиально возможные при проверке гипотез, разделяют на два основных класса:
Отклонение гипотезы \(Н0\) в то время, когда она верна, является ошибкой первого рода;
Принятие гипотезы \(Н0\) в то время, когда она неверна, является ошибкой второго рода.
Возможные решения, ошибки и их вероятности можно представить так, как это сделано в следующей схеме:
| Фактическое положение | Принимаемое решение | Вид ошибки |
|---|---|---|
| Справедлива \(Н0\) | \(Н0\) отклонена | ошибка первого рода, p >=α |
| Справедлива \(Н1\) | \(Н1\) отклонена | ошибка второго рода, p >= β |
Для проверки статистической гипотезы применяют критерий.
Это математическая функция, вероятности значений которой известны, что позволяет устанавливать критическую область.
Критическая область- это множество значений критериальной статистики, которые расцениваются как достаточные для отклонения нулевой гипотезы.
Критическая область устанавливается таким образом, чтобы вероятность попадания значения критерия в указанную область при условии, что нулевая гипотеза справедлива, была равна \(α\). Величина \(α\) называется уровнем значимости.
Естественно стремление исследователей минимизировать величину \(α\). В связи с этим необходимо заметить, что снижая уровень значимости \(α\) и уменьшая таким образом вероятность ошибки первого рода, мы неизбежно увеличиваем вероятность ошибки второго рода.
Пример задачи:
В исследовании изучалась частота послеоперационных осложнений. Получена вероятность p=0.04.
Вопрос:
Примите решение о верности \(Н0\) на уровне значимости α=0.05.
Решение
\(Н0\) в данной задаче значит что осложнения не возможны, \(Н1\) в данной задаче говорит что осложнения возможны
Если р<α, значит гипотеза \(Н0\) отклоняется, т.к. α это критерий, до превышения которого вероятность возникновения осложнений без операции и после операции одинакова
Ответ: Нулевая гипотеза отклоняется, т. к. полученная вероятность (p) меньше критерия (α)
Материалы к этому разделу изложены в учебнике Военно-медицинская статистика. Глава 4.
Пример задачи:
В группе из 100 привитых заболело 5, в группе из 100 непривитых заболело 15. Оцените статистическую значимость различий (α=0.05).
Решение задачи
1. Формулировка гипотез
2. Исходные данные
| Группа | Всего | Заболело | Не заболело |
|---|---|---|---|
| Привитые | 100 | 5 | 95 |
| Непривитые | 100 | 15 | 85 |
3. Расчёт долей
4. Проверка статистической значимости (Z-тест для долей)
4.1. Объединённая доля
\[ p = \frac{5 + 15}{100 + 100} = \frac{20}{200} = 0{,}1 \]
p <- (5+15)/(100+100)
p
## [1] 0.1
4.2. Стандартная ошибка разности долей
\[ SE = \sqrt{p(1-p)\left(\frac{1}{n_1} + \frac{1}{n_2}\right)} = \sqrt{0{,}1 \times 0{,}9 \times \left(\frac{1}{100} + \frac{1}{100}\right)} = \sqrt{0{,}09 \times 0{,}02} = \sqrt{0{,}0018} \approx 0{,}0424 \]
n1 <- 100
n2 <- 100
SE <- sqrt(p*(1-p)*(1/n1+1/n2))
SE
## [1] 0.04242641
4.3. Z-статистика
\[ Z = \frac{p_2 - p_1}{SE} = \frac{0{,}15 - 0{,}05}{0{,}0424} \approx \frac{0{,}1}{0{,}0424} \approx 2{,}36 \]
p1 <- 0.15
p2 <- 0.05
Z <- abs((p2-p1)/SE)
Z
## [1] 2.357023
4.4. Критическое значение для \(\alpha = 0{,}05\)
Значение критерия берется из таблицы значений по Стъюденту и для 100 опытов равно\(Z_{крит} \approx 1{,}96\).
5. Вывод
Поскольку \(|Z| = 2{,}36 > 1{,}96\), нулевая гипотеза \(H_0\) отвергается на уровне значимости \(\alpha = 0{,}05\).
Различия в доле заболевших между привитыми и непривитыми
статистически значимы.
Вакцинация снижает риск заболевания в данной выборке.
Материалы к этому разделу изложены в учебнике Военно-медицинская статистика. Глава 4.
В группе А (n=30) средний холестерин = 5.2 (σ=0.8), в группе Б (n=30) – 4.8 (σ=0.9). Рассчитайте t-критерий Стьюдента для независимых выборок.
Решение задачи: t-критерий Стьюдента для независимых выборок
| Группа | Объём (n) | Среднее (x̄) | Ст. отклонение (σ) |
|---|---|---|---|
| А | 30 | 5,2 | 0,8 |
| Б | 30 | 4,8 | 0,9 |
\[ t = \frac{\bar{x}_1 - \bar{x}_2}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}} \]
где: - \(\bar{x}_1, \bar{x}_2\) — средние по группам, - \(\sigma_1, \sigma_2\) — стандартные отклонения, - \(n_1, n_2\) — объёмы выборок.
\[ t = \frac{5{,}2 - 4{,}8}{\sqrt{\frac{0{,}8^2}{30} + \frac{0{,}9^2}{30}}} \]
n1 <- 30
n2 <- 30
sigma1 <- 0.8
sigma2 <- 0.9
t <- (5.2-4.8)/sqrt((sigma1^2/n1)+(sigma2/n2))
t
## [1] 1.76547
Для независимых выборок с равными объёмами:
\[ df = n_1 + n_2 - 2 = 30 + 30 - 2 = 58 \] Заходим в таблицу Стьюдента и ищем значение ближайшее к 58 - это и будет \(t_{крит}\)
Вывод
Нулевая гипотеза не отвергается: различия между средними уровнями холестерина в группах А и Б статистически незначимы на уровне значимости \(\alpha = 0{,}05\).
Зайдите в ЭОС, в раздел дисциплины. Найдите Тему 4 занятие 13 (папка). Скачайте оттуда файл с заданиями, найдите нужный вариант (ваш номер по журналу) и выполните по одной задаче из каждого блока варианта 1.
В 1-м вопросе приведены примеры решения не всех вариантов задач, НО все задачи встречались вам в ходе изучения дисциплины. Обратитесь к ПЗ 1, учебнику Военно-медицинская статистика, вместе с ними используйте ИИ-помощник.
При Использование ИИ-помощника будьте готовы объяснить ход решения задачи.
Блок 1.
Почему при увеличении числа проводимых сравнений возрастает риск ошибки I рода?
Решение:
alpha_per_comparison <- 0.05
m <- 5
familywise_error <- 1 - (1 - alpha_per_comparison)^m
cat("При каждом сравнении риск ошибки I рода = α =", alpha_per_comparison, "\n")
## При каждом сравнении риск ошибки I рода = α = 0.05
cat("Если провести m =", m, "независимых сравнений, общий риск хотя бы одной ошибки:\n")
## Если провести m = 5 независимых сравнений, общий риск хотя бы одной ошибки:
cat("FWER = 1 - (1 - α)^m =", round(familywise_error, 4), "\n")
## FWER = 1 - (1 - α)^m = 0.2262
cat("Чем больше сравнений, тем выше вероятность получить хотя бы один\n")
## Чем больше сравнений, тем выше вероятность получить хотя бы один
cat("ложноположительный результат. Это явление называется MULTIPLE TESTING PROBLEM.\n")
## ложноположительный результат. Это явление называется MULTIPLE TESTING PROBLEM.
cat("Для коррекции используются методы: Бонферрони, Холма, Бенджамини-Хохберга и др.\n\n")
## Для коррекции используются методы: Бонферрони, Холма, Бенджамини-Хохберга и др.
Ответ:
Блок 2.
Что означает, если 95% ДИ для разности долей включает 0?
Решение:
cat("Если 95% доверительный интервал для разности долей ВКЛЮЧАЕТ 0,\n")
## Если 95% доверительный интервал для разности долей ВКЛЮЧАЕТ 0,
cat("то на уровне значимости α = 0.05 различие между долями\n")
## то на уровне значимости α = 0.05 различие между долями
cat("НЕ ЯВЛЯЕТСЯ СТАТИСТИЧЕСКИ ЗНАЧИМЫМ.\n")
## НЕ ЯВЛЯЕТСЯ СТАТИСТИЧЕСКИ ЗНАЧИМЫМ.
cat("Это означает, что нулевая гипотеза (разность долей = 0)\n")
## Это означает, что нулевая гипотеза (разность долей = 0)
cat("не может быть отвергнута.\n")
## не может быть отвергнута.
cat("Однако, интервал может быть широким, что указывает на неопределённость.\n\n")
## Однако, интервал может быть широким, что указывает на неопределённость.
Ответ:
Блок 3.
В исследовании 3 группы: контроль, препарат А, препарат Б. Какой метод использовать?
Решение:
cat("При сравнении ТРЁХ и более групп для оценки различий средних используется:\n")
## При сравнении ТРЁХ и более групп для оценки различий средних используется:
cat("\nОСНОВНОЙ МЕТОД: ОДНОФАКТОРНЫЙ ДИСПЕРСИОННЫЙ АНАЛИЗ (One-way ANOVA).\n")
##
## ОСНОВНОЙ МЕТОД: ОДНОФАКТОРНЫЙ ДИСПЕРСИОННЫЙ АНАЛИЗ (One-way ANOVA).
cat("\nАлгоритм анализа:\n")
##
## Алгоритм анализа:
cat("1. Проверка предположений ANOVA (нормальность, гомогенность дисперсий).\n")
## 1. Проверка предположений ANOVA (нормальность, гомогенность дисперсий).
cat("2. Проведение ANOVA: H0 — средние во всех группах равны.\n")
## 2. Проведение ANOVA: H0 — средние во всех группах равны.
cat("3. Если ANOVA даёт p < 0.05 → средние различаются.\n")
## 3. Если ANOVA даёт p < 0.05 → средние различаются.
cat("4. Постхок-сравнения (post-hoc tests) для выявления пар с различиями:\n")
## 4. Постхок-сравнения (post-hoc tests) для выявления пар с различиями:
cat(" • Критерий Тьюки (Tukey HSD) — самый распространённый.\n")
## • Критерий Тьюки (Tukey HSD) — самый распространённый.
cat(" • Поправка Бонферрони.\n")
## • Поправка Бонферрони.
cat(" • Критерий Шеффе.\n")
## • Критерий Шеффе.
cat("\nАЛЬТЕРНАТИВЫ (непараметрические):\n")
##
## АЛЬТЕРНАТИВЫ (непараметрические):
cat("• Критерий Крускала-Уоллиса (аналог ANOVA для порядковых данных).\n\n")
## • Критерий Крускала-Уоллиса (аналог ANOVA для порядковых данных).
Ответ:
Блок 4.
Для расчёта объёма выборки в исследовании «случай-контроль» ожидаемый OR = 2.0, доля экспозиции в контроле = 0.2, α = 0.05, мощность = 80%. Оцените необходимый размер выборки (соотношение 1:1).
Решение:
# Формула для расчёта n в случае-контроль исследовании
OR <- 2.0
p_control <- 0.2 # доля экспозиции в контроле
alpha <- 0.05
power <- 0.80
# Расчёт p_case через OR
# OR = (p_case/(1-p_case)) / (p_control/(1-p_control))
# p_case = (OR * p_control) / (1 + p_control*(OR - 1))
p_case <- (OR * p_control) / (1 + p_control * (OR - 1))
# Средняя доля
p_bar <- (p_case + p_control) / 2
z_alpha <- qnorm(1 - alpha/2)
z_beta <- qnorm(power)
# Формула
n_per_group <- ceiling(
(z_alpha * sqrt(2 * p_bar * (1 - p_bar)) +
z_beta * sqrt(p_case * (1 - p_case) + p_control * (1 - p_control)))^2 / (p_case - p_control)^2
)
total_n <- 2 * n_per_group
cat("Ожидаемое отношение шансов OR =", OR)
## Ожидаемое отношение шансов OR = 2
cat("\nДоля экспозиции в контроле =", p_control)
##
## Доля экспозиции в контроле = 0.2
cat("\nРассчитанная доля экспозиции в группе случаев =", round(p_case, 4))
##
## Рассчитанная доля экспозиции в группе случаев = 0.3333
cat("\nУровень значимости α =", alpha)
##
## Уровень значимости α = 0.05
cat("\nМощность =", power * 100, "%")
##
## Мощность = 80 %
cat("\n\nНеобходимый объём выборки:")
##
##
## Необходимый объём выборки:
cat("\n• n в КАЖДОЙ группе =", n_per_group)
##
## • n в КАЖДОЙ группе = 172
cat("\n• Общий n =", total_n)
##
## • Общий n = 344
cat("\n\nРекомендуется включить не менее", n_per_group, "человек в каждую группу.\n\n")
##
##
## Рекомендуется включить не менее 172 человек в каждую группу.
Ответ: