Практическое задание № 13

дисциплины: Информационно-статистическая деятельность

на тему: Выборочный метод статистического исследования.

обучающегося: Шарафутдинова А.Н.

007 факультета 003 курса 23-ЛД-37/2 группы

по специальности: Лечебное дело

номер варианта: 016

дата выполнения: 25.06.26 г.


Вопрос 1. Примеры решения задач

1.1. Методологические аспекты проверки статистических гипотез

Методика оценки статистических гипотез

Выдвинутую гипотезу в математической статистике обычно называют основной (нулевой) гипотезой и обозначают \(Н0\). В противовес ей выступает так называемая альтернативная (конкурирующая) гипотеза, которая обозначается \(Н1\).

В дальнейшем мы будем рассматривать вопросы статистической проверки основной статистической гипотезы \(Н0\) против альтернативной гипотезы \(Н1\).

Выдвинутая гипотеза может быть правильной (истинной) или неправильной (ложной). Убедиться в истинности или ложности выдвинутой гипотезы можно путем проверки.

Проверка гипотез осуществляется прямым способом логически или экспериментально; если это невозможно, то косвенным способом.

Косвенный способ проверки гипотез заключается в анализе следствий, которые вытекают из неё. Эту проверку проводят статистическими методами, поэтому говорят о “статистической проверке статистической гипотезы”.

Ошибки, принципиально возможные при проверке гипотез, разделяют на два основных класса:

  1. Отклонение гипотезы \(Н0\) в то время, когда она верна, является ошибкой первого рода;

  2. Принятие гипотезы \(Н0\) в то время, когда она неверна, является ошибкой второго рода.

Возможные решения, ошибки и их вероятности можно представить так, как это сделано в следующей схеме:

Фактическое положение Принимаемое решение Вид ошибки
Справедлива \(Н0\) \(Н0\) отклонена ошибка первого рода, p >=α
Справедлива \(Н1\) \(Н1\) отклонена ошибка второго рода, p >= β

Для проверки статистической гипотезы применяют критерий.

Это математическая функция, вероятности значений которой известны, что позволяет устанавливать критическую область.

Критическая область- это множество значений критериальной статистики, которые расцениваются как достаточные для отклонения нулевой гипотезы.

Критическая область устанавливается таким образом, чтобы вероятность попадания значения критерия в указанную область при условии, что нулевая гипотеза справедлива, была равна \(α\). Величина \(α\) называется уровнем значимости.

Естественно стремление исследователей минимизировать величину \(α\). В связи с этим необходимо заметить, что снижая уровень значимости \(α\) и уменьшая таким образом вероятность ошибки первого рода, мы неизбежно увеличиваем вероятность ошибки второго рода.

Пример задачи:

В исследовании изучалась частота послеоперационных осложнений. Получена вероятность p=0.04.

Вопрос:

Примите решение о верности \(Н0\) на уровне значимости α=0.05.

Решение

\(Н0\) в данной задаче значит что осложнения не возможны, \(Н1\) в данной задаче говорит что осложнения возможны

Если р<α, значит гипотеза \(Н0\) отклоняется, т.к. α это критерий, до превышения которого вероятность возникновения осложнений без операции и после операции одинакова

Ответ: Нулевая гипотеза отклоняется, т. к. полученная вероятность (p) меньше критерия (α)

1.2. Оценка статистических различий вероятности случайных событий.

Материалы к этому разделу изложены в учебнике Военно-медицинская статистика. Глава 4.

Пример задачи:

В группе из 100 привитых заболело 5, в группе из 100 непривитых заболело 15. Оцените статистическую значимость различий (α=0.05).

Решение задачи

1. Формулировка гипотез

  • Нулевая гипотеза (H₀): доля заболевших среди привитых и непривитых одинакова (нет различий).
  • Альтернативная гипотеза (H₁): доля заболевших среди привитых и непривитых различается.

2. Исходные данные

Группа Всего Заболело Не заболело
Привитые 100 5 95
Непривитые 100 15 85

3. Расчёт долей

  • Доля заболевших среди привитых: \(p_1 = \frac{5}{100} = 0{,}05\).
  • Доля заболевших среди непривитых: \(p_2 = \frac{15}{100} = 0{,}15\).

4. Проверка статистической значимости (Z-тест для долей)

4.1. Объединённая доля

\[ p = \frac{5 + 15}{100 + 100} = \frac{20}{200} = 0{,}1 \]

p <- (5+15)/(100+100)
p
## [1] 0.1

4.2. Стандартная ошибка разности долей

\[ SE = \sqrt{p(1-p)\left(\frac{1}{n_1} + \frac{1}{n_2}\right)} = \sqrt{0{,}1 \times 0{,}9 \times \left(\frac{1}{100} + \frac{1}{100}\right)} = \sqrt{0{,}09 \times 0{,}02} = \sqrt{0{,}0018} \approx 0{,}0424 \]

n1 <- 100
n2 <- 100
SE <- sqrt(p*(1-p)*(1/n1+1/n2))
SE
## [1] 0.04242641

4.3. Z-статистика

\[ Z = \frac{p_2 - p_1}{SE} = \frac{0{,}15 - 0{,}05}{0{,}0424} \approx \frac{0{,}1}{0{,}0424} \approx 2{,}36 \]

p1 <- 0.15
p2 <- 0.05

Z <- abs((p2-p1)/SE)
Z
## [1] 2.357023

4.4. Критическое значение для \(\alpha = 0{,}05\)

Значение критерия берется из таблицы значений по Стъюденту и для 100 опытов равно\(Z_{крит} \approx 1{,}96\).

5. Вывод

Поскольку \(|Z| = 2{,}36 > 1{,}96\), нулевая гипотеза \(H_0\) отвергается на уровне значимости \(\alpha = 0{,}05\).

Различия в доле заболевших между привитыми и непривитыми статистически значимы.
Вакцинация снижает риск заболевания в данной выборке.

1.3. Оценка статистических различий выборочных средних значений.

Материалы к этому разделу изложены в учебнике Военно-медицинская статистика. Глава 4.

В группе А (n=30) средний холестерин = 5.2 (σ=0.8), в группе Б (n=30) – 4.8 (σ=0.9). Рассчитайте t-критерий Стьюдента для независимых выборок.

Решение задачи: t-критерий Стьюдента для независимых выборок

  1. Исходные данные
Группа Объём (n) Среднее (x̄) Ст. отклонение (σ)
А 30 5,2 0,8
Б 30 4,8 0,9
  1. Формула t-критерия для независимых выборок

\[ t = \frac{\bar{x}_1 - \bar{x}_2}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}} \]

где: - \(\bar{x}_1, \bar{x}_2\) — средние по группам, - \(\sigma_1, \sigma_2\) — стандартные отклонения, - \(n_1, n_2\) — объёмы выборок.

  1. Подставляем значения

\[ t = \frac{5{,}2 - 4{,}8}{\sqrt{\frac{0{,}8^2}{30} + \frac{0{,}9^2}{30}}} \]

n1 <- 30
n2 <- 30
sigma1 <- 0.8
sigma2 <- 0.9
t <- (5.2-4.8)/sqrt((sigma1^2/n1)+(sigma2/n2))
t
## [1] 1.76547
  1. Число степеней свободы

Для независимых выборок с равными объёмами:

\[ df = n_1 + n_2 - 2 = 30 + 30 - 2 = 58 \] Заходим в таблицу Стьюдента и ищем значение ближайшее к 58 - это и будет \(t_{крит}\)

  1. Интерпретация
  • Для \(\alpha = 0{,}05\) и \(df = 58\) критическое значение \(t_{крит} \approx 2{,}00\) (двусторонний тест).
  • Полученное \(t = 1{,}77 < 2{,}00\).

Вывод

Нулевая гипотеза не отвергается: различия между средними уровнями холестерина в группах А и Б статистически незначимы на уровне значимости \(\alpha = 0{,}05\).

Вопрос 2. Решение самостоятельных задач

Зайдите в ЭОС, в раздел дисциплины. Найдите Тему 4 занятие 13 (папка). Скачайте оттуда файл с заданиями, найдите нужный вариант (ваш номер по журналу) и выполните по одной задаче из каждого блока варианта 1.

В 1-м вопросе приведены примеры решения не всех вариантов задач, НО все задачи встречались вам в ходе изучения дисциплины. Обратитесь к ПЗ 1, учебнику Военно-медицинская статистика, вместе с ними используйте ИИ-помощник.

При Использование ИИ-помощника будьте готовы объяснить ход решения задачи.

Блок 1.

Почему при увеличении числа проводимых сравнений возрастает риск ошибки I рода?

Решение:

alpha_per_comparison <- 0.05
m <- 5
familywise_error <- 1 - (1 - alpha_per_comparison)^m

cat("При каждом сравнении риск ошибки I рода = α =", alpha_per_comparison, "\n")
## При каждом сравнении риск ошибки I рода = α = 0.05
cat("Если провести m =", m, "независимых сравнений, общий риск хотя бы одной ошибки:\n")
## Если провести m = 5 независимых сравнений, общий риск хотя бы одной ошибки:
cat("FWER = 1 - (1 - α)^m =", round(familywise_error, 4), "\n")
## FWER = 1 - (1 - α)^m = 0.2262
cat("Чем больше сравнений, тем выше вероятность получить хотя бы один\n")
## Чем больше сравнений, тем выше вероятность получить хотя бы один
cat("ложноположительный результат. Это явление называется MULTIPLE TESTING PROBLEM.\n")
## ложноположительный результат. Это явление называется MULTIPLE TESTING PROBLEM.
cat("Для коррекции используются методы: Бонферрони, Холма, Бенджамини-Хохберга и др.\n\n")
## Для коррекции используются методы: Бонферрони, Холма, Бенджамини-Хохберга и др.

Ответ:

Блок 2.

Что означает, если 95% ДИ для разности долей включает 0?

Решение:

cat("Если 95% доверительный интервал для разности долей ВКЛЮЧАЕТ 0,\n")
## Если 95% доверительный интервал для разности долей ВКЛЮЧАЕТ 0,
cat("то на уровне значимости α = 0.05 различие между долями\n")
## то на уровне значимости α = 0.05 различие между долями
cat("НЕ ЯВЛЯЕТСЯ СТАТИСТИЧЕСКИ ЗНАЧИМЫМ.\n")
## НЕ ЯВЛЯЕТСЯ СТАТИСТИЧЕСКИ ЗНАЧИМЫМ.
cat("Это означает, что нулевая гипотеза (разность долей = 0)\n")
## Это означает, что нулевая гипотеза (разность долей = 0)
cat("не может быть отвергнута.\n")
## не может быть отвергнута.
cat("Однако, интервал может быть широким, что указывает на неопределённость.\n\n")
## Однако, интервал может быть широким, что указывает на неопределённость.

Ответ:

Блок 3.

В исследовании 3 группы: контроль, препарат А, препарат Б. Какой метод использовать?

Решение:

cat("При сравнении ТРЁХ и более групп для оценки различий средних используется:\n")
## При сравнении ТРЁХ и более групп для оценки различий средних используется:
cat("\nОСНОВНОЙ МЕТОД: ОДНОФАКТОРНЫЙ ДИСПЕРСИОННЫЙ АНАЛИЗ (One-way ANOVA).\n")
## 
## ОСНОВНОЙ МЕТОД: ОДНОФАКТОРНЫЙ ДИСПЕРСИОННЫЙ АНАЛИЗ (One-way ANOVA).
cat("\nАлгоритм анализа:\n")
## 
## Алгоритм анализа:
cat("1. Проверка предположений ANOVA (нормальность, гомогенность дисперсий).\n")
## 1. Проверка предположений ANOVA (нормальность, гомогенность дисперсий).
cat("2. Проведение ANOVA: H0 — средние во всех группах равны.\n")
## 2. Проведение ANOVA: H0 — средние во всех группах равны.
cat("3. Если ANOVA даёт p < 0.05 → средние различаются.\n")
## 3. Если ANOVA даёт p < 0.05 → средние различаются.
cat("4. Постхок-сравнения (post-hoc tests) для выявления пар с различиями:\n")
## 4. Постхок-сравнения (post-hoc tests) для выявления пар с различиями:
cat("   • Критерий Тьюки (Tukey HSD) — самый распространённый.\n")
##    • Критерий Тьюки (Tukey HSD) — самый распространённый.
cat("   • Поправка Бонферрони.\n")
##    • Поправка Бонферрони.
cat("   • Критерий Шеффе.\n")
##    • Критерий Шеффе.
cat("\nАЛЬТЕРНАТИВЫ (непараметрические):\n")
## 
## АЛЬТЕРНАТИВЫ (непараметрические):
cat("• Критерий Крускала-Уоллиса (аналог ANOVA для порядковых данных).\n\n")
## • Критерий Крускала-Уоллиса (аналог ANOVA для порядковых данных).

Ответ:

Блок 4.

Для расчёта объёма выборки в исследовании «случай-контроль» ожидаемый OR = 2.0, доля экспозиции в контроле = 0.2, α = 0.05, мощность = 80%. Оцените необходимый размер выборки (соотношение 1:1).

Решение:

# Формула для расчёта n в случае-контроль исследовании
OR <- 2.0
p_control <- 0.2  # доля экспозиции в контроле
alpha <- 0.05
power <- 0.80

# Расчёт p_case через OR
# OR = (p_case/(1-p_case)) / (p_control/(1-p_control))
# p_case = (OR * p_control) / (1 + p_control*(OR - 1))

p_case <- (OR * p_control) / (1 + p_control * (OR - 1))

# Средняя доля
p_bar <- (p_case + p_control) / 2

z_alpha <- qnorm(1 - alpha/2)
z_beta <- qnorm(power)

# Формула
n_per_group <- ceiling(
  (z_alpha * sqrt(2 * p_bar * (1 - p_bar)) + 
   z_beta * sqrt(p_case * (1 - p_case) + p_control * (1 - p_control)))^2 / (p_case - p_control)^2
)

total_n <- 2 * n_per_group

cat("Ожидаемое отношение шансов OR =", OR)
## Ожидаемое отношение шансов OR = 2
cat("\nДоля экспозиции в контроле =", p_control)
## 
## Доля экспозиции в контроле = 0.2
cat("\nРассчитанная доля экспозиции в группе случаев =", round(p_case, 4))
## 
## Рассчитанная доля экспозиции в группе случаев = 0.3333
cat("\nУровень значимости α =", alpha)
## 
## Уровень значимости α = 0.05
cat("\nМощность =", power * 100, "%")
## 
## Мощность = 80 %
cat("\n\nНеобходимый объём выборки:")
## 
## 
## Необходимый объём выборки:
cat("\n• n в КАЖДОЙ группе =", n_per_group)
## 
## • n в КАЖДОЙ группе = 172
cat("\n• Общий n =", total_n)
## 
## • Общий n = 344
cat("\n\nРекомендуется включить не менее", n_per_group, "человек в каждую группу.\n\n")
## 
## 
## Рекомендуется включить не менее 172 человек в каждую группу.

Ответ: