Практическое задание № 1

дисциплины: Информационно-статистическая деятельность

на тему: Основы теории вероятностей

обучающегося: Лебеденко О.О.

007 факультета 003 курса 23-СТ-33/2 группы

по специальности: Стоматология

номер варианта: 010

дата выполнения: 30.03.25 г.

Вопрос 1. Создание интервала случайных величин.

Дробные случайные величины в RStudio создаются с помощью команды runif(n,min,max) ,где

n — количество генерируемых значений; min — нижняя граница диапазона;
вещественное конечное число;
max — верхняя граница диапазона; вещественное конечное число.

Создайте последовательность случайных величин х длиной в 120 элементов в диапазоне от 0.1 до 0.99

runif(120,0.1,0.99)

##   [1] 0.2861946 0.7861736 0.9704805 0.4195868 0.7688574 0.7922341 0.5994654
##   [8] 0.3063834 0.8589482 0.6065426 0.6625664 0.6541015 0.2526146 0.7495445
##  [15] 0.2726667 0.6946594 0.9175275 0.3027285 0.9664742 0.4491608 0.8850413
##  [22] 0.4821885 0.3647419 0.4247595 0.3940212 0.3668801 0.8229261 0.2339079
##  [29] 0.9210100 0.6531503 0.4110658 0.6932557 0.7311361 0.1104325 0.6543296
##  [36] 0.4939423 0.5827341 0.8162722 0.1423004 0.9790956 0.8493455 0.7924690
##  [43] 0.1099795 0.9401913 0.2270805 0.4210946 0.3340660 0.8815694 0.6671343
##  [50] 0.9606431 0.5876325 0.9457461 0.5458150 0.9666922 0.6619704 0.6920761
##  [57] 0.1380247 0.1575901 0.2295245 0.6551985 0.2971368 0.2682928 0.2063993
##  [64] 0.7530487 0.3855660 0.6020967 0.8153782 0.7694457 0.7402376 0.7130447
##  [71] 0.7043267 0.7999587 0.9761667 0.1206694 0.8310768 0.9161264 0.3041143
##  [78] 0.6214289 0.7652206 0.4914102 0.6740069 0.3734343 0.7649016 0.2931014
##  [85] 0.6519710 0.8252159 0.9860740 0.1155262 0.5647246 0.2078532 0.9629532
##  [92] 0.7379735 0.1230598 0.4676466 0.5469828 0.7071416 0.8453596 0.5351373
##  [99] 0.2036610 0.3315090 0.4152148 0.5325347 0.1409649 0.7827129 0.7464936
## [106] 0.8745536 0.8688367 0.5986858 0.9162635 0.2110095 0.3982521 0.1730811
## [113] 0.1838351 0.9545406 0.2901538 0.4138379 0.4151046 0.8613661 0.6075131
## [120] 0.7717651

Целые случайные величины в RStudio создаются с помощью команды sample(x, size, replace = FALSE, prob = NULL) ,где

x — целое число (эквивалентно 1:x) или вектор ограничивающий диапазон (например: 5:15);
size — количество генерируемых значений;
replace — разрешаются ли повторения;
prob — вектор весов распределения, по умолчанию отсутствует (равномерное распределение.)

Создайте последовательность случайных величин х длиной в 120 элементов в диапазоне от -5 до 5

sample(-5:5, 120, replace = TRUE, prob = NULL)

##   [1] -1  5  1  4 -3 -5  4  0 -5  5  2  5 -3 -2 -1  0 -4  1  0 -5 -5  4 -1 -3 -1
##  [26] -2  0 -2  4  1  0 -3  5  2 -1  1  3 -5 -2  1  2  1  0  2  2 -5 -2  0  5 -1
##  [51]  1 -2  0 -5  2  4 -2  2 -2  2  5  4 -3  1  4  5  5  4 -4  1  3  2  0 -2 -1
##  [76]  2  4 -2 -1 -1  5 -4 -5 -1 -3  3  5  5  4  3  0  1  2  4  5 -4  3  3 -5  4
## [101]  3 -2  3  3  2 -2 -5  4 -4 -2 -5 -3  5 -3 -1 -4  5  5 -5 -4

Вопрос 2. Интервальная оценка вероятности. Традиционная методика

Вероятностью события называется отношение количества удачных опытов к общему количеству опытов. Она вычисляется по формуле

\[ p=\frac{m}{n}, \]

где m - количество опытов, благоприятных событию искомой вероятности.

n - общее количество опытов (сколько было всего попыток воспроизвести событие)

Так как относительная частота случайного события является приближенным значением вероятности, то необходимо по специальной методике оценить возможную ошибку. Эта оценка выполняется определением интервала, в котором с некоторой достаточной для исследователя надёжность (обычно берут 95% доверительный интервал) должна находиться неизвестная нам вероятность случайного события. Существует несколько способов определения этого интервала, который принято называть доверительным интервалом вероятности случайного события.

Первая (или традиционная) методика, характеризуется малым объемом вычислений и поэтому применяется в условиях дефицита времени и отсутствия вычислительных средств. Основным недостатком этого способа определения доверительного интервала вероятности случайного события является наличие определённых ограничений на допустимость использования самой методики. Поэтому прежде чем воспользоваться традиционной методикой в конкретном случае, необходимо осуществить проверку её валидности (работоспособности) по следующей формуле:

\[ n* p *(1-\overline{p})>=5 \]

Рассчитайте случайные величины n и m с помощью функций приведенных выше, при том что m<n<120 (m и n целые числа). Затем вычислите валидность традиционной методики

n <- sample(1:120, 1, replace = TRUE, prob = NULL)
n

## [1] 7

m <- sample(1:n-1, 1, replace = TRUE, prob = NULL)
m

## [1] 6

p <- m/n
p

## [1] 0.8571429

n*p*(1-p)>=5

## [1] FALSE

Если неравенство выполняется, то традиционная методика валидна. Другими словами, чем больше количество опытов и чем ближе вероятность случайного события к середине интервала вероятности (0,5), тем точнее будут вычисления по традиционной методике.

Вычисление доверительного интервала вероятности случайного события традиционной методикой сводится к следующим действиям.

Определим \(p\) , если она еще не определена
Определим среднюю квадратическую ошибку относительной частоты случайного события

\[ m_p=\sqrt{\frac{\overline{p}*(1-\overline{p})}{n}} \]

mp <- sqrt(p*(1-p)/n)
mp

## [1] 0.13226

Определим нижнюю и верхнюю границы доверительного интервала вероятности случайного события по формулам

\[ I_{pmin}=p-t_\alpha*m_p, \]

\[ I_{pmax}=p+t_\alpha*m_p, \]

где \(t_\alpha\) - табличный критерий Стьюдента, который вычисляется по степени свободы

\[ n\prime=n-1\]

Создадим дата фрейм, содержащий t-критерии и вычислим границы интервалов

dt <- 1:30 
dt <- c(dt,40,60,120,121)
dt

##  [1]   1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  17  18  19
## [20]  20  21  22  23  24  25  26  27  28  29  30  40  60 120 121

t <- c(12.71,4.3,3.18,2.78,2.57,2.45,2.37,2.31,2.26,2.23,2.2,2.18,2.16,2.14,2.13,2.12,2.11,2.1,2.09,2.09,2.08,2.07,2.07,2.06,2.06,2.06,2.05,2.05,2.05,2.04,2.02,2,1.98,1.96)
tablica <- data.frame(dt,t)
tablica

##     dt     t
## 1    1 12.71
## 2    2  4.30
## 3    3  3.18
## 4    4  2.78
## 5    5  2.57
## 6    6  2.45
## 7    7  2.37
## 8    8  2.31
## 9    9  2.26
## 10  10  2.23
## 11  11  2.20
## 12  12  2.18
## 13  13  2.16
## 14  14  2.14
## 15  15  2.13
## 16  16  2.12
## 17  17  2.11
## 18  18  2.10
## 19  19  2.09
## 20  20  2.09
## 21  21  2.08
## 22  22  2.07
## 23  23  2.07
## 24  24  2.06
## 25  25  2.06
## 26  26  2.06
## 27  27  2.05
## 28  28  2.05
## 29  29  2.05
## 30  30  2.04
## 31  40  2.02
## 32  60  2.00
## 33 120  1.98
## 34 121  1.96

ta <- 2
Imin <- p-ta*mp
Imin * 100

## [1] 59.26228

Imax <- p+ta*mp
Imax * 100

## [1] 112.1663

Вопрос 3. Интервальная оценка вероятности. Методика Фишера. Дальнейшие вычисления выполняются самостоятельно

Вторая методика, использующая преобразование Р. Фишера, не имеет ограничений в области применимости, но требует более сложных вычислений. Последовательность действий такова:

В этой методике после расчёта \(\overline{p}\) вводится вспомогательная переменная \(\phi\) \[\phi=2*arcsin(\sqrt{\overline{p}})\]
Рассчитайте \(\phi\)

phi=2*asin(sqrt(p))
cat(phi)

## 2.366399

Затем рассчитывается среднеквадратическая ошибка \[m_\phi=\frac{1}{(\sqrt{n})}\] Получите значение \(m_\phi\)

m_phi=1/(sqrt(n))
cat(m_phi)

## 0.3779645

После чего считаются вспомогательные границы интервала \[I_{\phi min}=\phi-t_\alpha*m_\phi\] \[I_{\phi max}=\phi+t_\alpha*m_\phi\]

I_phi_min=phi-t*m_phi
I_phi_max=phi+t*m_phi
cat("I_phi_min = ")  ;

## I_phi_min =

cat(I_phi_min);

## -2.437529 0.741152 1.164472 1.315658 1.395031 1.440386 1.470623 1.493301 1.5122 1.523539 1.534877 1.542437 1.549996 1.557555 1.561335 1.565115 1.568894 1.572674 1.576454 1.576454 1.580233 1.584013 1.584013 1.587792 1.587792 1.587792 1.591572 1.591572 1.591572 1.595352 1.602911 1.61047 1.61803 1.625589

cat("I_phi_max = ");

## I_phi_max =

cat(I_phi_max);

## 7.170328 3.991647 3.568326 3.417141 3.337768 3.292412 3.262175 3.239497 3.220599 3.20926 3.197921 3.190362 3.182803 3.175243 3.171464 3.167684 3.163904 3.160125 3.156345 3.156345 3.152565 3.148786 3.148786 3.145006 3.145006 3.145006 3.141226 3.141226 3.141226 3.137447 3.129888 3.122328 3.114769 3.10721

Теперь считают искомый интервал по формулам \[I_{\alpha min}=sin^2(\frac{I_{\phi min}}{2})\] \[I_{\alpha max}=sin^2(\frac{I_{\phi max}}{2})\]

I_min=sin(I_phi_min/2)^2
I_max=sin(I_phi_max/2)^2
cat("I_min = ", I_min)

## I_min =  0.8811091 0.1311544 0.3023823 0.3738104 0.4125689 0.4349797 0.4499973 0.4612913 0.4707184 0.4763799 0.4820444 0.4858221 0.4896006 0.4933797 0.4952694 0.4971592 0.499049 0.5009388 0.5028286 0.5028286 0.5047184 0.5066081 0.5066081 0.5084977 0.5084977 0.5084977 0.5103871 0.5103871 0.5103871 0.5122765 0.5160546 0.5198318 0.5236079 0.5273826

cat("I_max = ", I_max)

## I_max =  0.184185 0.8299713 0.9551613 0.9811381 0.9904096 0.9943241 0.9963694 0.9976056 0.9984403 0.9988557 0.999207 0.9994055 0.9995755 0.9997169 0.9997769 0.9998298 0.9998756 0.9999141 0.9999456 0.9999456 0.9999699 0.9999871 0.9999871 0.9999971 0.9999971 0.9999971 1 1 1 0.9999957 0.9999657 0.9999072 0.9998201 0.9997045

ПРИМЕР 1. Известно число лечившихся от инфаркта миокарда в данном лечебном учреждении за год — 32 человека (n), и число умерших из них - 9 человек (m). Определить используя традиционную методику:

Вероятность летального исхода от инфаркта миокарда \(p\);
95%-ный доверительный интервал для вероятности умереть от инфаркта миокарда.

p=9/32
mp=sqrt((p*(1-p))/32)
ipmin=p-2.04*mp
ipmax=p+2.04*mp
print(p)

## [1] 0.28125

print(ipmin)

## [1] 0.1191099

print(ipmax)

## [1] 0.4433901

ПРИМЕР 2. Число больных астмой составляет 5229 человек, из них умерло 208 человек. Определить используя методику Фишера:

вероятность летального исхода от астмы \(p\);
95%-ный доверительный интервал для вероятности умереть от астмы.

p=208/5229
p

## [1] 0.03977816

mp=sqrt((p*(1-p))/5229)
fi <- asin(sqrt(p))
fi

## [1] 0.2007911

mfi = 1/(sqrt(n))
mfi

## [1] 0.3779645

Ifimin = fi - ta * mfi
Ifimin

## [1] -0.5551378

Ifimax = fi + ta * mfi
Ifimax

## [1] 0.9567201

Iamin = sin(Ifimin/2)^2
Iamin

## [1] 0.07508609

Iamax = sin(Ifimax/2)^2
Iamax

## [1] 0.2118981

Алгоритм проведения проверки статистических гипотез о различиях переменных

Научная гипотеза и методология её проверки – В основе методологии любых научных исследований лежит грамотное утверждение и проверка выдвигаемых гипотез.

Гипотеза- это научное предположение, которое требует проверки. Если будут обнаружены факты, не согласующиеся с гипотезой, то она станет ложным положением и перестанет быть гипотезой.В научных исследованиях гипотезы разделяют на «рабочие гипотезы» и «статистические гипотезы».

Рабочая гипотеза– это главная, основная гипотеза всего исследования. Она формулируется на подготовительном этапе. Примером рабочей гипотезы может служить следующее утверждение. “Новое лекарственное средство «….» более эффективно и безопасно, чем лекарственные средства, применяющиеся в настоящее время при данном виде патологии”.

Статистическая гипотеза представляет собой более узкое понятие,т.е. статистическая гипотеза- это некоторое предположение о статистических свойствах и характеристиках исследуемых генеральных совокупностей.

Другими словами, статистическая гипотеза- это гипотеза, проверяемая путем статистической проверки. Можно сказать, что искусство применения статистики состоит в умении грамотно выдвигать и корректно проверять статистические гипотезы. Таким образом, на подготовительном этапе исследователь формулирует рабочую гипотезу. На организационном этапе он продумывает построение своего исследования, т. е. порядок проверки своей гипотезы. Потом собирает необходимые данные (методами наблюдения, опроса или получая сведения из документов), выполняет их первичную обработку, а затем статистический анализ. В процессе статистического анализа исследователь выдвигает и проверяет необходимое количество статистических гипотез

#Методика оценки статистических гипотез

Выдвинутую гипотезу в математической статистике обычно называют основной (нулевой) гипотезой и обозначают \(Н0\). В противовес ей выступает так называемая альтернативная (конкурирующая) гипотеза, которая обозначается \(Н1\).

В дальнейшем мы будем рассматривать вопросы статистической проверки основной статистической гипотезы \(Н0\) против альтернативной гипотезы \(Н1\).

Выдвинутая гипотеза может быть правильной (истинной) или неправильной (ложной). Убедиться в истинности или ложности выдвинутой гипотезы можно путем проверки.

Проверка гипотез осуществляется прямым способом логически или экспериментально; если это невозможно, то косвенным способом.

Косвенный способ проверки гипотез заключается в анализе следствий, которые вытекают из неё. Эту проверку проводят статистическими методами, поэтому говорят о “статистической проверке статистической гипотезы”.

Ошибки, принципиально возможные при проверке гипотез, разделяют на два основных класса:

1.отклонение гипотезы Н0в то время, когда она верна, является ошибкой первого рода; 2.принятие гипотезы Н0в то время, когда она неверна, является ошибкой второго рода.

Возможные решения, ошибки и их вероятности можно представить так, как это сделано в следующей схеме:

#Фактическое положение Принимаемое решение

                        Принимается H0       Принимается H1

#Справедлива H0 Правильное Ошибочное
p = 1 - α p = α ошибка первого рода

#Справедлива H1 Ошибочное Правильное p = β p = 1 - β ошибка второго рода

Где \(α\) — вероятность ошибки первого рода, а \(β\) — вероятность ошибки второго рода.

Для проверки статистической гипотезы применяют критерий.

Это математическая функция, вероятности значений которой известны, что позволяет устанавливать критическую область.

Критическая область- это множество значений критериальной статистики, которые расцениваются как достаточные для отклонения нулевой гипотезы.

Критическая область устанавливается таким образом, чтобы вероятность попадания значения критерия в указанную область при условии, что нулевая гипотеза справедлива, была равна \(α\). Величина \(α\) называется уровнем значимости.

Естественно стремление исследователей минимизировать величину \(α\). В связи с этим необходимо заметить, что снижая уровень значимости \(α\) и уменьшая таким образом вероятность ошибки первого рода, мы неизбежно увеличиваем вероятность ошибки второго рода.

#Рекомендуется следующий алгоритм проверки статистических гипотез: 1.составить статистическую модель исследуемого явления, 2.провести серию экспериментов, зарегистрировать и обработать результаты, т. е. получить выборку данных, 3.сформулировать гипотезы \(Н0\) и \(Н1\), 4.выбрать уровень значимости \(α\), 5.выбрать критерий, 6.определить критическую область, 7.по результатам экспериментов вычислить значение критерия, 8.сделать логический вывод в терминах предметной области исследуемого явления.

Важное утверждение.

Гипотезу невозможно доказать наличием фактов, подтверждающих выдвинутое предположение, независимо от количества этих фактов. Гипотезу можно опровергнуть даже одним фактом, который противоречит принятой гипотезе.

Пример. Ложное предположение о том, что Солнце вращается вокруг Земли. Независимо от количества наблюдений о перемещении светила по небосводу один эксперимент с маятником Фуко опроверг геоцентрическую модель мира.

Поэтому в ходе статистического анализа ищут аргументы не в пользу выдвинутой гипотезы, а против нее, т.е. пытаются гипотезу не подтвердить, а отклонить.

В качестве нулевой (основной) гипотезы \(Н0\) всегда выдвигают гипотезу об отсутствии статистически значимых различий. Альтернативной гипотезой \(Н1\) будет являться гипотеза о существовании различий. Если находятся убедительные аргументы против нулевой гипотезы \(Н0\), то она будет отклонена. Следовательно, истинной будет считаться противоречащая ей альтернативная гипотеза \(Н1\). Другими словами, проверка статистической гипотезы – это оценка силы аргументов против нулевой гипотезы

Оценка значимости различия относительных частот случайных событий с помощью t-критерия Стьюдента

Оценку статистической значимости различия двух сравниваемых относительных частот случайных событий можно осуществить двумя способами: •Используя доверительные интервалы этих показателей (это приблизительный, оценочный способ). Если доверительные интервалы перекрываются полностью или больше, чем на треть, то можно предположить, что различие между показателями статистически не значимо или случайно (принимается нулевая гипотеза). Если доверительные интервалы не совпадают или совпадают менее, чем на треть, то можно предположить, что различие между показателями статистически значимо или неслучайно (нулевая гипотеза отвергается). Используя расчётное значение t-критерия Стьюдента.

Вычисляют критерий \[t_{расч}- Стьюдента\] и определяют число степеней свободы.
По таблице “Критические значения tпо распределению Стьюдента”, учитывая число степеней свободы, сравнивают полученное значение критерия tрасч- Стьюдента с табличным для уровня значимости 0,05.
Если полученное значения tрасчменьше табличного, то принимают нулевую гипотезу об отсутствии статистически значимого различия между показателями. При этом вероятность альтернативной гипотезы \[P_{1}< 0,95\], а вероятность нулевой гипотезы \[P_{0}> 0,05\]
Вывод записывают следующим образом: “В результате эксперимента не доказано наличие статистически значимого различия между исследуемыми показателями \[P_{0}> 0,05\]
Если полученное значения tрасчбольше табличного, то принимают альтернативную гипотезу о наличии статистически значимого различия между показателями. При этом вероятность альтернативной гипотезы \[P_{1}> 0,95\], а вероятность нулевой гипотезы \[P_{0}< 0,05\]
Вывод записывают следующим образом: “В результате эксперимента доказано наличие статистически значимого различия между исследуемыми показателями \[P_{0}< 0,05\]
Далее следует сравнить полученное значение t_{расч} с табличным для уровня значимости 0,01.
Если полученное \[t_{расч}\] превышает табличное, то и вероятность альтернативной гипотезы \[P_{1}> 0,99\], а вероятность нулевой гипотезы \[P_{0}< 0,01\]. Очевидно, в данном случае достоверность различия повышается.
Если полученное \[t_{расч}\] превышает значение табличного для уровня значимости 0,001, то в этом случае вероятность альтернативной гипотезы \[P_{1}> 0,999\], а вероятность нулевой гипотезы \[P_{0}< 0,001\]. Достоверность различия между показателями еще выше.

В случае, если выполняется условие \[n\overline {p}(1− \overline {p})≥5\] для обеих относительных частот, рекомендуется для вычисления tрасчкритерия Стьюдента применять следующую формулу: \[t_{расч}=\frac{|\overline {p_{1}} − \overline {p_{2}}|}{\sqrt{{m_{\overline{p_{1}}}}^2 +{m_{\overline {p_{2}}}}^2}}\] ,где \[\overline {p_{1}}\] и \[\overline {p_{2}}\]- сравниваемые выборочные относительные показатели, а \[m_{\overline{p_{1}}}\] и \[m_{\overline{p_{2}}}\]- их средние квадратические ошибки.

Число степеней свободы определяют по формуле: \[n = n_{1}+ n_{2}- 2\], где \[n_{1}\] и \[n_{2}\]- количество наблюдений в первой и второй выборках соответственно.

В случае, если условие \[n\overline {p}(1−\overline {p})≥5\] не выполняется хотя бы для одной относительной частоты, рекомендуется для вычисленияtрасчкритерия Стьюдента применять метод φ- преобразования Р. Фишера, заменяя значение \[\overline {p}\] на φпо формуле: \[\phi=2*arcsin(\sqrt{\overline{p}})\].

Средняя квадратическая ошибка относительного показателя, выраженного через \[\phi\], определяется по формуле:\[m_\phi=\frac{1}{(\sqrt{n})}\]

Оценка значимости различия выборочных показателей, выраженных через \[\phi\], производится по формуле:\[t_{расч}=|\phi_{1}−\phi_{2}|\sqrt{\frac{n_{1}n_{2}}{n_{1}+n_{2}}}\]

Проводим проверку гипотез с помощью, критерия t-Стьюдента для малых выборок, независимые наблюдения

#создадим малые выборки, например 
temp <- c(18,21,22,23,24,25,27,30,35)#Температура воздуха
efir <- c(16,35,38,41,47,51,51,68,94)#Выделение эфиров фталиевой кислоты в мг/м в зависимости от температуры воздуха
a<- t.test(temp, efir, paired = FALSE, mu=0.05)
a

## 
##  Welch Two Sample t-test
## 
## data:  temp and efir
## t = -3.1964, df = 8.8579, p-value = 0.01112
## alternative hypothesis: true difference in means is not equal to 0.05
## 95 percent confidence interval:
##  -41.06226  -6.93774
## sample estimates:
## mean of x mean of y 
##        25        49

#на выводе мы видим сравнение значений выборок

Проводим проверку гипотез с помощью, критерия t-Стьюдента для малых выборок, парные наблюдения

#создадим малые выборки, например 
temp <- c(18,21,22,23,24,25,27,30,35)#Температура воздуха
efir <- c(16,35,38,41,47,51,51,68,94)#Выделение эфиров фталиевой кислоты в мг/м в зависимости от температуры воздуха
a<- t.test(temp, efir, paired = TRUE, mu=0.05)
a

## 
##  Paired t-test
## 
## data:  temp and efir
## t = -4.2533, df = 8, p-value = 0.002787
## alternative hypothesis: true mean difference is not equal to 0.05
## 95 percent confidence interval:
##  -37.03907 -10.96093
## sample estimates:
## mean difference 
##             -24

#на выводе мы видим попарное сравнение значений выборок

ПРИМЕР 3. При изучении смертности в возрасте 40 — 59 лет от астматических заболеваний установлено, что из n1= 5250 курящих умирают m1= 20 человек, а из n2= 3200 некурящих умерло m2= 5 человек. Проверьте следующую гипотезу: Курящие люди, болеющие астмой, умирают чаще, чем некурящие люди, болеющие астмой.

Расчеты для первой группы(курящие):

g1 <- binom.test(20,5250, p=0.5)
g1

## 
##  Exact binomial test
## 
## data:  20 and 5250
## number of successes = 20, number of trials = 5250, p-value < 2.2e-16
## alternative hypothesis: true probability of success is not equal to 0.5
## 95 percent confidence interval:
##  0.002328462 0.005877398
## sample estimates:
## probability of success 
##            0.003809524

Расчеты для второй группы(некурящие):

g2 <- binom.test(8,3200, p=0.5)
g2

## 
##  Exact binomial test
## 
## data:  8 and 3200
## number of successes = 8, number of trials = 3200, p-value < 2.2e-16
## alternative hypothesis: true probability of success is not equal to 0.5
## 95 percent confidence interval:
##  0.001079921 0.004920023
## sample estimates:
## probability of success 
##                 0.0025

Для наглядности можно вставить график, например

#готовим исходные данные: из полученных текстовых сообщений забираем вероятности успеха и сращиваем их в один вектор для круговой диаграммы
graph <- c(g1$estimate,g2$estimate)
#строим круговую диаграмму, где labels - вектор с подписями данных main - название диаграммы
pie(graph,labels=c("Курящие","НЕкурящие"),main="Сравнение смертности")

Вывод: гипотеза подтверждается,так как вероятность смерти при курении и астме 0,0038 (вероятность успеха), а при астме без курения 0.0025 (вероятность успеха).

Чтобы посмотреть наглядно доверительные интервалы нужно использовать график типа boxplot(). Например для условий этой задачи построение графика будет выглядеть так:

boxplot(g1$conf.int,g2$conf.int)

#на этой диаграмме видно, что доверительные интервалы пересекаются в значительной области, но не полностью

ПРИМЕР 4. При сравнении летальности от пневмонии в 2-х госпиталях получены данные: в 1-ом госпитале из 740 больных пневмонией умерло 14 человек, во 2 - ом госпитале из 570 больных умерло 11. Найти относительные частоты летальных исходов от пневмонии в госпиталях и оценить статистическую значимость различия найденных относительных частот для уровня значимости 0, 05.

#проведите расчеты по аналогии с предыдущей задачей
#Для визуального сравнения  используйте график типа pie
g1 <- binom.test(14,740, p=0.5)
g1

## 
##  Exact binomial test
## 
## data:  14 and 740
## number of successes = 14, number of trials = 740, p-value < 2.2e-16
## alternative hypothesis: true probability of success is not equal to 0.5
## 95 percent confidence interval:
##  0.01038079 0.03153917
## sample estimates:
## probability of success 
##             0.01891892

g2 <- binom.test(11,570, p=0.5)
g2

## 
##  Exact binomial test
## 
## data:  11 and 570
## number of successes = 11, number of trials = 570, p-value < 2.2e-16
## alternative hypothesis: true probability of success is not equal to 0.5
## 95 percent confidence interval:
##  0.009672012 0.034267077
## sample estimates:
## probability of success 
##             0.01929825

graph <- c(g1$estimate,g2$estimate)

pie(graph,labels=c("1","2"),main="Сравнение смертности")

Из полученных путём вычисления значений границ доверительных интервалы очевидно, что доверительные интервалы полностью перекрываются, и, следовательно, можно предположить, что различие между показателями статистически не значимо или случайно (принимается нулевая гипотеза).Вывод: В результате эксперимента не доказано наличие статистически значимого различия между исследуемыми показателями (\(P_0>0,05\))

ПРИМЕР 5. По данным ВОЗ (WHO Coronavirus Disease (COVID-19) Dashboard) на 15.01.2021 г. в ФРГ в результате заболевания Covid-19 на 100000 человек приходится 2248 летальных исходов, а в России на 100000 человек - 1832 летальных исхода. Оценить статистическую значимость различия летальных исходов в ФРГ и России, используя расчётное значение t-критерия Стьюдента.

m1=2248; m2=1832; n1=100000; n2=100000;
p1=m1/n1
p2=m2/n2
n=n1+n2-2
print("количество степеней свободы")

## [1] "количество степеней свободы"

print(n)

## [1] 199998

mp1=sqrt((p1*(1-p1))/n1)
mp2=sqrt((p2*(1-p2))/n2)
trasch=(abs(p1-p2))/(sqrt(mp1^2+mp2^2))
print("расчетное значение t-критерия")

## [1] "расчетное значение t-критерия"

print(trasch)

## [1] 6.580909

табличное значение t-критерия Стьюдента, t = 1,96 для уровня значимости 0,05. Сравнивая t с tрасчприходим к следующему выводу. tрасч> t,6,589 > 1,96. Из полученного путём вычисления значения критерия Стьюдента t можно предположить, что различие между показателями статистически значимо (не случайно), нулевая гипотеза H0 отвергается, принимается альтернативная гипотеза - H1. Вывод: В результате эксперимента доказано наличие статистически значимого различия между исследуемыми показателями для уровня значимости 0,05 (P0< 0,05).Продолжая сравнивать полученное значение tрасч с табличным для уровней значимости 0,01 и 0,001, мы приходим к аналогичным выводам. Вывод: В результате эксперимента доказано наличие статистически значимого различия между исследуемыми показателями для уровня значимости 0,01 (P0< 0,01). Вывод: В результате эксперимента доказано наличие статистически значимого различия между исследуемыми показателями для уровня значимости 0,001 (P0< 0,001).

ПРИМЕР 6. При сравнении количества наблюдаемых пациентов получивших осложнения после гриппа в 2-х населённых пунктах получены данные: в 1-ом населённом пункте из 16 больных гриппом получили осложнения 2 человека, во 2-ом населённом пункте из 21 больных гриппом получили осложнения 6 человек. Найти относительные частоты количества осложнений от гриппа в населённых пунктах и оценить статистическую значимость различия найденных относительных частот для уровня значимости 0, 05.

#проведите расчеты используя коды предыдушего примера
m1=2; m2=6; n1=16; n2=21;
p1=m1/n1
p2=m2/n2
n=n1+n2-2
print("количество степеней свободы")

## [1] "количество степеней свободы"

print(n)

## [1] 35

mp1=sqrt((p1*(1-p1))/n1)
mp2=sqrt((p2*(1-p2))/n2)
trasch=(abs(p1-p2))/(sqrt(mp1^2+mp2^2))
print("расчетное значение t-критерия")

## [1] "расчетное значение t-критерия"

print(trasch)

## [1] 1.249113

табличное значение t - критерия Стьюдента, t = 2,03 для уровня значимости 0,05. Сравнивая t с tрасчприходим к следующему выводу. tрасч< t,1,221 < 2,03 Из полученного путём вычисления значения критерия Стьюдента t можно предположить, что различие между показателями статистически не значимо (случайно), принимается нулевая гипотеза - H0. Вывод: В результате эксперимента не доказано наличие статистически значимого различия между исследуемыми показателями для уровня значимости 0,05 (P0> 0,05).Продолжая сравнивать полученное значение tрасчс табличным для уровней значимости 0,01 и 0,001, мы приходим к аналогичным выводам. Вывод: В результате эксперимента не доказано наличие статистически значимого различия между исследуемыми показателями для уровня значимости 0,05 (P0> 0,01). Вывод: В результате эксперимента не доказано наличие статистически значимого различия между исследуемыми показателями для уровня значимости 0,05 (P0> 0,001).

Задачи для самостоятельного решения. Выберите задачу для вашего варианта и решите ее, где необходимо постройте графики. Формулировки остальных задач удалите.

Вариант 10. С целью изучения эффективности обработки различными способами рук хирургов перед операцией проводились посевы. Обработка рук первомуром из 376 случаев дала 174 отрицательных посева, а обработка традиционным способом Спасокукоцкого-Кочергина из 92 случаев дала 66 отрицательных посевов.Какой способ предпочтительнее?

а1 <- binom.test(174,376, p=0.5)
а1

## 
##  Exact binomial test
## 
## data:  174 and 376
## number of successes = 174, number of trials = 376, p-value = 0.1637
## alternative hypothesis: true probability of success is not equal to 0.5
## 95 percent confidence interval:
##  0.4115047 0.5146179
## sample estimates:
## probability of success 
##               0.462766

а2 <- binom.test(66,92, p=0.5)
а2

## 
##  Exact binomial test
## 
## data:  66 and 92
## number of successes = 66, number of trials = 92, p-value = 3.67e-05
## alternative hypothesis: true probability of success is not equal to 0.5
## 95 percent confidence interval:
##  0.6139316 0.8063751
## sample estimates:
## probability of success 
##              0.7173913

graph <- c(а1$estimate,а2$estimate)

pie(graph,labels=c("1","2"),main="Сравнение способов")

ISD pz1