Неделя 5. Доверительный интервал и Проверка Гипотез

Дархан Медеуов

3/9/23

План

  1. Доверительные интервалы
  2. Проверка гипотез с помощью доверительных интервалов
  3. p-значение (p-value)
  4. 1-о и 2-сторонние проверки гипотез

Центральная Предельная Теорема

  • Если \(X\) - это случайная переменная с ожиданием \(\mu\) и стандартным отклонением \(\sigma\), и у нас есть \(n\) наблюдений этой переменной, тогда распределение выборочных средних будет
    • \(\bar{X} \sim N(\textrm{ mean } = \mu, \textrm{ sd } = \frac{\sigma}{\sqrt{n}})\)
  • Если у нас есть случайная переменная, то многие выборочные статистики будут следовать нормальному распределению с тем же самым средним, но меньшей дисперсией (стандартным отклонением)
    • выборочные средние, \(\bar{X}\)
    • выборочные пропорции, \(\bar{P}\)
    • разница выборочных средних, \(\bar{X_1} - \bar{X_2}\)
    • разница выборочных пропорции, \(\bar{P_1} - \bar{P_2}\)

Точечная оценка и Интервальная оценка

  • Точечная оценка - это просто одно число
    • Например, мы взвесили 100 мужчин из Астаны и выяснили, что их средний вес - 75 килограм. 75 килограм - это точечная оценка веса среднего веса всех мужчин Астаны.
  • Интервальная оценка - это, как не сложно догадаться, интервал значений
    • Например, вместо 75 килограм, мы могли бы взять 75 +/- 5 килограмм: [70, 80]
    • Насколько вероятно, что наш интервал будет содержать в себе истинное популяционное среднее?

Правило 3 Сигм

Расстояние от среднего

  • У нас есть стандартная нормальная переменная, \(Z\sim N(0, 1)\)
  • Как много наблюдений лежит в пределах 1-го стандартного отклонения от среднего.

\[ P(Z < -1\textrm{ ИЛИ } Z > 1) = P(Z < - 1) + P(Z > 1) = \\ F_Z(-1) + [1 - F_Z(1)] = \\ \int_{-\infty}^{-1}\frac{1}{\sqrt{2\pi}}e^{-z^2/2}dz + \int_{1}^{\infty}\frac{1}{\sqrt{2\pi}}e^{-z^2/2}dz = \\ \textrm{ pnorm(-1, mean = 0, sd = 1)} + \textrm{pnorm(1, mean = 0, sd = 1, lower.tail = FALSE)} \]

В виде кода

pnorm(-1, mean = 0, sd = 1) + # считает, вероятность быть меньше -1
  pnorm(1, mean = 0, sd = 1, lower.tail = FALSE) # вероятность быть больше 1
[1] 0.3173105

Расстояние от среднего

  • Как много наблюдений лежит в 2 стандартных отклонений от среднего для \(Z\sim N(0, 1)\)
pnorm(-2, mean = 0, sd = 1) + pnorm(2, mean = 0, sd = 1, lower.tail = FALSE)
[1] 0.04550026
pnorm(-2, mean = 0, sd = 1)*2
[1] 0.04550026

Расстояние от среднего

  • Сколько стандартных отклонений мы должны “пройти”, чтобы охватить 95% наблюдений

\[ P(-z < Z < z) = 95\% \\ 1 - P(Z > z \cup Z < -z ) = 95\% \\ 1 - P(Z > z) - P(Z < - z) = 95\% \\ 2*P(Z < - z) = 5\% \\ P(Z < - z) = 2.5\% \\ \]

qnorm(0.025, mean = 0, sd = 1) %>% abs()
[1] 1.959964

Пример: Гендерные предубеждения

  • Исследователь разослал 200 вымышленных резюме по объявлениям о приеме на работу.

  • Резюме абсолютно идентичны, за исключением того, что половина из них представляет якобы составлена мужчиной, а половина - женщиной

  • 23 мужских резюме получили звонок от работодателя; женщинам звонили только в 8 случаев

  • Предположим, что разница двух выборочных пропорций нормально распределена со средним значением, равным истинной разнице между популяциями, и дисперсией, равной 3,5%

  • Мы знаем, что наша точечная оценка вряд ли попадет в реальную разницу между двумя популяциями. Но что если мы придумаем интервал, который будет содержать истинный параметр с некоторой желаемой вероятностью.

Что мы имеем

  • У нас есть точечная оценка: \(\Delta p= \hat{p}_{male} - \hat{p}_{female} = 15\%\)
  • Связанная с ней переменная нормально распределена: \(\Delta P \sim N(\textrm{ истинная разница }, 3.5\%)\)
  • Что мы могли бы сделать?
    • Если бы мы знали истинную разницу между популяционными пропорциями, мы бы могли, скажем, пойти на 2 стандартных отклонения в обе стороны и охватить 95% наблюдений
    • Но что, если мы посмотрим на вещи с точки зрения точечной оценки?
    • Истинный популяционный параметр, где-то рядом. Если мы хотим встретить его с 95% вероятностью, нам надо пройти 1.96 стандартных отклонения в обоих направлениях

Пример

  • \(\hat{p} = 15\%, SE_{\hat{P}} = 3.5\%\)
  • \(z^*_{95\%} = \textrm{ qnorm(0.025, 0, 1) %>% abs() } = 1.96\)
  • 95% CI: \(\hat{p} \pm z^{*}\times SE = 15\% \pm 1.96*3.5\% = (8.14, 21.86)\)
  • Интерпретация: мы знаем, что 95% всех оценок реальной разницы в пропорциях лежит в 1.96 стандартных отклонениях от истинного параметра
  • То есть 95% всех интервалов сконструированных подобным образом будут “содержать” истинный параметр
  • Мы на 95% уверены, что интервал \((8.14, 21.86)\) содержит реальную разницу
  • Мы могли бы коммуницировать результаты так:
    • Мы оценили реальную разницу между пропорцией звонков кандидатам в пределах \(8.14\%\) до \(21.86\%\) на \(95\%\) доверительном уровне
      • Что также значит, что существует \(5\%\) шанс ошибки

Общая формула для доверительного интервала

  • Доверительный интервал для популяционного среднего: выборочное средне плюс-минус погрешность \[CI_{\alpha}: \bar{x} \pm z^*\times SE = \bar{x} \pm z^{*}\times \frac{\sigma}{\sqrt{n}}\]

  • \(\bar{x}, \sigma, n\) считается на выборке

    • мы только выбираем \(z^{*}\)
    • Обычно работают с уровнями: 90%, 95%, или 99%
qnorm(0.05, 0, 1) %>% abs() # z-score for 90% CI
[1] 1.644854
qnorm(0.025, 0, 1) %>% abs() # z-score for 95% CI
[1] 1.959964
qnorm(0.005, 0, 1) %>% abs() # z-score for 99% CI
[1] 2.575829

Доверительный интервал

library(tidyverse)
# Берем 5000 наблюдений за Бернулиевой случайной переменной с вероятностью успеха 0.3. Это будет нашей популяции.
population <- rbinom(50000, size = 1, prob = 0.3)
true_p <- 
  population %>% mean()
z_score <- 1.96
# Берем 1000 выборок из популяции, каждая размером в 100 наблюдений
n <- 100
samples <- 
  lapply(1:1000, 
         function(x) sample(population, n, replace = TRUE)) 
# Считаем пропорции
sample_props <- sapply(samples, mean)
# Смотрим насколько далеко наши выборочные пропорции "уходили" от истинной пропорции
temp <- (sample_props - true_p) %>% abs() 
ME <- z_score*sqrt(true_p*(1 - true_p)/n)
temp2 <- (temp < ME)
table(temp2) %>% prop.table()
temp2
FALSE  TRUE 
0.046 0.954 

Выборка и точность

  • Если мы заранее знаем погрешность, с которой хотим работать, можно расчитать минимально необходимый размер выборки

\[ME = z* \frac{s}{\sqrt{n}} \rightarrow n = (\frac{z*s}{ME})^2\]

Пример

  • Группа исследователей хочет проверить влияние длинного коммьюта (регулярной поездки на работу) на уровень тревожности.
  • Они оценивают концентрацию кортизола комьютеров. Из предыдущих исследований, они знают, что стандартное отклонение концентрации кортизола у взрослых составляет 3 единицы (микрограмма на децилитр).
  • Сколько взрослых должны обследовать исследователи, чтобы получить 99% доверительный интервал с погрешностью, равной 1 единице?
  • Или, другими словами, сколько взрослых должны взять исследователи, чтобы быть на 99% уверенными в том, что истинный параметр находится в пределах 1 единицы от их точечной оценки

Что у нас есть

  • \(ME = 1; \sigma = 3; CL = 99\% \rightarrow z^{*} = 2.56\)
qnorm(0.99, 0, 1) %>% round(2)
[1] 2.33
qnorm(0.995) %>% round(2)
[1] 2.58
  • Немного алгебры и мы знаем размер выборки
    \[ ME = z^{*}\times \frac{\sigma}{\sqrt{n}} \\ n = (\frac{z^{*}\times \sigma}{ME})^2 = (\frac{2.56\times3}{1})^2 = 58.98 \]
  • Как минимум 59 наблюдений

Другой пример

  • Мы нашли, что нам нужно как минимум 59 человек в выборке, чтобы обеспечить погрешность в 1 единицу. Насколько мы должны увеличить нашу выборку, если мы хотим снизить погрешность до 0.5 единиц? \[ \frac{1}{2} ME = \frac{z^{*}\times \sigma}{\sqrt{n}}\frac{1}{2} \\ \frac{1}{2} ME = \frac{z^{*}\times \sigma}{\sqrt{4n}} \\ 4n = 59*4 = 236 \]
  • В целом, чем больше выборка, тем меньше погрешность, но связь не линейная \[ ME \sim \frac{1}{\sqrt{n}} \textrm{ or } \\ n \sim \frac{1}{ME^2} \]

Проверка Гипотез

Пример

  • Предположим, что ваш друг утверждает, что студенты, занимающиеся спортом, имеют лучшие оценки, чем все студенты в среднем.
  • Вы скептически относитесь к его утверждению и решаете проверить его.
  • Вы опрашиваете 100 случайных студентов, занимающихся спортом, об их GPA, и среднее значение для этой выборки оказывается равным 3.4 балла.
  • Кроме того, из университетских документов вы знаете, что средний GPA составляет 3.3 балла, а стандартное отклонение - 0.3 балла
  • Можете ли вы утверждать, что данные убедительно доказывают, что студенты, занимающиеся спортом, имеют лучшие оценки, чем все студенты в среднем?

Пример

  • Формализуем вводные: есть случайная переменная \(X\) которая дает GPA случайного студента. Ее распределение не известно \(X \sim Any(\mu, \sigma)\)
  • Мы берем 100 случайных студент_ов/ок, которые занимаются спортом и расчитываем их среднее GPA, это другая случайная переменная, которую мы обозначаем, \(\bar{X}\). Из центральной предельной теоремы, мы знаем \(\bar{X} \sim N(\mu_{sport}, \frac{\sigma}{\sqrt{n}})\)
  • Одно предположение состоит в том, что у спорстменов GPA должен быть выше чем в среднем по всем студентам
    • \(\mu_{sport} > 3.3\)
  • Противоположенное предположение состоит в том, что между ними нет разницы, то есть спортсмены имеют такую же среднюю успеваемость как и студенты в целом
    • \(\mu_{sport} = 3.3\)
  • Как мы можем проверить, какое из утверждений более правдоподобно?

Гипотезы

  • Нулевая гипотеза - \(H_{0}\) - как правило представляет скептическое утверждение или утверждение, которое мы хотим проверить
    • Например, подсудимый НЕ виновен; студенты-спорстмены учатся НЕ лучше чем студенты в целом
  • Альтернативная гипотеза - \(H_{A}\) - представляет альтернативу нулевой \(H_{0}\)
    • Подсудимый виновен; студенты-спортсмены учатся лучше чем студенты в целом

Проверка гипотез

  • Гипотезы должны быть взаимно исключающими и коллективно исчерпывающими
    • Подсудимый либо НЕ виновен (\(H_{0}\)), либо виновен (\(H_{A}\)) - третьего не дано
    • Студенты-спортсмены учаться НЕ лучше чем студенты в целом (\(H_{0}\)) ИЛИ они учаться лучше (\(H_{A}\))
  • Главная идея: \(H_{0}\) всегда считается истинной, пока не доказана альтернатива \(H_{A}\)
    • Например, подсудимый всегда НЕ виновен по умолчанию (презумпция невиновности) пока нет убедительных доказательств его вины
    • Студенты-спортсмены учатся НЕ лучше студентов в целом, пока нет убедительных доказательств их превосходства

Проверка гипотез: концептуально

  • Анализ данных - это все про скептицизм: если человек делает невероятное заявление, мы изначально настроены скептически
  • Если есть достаточные доказательства в поддержку заявления, мы отбрасываем наш скептицизм и отвергаем нулевую гипотезу в пользу альтернативной
  • Представляем, что нулевая гипотеза является истинной,
  • Спрашиваем, насколько вероятно среднее значение выборки при таком сценарии
  • Если среднее значение выборки маловероятно, мы отвергаем нулевую гипотезу в пользу альтернативной гипотезы
  • Если среднее значение выборки вероятно, мы не отвергаем нулевую гипотезу

Пример

  • Вернемся к нашим студентам-спортсменам
  • Мы имеем: \(\bar{x} = 3.4, \sigma = 0.3, n = 100\)
  • Мы могли построить \(95\%\) доверительный интервал

\[ \bar{x} \pm z^{*}_{95\%}\times\frac{\sigma}{\sqrt{n}} = 3.4 \pm 1.96\times\frac{0.3}{10} = \\ 3.4 \pm 1.96\times0.03 \approx (3.34, 3.45) \]

Доверительный интервал

  • Окей, у нас есть интервал \((3.34, 3.45)\). Что он может нам сказать?

  • Подтверждают ли наши данные гипотезу о том, что студенты-спортсмены учатся лучше чем студенты в целом?

  • \(H_{0}: \mu = 3.3\); \(H_{A}: \mu > 3.3\)

  • \(\mu = 3.3 \notin (3.34, 3.45) \implies H_{0} \textrm{ отвергнута }\)

  • Наш доверительный интервал содержит истинное среднее с вероятностью \(95\%\), то есть параметр, который мы оцениваем, оказывается за пределами интервала только в \(5\%\) случаев

    • В целом неплохо, но немного коряво (работать с интервалами)

P-значение (p-value)

  • P-значение это вероятность наблюдать данные как наши, при условии, что нулевая гипотезы верна

    \[ P(\bar{X} > 3.4|H_{0} \textrm{ is TRUE}) \\ P(\bar{X} > 3.4)| H_{0}:\mu = 3.3) \\ \bar{X} \sim N(\mu = 3.3, SE = 0.03) \\ z = \frac{\bar{x} - \mu}{SE} = \frac{3.4 - 3.3}{0.03} \approx 3.33 \\ P(Z > 3.33) \approx 0.0004\% \]

Теперь в R

round(1 - pnorm(3.33, mean = 0, sd = 1), 5)
[1] 0.00043

Интепретация

  • p-значение - это вероятность наблюдения в пользу альтернативной гипотезы (\(H_{A}\)) при условии, что нулевая гипотеза (\(H_{0}\)) верна.
  • Если p-значение меньше некоего уровня значимости (\(\alpha\)), мы говорим, что если нулевая гипотеза была верна, то наблюдать значения подобные нашим было бы крайне маловероятно и потому мы отвергаем \(H_{0}\)
  • Если p-значение выше \(\mathbf{\alpha}\) мы говорим, что наблюдать значения подобные нашим достаточно вероятно, если нулевая гипотеза верна, и потому НЕ отвергаем \(H_{0}\)

Как принимается решение

  • Наше p-значение достаточно мало: маловероятно увидеть такое выборочное среднее, как у нас, если бы студенты-спортсмены имели такой же средний балл, как и средний студент.
  • Мы отвергаем \(H_{0}\). Если на самом деле студенты-спортсмены имеют такой же средний балл, как и средний студент, то вероятность того, что случайная выборка из 100 студентов даст среднее выборочное значение 3.4 или больше, составляет 0.04%

Recap

  • p-value was small (smaller than \(1\%\)), we rejected \(H_{0}\)
  • We say that the data provide convincing evidence that sport students have higher GPA than an average student
  • The difference between the null value of 3.3 points and the observed sample mean of 3.4 hours is not due to chance or sampling variability

1 and 2-sided tests

  • In the example above, we asked if one parameter is larger than another (\(\mu_{sport} > \mu_{all}\)). What if we asked if they are not equal (\(\mu_{sport} \neq \mu_{all}\))
  • That might happen in two cases, either \(\mu_{sport} > \mu_{all}\) or \(\mu_{sport} < \mu_{all}\)
  • Such hypothesis tests are called 2-sided or 2-tailed
  • The definition of a p-value is the same.
  • The calculation is a bit different: you need to consider at least as extreme as the observed outcome in both directions

2-sided p-values

\[p\_value = P(\overline{X} < 6.9 \textrm{ OR }\overline{X} > 7.1|H_{0}\textrm{ is TRUE}) = \\ P(X < 6.9) + P(X > 7.1) = 2 \times 0.25 = 0.5\]

Hypothesis testing for a single mean

  1. Set the hypotheses
    • \(H_{0}: \mu = \textrm{ null value }\)
    • \(H_{A}: \mu < \textrm{ or } > \textrm{ or } \neq \textrm{ null value }\)
  2. Calculate the point estimate: \(\overline{x}\)
  3. Draw sampling distribution as if \(H_{0}\) is true ~ null distribution, calculate z-score of the observed mean, identify how likely is the observation under the null distribution
    • \(z = \frac{\overline{x} - \mu_{0}}{SE_{0}}, SE_{0} = \frac{sd}{\sqrt{n}}, P(Z > |z||H_{0}) = p\_value\)
  4. Interpret:
    • if \(p\_value < \alpha\), reject \(H_{0}\), the data provide convincing evidence for \(H_{A}\)
    • if \(p\_value > \alpha\), fail to reject \(H_{0}\), the data do not provide convincing evidence for \(H_{A}\)

Exercise

  • A student investigates learning practices of her fellow students. She collected data from a random sample of 100 students and asked how many hours per week they self-study. The average value for the sample is 10.3
  • It is also known from the previous research that on average students in Kazakhstan self-study 9.8 hours per week with standard deviation being 2 hours
  • Perform a hypothesis test to evaluate if the student’s data provide convincing evidence that the average student at NU self-study more than the average student in Kazakhstan. Use a significance level of \(\alpha = 0.01\)

\[ H_{0}: \mu_{NU} = 9.8 = \mu_{KZ}\\ H_{A}: \mu_{NU} > 9.8 = \mu_{KZ} \]

Let’s draw this distribution

  • If \(H_{0}\) were true, \(\overline{X}_{NU} \sim N(\mu = 9.8, SE = \frac{sd}{\sqrt{n}} = \frac{2}{\sqrt{100}} = 0.2)\)

https://homepage.divms.uiowa.edu/~mbognar/applets/normal.html

  • \(z = \frac{10.3 - 9.8}{0.2} = 2.5\)

  • \(P(\overline{X} > 10.3|H_{0}: \overline{X} \sim N(\mu = 9.8, SE = 0.2)) = P(Z > 2.5|H_{0}) \approx 0.006 < \alpha = 0.01\)

  • \(p\_value < \alpha\) hence reject the \(H_{0}\) and accept \(H_{A}\)

One 1-sided and 2-sided tests

  • In the example above, we did a 1-sided test: \(\mu_{NU} > \mu_{KZ}\), that the average self-study time of NU students is larger than that of Kazakhstani students
  • Suppose we wanted to test if \(\mu_{NU} \neq \mu_{KZ}\), that is the claim that the average self-study time of NU students is other than that of Kazakhstani students

\[ P(Z < -2.5 \textrm{ OR } Z > 2.5| H_{0} \textrm{ is true}) = \\ P(\overline{X} < 9.3 \textrm{ OR } \overline{X} > 10.3| H_{0} \textrm{ is true}) \\ \approx 2 \times 0.006 = 0.012 > 0.01 = \alpha \]

  • Hence, we fail to reject the \(H_{0}\) and say that data do not provide convincing evidence that the average self-study time of NU students is different from that of Kazakhstani students at the \(99%\) confidence level - If \(H_{0}\) were true, \(1.2%\) of random samples of the size 100 would yield sample means \(2.5\) standard deviations away from the mean

Визуально

Inference for other estimators

Nearly normal sampling distributions

  • sample mean \(\overline{X} \sim N\)
  • difference between sample means \(\overline{X_1} - \overline{X_2} \sim N\)
  • sample proportion \(\hat{P} \sim N\)
  • difference between sample proportions \(\hat{P_1} - \hat{P_2} \sim N\)

Unbiased estimator general framework

  • An unbiased estimator is an estimator which distribution has the same center as the true population distribution

  • Confidence intervals for nearly normal estimators \[\textrm{point estimate} \pm z^{*} \times SE\]

  • Hypothesis testing for nearly normal estimators \[z = \frac{\textrm{point estimate - null value}}{SE}\]

Стандартное отклонение выборочной статистики

  • The hardest part is to find \(SE\) of an estimator, because it varies for different estimators
    • e.g. SE of the sample mean: \(SE(\overline{X}) = \frac{sd}{\sqrt{N}}\)
    • but the sample proportion: \(SE(\hat{P}) = \sqrt{\frac{p_0*(1-p_0)}{N}}\)
  • For now, we will work with the general framework, assuming the we know \(SE\)

Example 1

Consider the following question: How many immigrants lived in Germany in 2017

  1. 15%
  2. 20%
  3. 25%

Write down your answer and tell me

Example 1

The correct answer is

  1. 15%, according to a UN report

Example 1

Now suppose I have made a poll asking this question among 400 randomly selected NU students and figured that 150 or \(37.5\%\) of them gave the right answer. The standard error of the estimate is \(2\%\). Does these data provide convincing evidence that the average NU student does better than a random choice at at a significance level of \(\alpha = 0.01\)

A bit of math before

  • \(\hat{P}_n = \frac{Y}{n}\) - random variable proportion of “successes” in n trials

    • estimates true and unknown population proportion \(p_{true}\)
  • When we do hypothesis testing we assume that the true population proportion is equal to some hypothecial value \(p_{true} = p_{0}\), and we want to test how likely it is

    but \(Y \sim Bi(p_0, n)\) which means \(E[Y] = p_{0}n\) and \(var(Y) = p_{0}(1-p_{0})n\)

A bit of math before

  • What is the expected value of \(\hat{P}_n\) \[ E[\hat{P}_n] = E\big[\frac{Y}{n}\big] = \frac{1}{n}E[Y]=\frac{p_0n}{n} = p_{0} \]
  • What is the variance of \(\hat{P}_n\) \[ var(\hat{P}_n) = var\big( \frac{Y}{n} \big) = \frac{1}{n^2}var(Y) = \frac{p_{0}(1-p_{0})n}{n^2} = \frac{p_{0}(1-p_{0})}{n} \]

A bit of math before

  • Hence the sd of \(\hat{P}_n\) is \[ sd(\hat{P}_n) = \sqrt{\frac{p_{0}(1-p_{0})}{n}} \]
  • I told you that sd in the example is 2%, let’s check it \[ sd(\hat{P}_n) = \sqrt{\frac{0.33(1-0.33)}{400}} \approx 0.02 \]

Let R confirm it

p0 <- 0.33
n <- 400
se <- (p0*(1-p0)/n) %>% sqrt()
se
[1] 0.02351064

Example 1

Now suppose I have made a poll asking this question among 400 randomly selected NU students and figured that 150 or \(37.5\%\) of them gave the right answer. The standard error of my estimate is about \(2.4\%\). Does these data provide convincing evidence that the average NU student does better than a random choice at a significance level of \(\alpha = 0.01\)

Example 1: Решение

  1. Set the hypotheses

\[ H_{0}: p_{NU} = 0.33 = p_{0} \\ H_{A}: p_{NU} > 0.33 = p_{0} \]

  1. Calculate the point estimate: \(\hat{p} = 0.375\)

  2. Calculate the z-score and p-value

\[ z = \frac{\hat{p} - p_0}{SE} = \frac{0.375 - 0.333}{0.024} = \frac{0.042}{0.024} = 1.75 \\ p\_value = P(Z > 1.75|H_0) \approx 0.04\% > 0.01 = \alpha \implies \textrm{fail to reject } H_0 \]

pnorm(1.75, mean = 0, sd = 1, lower.tail = FALSE)
[1] 0.04005916

Заключительный шаг

  1. These data DO NOT provide convincing evidence that the average NU student does better than the random choice

The same problem with R

  • Meet a new function, prop.test(). prop.test() tests the null hypotheses that the proportions are the same or that they equal to certain given values
test <- prop.test(150, n = 400, p = 0.33, 
          alternative = "greater", 
          conf.level = 0.99)
test

    1-sample proportions test with continuity correction

data:  150 out of 400, null probability 0.33
X-squared = 3.4628, df = 1, p-value = 0.03138
alternative hypothesis: true p is greater than 0.33
99 percent confidence interval:
 0.3195126 1.0000000
sample estimates:
    p 
0.375 
test$p.value < 0.01
[1] FALSE

We can also change parameters of the test

another_test <- prop.test(150, n = 400, p = 0.33, 
          alternative = "two.sided", 
          conf.level = 0.95)
another_test

    1-sample proportions test with continuity correction

data:  150 out of 400, null probability 0.33
X-squared = 3.4628, df = 1, p-value = 0.06276
alternative hypothesis: true p is not equal to 0.33
95 percent confidence interval:
 0.3277503 0.4246901
sample estimates:
    p 
0.375 

Two proportions

  • \(\hat{P}_1\) and \(\hat{P}_2\) - proportions in two groups, \(n_1, n_2\)
    • \(\hat{P}_1 = 0.23\) and \(\hat{P}_2 = 0.08\)
    • \(n1 = 100\) and \(n2 = 100\)
  • Let’s introduce a new random variable \(\Delta \hat{P} = \hat{P}_1 - \hat{P}_2\)
  • What is the expectation of this new variable \[ E[\Delta \hat{P}] = E[\hat{P}_1 - \hat{P}_2] = \\ E[\hat{P}_1] - E[\hat{P}_2] = p_1 - p_2 \]

What is the variance of this new variable \[ var(\Delta \hat{P}) = var(\hat{P}_1 - \hat{P}_2) = \\ var(\hat{P}_1) + var(\hat{P}_2) = \frac{p_1(1 - p_1)}{n_1} + \frac{p_2(1 - p_2)}{n_2} \\ sd(\Delta \hat{P}) = \sqrt{\frac{p_1(1 - p_1)}{n_1} + \frac{p_2(1 - p_2)}{n_2}} \]

Pulled proportion

  • Suppose we want to test \(H_0: \hat{P}_1 = \hat{P}_2\)
  • This is the same as \(H_0: \Delta\hat{P} = 0\)

This also means that \(p_1 = p_2\), let’s denote them as \(p_0\), which implies that the variance and sd of \(\Delta \hat{P}\) are \[ var(\Delta \hat{P}) = \frac{p_0(1-p_0)}{n1} + \frac{p_0(1-p_0)}{n2}\\ sd(\Delta \hat{P}) = SE = \sqrt{\frac{p_0(1-p_0)}{n1} + \frac{p_0(1-p_0)}{n2}} \\ \textrm{where } p_0 = \frac{n_1p_1 + n_2p_2}{n1 + n2} \]

With all these together \[ H_0: \Delta\hat{P} = 0 \\ H_A: \Delta\hat{P} \neq 0 \\ \Delta\hat{P} \sim N(0, \sqrt{\frac{p_0(1-p_0)}{n1} + \frac{p_0(1-p_0)}{n2}}) \]

Let’s calculate things \[ p_0 = \frac{p1+p2}{2} = \frac{0.23 + 0.08}{2} = 0.155 \\ sd(\Delta \hat{P}) = \sqrt{\frac{2(0.155)(1 - 0.155)}{100}} \approx 0.05 \\ z = \frac{0.15 - 0}{0.05} = 3 \\ P(Z > |3|) \approx 0.02 \]

А теперь в R

two_prop_test <-
  prop.test(c(23, 8), c(100, 100))
two_prop_test

    2-sample test for equality of proportions with continuity correction

data:  c(23, 8) out of c(100, 100)
X-squared = 7.4823, df = 1, p-value = 0.006231
alternative hypothesis: two.sided
95 percent confidence interval:
 0.0418647 0.2581353
sample estimates:
prop 1 prop 2 
  0.23   0.08 

Example 2

A student collected ENT and gender data from 5000 randomly selected high-school students in Kazakhstan. The average UNT score for the 2465 boys in the sample was \(70.5\%\) and the average score for girls was \(72.3\%\). The standard error for the difference between the average boy and girl scores is \(0.9\). Do these data provide convincing evidence that girls do better on UNT than boys at a \(\alpha = 0.05\) significance level. Assume that the distribution of the point estimate is nearly normal

Example 2

A student collected ENT and gender data from 5000 randomly selected high-school students in Kazakhstan. The average UNT score for the 2465 boys in the sample was \(70.5\%\) and this value was \(72.3\%\) for the 2535 girls. The standard error for the difference between the average boy and girl scores was \(0.9\). Do these data proivde convincing evidence that girls do better on UNT than boys at a \(\alpha = 0.05\) significance level. Assume that the distribution of the point estimate is nearly normal

  1. Set the hypotheses

\[ H_{0}: \mu_{girls} = \mu_{boys} \\ H_{A}: \mu_{girls} > \mu_{boys} \\ \textrm{null value} = \mu_{girls} - \mu_{boys} = 0 \]

  1. Calculate the point estimate \[ \overline{x}_{girls} - \overline{x}_{boys} = 72.3 - 70.5 = 1.8 \]

  2. Calculate z-score and p-value \[ z = \frac{1.8}{0.9} = 2 \\ p\_value = P(Z > 2|H_0) \approx 0.02 < \alpha = 0.05 \implies \textrm{reject } H_0 \]

  3. These data provide convicing evidence that the average ENT score of girls is higher than that of boys

Decision errors

TRUTH\Decision not reject \(H_{0}\) reject \(H_{0}\)
\(H_{0}\) is true OK Type 1 Error
\(H_{A}\) is true Type 2 Error OK
  • Type 1 Error: rejecting \(H_{0}\) when \(H_{0}\) is true
  • Type 2 Error: not rejecting \(H_{0}\) when \(H_{A}\) is true

Example

  • In RP assignment, your work is either original (\(H_0\)) or a plagiarism (\(H_A\)). What does a Type 1 Error represent in this context? What does a Type 2 Error represent?
    • Type 1 error: Punishing the innocent, \(H_{0}\) is true, but is wrongly rejected: your work is original, but I decided it is a plagiarism
    • Type 2 error: Not punishing the guilt, \(H_{A}\) is true, but \(H_{0}\) is not rejected: your work is plagiarised, but I decided it’s original
  • How could we reduce the Type 2 Error rate in my decision process? What influence would this have on the Type 1 Error rate?
    • To lower the Type 2 Error rate, we want to detect more plagiarised works. I could be more strict and treat any little sign of plagiarism is if the whole work is plagiarised from “beyond a reasonable doubt” to “beyond a little doubt”
    • Being more strict on you will also result in more wrongful convictions, raising the Type 1 Error rate

P-values and decision errors

TRUTH\Decision not reject \(H_{0}\) reject \(H_{0}\)
\(H_{0}\) is true \(1 - \alpha\) \(\alpha\)
\(H_{A}\) is true Type 2 Error, \(\beta\) \(1 - \beta\)
  • Confidence level = 1 - significance level