Введение в статистику

Дархан Медеуов

Введение в статистику

План курса

  • Структура курса: Цели, Задания, Условия, Ресурсы и прочее

  • Табличные данные = Наблюдения + Переменные

  • Типы переменных: количественные и качественные

  • Типы статистических связей: корреляция и причинно-следственная связь

  • Генерализация: разница между выборкой (sample) и популяцией (population)

Цели Курса

  • Цель 1. Знакомоство с математическими основами статистики и теории вероятностей

    • Наука о данных (data science) разговаривает языком статистики, чтобы говорить о данных, важно знать и понимать ключевые термины статистики и теории вероятностей
  • Цель 2. Дать вам компетенции для чтения научных статей

  • Цель 3. Дать вам компетенции для собственной исследовательской работы

Логистика и задания

  • Каждую неделю по вторникам у нас будут лекции (~3 часа)

  • К концу каждой недели вы должны будете сделать домашнее задание на datacamp

  • Задания будут приблизительно покрывать те идеи и концепты, которые мы будем разбирать на лекциях

  • Вроде все

Начнем

Данные. Что это?

  • Давайте начнем с небольшого обсуждения. Что такое, по вашему, данные?

  • Один из способов думать о данных - это принять их буквальное значение: коллекция точек (data). Под точками понимаются интересующие нас объекты, например, люди, аудиозаписи, образцы крови и т.д.

  • Обычно мы называем подобные данные необработанными

  • Статистические методы обычно работают с конкретным представлением данных, называемым матрицей данных или таблицей данных

Пример данных

                     mpg cyl  disp  hp drat    wt  qsec vs am gear carb
Mazda RX4           21.0   6 160.0 110 3.90 2.620 16.46  0  1    4    4
Mazda RX4 Wag       21.0   6 160.0 110 3.90 2.875 17.02  0  1    4    4
Datsun 710          22.8   4 108.0  93 3.85 2.320 18.61  1  1    4    1
Hornet 4 Drive      21.4   6 258.0 110 3.08 3.215 19.44  1  0    3    1
Hornet Sportabout   18.7   8 360.0 175 3.15 3.440 17.02  0  0    3    2
Valiant             18.1   6 225.0 105 2.76 3.460 20.22  1  0    3    1
Duster 360          14.3   8 360.0 245 3.21 3.570 15.84  0  0    3    4
Merc 240D           24.4   4 146.7  62 3.69 3.190 20.00  1  0    4    2
Merc 230            22.8   4 140.8  95 3.92 3.150 22.90  1  0    4    2
Merc 280            19.2   6 167.6 123 3.92 3.440 18.30  1  0    4    4
Merc 280C           17.8   6 167.6 123 3.92 3.440 18.90  1  0    4    4
Merc 450SE          16.4   8 275.8 180 3.07 4.070 17.40  0  0    3    3
Merc 450SL          17.3   8 275.8 180 3.07 3.730 17.60  0  0    3    3
Merc 450SLC         15.2   8 275.8 180 3.07 3.780 18.00  0  0    3    3
Cadillac Fleetwood  10.4   8 472.0 205 2.93 5.250 17.98  0  0    3    4
Lincoln Continental 10.4   8 460.0 215 3.00 5.424 17.82  0  0    3    4
Chrysler Imperial   14.7   8 440.0 230 3.23 5.345 17.42  0  0    3    4
Fiat 128            32.4   4  78.7  66 4.08 2.200 19.47  1  1    4    1
Honda Civic         30.4   4  75.7  52 4.93 1.615 18.52  1  1    4    2
Toyota Corolla      33.9   4  71.1  65 4.22 1.835 19.90  1  1    4    1
Toyota Corona       21.5   4 120.1  97 3.70 2.465 20.01  1  0    3    1
Dodge Challenger    15.5   8 318.0 150 2.76 3.520 16.87  0  0    3    2
AMC Javelin         15.2   8 304.0 150 3.15 3.435 17.30  0  0    3    2
Camaro Z28          13.3   8 350.0 245 3.73 3.840 15.41  0  0    3    4
Pontiac Firebird    19.2   8 400.0 175 3.08 3.845 17.05  0  0    3    2
Fiat X1-9           27.3   4  79.0  66 4.08 1.935 18.90  1  1    4    1
Porsche 914-2       26.0   4 120.3  91 4.43 2.140 16.70  0  1    5    2
Lotus Europa        30.4   4  95.1 113 3.77 1.513 16.90  1  1    5    2
Ford Pantera L      15.8   8 351.0 264 4.22 3.170 14.50  0  1    5    4
Ferrari Dino        19.7   6 145.0 175 3.62 2.770 15.50  0  1    5    6
Maserati Bora       15.0   8 301.0 335 3.54 3.570 14.60  0  1    5    8
Volvo 142E          21.4   4 121.0 109 4.11 2.780 18.60  1  1    4    2

from mtcars

Что такое матрица данных? Наблюдения

Табличные данные подразумевают, что каждая строка соответствует наблюдению (observation), а каждый столбец — переменной (variable)

Наблюдение — это единица анализа, то есть одна единица того, что вам интересно изучить. Например, наблюдения в таблице могут соответствовать

  • студенту
  • тесту, написанному студентом
  • покупкой в магазине, итд

Переменные

Переменная — это характеристика которая может меняться от наблюдения к наблюдению. Например,

  • специальность студента
  • оценка за тест
  • время покупки

Переменные могут быть численными (numerical) и категориальными (categorical)

  • численные: возраст, вес, артериальное давление, и т.д.

  • категориальные: цвет глаз, степень прожарки (стейка), удовлетворенность

Численные переменные

  • Численные переменные можно складывать, умножать, делить и т.п. Численные переменные делятся на

  • непрерывные (continuous), которые могут принимать любые значения в рамках какого-то интервала. Например, высота в см, температура в градусах и т.д.

  • И дискретные (discrete), которые могут принимать только целые значения. Например, число человек в очереди, число дтп за указанный месяц в Астане, и т.д.

Категориальные переменные

  • Категориальные переменные принимают значения из ограниченного множества категорий, или уровней.

  • Категориальные переменные бывают номинальными (nominal) и порядковыми (ordinal)

  • В номинальных уровни не упорядочены. Например, цвет глаз, группа крови, специальность, пол.

  • Ординальные переменные могут быть упорядочены. Например, степени готовности стейка; степени удовлетворенности услугами

Будьте бдительны

  • Вопрос: Оценка за IELTS, это числовая или категориальная переменная?

  • Если кто-то сдал экзамен на 1, а кто-то на 9, значит ли, что вместе они знают английский на 10?

  • Категориальные переменные могут быть выражены числами!!

  • Но они не становятся от этого числовыми. Реальные числовые переменные можно складывать, умножать и т.д. Категориальные переменные - нельзя.

Немного упражнений

  • Я описываю переменную, а вы говорите к какому типу она относится.

  • Число браков в Астане за январь.

  • Рост случайно выбранного Казахстанца.

  • Группа крови случайного выбранного Казахстанца

  • Оценка за школьный диктант

Немного упражнений. Ответы.

  • Число браков в Астане за январь. Числовая дискретная.

  • Рост случайно выбранного Казахстанца. Числовая непрерывная.

  • Группа крови случайного выбранного Казахстанца. Номинальная.

  • Оценка за школьный диктант. Порядковая.

Задача.

Исследователи провели эксперимент на 160 детях в возрасте от 5 до 15 лет. Участники указали возраст и пол. Каждый ребенок бросал монетку и записывал результат (белый или черный). Вознаграждали только тех детей, у которых выпал белый. Половине учеников было прямо сказано не обманывать, а остальным не было дано никаких прямых указаний. В контрольной группе мальчики и девочки врали с одинаковой вероятностью. В экспериментальной группе девочки врали реже, и если у мальчиков частота вранья не зависела от возраста, то у девочек она уменьшалась с возрастом. (OpenIntro Statistics 2018:19)

Вопросы

  • Каков исследовательский вопрос в этом примере?

  • Что является наблюдением в этом исследовании. Как много наблюдений зафиксировано?

  • Как много переменных? Укажите переменные и их типы.

Ответы

  • Каков исследовательский вопрос в этом примере?

    • Например, как прямые инструкции не врать, влияют на вероятность вранья среди детей от 5 до 15 лет
  • Что является наблюдением в этом исследовании. Как много наблюдений зафиксировано?

    • Ребенок от 5 до 15 лет. 160 наблюдений

Переменные

  • Пол: номинальная

  • Возраст: числовая дискретная

  • Получил ли инструкцию не врать: номинальная

  • Врал или не врал: номинальная

Связи между переменными

  • Анализ данных, если упрощять, это про нахождения связей между переменными

  • Две переменные считаются связанными, если зная значение одной, вы можете кое-что сказать о возможном значении другой

  • Например, каков рост случайно взятого человека? Да кто его знает?

  • Но, каков рост случайно взятого игрока НБА? Неопределенность осталась, но уменьшилась!

  • Запомните эту идею с уменьшением неопределенности!

Связи между переменными

Общая терминология:

  • Переменная отклика ~ Объясняющией переменные

Example: Gapminder data

# A tibble: 10 × 6
   country     continent  year lifeExp      pop gdpPercap
   <fct>       <fct>     <int>   <dbl>    <int>     <dbl>
 1 Afghanistan Asia       1952    28.8  8425333      779.
 2 Afghanistan Asia       1957    30.3  9240934      821.
 3 Afghanistan Asia       1962    32.0 10267083      853.
 4 Afghanistan Asia       1967    34.0 11537966      836.
 5 Afghanistan Asia       1972    36.1 13079460      740.
 6 Afghanistan Asia       1977    38.4 14880372      786.
 7 Afghanistan Asia       1982    39.9 12881816      978.
 8 Afghanistan Asia       1987    40.8 13867957      852.
 9 Afghanistan Asia       1992    41.7 16317921      649.
10 Afghanistan Asia       1997    41.8 22227415      635.

Gapminder data: Desciption

Gapminder содержит 1704 наблюдения по 6 переменным:

  • country: номинальная, с 142 уровнями (страны)
  • continent: номинальная с 5 уровнями (континенты)
  • year: дискретная, в пределах от 1952 до 2007
  • lifeExp: непрерывная, средняя продолжительность жизни в годах
  • pop: дискретная, население
  • gdpPercap: непрерывная, ВВП на душу населения

Связи между переменными: Числовая ~ Числовая

Связи между переменными: Числовая ~ Числовая

Что мы можем сказать о связи между этими двумя переменными

  • Life expectancy (response) ~ GDP per capita (explanatory)
  • Связь положительная: чем выше ВВП тем выше продолжительность жизни
  • Связь нелинейная: вначала, рост ВВП связан с резким повышением продолжительности, но затем ВВП перестает быть связанным с повышением продолжительности жизни
  • Присутвуют выбросы (outliers)

Связи между переменными: Числовая ~ Категориальная

Observational studies vs. Experiments

Observational studies

  • Observational studies are those where researcher collect data in a way that does not interfere with how data arise
  • Researchers just observe things
  • Observations can only prove correlation between variables, no causal relations
  • e.g. Observing that life expectancy increases with GDP only means that GDP and life Expectancy correlate with each other

Experiment

  • In an experiment, researchers randomly assign subjects to various treatments
  • Experiments CAN prove causal relations between the response and the explanotary variables
  • Example: Does waking up earlier help you concentrate better?

Example

  • Observational study goes like:
    • Sample random people, give them a concentration task, also ask about their sleeping habits
    • If “larks” beat “owls” then Concentration is associated with Waking up early
  • Experiment:
    • Sample a group of people from the population and Randomly assign them into two groups: one is forced to get up early, the other gets up whenever they want
    • If average concentration levels are different => Waking up early causes Concentration

What’s the difference?

The difference is that the decision of whether to breakfast or not is imposed by the researcher in the experiment, but not in the observational study

Why observational study can not prove causal relations?

  • When we observe, we do not control for other variables that can affect both the response and the explanatory variable
  • e.g. people who regularly work out might be more likely both to wake up early and concentrate better
  • Such external variables that affect both the response and explanatory variables are called confounding variables

But why experiments can prove causal relations?

  • External variables that can effect both the response and the explanatory variables are equally represented in both groups due to random assignment
  • Treatment and control groups are similar in all other variables, except for the treatment variable (waking up early)
  • We can attribute any difference in concentration to the effect of the treatment

Популяция и выборка

Какой процент жителей Астаны сортирует мусор?

  • ИВ: Какой процент жителей Астаны сортирует мусор?
  • Популяция: Все жители Астан
  • Выборка: некое множество жителей, которых мы опросили (например 100 человек)
  • Но как решить, кого включить в выборку?

Популяция и выборка

  • Любой исследовательский вопрос предполагает популяцию интереса (population of interest)
  • Популяция - это генеральная совокупность всех объектов, которые в идеале мы бы хотели изучить
  • Выборка (sample) - это небольшой кусочек популяции
  • Статистический вывод - это когда вы по характеристикам выборки делаете вывод о характеристики всей популяции

Sampling strategies

  • ИВ: Какой процент жителей Астаны сортирует мусор?
  • Как получить выборку? Подумайте о таких способах,
    • Опросить студентов Школы Социологии
    • Создать онлайн-опрос
    • Выбрать 100 случайных ИИН и попытаться связаться с их носителями
    • Выбрать 50 случайных людей с левого берега и 50 случайных людей с правого
    • Выбрать 20 случайных людей в возрасте до 20 лет, 20 случайных людей в возрасте от 20 до 40, и еще 20 в возрасте от 40 до 60

Репрезентативная выборка

  • Хорошая выборка отражает структуру популяции

  • Если в Астане 20% жителей сортируют мусор, хорошая выборка должна вам дать близкую пропорцию

  • Когда выборка похожа на популяцию, мы называем ее репрезентативной

  • И в этом случае, то что мы видим на выборке может быть генерализировано на всю популяцию.

Как получить репрезентативную выборку

Общая идея: каждый элемент популяции должен иметь равный шанс попасть в выборку

Есть 3 общие стратегии:

  1. Простая случайная выборка или simple random sampling (SRS)
  2. Стратифицировання выборка или stratified random sampling
  3. Кластерная выборка или cluster random sampling. Которая может быть
    • простой
    • или многоуровневой

Simple Random Sampling

Basic idea: just randomly select N objects from the population

Example:

  1. Put students’ IDs on tickets and put those tickets in a hat
  2. Mix the tickets
  3. Pull out 100 tickets
  4. Congratulations! You’ve just got a simple random sample of NU students.
  • Pros: The best way to ensure representativeness
  • Cons: Hard to implement in reality

Stratified Random Sampling

Basic Idea: break down the population into homogenous groups - stratas - and randomly select from these stratas

Example:

  1. Split students into 4 groups based on their year of study: {freshmen, sophomore, junior, senior}
  2. Randomly select 30 students from each strata (SRS)
  3. ??
  4. Profit!

Cluster Random Sampling

Basic Idea: break down the population into heterogeneous groups - clusters - and randomly select either clusters as wholes or randomly select from clusters

  1. Take dorms as clusters
  2. Randomly select a few dorms
  3. Randomly select several floors from each dorm
  4. Survey all the students living on those floors (simple) or a randomly selected students from each floor (multistage)
  5. Profit!

Three ways to screw up your sample

  1. Convenience sampling
    • survey only those who is accessible
    • e.g. surveying SOC 203 when the population is the NU
  2. Voluntary response sampling
    • voluntary online polls and surveys
    • the very fact of taking part depends on a subject’s characteristics
    • e.g. “Are you against war in Iraq?”
  3. Non response sampling:
    • e.g. you ask some sensitive questions
    • people who do not answer your questions are not random

Types of sampling bias

  • Convenience sampling: when you examine what is most accessible to you
  • Voluntary sampling: when some people can’t wait sharing their views while others couldn’t care less
  • Non-response sampling: when some part of your sample do not respond and this is not random

Sampling

Sampling is like tasting a soup (according to Mine Çetinkaya-Rundel)

  • You examine a small part of what you are cooking
  • You don’t need to eat the whole pot to decide if you the soup is salty enough
  • If you don’t stir the soup properly, your spoonful will not be representative to the soup, however large it is

Example of a biased sample: Landon vs FDR

  • 1936 US elections: Republican Landon vs Democrat Franklin Delano Rousvelt (FDR)
  • The Literary Digest, a popular magazine at the time, polled more than 10 million (!!) Americans
  • Got responses from 2.4 millions
  • Predicted that FDR would lose with 43% of the votes
  • In reality, FDR won with 62% of the votes

What went wrong?

  • The poll’s population of interest: American population
  • Sample:
    • the magazines’s subscribers, registered automobile owners, registered telephone users
  • The year is 1936, the Great Depression is in its fullest glory
  • The sampled groups were richer than the average American at the time
  • And rich people in the US tend to support Republicans
  • The sample (journal subscribers) was not representative to the population of interest (the US citizens with the right to vote)
  • Read more about the case here

Population parameter

  • Suppose we want to calculate the average resting time among NU undergrad students

\[\mu = \frac{\sum_{i=1}^{N}x_i}{N} = \textrm{true and unknown population parameter} \\ \bar{s} = \frac{\sum_{i = 1}^{100}x_i}{100} = \textrm{sample statistic}\]

Sample Statistic vs. Population Parameter

  • The sample statistic is known, while the population parameter is not; sample statistic estimates the population parameter
  • Much of statistics is all about quantifying uncertainty associated the estimates
  • Randomness comes from sampling; in good, unbiased samplings we can understand and quantify randomness; in bad samplings it becomes way harder, if not impossible
  • Again, whatever we calculate from the sample is sample statistics; whatever in the general population we would like to know is population parameter

Exercise 1.17

1.17 Relaxing after work. The General Social Survey asked the question, “After an average work day, about how many hours do you have to relax or pursue activities that you enjoy?” to a random sample of 1,155 Americans. The average relaxing time was found to be 1.65 hours. (OpenIntro Statistics 2018:29).

Exercise 1.17

Determine which of the following is an observation, a variable, a sample statistic (value calculated based on the observed sample), or a population parameter. (ibid)

  1. An American in the sample

  2. Number of hours spent relaxing after an average work day

  3. 1.65

  4. Average number of hours all Americans spend relaxing after an average work day

Exercise 1.17

Determine which of the following is an observation, a variable, a sample statistic (value calculated based on the observed sample), or a population parameter. (ibid)

  1. An American in the sample: an observation

  2. Number of hours spent relaxing after an average work day: a variable

  3. 1.65: a sample statistic

  4. Average number of hours all Americans spend relaxing after an average work day: a population parameter