Дескриптивная статистика, распределение и вероятность

к.соц.н., Карен Аванесян
Октябрь 2018

Дескриптивняа статистика

  • Частоты
  • Центральная тенденция
    • Среднее
    • Медиана
    • Мода
  • Дисперсность/вариативность данных
    • Диапазон
    • Дисперсия
    • Среднеквадратическое отклонение
    • Относительное среднеквадратическое отклонение

Создадим таблицу данных

gender <- c("male", "female","male", "female","male", "female","male", "female","male", "female","male", "female","male", "female","male", "female")
age <- c(17,18,19,22,21,23,25,26,21,20,19,18,17, 16,19,20)
df <- data.frame(age, gender)

Частоты (Frequencies) (1)

What is frequency?

  • Frequency is the number of objects/cases assigned to each category on a measurement scale.
  • Most basic form of descriptive statistics
  • May be expressed as a percentage of the total sample found in each category
  • Best visualized on graphs.

Частоты (Frequencies) (2)

#install.packages("DescTools", "descr")
library(DescTools)
library(descr)
Freq(gender)
    level  freq   perc  cumfreq  cumperc
1  female     8  50.0%        8    50.0%
2    male     8  50.0%       16   100.0%

Частоты (Frequencies) (3)

Другой способ, сразу же автоматически создает бар-плот.

#install.packages("DescTools", "descr")
library(descr)
freq(gender)

Результат…

Частоты (Frequencies) (4)

Другой способ, сразу же автоматически создает бар-плот. plot of chunk freq 2

gender 
       Frequency Percent
female         8      50
male           8      50
Total         16     100

Central Tendency

  • A measure of central tendency is a single value that attempts to describe a set of data by identifying the central position within that set of data.
  • As such, measures of central tendency are sometimes called measures of central location. They are also classed as summary statistics. 
  • These measures give us an idea what the ‘typical’ case in a distribution is like.
  • The term central tendency dates from the late 1920s.

Mean (1)

The mean is the average of the numbers: a calculated “central” value of a set of numbers.

LIMITATION:

Disadvantage of the mean: The major disadvantage, which does not always occur, is the fact that a mean can be dramatically affected by outliers in the set. For example, if we find the mean of the set of numbers 1, 2, 3, 4, 5 we get 3. However, when we dramatically alter one number in the set and find the average again, the mean is quite different. For example 1, 2, 3, 4, 20 has a mean of 6.

Mean (2)

x <- c(1,2,3,4,80)
mean(x)
[1] 18

Как мы видим, результат показывает высокую чувствительность к выбросам.

Подсчитаем средний возраст в нашей таблице данных.

mean(df$age)
[1] 20.0625

Mean (3)

Если же в нашем ряде данных присутствуют пропущенные значения (NAs), то к команде необходимо добавить аргумент, который отвечает за их удаление

y <- c(1,2,0,NA, 4)
mean(y, na.rm = TRUE)
[1] 1.75

Median (1)

The “median” is the “middle” value in the list of numbers.

LIMITATION:

If the gap between some numbers is large, while it is small between other numbers in the data, this can cause the median to be a very inaccurate way to find the middle of a set of values.

Median (2)

x <- c(1,2,3,4,80)
median(x)
[1] 3
#Этот показатель гораздо лучше отражает распределение данных в сравнении со средним
median(df$age)
[1] 19.5

Mode (1)

  • The “mode” is the value that occurs most often.
  • If no number is repeated, then there is no mode for the list.
  • The mode is not always a central value. In fact it can be an extreme value.
  • Also, the sample can have more then one mode (Bimodal, Multimodal).

LIMITATION:

Could be very far from the actual middle of the data. The least reliable way to find the middle or average of the data.

TO USE:

the mode when the data is non-numeric or when asked to choose the most popular item.

Mode (1)

x <- c(1,2,3,4,80)
Mode(x) #выдает нам ряд данных, потому что в нем нет моды
[1]  1  2  3  4 80
Mode(df$age) #Команда работает с возрастом, потому что в этом ряде чисел мода есть. 
[1] 19
z <- c(1,2,3,3,3,4,5,6,7,7,7,8) #несколько мод
Mode(z)
[1] 3 7

Диапазон (Range)

Диапазон между максимальным и минимальным значением.

Очень редко используется на практике.

x <- c(9,10,1,2,6,7,4,3,2,9,10) 
range(x)
[1]  1 10
#Не отражает разброс данных, так как два очень похожих ряда чисел имеют колоссально разные диапазоны
y <- c(1:10, 40) # двоеточие создает количественный вектор из чисел от 1 до 10
range(y)
[1]  1 40

Дисперсия (Variance)

  • Мера разброса случайной величины от математического ожидания (среднего арифметического).
  • Считается как сумма квадратов разниц между фактическим значением переменной и средним значением.
  • Так как значение не соответствует оригинальным единицам измерения переменной, также не используется часто на практике.
var(df$age)
[1] 8.0625

Показывает нам величину, которая не равна годам. Однако корень квадратный дисперсии дает нам эту информацию….

Стандартное отклонение (Standard Deviation)

  • Наиболее часто используемая мера анализа разброса в данных.
  • Является базовой статистикой.
  • Считается как корень квадратный дисперсии.
sd(df$age)
[1] 2.839454

То есть, разброс данных от среднего (в данном случае, стандартное отклонение) составляет 2.8 года.

Команда Summary

  • Работает в одинаковой степени с количественными и качественными переменными
  • Обеспечивает базовую информацию о переменной
summary(df$age)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  16.00   18.00   19.50   20.06   21.25   26.00 
summary(df$gender)
female   male 
     8      8 

Нормальное распределение (1)

  • Нормальное распределение симметрично относительно среднего
  • Среднее, мода и медиана равны при нормальном распределении
  • Нормальные распределения отличаются плотностью в середине, но не показывают плотность по краям распределения
  • Нормальное распределение определяется двумя параметрами, среднее (μ) и стандартное отклонение (σ)
  • Визуализируется на гистограмме или графике плотности вероятности

Нормальное распределение (2)

graph

Нормальное распределение (3)

hist(df$age)

plot of chunk unnamed-chunk-8

Нормальное распределение (4)

На графике плотности вероятности нормальность распределения видна лучше, так как игнорируется ширина столбцов.

plot(density(df$age))

plot of chunk unnamed-chunk-9

Нормальное распределение (5)

Команда исполняет то же самое. Попробуйте понять логику кода

d <- density(df$age)
plot(d)

Теорема центрального лимита (1)

graph

Теорема центрального лимита (2)

graph

Теорема центрального лимита (3)

  • Чем больше выборка, тем более нормальным становится распределение
  • Исполните команду ниже. Затем, увеличьте размер выборки n до 60, 100, 500, 1000 наблюдений и повторите исполнение команды.
x <- rnorm(mean = 10, sd = 4, n=1000)
hist(x)
  • С каждым разом распределение становится более нормальным, т.е.,значения ближе к среднему, а стандартное отклонение меньше.

Вероятность (1)

  • Нормальное распределение позволяет нам подсчитать вероятность того или иного значения.
  • Сгенерируем случайную величину, добавим ее в базу данных и подсчитаем вероятность
set.seed(453) #сделает нашу симуляцию воспроизводимой
math_ege <- rnorm(n=16, mean = 52, sd = 10) #создали вектор, обозначающий результат наших 16 студентов по ЕГЭ по математике
df$math_ege <- math_ege #приписали эту переменную к нашей уже имеющейся базе данных из 16 студентов

Вероятность (2)

Минимальное значение ЕГЭ, необходимое для поступления в ВУЗ, составляет 60 баллов из 100.

pnorm(60, df$math_ege, mean = 50 , sd =10) #вероятность того, что балл будет до 60
[1] 0.8413447
1 - pnorm(60, df$math_ege, mean = 50 , sd = 10) #вероятность того, что превысит 60
[1] 0.1586553
pnorm(60, df$math_ege, mean = 50 , sd = 10) - pnorm(50, df$math_ege, mean = 50 , sd = 10) #вероятность того, что результат экзамена составляет от 50 до 60 баллов
[1] 0.3413447