Скачайте данные для этого занятия:

mtcars_data.csv

mtcars_data.txt

my_mtcars.sav

IQdata.csv

Открытие внешних файлов с данными

Для того, чтобы открывать данные разных форматов, нужно скачать и активировать пакет foreign. Cкачать пакет можно либо через меню (Tools -> Install.packages), либо командой install.packages().

# install.packages('foreign')

После того, как пакет установлен, он всегда будет хранится на вашем компьютере. Повторно его устанавливать не нужно. Однако для того, что использовать функции из этого пакета, его нужно активировать. Активация нужно при каждом запуске новой сессии работы R (проще говоря, при каждом новом запуске R). Для его воспользуйтесь командами require(foreign) или library(foreign)

require(foreign)
## Loading required package: foreign

Далее нужно определить рабочую директорию (папку, в которой хранится файл с данными, который вы хотите открыть). Это можно сделать либо через меню (Session -> Set working directory -> Choose directory), либо командой setwd(“полный путь к папке”).

txt format

mtcars_from_desktop <- read.table("mtcars_data.txt", header = TRUE)
str(mtcars_from_desktop)
## 'data.frame':    32 obs. of  11 variables:
##  $ mpg : num  21 21 22.8 21.4 18.7 18.1 14.3 24.4 22.8 19.2 ...
##  $ cyl : int  6 6 4 6 8 6 8 4 4 6 ...
##  $ disp: num  160 160 108 258 360 ...
##  $ hp  : int  110 110 93 110 175 105 245 62 95 123 ...
##  $ drat: num  3.9 3.9 3.85 3.08 3.15 2.76 3.21 3.69 3.92 3.92 ...
##  $ wt  : num  2.62 2.88 2.32 3.21 3.44 ...
##  $ qsec: num  16.5 17 18.6 19.4 17 ...
##  $ vs  : int  0 0 1 1 0 1 0 1 1 1 ...
##  $ am  : int  1 1 1 0 0 0 0 0 0 0 ...
##  $ gear: int  4 4 4 3 3 3 3 4 4 4 ...
##  $ carb: int  4 4 1 1 2 1 4 2 2 4 ...
summary(mtcars_from_desktop)
##       mpg             cyl             disp             hp       
##  Min.   :10.40   Min.   :4.000   Min.   : 71.1   Min.   : 52.0  
##  1st Qu.:15.43   1st Qu.:4.000   1st Qu.:120.8   1st Qu.: 96.5  
##  Median :19.20   Median :6.000   Median :196.3   Median :123.0  
##  Mean   :20.09   Mean   :6.188   Mean   :230.7   Mean   :146.7  
##  3rd Qu.:22.80   3rd Qu.:8.000   3rd Qu.:326.0   3rd Qu.:180.0  
##  Max.   :33.90   Max.   :8.000   Max.   :472.0   Max.   :335.0  
##       drat             wt             qsec             vs        
##  Min.   :2.760   Min.   :1.513   Min.   :14.50   Min.   :0.0000  
##  1st Qu.:3.080   1st Qu.:2.581   1st Qu.:16.89   1st Qu.:0.0000  
##  Median :3.695   Median :3.325   Median :17.71   Median :0.0000  
##  Mean   :3.597   Mean   :3.217   Mean   :17.85   Mean   :0.4375  
##  3rd Qu.:3.920   3rd Qu.:3.610   3rd Qu.:18.90   3rd Qu.:1.0000  
##  Max.   :4.930   Max.   :5.424   Max.   :22.90   Max.   :1.0000  
##        am              gear            carb      
##  Min.   :0.0000   Min.   :3.000   Min.   :1.000  
##  1st Qu.:0.0000   1st Qu.:3.000   1st Qu.:2.000  
##  Median :0.0000   Median :4.000   Median :2.000  
##  Mean   :0.4062   Mean   :3.688   Mean   :2.812  
##  3rd Qu.:1.0000   3rd Qu.:4.000   3rd Qu.:4.000  
##  Max.   :1.0000   Max.   :5.000   Max.   :8.000
# см справку про функцию  read.table
# ?read.table  

SPSS format (*.sav)

mtcars_from_spss <- read.spss("my_mtcars.sav", use.value.labels = F, to.data.frame = T, use.missings = T)
str(mtcars_from_spss)
## 'data.frame':    32 obs. of  12 variables:
##  $ cars: Factor w/ 32 levels "AMC Javelin        ",..: 18 19 5 13 14 31 7 21 20 22 ...
##  $ mpg : Factor w/ 25 levels "10.4","13.3",..: 16 16 19 17 13 12 3 20 19 14 ...
##  $ cyl : num  6 6 4 6 8 6 8 4 4 6 ...
##  $ disp: Factor w/ 27 levels "108  ","120.1",..: 8 8 1 11 18 10 18 7 5 9 ...
##  $ hp  : num  110 110 93 110 175 105 245 62 95 123 ...
##  $ drat: Factor w/ 22 levels "2.76","2.93",..: 16 16 15 5 6 1 7 11 17 17 ...
##  $ wt  : Factor w/ 29 levels "1.513","1.615",..: 9 12 7 16 18 19 21 15 13 18 ...
##  $ qsec: Factor w/ 30 levels "14.5 ","14.6 ",..: 6 10 22 24 10 29 5 27 30 19 ...
##  $ vs  : num  0 0 1 1 0 1 0 1 1 1 ...
##  $ am  : num  1 1 1 0 0 0 0 0 0 0 ...
##  $ gear: num  4 4 4 3 3 3 3 4 4 4 ...
##  $ carb: num  4 4 1 1 2 1 4 2 2 4 ...
##  - attr(*, "variable.labels")= Named chr  "" "Miles/(US) gallon" "Number of cylinders" "Displacement (cu.in.)" ...
##   ..- attr(*, "names")= chr  "cars" "mpg" "cyl" "disp" ...
##  - attr(*, "codepage")= int 65001
summary(mtcars_from_spss)
##                   cars         mpg          cyl             disp   
##  AMC Javelin        : 1   10.4   : 2   Min.   :4.000   275.8  : 3  
##  Cadillac Fleetwood : 1   15.2   : 2   1st Qu.:4.000   160    : 2  
##  Camaro Z28         : 1   19.2   : 2   Median :6.000   167.6  : 2  
##  Chrysler Imperial  : 1   21     : 2   Mean   :6.188   360    : 2  
##  Datsun 710         : 1   21.4   : 2   3rd Qu.:8.000   108    : 1  
##  Dodge Challenger   : 1   22.8   : 2   Max.   :8.000   120.1  : 1  
##  (Other)            :26   (Other):20                   (Other):21  
##        hp             drat          wt          qsec          vs        
##  Min.   : 52.0   3.07   : 3   3.44   : 3   17.02  : 2   Min.   :0.0000  
##  1st Qu.: 96.5   3.92   : 3   3.57   : 2   18.9   : 2   1st Qu.:0.0000  
##  Median :123.0   2.76   : 2   1.513  : 1   14.5   : 1   Median :0.0000  
##  Mean   :146.7   3.08   : 2   1.615  : 1   14.6   : 1   Mean   :0.4375  
##  3rd Qu.:180.0   3.15   : 2   1.835  : 1   15.41  : 1   3rd Qu.:1.0000  
##  Max.   :335.0   3.9    : 2   1.935  : 1   15.5   : 1   Max.   :1.0000  
##                  (Other):18   (Other):23   (Other):24                   
##        am              gear            carb      
##  Min.   :0.0000   Min.   :3.000   Min.   :1.000  
##  1st Qu.:0.0000   1st Qu.:3.000   1st Qu.:2.000  
##  Median :0.0000   Median :4.000   Median :2.000  
##  Mean   :0.4062   Mean   :3.688   Mean   :2.812  
##  3rd Qu.:1.0000   3rd Qu.:4.000   3rd Qu.:4.000  
##  Max.   :1.0000   Max.   :5.000   Max.   :8.000  
## 
# см справку про функцию  read.spss
# ?read.spss   

csv format (*.csv)

mtcars_csv <- read.csv("mtcars_data.csv")
str(mtcars_csv)
## 'data.frame':    32 obs. of  11 variables:
##  $ mpg : num  21 21 22.8 21.4 18.7 18.1 14.3 24.4 22.8 19.2 ...
##  $ cyl : int  6 6 4 6 8 6 8 4 4 6 ...
##  $ disp: num  160 160 108 258 360 ...
##  $ hp  : int  110 110 93 110 175 105 245 62 95 123 ...
##  $ drat: num  3.9 3.9 3.85 3.08 3.15 2.76 3.21 3.69 3.92 3.92 ...
##  $ wt  : num  2.62 2.88 2.32 3.21 3.44 ...
##  $ qsec: num  16.5 17 18.6 19.4 17 ...
##  $ vs  : int  0 0 1 1 0 1 0 1 1 1 ...
##  $ am  : int  1 1 1 0 0 0 0 0 0 0 ...
##  $ gear: int  4 4 4 3 3 3 3 4 4 4 ...
##  $ carb: int  4 4 1 1 2 1 4 2 2 4 ...
summary(mtcars_csv)
##       mpg             cyl             disp             hp       
##  Min.   :10.40   Min.   :4.000   Min.   : 71.1   Min.   : 52.0  
##  1st Qu.:15.43   1st Qu.:4.000   1st Qu.:120.8   1st Qu.: 96.5  
##  Median :19.20   Median :6.000   Median :196.3   Median :123.0  
##  Mean   :20.09   Mean   :6.188   Mean   :230.7   Mean   :146.7  
##  3rd Qu.:22.80   3rd Qu.:8.000   3rd Qu.:326.0   3rd Qu.:180.0  
##  Max.   :33.90   Max.   :8.000   Max.   :472.0   Max.   :335.0  
##       drat             wt             qsec             vs        
##  Min.   :2.760   Min.   :1.513   Min.   :14.50   Min.   :0.0000  
##  1st Qu.:3.080   1st Qu.:2.581   1st Qu.:16.89   1st Qu.:0.0000  
##  Median :3.695   Median :3.325   Median :17.71   Median :0.0000  
##  Mean   :3.597   Mean   :3.217   Mean   :17.85   Mean   :0.4375  
##  3rd Qu.:3.920   3rd Qu.:3.610   3rd Qu.:18.90   3rd Qu.:1.0000  
##  Max.   :4.930   Max.   :5.424   Max.   :22.90   Max.   :1.0000  
##        am              gear            carb      
##  Min.   :0.0000   Min.   :3.000   Min.   :1.000  
##  1st Qu.:0.0000   1st Qu.:3.000   1st Qu.:2.000  
##  Median :0.0000   Median :4.000   Median :2.000  
##  Mean   :0.4062   Mean   :3.688   Mean   :2.812  
##  3rd Qu.:1.0000   3rd Qu.:4.000   3rd Qu.:4.000  
##  Max.   :1.0000   Max.   :5.000   Max.   :8.000
# см справку про функцию  read.csv
# ?read.csv   

Проверка загрузки данных

# посмотреть первые 3 наблюдения

head(mtcars_from_desktop, 3) 
##                mpg cyl disp  hp drat    wt  qsec vs am gear carb
## Mazda RX4     21.0   6  160 110 3.90 2.620 16.46  0  1    4    4
## Mazda RX4 Wag 21.0   6  160 110 3.90 2.875 17.02  0  1    4    4
## Datsun 710    22.8   4  108  93 3.85 2.320 18.61  1  1    4    1
# посмотреть посление наблюдения
tail(mtcars_from_desktop)    
##                 mpg cyl  disp  hp drat    wt qsec vs am gear carb
## Porsche 914-2  26.0   4 120.3  91 4.43 2.140 16.7  0  1    5    2
## Lotus Europa   30.4   4  95.1 113 3.77 1.513 16.9  1  1    5    2
## Ford Pantera L 15.8   8 351.0 264 4.22 3.170 14.5  0  1    5    4
## Ferrari Dino   19.7   6 145.0 175 3.62 2.770 15.5  0  1    5    6
## Maserati Bora  15.0   8 301.0 335 3.54 3.570 14.6  0  1    5    8
## Volvo 142E     21.4   4 121.0 109 4.11 2.780 18.6  1  1    4    2

Манипулиции с переменными

mtcars$mpg
##  [1] 21.0 21.0 22.8 21.4 18.7 18.1 14.3 24.4 22.8 19.2 17.8 16.4 17.3 15.2
## [15] 10.4 10.4 14.7 32.4 30.4 33.9 21.5 15.5 15.2 13.3 19.2 27.3 26.0 30.4
## [29] 15.8 19.7 15.0 21.4
summary(mtcars$mpg)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   10.40   15.43   19.20   20.09   22.80   33.90
# from 'mpg-US' to 'km/l'
mtcars$kml <- 0.425143707 * mtcars$mpg    
mtcars$kml
##  [1]  8.928018  8.928018  9.693277  9.098075  7.950187  7.695101  6.079555
##  [8] 10.373506  9.693277  8.162759  7.567558  6.972357  7.354986  6.462184
## [15]  4.421495  4.421495  6.249612 13.774656 12.924369 14.412372  9.140590
## [22]  6.589727  6.462184  5.654411  8.162759 11.606423 11.053736 12.924369
## [29]  6.717271  8.375331  6.377156  9.098075
mtcars$number <- 1:nrow(mtcars)
mtcars$number
##  [1]  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
## [24] 24 25 26 27 28 29 30 31 32
# количество строк (наблюдений)
nrow(mtcars) 
## [1] 32
# количество столбиков (переменных)
ncol(mtcars) 
## [1] 13

Отбор части данных

# показать только первые 10 значений переменной mpg
mtcars$mpg[1:10] 
##  [1] 21.0 21.0 22.8 21.4 18.7 18.1 14.3 24.4 22.8 19.2
# показать значение из первого столбика и первой строки
mtcars[1,1] 
## [1] 21
# показать только 2, 10 и 30 значения из столбика 1
mtcars[c(2,10,30),1] 
## [1] 21.0 19.2 19.7
# показать с 10 по 20 значения из столбика 1
mtcars[10:20,1] 
##  [1] 19.2 17.8 16.4 17.3 15.2 10.4 10.4 14.7 32.4 30.4 33.9
# показать ряд № 5
mtcars[5,]  
##                    mpg cyl disp  hp drat   wt  qsec vs am gear carb
## Hornet Sportabout 18.7   8  360 175 3.15 3.44 17.02  0  0    3    2
##                        kml number
## Hornet Sportabout 7.950187      5
# показать строку № 1
mtcars[,1]  
##  [1] 21.0 21.0 22.8 21.4 18.7 18.1 14.3 24.4 22.8 19.2 17.8 16.4 17.3 15.2
## [15] 10.4 10.4 14.7 32.4 30.4 33.9 21.5 15.5 15.2 13.3 19.2 27.3 26.0 30.4
## [29] 15.8 19.7 15.0 21.4

Отбор части данных с помощью условия

mtcars$cyl
##  [1] 6 6 4 6 8 6 8 4 4 6 6 8 8 8 8 8 8 4 4 4 4 8 8 8 8 4 4 4 8 6 8 4
mtcars$cyl == '6'
##  [1]  TRUE  TRUE FALSE  TRUE FALSE  TRUE FALSE FALSE FALSE  TRUE  TRUE
## [12] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
## [23] FALSE FALSE FALSE FALSE FALSE FALSE FALSE  TRUE FALSE FALSE
head(subset(mtcars, cyl == '6'))
##                 mpg cyl  disp  hp drat    wt  qsec vs am gear carb
## Mazda RX4      21.0   6 160.0 110 3.90 2.620 16.46  0  1    4    4
## Mazda RX4 Wag  21.0   6 160.0 110 3.90 2.875 17.02  0  1    4    4
## Hornet 4 Drive 21.4   6 258.0 110 3.08 3.215 19.44  1  0    3    1
## Valiant        18.1   6 225.0 105 2.76 3.460 20.22  1  0    3    1
## Merc 280       19.2   6 167.6 123 3.92 3.440 18.30  1  0    4    4
## Merc 280C      17.8   6 167.6 123 3.92 3.440 18.90  1  0    4    4
##                     kml number
## Mazda RX4      8.928018      1
## Mazda RX4 Wag  8.928018      2
## Hornet 4 Drive 9.098075      4
## Valiant        7.695101      6
## Merc 280       8.162759     10
## Merc 280C      7.567558     11
head(subset(mtcars, mpg > 20))
##                 mpg cyl  disp  hp drat    wt  qsec vs am gear carb
## Mazda RX4      21.0   6 160.0 110 3.90 2.620 16.46  0  1    4    4
## Mazda RX4 Wag  21.0   6 160.0 110 3.90 2.875 17.02  0  1    4    4
## Datsun 710     22.8   4 108.0  93 3.85 2.320 18.61  1  1    4    1
## Hornet 4 Drive 21.4   6 258.0 110 3.08 3.215 19.44  1  0    3    1
## Merc 240D      24.4   4 146.7  62 3.69 3.190 20.00  1  0    4    2
## Merc 230       22.8   4 140.8  95 3.92 3.150 22.90  1  0    4    2
##                      kml number
## Mazda RX4       8.928018      1
## Mazda RX4 Wag   8.928018      2
## Datsun 710      9.693277      3
## Hornet 4 Drive  9.098075      4
## Merc 240D      10.373506      8
## Merc 230        9.693277      9

Описательные статистики

Подгружаем необходимые для занятия пакеты

library(psych)
library(ggplot2)

Если их нет на компьютере, их нужно загрузить

# install.packages('psych')
# install.packages('ggplot2')

Загружаем файл с данными “IQdata.csv”

IQdata <- read.table("IQdata.csv")

Смотрим на данные

В файле две переменные: IQ - количественная переменная, представляющая собой количество баллов теста интеллекта, group - качественная переменная, отражающая принадлежность человека к одной из двух групп (training - тренировалась решать задачи, входящие в тесты интеллекта, control - контрольная группа, в которой ничего не происходило).

Посмотрим на структуру наших данных.

str(IQdata) 
## 'data.frame':    700 obs. of  2 variables:
##  $ group: Factor w/ 2 levels "control","training": 1 1 1 1 1 1 1 1 1 1 ...
##  $ IQ   : int  104 102 NA 115 94 119 85 105 98 89 ...

Посмотрим начало данных.

head(IQdata)
##     group  IQ
## 1 control 104
## 2 control 102
## 3 control  NA
## 4 control 115
## 5 control  94
## 6 control 119
# по умолчанию показываются 6 первых строк, но можно заказать другое количество
head(IQdata, 10) 
##      group  IQ
## 1  control 104
## 2  control 102
## 3  control  NA
## 4  control 115
## 5  control  94
## 6  control 119
## 7  control  85
## 8  control 105
## 9  control  98
## 10 control  89

Посмотрим конец данных.

tail(IQdata)
##        group  IQ
## 695 training 129
## 696 training  89
## 697 training  73
## 698 training 102
## 699 training  75
## 700 training  NA
tail(IQdata, 12)
##        group  IQ
## 689 training  91
## 690 training 112
## 691 training 115
## 692 training 113
## 693 training 114
## 694 training  97
## 695 training 129
## 696 training  89
## 697 training  73
## 698 training 102
## 699 training  75
## 700 training  NA

Посмотрим на описание данных.

summary(IQdata)
##       group           IQ       
##  control :350   Min.   : 63.0  
##  training:350   1st Qu.: 92.0  
##                 Median :103.0  
##                 Mean   :102.7  
##                 3rd Qu.:113.0  
##                 Max.   :148.0  
##                 NA's   :2

Среднее, стандартное отклонение и медиана

# посмотрим отдельно на среднее значение
mean(IQdata$IQ) 
## [1] NA

Выдаёт NA. Среднего значения несуществует? Проблема в пропущенных значениях. По умолчанию R не знает, как с ними поступить. Ему нужно дать инструкцию: na.rm = TRUE означает “не учитывать пропуски”.

mean(IQdata$IQ, na.rm = TRUE) # na.rm = TRUE означает "не учитывать пропуски".
## [1] 102.6648

Можно попросить округлить результата до десятых.

round(mean(IQdata$IQ, na.rm = TRUE), 1)
## [1] 102.7

Или до сотых.

round(mean(IQdata$IQ, na.rm = TRUE), 2)
## [1] 102.66

Посмотрим на стандартное отклонение IQ, тут тоже нужен аргумент na.rm = TRUE.

sd(IQdata$IQ, na.rm = TRUE)
## [1] 14.93436

Посмотрим на медиану.

median(IQdata$IQ, na.rm = TRUE)
## [1] 103

В пакете psych есть удобная функция describe, котрая показывает сразу всю описательную статистику. Кстати, она сама по умолчанию знает, что пропущенные значения не нужно учитывать

describe(IQdata$IQ) 
##    vars   n   mean    sd median trimmed   mad min max range skew kurtosis
## X1    1 698 102.66 14.93    103  102.72 16.31  63 148    85    0     -0.3
##      se
## X1 0.57

Если не знаете, какие-то показатели, посмотрите справку по этой функции ?describe

Описательные статистики по группам

Мы знаем, что у нас 2 группа: одна проходила тренинг, другая - нет. Более интересно и осмысленно смотреть на описательную статистику по ним отдельно

Способ №1

Выберем из всего массива данных только одну групп, которая проходила тренинг

training_group <- subset(IQdata, group == "training")

Посмотрим описательную статистику только для них

describe(training_group$IQ)
##    vars   n   mean    sd median trimmed   mad min max range  skew kurtosis
## X1    1 349 106.25 14.05    106  106.36 14.83  63 148    85 -0.04    -0.07
##      se
## X1 0.75

Сделаем тоже самое для контрольной группы

control_group <- subset(IQdata, group == "control")
describe(control_group$IQ)
##    vars   n  mean    sd median trimmed   mad min max range skew kurtosis
## X1    1 349 99.08 14.95     97   98.95 14.83  64 141    77 0.12    -0.42
##     se
## X1 0.8

Способ №2

В пакете psych есть ещё одна удобная функция describeBy, которая показывает сразу всю описательную статистику по нескольким группам.

describeBy(IQdata$IQ, group = IQdata$group)
## 
##  Descriptive statistics by group 
## group: control
##    vars   n  mean    sd median trimmed   mad min max range skew kurtosis
## X1    1 349 99.08 14.95     97   98.95 14.83  64 141    77 0.12    -0.42
##     se
## X1 0.8
## -------------------------------------------------------- 
## group: training
##    vars   n   mean    sd median trimmed   mad min max range  skew kurtosis
## X1    1 349 106.25 14.05    106  106.36 14.83  63 148    85 -0.04    -0.07
##      se
## X1 0.75

Графические методы

Гистограмма

hist(IQdata$IQ)

# закажем большее количество столбцов, например 20
hist(IQdata$IQ, breaks = 20) 

# или 40
hist(IQdata$IQ, breaks = 40) 

То же самое, но с помощью пакета ggplot2

ggplot(IQdata, aes(IQ)) + geom_histogram(binwidth = 3)

Улучшим гистограмму

ggplot(IQdata, aes(IQ)) + geom_histogram(binwidth = 3)+
    theme_bw()+
    xlab('IQ-баллы')+
    ylab('Частота')

Посторим гистограммы для каждой из групп и разместим их на рядом одном рисунке

ggplot(IQdata, aes(IQ)) + geom_histogram(binwidth = 3)+
    theme_bw()+
    xlab('IQ-баллы')+
    ylab('Частота')+
    facet_grid(group ~ .)

Плотность распределения

ggplot(IQdata, aes(IQ, fill=group)) + geom_density()

Улучшим диаграмму плотности распределения

ggplot(IQdata, aes(IQ, fill=group)) + geom_density(alpha=0.5)+
    theme_bw()+
    xlab('IQ-баллы')+
    ylab('Плотность')

Boxplot (Ящик с усами)

ggplot(IQdata, aes(x=group, y=IQ)) + geom_boxplot()

Улучшим Boxplot

ggplot(IQdata, aes(group, IQ)) + geom_boxplot(aes(fill=group))+
    theme_bw()+
    ylab('IQ-баллы')+
    xlab('Тип группы')

Тест Стьюдента

Проверим, отличается ли среднее значение в двух наших группах от среднего значения коэффициента интеллекта в популяции, т.е. от 100 баллов. Для этого воспрользуемся критерием Стьюдента для 1 выборки. Сначала проверим равенство среднего значения IQ баллов значению 100 в группе, проходившей тренировку.

training_group <- subset(IQdata, group == "training") # выделяем из общей выборки подвыборку людей, проходивших тренировку
t.test (training_group$IQ, mu=100)
## 
##  One Sample t-test
## 
## data:  training_group$IQ
## t = 8.3029, df = 348, p-value = 2.279e-15
## alternative hypothesis: true mean is not equal to 100
## 95 percent confidence interval:
##  104.7668 107.7261
## sample estimates:
## mean of x 
##  106.2464

M = 106.25, 95% CI [104.77, 107.73], t(348) = 8.30, p < 0.001 (в данном случае, и только в этом, мы не указываем само значение p-value, т.к. оно очень маленькое, если оно было бы больше 0.001, необходимо было бы его указать точно).

Проверим, есть ли разница в средних значениях IQ баллов между двумя группами (тренированной и контрольной). Для ответа на этот вопрос можно использовать двухвыборочный тест Стьюдента.

t.test(IQdata$IQ ~ IQdata$group)
## 
##  Welch Two Sample t-test
## 
## data:  IQdata$IQ by IQdata$group
## t = -6.5222, df = 693.37, p-value = 1.335e-10
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -9.319704 -5.006943
## sample estimates:
##  mean in group control mean in group training 
##               99.08309              106.24642

T-тест показали, что среднее значение IQ баллов в тренированной группе (M = 106.25, SD = 14.05) статистически значимо выше среднего значения IQ баллов в контрольной группе (M = 99.08, SD = 14.95), t(693.37) = -6.52, p < 0.001.

Если бы контрольная и тренированная группы из нашего примера были бы одной и той же группой, у которой сначала измерили IQ (control), потом потренировали и после этого снова измерили IQ, то это были бы связанные или зависимые выборки (т.к. каждое наблюдение из первой группы можно однозначно сопоставить с наблюдением из второй группы). В этой ситуации исследователя также мог бы интересовать вопроос о том, повлияла ли тренировка на результативность прохождения IQ теста. В этом случает необходимо было бы использовать парный тест Стьюдента (необходимо использовать аргумент paired = TRUE). Попробуем его сделать. Важно, чтобы измерения IQ людей в первой переменной шли строго в том же порядке, что и во второй переменной.

t.test(control_group$IQ, training_group$IQ, paired = TRUE)
## 
##  Paired t-test
## 
## data:  control_group$IQ and training_group$IQ
## t = -6.4699, df = 347, p-value = 3.34e-10
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -9.322811 -4.976040
## sample estimates:
## mean of the differences 
##               -7.149425

В данном случае парный t-тест показали, что среднее значение IQ баллов после тренировки (M = 106.25, SD = 14.05) статистически значимо выше среднего значения IQ баллов до тренировки (M = 99.08, SD = 14.95), t(347) = -6.47, p < 0.001. В среднем эта разница составляет -7.15 с 95%-ным интервалом от -9.32 до -4.98.

Размер эффекта (Effect size)

Рассчитаем также значение размера эффекта (effect size). Для сравнения групп с помощью t-теста в качестве меры размера эффекта обычно используют значение d-Коэна (Cohen’s d). В R есть несколько пакетов, с помощью которых можно его расчитать. Воспользуемся пакетом compute.es. d-Коэна (Cohen’s d), как и другие варианты оценки размера эффекта можно рассчитать как на основе значения теста, который используется для сравнения средних (в нашем случае это t-тест), так и на основе информации о средних значениях, значениях стандартных отклонений и объёме групп. В первом случае нужно воспользоваться функцией tes(t, n.1, n.2), во втором - функцией mes(m.1, m.2, sd.1, sd.2, n.1, n.2).

library(compute.es)
tes(0.12133, 100, 100)
## Mean Differences ES: 
##  
##  d [ 95 %CI] = 0.02 [ -0.26 , 0.3 ] 
##   var(d) = 0.02 
##   p-value(d) = 0.9 
##   U3(d) = 50.68 % 
##   CLES(d) = 50.48 % 
##   Cliff's Delta = 0.01 
##  
##  g [ 95 %CI] = 0.02 [ -0.26 , 0.29 ] 
##   var(g) = 0.02 
##   p-value(g) = 0.9 
##   U3(g) = 50.68 % 
##   CLES(g) = 50.48 % 
##  
##  Correlation ES: 
##  
##  r [ 95 %CI] = 0.01 [ -0.13 , 0.15 ] 
##   var(r) = 0.01 
##   p-value(r) = 0.9 
##  
##  z [ 95 %CI] = 0.01 [ -0.13 , 0.15 ] 
##   var(z) = 0.01 
##   p-value(z) = 0.9 
##  
##  Odds Ratio ES: 
##  
##  OR [ 95 %CI] = 1.03 [ 0.62 , 1.71 ] 
##   p-value(OR) = 0.9 
##  
##  Log OR [ 95 %CI] = 0.03 [ -0.47 , 0.54 ] 
##   var(lOR) = 0.07 
##   p-value(Log OR) = 0.9 
##  
##  Other: 
##  
##  NNT = 206.68 
##  Total N = 200

В результаты выполнения функции были рассчитаны разные варианты оценки размера эффекта. Смотрим на результаты для d: значение d-Коэна = 0.02, границы его 95%-ного доверительного интервала = [-0.26, 0.3]. Для интерпретации сам Коэн предлагал следующие границы:

d = 0.2 - small effect,

d = 0.5 - medium effect,

d = 0.8 - large effect.

Рассчитаем d-Коэна с помощью функции mes(m.1, m.2, sd.1, sd.2, n.1, n.2).

mes(100.32, 100.07, 15.4, 13.69, 100, 100)
## Mean Differences ES: 
##  
##  d [ 95 %CI] = 0.02 [ -0.26 , 0.3 ] 
##   var(d) = 0.02 
##   p-value(d) = 0.9 
##   U3(d) = 50.68 % 
##   CLES(d) = 50.48 % 
##   Cliff's Delta = 0.01 
##  
##  g [ 95 %CI] = 0.02 [ -0.26 , 0.29 ] 
##   var(g) = 0.02 
##   p-value(g) = 0.9 
##   U3(g) = 50.68 % 
##   CLES(g) = 50.48 % 
##  
##  Correlation ES: 
##  
##  r [ 95 %CI] = 0.01 [ -0.13 , 0.15 ] 
##   var(r) = 0 
##   p-value(r) = 0.9 
##  
##  z [ 95 %CI] = 0.01 [ -0.13 , 0.15 ] 
##   var(z) = 0.01 
##   p-value(z) = 0.9 
##  
##  Odds Ratio ES: 
##  
##  OR [ 95 %CI] = 1.03 [ 0.62 , 1.71 ] 
##   p-value(OR) = 0.9 
##  
##  Log OR [ 95 %CI] = 0.03 [ -0.47 , 0.54 ] 
##   var(lOR) = 0.07 
##   p-value(Log OR) = 0.9 
##  
##  Other: 
##  
##  NNT = 206.68 
##  Total N = 200

Результат тот же самый.

Размер эффекта также можно рассчитать с помщью онлайн калькулятора, например, вот этого.

Тест Уилкоксона

t-тест устойчив к небольшим отклонениям от нормальности распределения, однако если отклонение слишком большие или распределение несимметрично, следует использовать непараметрический аналог - ранговый критерий Уилкоксона.

Тест Уилкоксона для одной выборки

История психологии во многом пересекается к курсом философии, поэтому логично ожидать, что средний балл по истории психологии не должен отличаться от среднего балла по философии. Проверим эту гипотезу с помощью теста Уилкоксона для одной выборки. По данным кумулятивного рейтинга медианное значение оценок философии равно 6. С ним и сравним.

wilcox.test(training_group$IQ, mu=100)
## 
##  Wilcoxon signed rank test with continuity correction
## 
## data:  training_group$IQ
## V = 43494, p-value = 2.593e-14
## alternative hypothesis: true location is not equal to 100

Тест Уилкоксона для двух независимых выборок

С помощью теста Уилкоксона можно сравнивать и две независимые выборки. Сравним средние оценки по истории психологии между двумя группами (т.к. этот тест может сравнивать только 2 группы). Для этого сначала отберём студентов только двух групп.

wilcox.test(IQdata$IQ ~ IQdata$group)
## 
##  Wilcoxon rank sum test with continuity correction
## 
## data:  IQdata$IQ by IQdata$group
## W = 44108, p-value = 2.875e-10
## alternative hypothesis: true location shift is not equal to 0

Тест Уилкоксона для двух зависимых выборок

С помощью теста Уилкоксона можно сравнивать две связанные выборки. Допустим есть оценки какого-то явления по 10-балльной шкале до какого-то события, и после

set.seed(1234)
pre <- round(runif(50, min = 1, max = 10), 0)
pre
##  [1]  2  7  6  7  9  7  1  3  7  6  7  6  4  9  4  9  4  3  3  3  4  4  2
## [24]  1  3  8  6  9  8  1  5  3  4  6  3  8  3  3 10  8  6  7  4  7  4  6
## [47]  7  5  3  8
post <- round(runif(50, min = 1, max = 10), 0)
post
##  [1] 2 4 7 6 2 6 5 8 3 9 9 1 4 1 3 7 4 6 1 6 2 9 1 8 2 6 4 2 4 7 9 5 2 6 3
## [36] 9 5 4 2 9 2 9 2 2 2 6 4 1 4 8

Сравним, изменась ли оценка этого явления после события. Это также лучше делать непараметрическим тестом Уилкоксона, а не тестом Стьюдента, т.к. переменные - ранговыя.

wilcox.test(pre, post, paired = TRUE)
## 
##  Wilcoxon signed rank test with continuity correction
## 
## data:  pre and post
## V = 567.5, p-value = 0.2541
## alternative hypothesis: true location shift is not equal to 0

Корреляция

Открываем файл HeightWeight.csv

df <- read.csv("HeightWeight.csv")
str(df)
## 'data.frame':    200 obs. of  4 variables:
##  $ id    : int  1 2 3 4 5 6 7 8 9 10 ...
##  $ height: num  65.8 71.5 69.4 68.2 67.8 ...
##  $ weight: num  113 136 153 142 144 ...
##  $ group : int  2 1 1 2 2 1 1 2 2 1 ...

Диаграмма рассеяния (scatterplot) Построим базовый вариант диаграммы рассеяния. Поскольку дальше ме хотим улучшить вид диаграммы, запишем её базовый вариант в переменную plot, чтобы каждый раз не писать эти две строчки.

plot <- ggplot(df, aes(df$height, df$weight)) + geom_point(aes())

Теперь наш рисунок хранится в переменной plot и может быть построен прямо из неё

plot

Улучшим внешний вид диаграммы (вместо первых двух строк используем переменную plot)

plot + 
    xlab('Рост') + # подписываем ось x
    ylab('Вес') + # подписываем ось y
    theme_bw() # выбирваем ч/б тему

Через множество точек можно провести линию, показывающую связь между этими переменными

plot +
    xlab('Рост') + # подписываем ось x
    ylab('Вес') + # подписываем ось y
    theme_bw() + # выбирваем ч/б тему
    geom_smooth(method=lm)

И не обязательно прямую линию (переменные не обязательно должны быть связаны линейно)

plot +
    xlab('Рост') + # подписываем ось x
    ylab('Вес') + # подписываем ось y
    theme_bw() + # выбирваем ч/б тему
    geom_smooth()

Можно разделить точки на группы, пометив их разным цветом. Раскрасим их в зависимости от того, из Москвы респондент или нет, и проведём для каждой из них собственную линию.

ggplot(df, aes(df$height, df$weight, colour=as.factor(group))) +  # оператор colour=habitation раскрашивает точки цветами
    geom_point(size = 5) + # size = 5 - делает точки побольше
    xlab('Рост') + # подписываем ось x
    ylab('Вес') + # подписываем ось y
    theme_bw() + # выбирваем ч/б тему
    geom_smooth(method=lm, se=FALSE) # se=FALSE - не показывать доверительный интервал

Множество дополнительных возможностей по редактированию диаграммы можно найти, например, здесь или здесь.

Коэффициент корреляции Пирсона

Линейный коэффициент корреляции Пирсона (Pearson product moment correlation) отражает степень линейной связи между двумя количественными переменными.

cor.test(df[,2], df[,3], method='pearson')
## 
##  Pearson's product-moment correlation
## 
## data:  df[, 2] and df[, 3]
## t = 9.4338, df = 198, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.4531327 0.6457176
## sample estimates:
##       cor 
## 0.5568647

Рост и вес коррелируют друг с другом, коэффициент корреляции Пирсона r(198) = 0.56, p < 0.001.

Коэффициент корреляции Спирмана

Коэффициент ранговой корреляции Спирмана (Spearman’s Rank Order correlation) – мера связи между двумя ранжированными переменными.

cor.test(df[,2], df[,3], method='spearman')
## 
##  Spearman's rank correlation rho
## 
## data:  df[, 2] and df[, 3]
## S = 598970, p-value < 2.2e-16
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
##       rho 
## 0.5507608

Коэффициент корреляции Кэнделла

Тау Кэнделла (Kendall’s Tau) – также непараметрический показатель ранговой корреляции.

cor.test(df[,2], df[,3], method='kendall')
## 
##  Kendall's rank correlation tau
## 
## data:  df[, 2] and df[, 3]
## z = 8.1572, p-value = 3.43e-16
## alternative hypothesis: true tau is not equal to 0
## sample estimates:
##       tau 
## 0.3882896

Связь более двух переменных

В пакете psych есть функция corr.test(), которая позволяет вычислить коэффициенты корреляции Пирсона, Спирмена и Кэнделла между несколькими переменными и оценить их достоверность. Вычислим коэффициенты корреляции Пирсона между пунктами двух шкал опросника Big 5 (набор данных bfi из пакета psych).

corr.test(bfi[,c(1:10)], method='pearson')
## Call:corr.test(x = bfi[, c(1:10)], method = "pearson")
## Correlation matrix 
##       A1    A2    A3    A4    A5    C1    C2    C3    C4    C5
## A1  1.00 -0.34 -0.27 -0.15 -0.18  0.03  0.02 -0.02  0.13  0.05
## A2 -0.34  1.00  0.49  0.34  0.39  0.09  0.14  0.19 -0.15 -0.12
## A3 -0.27  0.49  1.00  0.36  0.50  0.10  0.14  0.13 -0.12 -0.16
## A4 -0.15  0.34  0.36  1.00  0.31  0.09  0.23  0.13 -0.15 -0.24
## A5 -0.18  0.39  0.50  0.31  1.00  0.12  0.11  0.13 -0.13 -0.17
## C1  0.03  0.09  0.10  0.09  0.12  1.00  0.43  0.31 -0.34 -0.25
## C2  0.02  0.14  0.14  0.23  0.11  0.43  1.00  0.36 -0.38 -0.30
## C3 -0.02  0.19  0.13  0.13  0.13  0.31  0.36  1.00 -0.34 -0.34
## C4  0.13 -0.15 -0.12 -0.15 -0.13 -0.34 -0.38 -0.34  1.00  0.48
## C5  0.05 -0.12 -0.16 -0.24 -0.17 -0.25 -0.30 -0.34  0.48  1.00
## Sample Size 
##      A1   A2   A3   A4   A5   C1   C2   C3   C4   C5
## A1 2784 2757 2759 2767 2769 2764 2761 2764 2759 2768
## A2 2757 2773 2751 2758 2757 2752 2752 2758 2752 2757
## A3 2759 2751 2774 2759 2758 2753 2754 2758 2753 2758
## A4 2767 2758 2759 2781 2765 2760 2763 2766 2762 2765
## A5 2769 2757 2758 2765 2784 2764 2760 2764 2758 2769
## C1 2764 2752 2753 2760 2764 2779 2755 2760 2753 2763
## C2 2761 2752 2754 2763 2760 2755 2776 2762 2756 2761
## C3 2764 2758 2758 2766 2764 2760 2762 2780 2758 2764
## C4 2759 2752 2753 2762 2758 2753 2756 2758 2774 2758
## C5 2768 2757 2758 2765 2769 2763 2761 2764 2758 2784
## Probability values (Entries above the diagonal are adjusted for multiple tests.) 
##      A1 A2 A3 A4 A5   C1   C2   C3 C4   C5
## A1 0.00  0  0  0  0 0.43 0.62 0.62  0 0.03
## A2 0.00  0  0  0  0 0.00 0.00 0.00  0 0.00
## A3 0.00  0  0  0  0 0.00 0.00 0.00  0 0.00
## A4 0.00  0  0  0  0 0.00 0.00 0.00  0 0.00
## A5 0.00  0  0  0  0 0.00 0.00 0.00  0 0.00
## C1 0.14  0  0  0  0 0.00 0.00 0.00  0 0.00
## C2 0.39  0  0  0  0 0.00 0.00 0.00  0 0.00
## C3 0.31  0  0  0  0 0.00 0.00 0.00  0 0.00
## C4 0.00  0  0  0  0 0.00 0.00 0.00  0 0.00
## C5 0.01  0  0  0  0 0.00 0.00 0.00  0 0.00
## 
##  To see confidence intervals of the correlations, print with the short=FALSE option

В таблице Correlation matrix представлены значения коэффициентов корреляции, в таблице Sample Size - количество наблюдений, по которым были рассчитаны конкретные коэффициенты (значения отличаются, т.к. по некоторым переменным есть пропуски), в таблице Probability values - значения p-value.

Несколько парных корреляций также можно визуализировать на одном рисунке.

Коррелограмма

library(corrgram)
corrgram(bfi[,c(1:10)], order=TRUE, lower.panel=panel.shade, upper.panel=panel.pie, text.panel=panel.txt)

Также можно изобразить сразу несколько диаграмм рассеяния с помощью матрицы

Матрица диаграмм рассеяния

library(car)
scatterplotMatrix(~ A1+A2+A3+A4+A5, data=bfi, spread=FALSE, lty.smooth=2)

Больше визуализаций

library(corrplot)
corrplot(cor(mtcars[,c(1, 3, 4, 6)]), method="color", diag=FALSE)

corrplot(cor(mtcars[,c(1, 3, 4, 6)]), method="number", diag=FALSE)

Больше примеров

И здесь