Скачайте данные для этого занятия:
Для того, чтобы открывать данные разных форматов, нужно скачать и активировать пакет foreign. Cкачать пакет можно либо через меню (Tools -> Install.packages), либо командой install.packages().
# install.packages('foreign')
После того, как пакет установлен, он всегда будет хранится на вашем компьютере. Повторно его устанавливать не нужно. Однако для того, что использовать функции из этого пакета, его нужно активировать. Активация нужно при каждом запуске новой сессии работы R (проще говоря, при каждом новом запуске R). Для его воспользуйтесь командами require(foreign) или library(foreign)
require(foreign)
## Loading required package: foreign
Далее нужно определить рабочую директорию (папку, в которой хранится файл с данными, который вы хотите открыть). Это можно сделать либо через меню (Session -> Set working directory -> Choose directory), либо командой setwd(“полный путь к папке”).
mtcars_from_desktop <- read.table("mtcars_data.txt", header = TRUE)
str(mtcars_from_desktop)
## 'data.frame': 32 obs. of 11 variables:
## $ mpg : num 21 21 22.8 21.4 18.7 18.1 14.3 24.4 22.8 19.2 ...
## $ cyl : int 6 6 4 6 8 6 8 4 4 6 ...
## $ disp: num 160 160 108 258 360 ...
## $ hp : int 110 110 93 110 175 105 245 62 95 123 ...
## $ drat: num 3.9 3.9 3.85 3.08 3.15 2.76 3.21 3.69 3.92 3.92 ...
## $ wt : num 2.62 2.88 2.32 3.21 3.44 ...
## $ qsec: num 16.5 17 18.6 19.4 17 ...
## $ vs : int 0 0 1 1 0 1 0 1 1 1 ...
## $ am : int 1 1 1 0 0 0 0 0 0 0 ...
## $ gear: int 4 4 4 3 3 3 3 4 4 4 ...
## $ carb: int 4 4 1 1 2 1 4 2 2 4 ...
summary(mtcars_from_desktop)
## mpg cyl disp hp
## Min. :10.40 Min. :4.000 Min. : 71.1 Min. : 52.0
## 1st Qu.:15.43 1st Qu.:4.000 1st Qu.:120.8 1st Qu.: 96.5
## Median :19.20 Median :6.000 Median :196.3 Median :123.0
## Mean :20.09 Mean :6.188 Mean :230.7 Mean :146.7
## 3rd Qu.:22.80 3rd Qu.:8.000 3rd Qu.:326.0 3rd Qu.:180.0
## Max. :33.90 Max. :8.000 Max. :472.0 Max. :335.0
## drat wt qsec vs
## Min. :2.760 Min. :1.513 Min. :14.50 Min. :0.0000
## 1st Qu.:3.080 1st Qu.:2.581 1st Qu.:16.89 1st Qu.:0.0000
## Median :3.695 Median :3.325 Median :17.71 Median :0.0000
## Mean :3.597 Mean :3.217 Mean :17.85 Mean :0.4375
## 3rd Qu.:3.920 3rd Qu.:3.610 3rd Qu.:18.90 3rd Qu.:1.0000
## Max. :4.930 Max. :5.424 Max. :22.90 Max. :1.0000
## am gear carb
## Min. :0.0000 Min. :3.000 Min. :1.000
## 1st Qu.:0.0000 1st Qu.:3.000 1st Qu.:2.000
## Median :0.0000 Median :4.000 Median :2.000
## Mean :0.4062 Mean :3.688 Mean :2.812
## 3rd Qu.:1.0000 3rd Qu.:4.000 3rd Qu.:4.000
## Max. :1.0000 Max. :5.000 Max. :8.000
# см справку про функцию read.table
# ?read.table
mtcars_from_spss <- read.spss("my_mtcars.sav", use.value.labels = F, to.data.frame = T, use.missings = T)
## Warning in read.spss("my_mtcars.sav", use.value.labels = F, to.data.frame
## = T, : my_mtcars.sav: Unrecognized record type 7, subtype 18 encountered in
## system file
str(mtcars_from_spss)
## 'data.frame': 32 obs. of 12 variables:
## $ cars: Factor w/ 32 levels "AMC Javelin ",..: 18 19 5 13 14 31 7 21 20 22 ...
## $ mpg : Factor w/ 25 levels "10.4","13.3",..: 16 16 19 17 13 12 3 20 19 14 ...
## $ cyl : num 6 6 4 6 8 6 8 4 4 6 ...
## $ disp: Factor w/ 27 levels "108 ","120.1",..: 8 8 1 11 18 10 18 7 5 9 ...
## $ hp : num 110 110 93 110 175 105 245 62 95 123 ...
## $ drat: Factor w/ 22 levels "2.76","2.93",..: 16 16 15 5 6 1 7 11 17 17 ...
## $ wt : Factor w/ 29 levels "1.513","1.615",..: 9 12 7 16 18 19 21 15 13 18 ...
## $ qsec: Factor w/ 30 levels "14.5 ","14.6 ",..: 6 10 22 24 10 29 5 27 30 19 ...
## $ vs : num 0 0 1 1 0 1 0 1 1 1 ...
## $ am : num 1 1 1 0 0 0 0 0 0 0 ...
## $ gear: num 4 4 4 3 3 3 3 4 4 4 ...
## $ carb: num 4 4 1 1 2 1 4 2 2 4 ...
## - attr(*, "variable.labels")= Named chr "" "Miles/(US) gallon" "Number of cylinders" "Displacement (cu.in.)" ...
## ..- attr(*, "names")= chr "cars" "mpg" "cyl" "disp" ...
## - attr(*, "codepage")= int 65001
summary(mtcars_from_spss)
## cars mpg cyl disp
## AMC Javelin : 1 10.4 : 2 Min. :4.000 275.8 : 3
## Cadillac Fleetwood : 1 15.2 : 2 1st Qu.:4.000 160 : 2
## Camaro Z28 : 1 19.2 : 2 Median :6.000 167.6 : 2
## Chrysler Imperial : 1 21 : 2 Mean :6.188 360 : 2
## Datsun 710 : 1 21.4 : 2 3rd Qu.:8.000 108 : 1
## Dodge Challenger : 1 22.8 : 2 Max. :8.000 120.1 : 1
## (Other) :26 (Other):20 (Other):21
## hp drat wt qsec vs
## Min. : 52.0 3.07 : 3 3.44 : 3 17.02 : 2 Min. :0.0000
## 1st Qu.: 96.5 3.92 : 3 3.57 : 2 18.9 : 2 1st Qu.:0.0000
## Median :123.0 2.76 : 2 1.513 : 1 14.5 : 1 Median :0.0000
## Mean :146.7 3.08 : 2 1.615 : 1 14.6 : 1 Mean :0.4375
## 3rd Qu.:180.0 3.15 : 2 1.835 : 1 15.41 : 1 3rd Qu.:1.0000
## Max. :335.0 3.9 : 2 1.935 : 1 15.5 : 1 Max. :1.0000
## (Other):18 (Other):23 (Other):24
## am gear carb
## Min. :0.0000 Min. :3.000 Min. :1.000
## 1st Qu.:0.0000 1st Qu.:3.000 1st Qu.:2.000
## Median :0.0000 Median :4.000 Median :2.000
## Mean :0.4062 Mean :3.688 Mean :2.812
## 3rd Qu.:1.0000 3rd Qu.:4.000 3rd Qu.:4.000
## Max. :1.0000 Max. :5.000 Max. :8.000
##
# см справку про функцию read.spss
# ?read.spss
mtcars_csv <- read.csv("mtcars_data.csv")
str(mtcars_csv)
## 'data.frame': 32 obs. of 11 variables:
## $ mpg : num 21 21 22.8 21.4 18.7 18.1 14.3 24.4 22.8 19.2 ...
## $ cyl : int 6 6 4 6 8 6 8 4 4 6 ...
## $ disp: num 160 160 108 258 360 ...
## $ hp : int 110 110 93 110 175 105 245 62 95 123 ...
## $ drat: num 3.9 3.9 3.85 3.08 3.15 2.76 3.21 3.69 3.92 3.92 ...
## $ wt : num 2.62 2.88 2.32 3.21 3.44 ...
## $ qsec: num 16.5 17 18.6 19.4 17 ...
## $ vs : int 0 0 1 1 0 1 0 1 1 1 ...
## $ am : int 1 1 1 0 0 0 0 0 0 0 ...
## $ gear: int 4 4 4 3 3 3 3 4 4 4 ...
## $ carb: int 4 4 1 1 2 1 4 2 2 4 ...
summary(mtcars_csv)
## mpg cyl disp hp
## Min. :10.40 Min. :4.000 Min. : 71.1 Min. : 52.0
## 1st Qu.:15.43 1st Qu.:4.000 1st Qu.:120.8 1st Qu.: 96.5
## Median :19.20 Median :6.000 Median :196.3 Median :123.0
## Mean :20.09 Mean :6.188 Mean :230.7 Mean :146.7
## 3rd Qu.:22.80 3rd Qu.:8.000 3rd Qu.:326.0 3rd Qu.:180.0
## Max. :33.90 Max. :8.000 Max. :472.0 Max. :335.0
## drat wt qsec vs
## Min. :2.760 Min. :1.513 Min. :14.50 Min. :0.0000
## 1st Qu.:3.080 1st Qu.:2.581 1st Qu.:16.89 1st Qu.:0.0000
## Median :3.695 Median :3.325 Median :17.71 Median :0.0000
## Mean :3.597 Mean :3.217 Mean :17.85 Mean :0.4375
## 3rd Qu.:3.920 3rd Qu.:3.610 3rd Qu.:18.90 3rd Qu.:1.0000
## Max. :4.930 Max. :5.424 Max. :22.90 Max. :1.0000
## am gear carb
## Min. :0.0000 Min. :3.000 Min. :1.000
## 1st Qu.:0.0000 1st Qu.:3.000 1st Qu.:2.000
## Median :0.0000 Median :4.000 Median :2.000
## Mean :0.4062 Mean :3.688 Mean :2.812
## 3rd Qu.:1.0000 3rd Qu.:4.000 3rd Qu.:4.000
## Max. :1.0000 Max. :5.000 Max. :8.000
# см справку про функцию read.csv
# ?read.csv
Проверка загрузки данных
# посмотреть первые 3 наблюдения
head(mtcars_from_desktop, 3)
## mpg cyl disp hp drat wt qsec vs am gear carb
## Mazda RX4 21.0 6 160 110 3.90 2.620 16.46 0 1 4 4
## Mazda RX4 Wag 21.0 6 160 110 3.90 2.875 17.02 0 1 4 4
## Datsun 710 22.8 4 108 93 3.85 2.320 18.61 1 1 4 1
# посмотреть посление наблюдения
tail(mtcars_from_desktop)
## mpg cyl disp hp drat wt qsec vs am gear carb
## Porsche 914-2 26.0 4 120.3 91 4.43 2.140 16.7 0 1 5 2
## Lotus Europa 30.4 4 95.1 113 3.77 1.513 16.9 1 1 5 2
## Ford Pantera L 15.8 8 351.0 264 4.22 3.170 14.5 0 1 5 4
## Ferrari Dino 19.7 6 145.0 175 3.62 2.770 15.5 0 1 5 6
## Maserati Bora 15.0 8 301.0 335 3.54 3.570 14.6 0 1 5 8
## Volvo 142E 21.4 4 121.0 109 4.11 2.780 18.6 1 1 4 2
Манипулиции с переменными
mtcars$mpg
## [1] 21.0 21.0 22.8 21.4 18.7 18.1 14.3 24.4 22.8 19.2 17.8 16.4 17.3 15.2
## [15] 10.4 10.4 14.7 32.4 30.4 33.9 21.5 15.5 15.2 13.3 19.2 27.3 26.0 30.4
## [29] 15.8 19.7 15.0 21.4
summary(mtcars$mpg)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 10.40 15.42 19.20 20.09 22.80 33.90
# from 'mpg-US' to 'km/l'
mtcars$kml <- 0.425143707 * mtcars$mpg
mtcars$kml
## [1] 8.928018 8.928018 9.693277 9.098075 7.950187 7.695101 6.079555
## [8] 10.373506 9.693277 8.162759 7.567558 6.972357 7.354986 6.462184
## [15] 4.421495 4.421495 6.249612 13.774656 12.924369 14.412372 9.140590
## [22] 6.589727 6.462184 5.654411 8.162759 11.606423 11.053736 12.924369
## [29] 6.717271 8.375331 6.377156 9.098075
mtcars$number <- 1:nrow(mtcars)
mtcars$number
## [1] 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
## [24] 24 25 26 27 28 29 30 31 32
# количество строк (наблюдений)
nrow(mtcars)
## [1] 32
# количество столбиков (переменных)
ncol(mtcars)
## [1] 13
Отбор части данных
# показать только первые 10 значений переменной mpg
mtcars$mpg[1:10]
## [1] 21.0 21.0 22.8 21.4 18.7 18.1 14.3 24.4 22.8 19.2
# показать значение из первого столбика и первой строки
mtcars[1,1]
## [1] 21
# показать только 2, 10 и 30 значения из столбика 1
mtcars[c(2,10,30),1]
## [1] 21.0 19.2 19.7
# показать с 10 по 20 значения из столбика 1
mtcars[10:20,1]
## [1] 19.2 17.8 16.4 17.3 15.2 10.4 10.4 14.7 32.4 30.4 33.9
# показать ряд № 5
mtcars[5,]
## mpg cyl disp hp drat wt qsec vs am gear carb
## Hornet Sportabout 18.7 8 360 175 3.15 3.44 17.02 0 0 3 2
## kml number
## Hornet Sportabout 7.950187 5
# показать строку № 1
mtcars[,1]
## [1] 21.0 21.0 22.8 21.4 18.7 18.1 14.3 24.4 22.8 19.2 17.8 16.4 17.3 15.2
## [15] 10.4 10.4 14.7 32.4 30.4 33.9 21.5 15.5 15.2 13.3 19.2 27.3 26.0 30.4
## [29] 15.8 19.7 15.0 21.4
Отбор части данных с помощью условия
mtcars$cyl
## [1] 6 6 4 6 8 6 8 4 4 6 6 8 8 8 8 8 8 4 4 4 4 8 8 8 8 4 4 4 8 6 8 4
mtcars$cyl == '6'
## [1] TRUE TRUE FALSE TRUE FALSE TRUE FALSE FALSE FALSE TRUE TRUE
## [12] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
## [23] FALSE FALSE FALSE FALSE FALSE FALSE FALSE TRUE FALSE FALSE
head(subset(mtcars, cyl == '6'))
## mpg cyl disp hp drat wt qsec vs am gear carb
## Mazda RX4 21.0 6 160.0 110 3.90 2.620 16.46 0 1 4 4
## Mazda RX4 Wag 21.0 6 160.0 110 3.90 2.875 17.02 0 1 4 4
## Hornet 4 Drive 21.4 6 258.0 110 3.08 3.215 19.44 1 0 3 1
## Valiant 18.1 6 225.0 105 2.76 3.460 20.22 1 0 3 1
## Merc 280 19.2 6 167.6 123 3.92 3.440 18.30 1 0 4 4
## Merc 280C 17.8 6 167.6 123 3.92 3.440 18.90 1 0 4 4
## kml number
## Mazda RX4 8.928018 1
## Mazda RX4 Wag 8.928018 2
## Hornet 4 Drive 9.098075 4
## Valiant 7.695101 6
## Merc 280 8.162759 10
## Merc 280C 7.567558 11
head(subset(mtcars, mpg > 20))
## mpg cyl disp hp drat wt qsec vs am gear carb
## Mazda RX4 21.0 6 160.0 110 3.90 2.620 16.46 0 1 4 4
## Mazda RX4 Wag 21.0 6 160.0 110 3.90 2.875 17.02 0 1 4 4
## Datsun 710 22.8 4 108.0 93 3.85 2.320 18.61 1 1 4 1
## Hornet 4 Drive 21.4 6 258.0 110 3.08 3.215 19.44 1 0 3 1
## Merc 240D 24.4 4 146.7 62 3.69 3.190 20.00 1 0 4 2
## Merc 230 22.8 4 140.8 95 3.92 3.150 22.90 1 0 4 2
## kml number
## Mazda RX4 8.928018 1
## Mazda RX4 Wag 8.928018 2
## Datsun 710 9.693277 3
## Hornet 4 Drive 9.098075 4
## Merc 240D 10.373506 8
## Merc 230 9.693277 9
Подгружаем необходимые для занятия пакеты
library(psych)
library(ggplot2)
Если их нет на компьютере, их нужно загрузить
# install.packages('psych')
# install.packages('ggplot2')
Загружаем файл с данными “IQdata.csv”
IQdata <- read.table("IQdata.csv")
В файле две переменные: IQ - количественная переменная, представляющая собой количество баллов теста интеллекта, group - качественная переменная, отражающая принадлежность человека к одной из двух групп (training - тренировалась решать задачи, входящие в тесты интеллекта, control - контрольная группа, в которой ничего не происходило).
Посмотрим на структуру наших данных.
str(IQdata)
## 'data.frame': 700 obs. of 2 variables:
## $ group: Factor w/ 2 levels "control","training": 1 1 1 1 1 1 1 1 1 1 ...
## $ IQ : int 104 102 NA 115 94 119 85 105 98 89 ...
Посмотрим начало данных.
head(IQdata)
## group IQ
## 1 control 104
## 2 control 102
## 3 control NA
## 4 control 115
## 5 control 94
## 6 control 119
# по умолчанию показываются 6 первых строк, но можно заказать другое количество
head(IQdata, 10)
## group IQ
## 1 control 104
## 2 control 102
## 3 control NA
## 4 control 115
## 5 control 94
## 6 control 119
## 7 control 85
## 8 control 105
## 9 control 98
## 10 control 89
Посмотрим конец данных.
tail(IQdata)
## group IQ
## 695 training 129
## 696 training 89
## 697 training 73
## 698 training 102
## 699 training 75
## 700 training NA
tail(IQdata, 12)
## group IQ
## 689 training 91
## 690 training 112
## 691 training 115
## 692 training 113
## 693 training 114
## 694 training 97
## 695 training 129
## 696 training 89
## 697 training 73
## 698 training 102
## 699 training 75
## 700 training NA
Посмотрим на описание данных.
summary(IQdata)
## group IQ
## control :350 Min. : 63.0
## training:350 1st Qu.: 92.0
## Median :103.0
## Mean :102.7
## 3rd Qu.:113.0
## Max. :148.0
## NA's :2
# посмотрим отдельно на среднее значение
mean(IQdata$IQ)
## [1] NA
Выдаёт NA. Среднего значения несуществует? Проблема в пропущенных значениях. По умолчанию R не знает, как с ними поступить. Ему нужно дать инструкцию: na.rm = TRUE означает “не учитывать пропуски”.
mean(IQdata$IQ, na.rm = TRUE) # na.rm = TRUE означает "не учитывать пропуски".
## [1] 102.6648
Можно попросить округлить результата до десятых.
round(mean(IQdata$IQ, na.rm = TRUE), 1)
## [1] 102.7
Или до сотых.
round(mean(IQdata$IQ, na.rm = TRUE), 2)
## [1] 102.66
Посмотрим на стандартное отклонение IQ, тут тоже нужен аргумент na.rm = TRUE.
sd(IQdata$IQ, na.rm = TRUE)
## [1] 14.93436
Посмотрим на медиану.
median(IQdata$IQ, na.rm = TRUE)
## [1] 103
В пакете psych есть удобная функция describe, котрая показывает сразу всю описательную статистику. Кстати, она сама по умолчанию знает, что пропущенные значения не нужно учитывать
describe(IQdata$IQ)
## vars n mean sd median trimmed mad min max range skew kurtosis
## 1 1 698 102.66 14.93 103 102.72 16.31 63 148 85 0 -0.3
## se
## 1 0.57
Если не знаете, какие-то показатели, посмотрите справку по этой функции ?describe
Мы знаем, что у нас 2 группа: одна проходила тренинг, другая - нет. Более интересно и осмысленно смотреть на описательную статистику по ним отдельно
Выберем из всего массива данных только одну групп, которая проходила тренинг
training_group <- subset(IQdata, group == "training")
Посмотрим описательную статистику только для них
describe(training_group$IQ)
## vars n mean sd median trimmed mad min max range skew kurtosis
## 1 1 349 106.25 14.05 106 106.36 14.83 63 148 85 -0.04 -0.07
## se
## 1 0.75
Сделаем тоже самое для контрольной группы
control_group <- subset(IQdata, group == "control")
describe(control_group$IQ)
## vars n mean sd median trimmed mad min max range skew kurtosis
## 1 1 349 99.08 14.95 97 98.95 14.83 64 141 77 0.12 -0.42
## se
## 1 0.8
В пакете psych есть ещё одна удобная функция describeBy, которая показывает сразу всю описательную статистику по нескольким группам.
describeBy(IQdata$IQ, group = IQdata$group)
## group: control
## vars n mean sd median trimmed mad min max range skew kurtosis
## 1 1 349 99.08 14.95 97 98.95 14.83 64 141 77 0.12 -0.42
## se
## 1 0.8
## --------------------------------------------------------
## group: training
## vars n mean sd median trimmed mad min max range skew kurtosis
## 1 1 349 106.25 14.05 106 106.36 14.83 63 148 85 -0.04 -0.07
## se
## 1 0.75
hist(IQdata$IQ)
# закажем большее количество столбцов, например 20
hist(IQdata$IQ, breaks = 20)
# или 40
hist(IQdata$IQ, breaks = 40)
То же самое, но с помощью пакета ggplot2
ggplot(IQdata, aes(IQ)) + geom_histogram(binwidth = 3)
Улучшим гистограмму
ggplot(IQdata, aes(IQ)) + geom_histogram(binwidth = 3)+
theme_bw()+
xlab('IQ-баллы')+
ylab('Частота')
Посторим гистограммы для каждой из групп и разместим их на рядом одном рисунке
ggplot(IQdata, aes(IQ)) + geom_histogram(binwidth = 3)+
theme_bw()+
xlab('IQ-баллы')+
ylab('Частота')+
facet_grid(group ~ .)
ggplot(IQdata, aes(IQ, fill=group)) + geom_density()
Улучшим диаграмму плотности распределения
ggplot(IQdata, aes(IQ, fill=group)) + geom_density(alpha=0.5)+
theme_bw()+
xlab('IQ-баллы')+
ylab('Плотность')
ggplot(IQdata, aes(x=group, y=IQ)) + geom_boxplot()
Улучшим Boxplot
ggplot(IQdata, aes(group, IQ)) + geom_boxplot(aes(fill=group))+
theme_bw()+
ylab('IQ-баллы')+
xlab('Тип группы')