Скачать файл с примерами, разбиравщимися на семинаре и файл данных world.txt.zip можно из из публичной папки BIVNI_R
Шпаргалка по пакетам dplyr и tidyr может быть скачанна по ссылке http://www.rstudio.com/wp-content/uploads/2015/02/data-wrangling-cheatsheet.pdf
Установите пакет dplyr и пакеты, применяющиеся в документации к нему
install.packages(c("ggplot2","dplyr","nycflights13"))
подключите пакет
library(dplyr)
##
## Attaching package: 'dplyr'
##
## The following object is masked from 'package:stats':
##
## filter
##
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
Посмотреть встроенную документацию mini-howto-документы (vignettes) по пакету dplyr можно командой
browseVignettes(package="dplyr")
Таблицы, которые используются в задачах кратко описаны тут
Скачайте zip-архив с файлами данынх и разверните их в какую-нибудь папку, например world.data Это можно следать при помощи самой среды R следущими командами
# создаём новую папку с именем world.data
dir.create("world.data")
## Warning in dir.create("world.data"): 'world.data' уже существует
# устанавливаем текущей директорей (working directory) папку world.data
setwd("world.data")
# скачиваем zip-архив с web-сайта
download.file(url="http://crow.academy.ru/~ikocherg/stud_do/2015vesna/world.txt.zip",destfile = "world.txt.zip")
# распаковываем его в текущую папку
unzip("world.txt.zip")
# загружаем из текстовых файлов 3 dataframe'а
country<-read.delim(file="country.txt",sep=";",dec=",",header=T,stringsAsFactors=T)
city<-read.delim(file="city.txt",sep=";",dec=",",header=T,stringsAsFactors=T)
countrylanguage<-read.delim(file="countrylanguage.txt",sep=";",dec=",",header=T)
Количество стран (строк в таблице)
country %>% summarise(num_country=n())
## num_country
## 1 239
Будте внимательны – названия полей чуствительны к регистру. Список стран, которые относятся к региону “Eastern Europe” и имеющих население более 10 милионов. Список нужно упорядочить по убыванию средней продолжительности жизни (LifeExpectancy). В результате не показывать столбцы IndepYear,Continent,Region и все столбцы от GNP до Code2.
country %>% filter(Region=="Eastern Europe",Population>1e7) %>% select(-c(IndepYear,Continent,Region),-c(GNP:Code2)) %>% arrange(desc(LifeExpectancy))
## CountryCode Name SurfaceArea Population LifeExpectancy
## 1 CZE Czech Republic 78866 10278100 74.5
## 2 POL Poland 323250 38653600 73.2
## 3 HUN Hungary 93030 10043200 71.4
## 4 ROM Romania 238391 22455500 69.9
## 5 BLR Belarus 207600 10236000 68.0
## 6 RUS Russian Federation 17075400 146934000 67.2
## 7 UKR Ukraine 603700 50456000 66.0
https://www.evernote.com/l/AQLJY6f8jrpClLa9SH9llunkGYFQW-FrdKI