Скачать файл с примерами, разбиравщимися на семинаре и файл данных world.txt.zip можно из из публичной папки BIVNI_R

Материалы по пакету dplyr

Шпаргалка по пакетам dplyr и tidyr может быть скачанна по ссылке http://www.rstudio.com/wp-content/uploads/2015/02/data-wrangling-cheatsheet.pdf

Установите пакет dplyr и пакеты, применяющиеся в документации к нему

install.packages(c("ggplot2","dplyr","nycflights13"))

подключите пакет

library(dplyr)
## 
## Attaching package: 'dplyr'
## 
## The following object is masked from 'package:stats':
## 
##     filter
## 
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union

Посмотреть встроенную документацию mini-howto-документы (vignettes) по пакету dplyr можно командой

browseVignettes(package="dplyr")

Данные для практикума

Таблицы, которые используются в задачах кратко описаны тут

Скачайте zip-архив с файлами данынх и разверните их в какую-нибудь папку, например world.data Это можно следать при помощи самой среды R следущими командами

# создаём новую папку с именем world.data
dir.create("world.data")
## Warning in dir.create("world.data"): 'world.data' уже существует
# устанавливаем текущей директорей (working directory) папку world.data
setwd("world.data")             
# скачиваем zip-архив с web-сайта
download.file(url="http://crow.academy.ru/~ikocherg/stud_do/2015vesna/world.txt.zip",destfile = "world.txt.zip")
# распаковываем его в текущую папку
unzip("world.txt.zip")
# загружаем из текстовых файлов 3 dataframe'а
country<-read.delim(file="country.txt",sep=";",dec=",",header=T,stringsAsFactors=T)
city<-read.delim(file="city.txt",sep=";",dec=",",header=T,stringsAsFactors=T)
countrylanguage<-read.delim(file="countrylanguage.txt",sep=";",dec=",",header=T)

Простые примеры

Пример 1

Количество стран (строк в таблице)

country %>% summarise(num_country=n())
##   num_country
## 1         239

Пример 2

Будте внимательны – названия полей чуствительны к регистру. Список стран, которые относятся к региону “Eastern Europe” и имеющих население более 10 милионов. Список нужно упорядочить по убыванию средней продолжительности жизни (LifeExpectancy). В результате не показывать столбцы IndepYear,Continent,Region и все столбцы от GNP до Code2.

country %>% filter(Region=="Eastern Europe",Population>1e7) %>%  select(-c(IndepYear,Continent,Region),-c(GNP:Code2)) %>% arrange(desc(LifeExpectancy))
##   CountryCode               Name SurfaceArea Population LifeExpectancy
## 1         CZE     Czech Republic       78866   10278100           74.5
## 2         POL             Poland      323250   38653600           73.2
## 3         HUN            Hungary       93030   10043200           71.4
## 4         ROM            Romania      238391   22455500           69.9
## 5         BLR            Belarus      207600   10236000           68.0
## 6         RUS Russian Federation    17075400  146934000           67.2
## 7         UKR            Ukraine      603700   50456000           66.0

Задания

Задание из курса по базам данных

https://www.evernote.com/l/AQLJY6f8jrpClLa9SH9llunkGYFQW-FrdKI