R Notebook

This is an R Markdown Notebook. When you execute code within the notebook, the results appear beneath the code.

Try executing this chunk by clicking the Run button within the chunk or by placing your cursor inside it and pressing Ctrl+Shift+Enter.

plot(cars)

Add a new chunk by clicking the Insert Chunk button on the toolbar or by pressing Ctrl+Alt+I.

When you save the notebook, an HTML file containing the code and output will be saved alongside it (click the Preview button or press Ctrl+Shift+K to preview the HTML file).

The preview shows you a rendered HTML copy of the contents of the editor. Consequently, unlike Knit, Preview does not run any R code chunks. Instead, the output of the chunk when it was last run in the editor is displayed.

library(plyr)
Sys.setlocale("LC_ALL","Chinese")

[1] "LC_COLLATE=Chinese (Simplified)_China.936;LC_CTYPE=Chinese (Simplified)_China.936;LC_MONETARY=Chinese (Simplified)_China.936;LC_NUMERIC=C;LC_TIME=Chinese (Simplified)_China.936"

movie =read.csv("movie_data.txt", header = TRUE, sep = "," , fileEncoding = "UTF-8")
attach(movie)

The following objects are masked from movie (pos = 3):

    boxoffice, doubanscore, name, showtime, type

The following objects are masked from movie (pos = 4):

    boxoffice, doubanscore, name, showtime, type

The following objects are masked from movie (pos = 7):

    boxoffice, doubanscore, name, showtime, type

The following objects are masked from movie (pos = 8):

    boxoffice, doubanscore, name, showtime, type

The following objects are masked from movie (pos = 9):

    boxoffice, doubanscore, name, showtime, type

print(movie)


summary(movie)

     name               type             showtime          doubanscore    boxoffice     
 Length:9           Length:9           Length:9           Min.   :4.0   Min.   :  6184  
 Class :character   Class :character   Class :character   1st Qu.:5.0   1st Qu.: 17799  
 Mode  :character   Mode  :character   Mode  :character   Median :6.4   Median : 78341  
                                                          Mean   :5.9   Mean   : 95780  
                                                          3rd Qu.:6.5   3rd Qu.:111694  
                                                          Max.   :7.7   Max.   :338583

str(movie)

'data.frame':   9 obs. of  5 variables:
 $ name       : chr  "叶问3" "美人鱼" "女汉子真爱公式" "西游记之孙悟空三打白骨精" ...
 $ type       : chr  "动作" "喜剧" "喜剧" "喜剧" ...
 $ showtime   : chr  "2016/3/4" "2016/2/8" "2016/3/18" "2016/2/8" ...
 $ doubanscore: num  6.4 6.9 4.5 5.7 4 7.7 6.5 6.4 5
 $ boxoffice  : num  77064 338583 6184 119957 111694 ...

(movie = movie[order(movie$type,movie$doubanscore,decreasing = TRUE),])


(popular_type=ddply(movie, .(type), function(x){mean(x$boxoffice)}))

(popular_type=popular_type[order(popular_type$V1, decreasing = TRUE),])


popular_type

class(movie$boxoffice); class(movie$name)

[1] "numeric"
[1] "character"

movie$name[movie$type == "喜剧" & movie$doubanscore > 7]

[1] "功夫熊猫 3"

movie$showtime[movie$name =="美人鱼" | movie$name=="功夫熊猫 3"]

[1] "2016/1/29" "2016/2/8"

(m=as.Date(head(movie$showtime)))

[1] "2016-01-29" "2016-02-08" "2016-04-29" "2016-02-08" "2016-03-18" "2016-02-08"

format(m, format = "%B %d %Y")

[1] "一月 29 2016" "二月 08 2016" "四月 29 2016" "二月 08 2016" "三月 18 2016" "二月 08 2016"

format(m, format = "%B %d %Y %A")

[1] "一月 29 2016 星期五" "二月 08 2016 星期一" "四月 29 2016 星期五" "二月 08 2016 星期一" "三月 18 2016 星期五" "二月 08 2016 星期一"

format(m, format = "%B")

[1] "一月" "二月" "四月" "二月" "三月" "二月"

format(Sys.time(), format = "%Y/%B/%d %a %H:%M:%S")

[1] "2021/十月/04 周一 12:13:21"


library(lubridate)
x=c(20090101, "2009-01-02", "2009 01 03", "2009-1-4", "2009-1,5", "Created on 2009 1 6", "200901 !!! 07")
ymd(x)

[1] "2009-01-01" "2009-01-02" "2009-01-03" "2009-01-04" "2009-01-05" "2009-01-06" "2009-01-07"

mday(as.Date("2021-11-20"))

[1] 20

wday(as.Date("2021-11-20"))

[1] 7

begin = as.Date("2021-11-20")
end = as.Date("2021-12-20")

(during =end-begin)

Time difference of 30 days

difftime(end, begin, units = "weeks")

Time difference of 4.285714 weeks

difftime(end, begin, units = "hours")

Time difference of 720 hours

Sys.setlocale("LC_ALL","Chinese")

[1] "LC_COLLATE=Chinese (Simplified)_China.936;LC_CTYPE=Chinese (Simplified)_China.936;LC_MONETARY=Chinese (Simplified)_China.936;LC_NUMERIC=C;LC_TIME=Chinese (Simplified)_China.936"

movie =read.csv("movie_data.txt", header = TRUE, sep = "," , fileEncoding = "UTF-8")
attach(movie)

The following objects are masked from movie (pos = 3):

    boxoffice, doubanscore, name, showtime, type

The following objects are masked from movie (pos = 4):

    boxoffice, doubanscore, name, showtime, type

The following objects are masked from movie (pos = 5):

    boxoffice, doubanscore, name, showtime, type

The following objects are masked from movie (pos = 8):

    boxoffice, doubanscore, name, showtime, type

The following objects are masked from movie (pos = 9):

    boxoffice, doubanscore, name, showtime, type

The following objects are masked from movie (pos = 10):

    boxoffice, doubanscore, name, showtime, type

as.Date(head(movie$showtime))

[1] "2016-03-04" "2016-02-08" "2016-03-18" "2016-02-08" "2016-02-08" "2016-01-29"

head(sort(as.Date(movie$showtime)))

[1] "2016-01-29" "2016-02-08" "2016-02-08" "2016-02-08" "2016-03-04" "2016-03-18"

head(movie[order(as.Date(movie$showtime)), c("name", "showtime")])


nchar(movie$name)

[1]  3  3  7 12  5  6 12  7  8


seq(1, 100, by=3)

 [1]   1   4   7  10  13  16  19  22  25  28  31  34  37  40  43  46  49  52  55  58  61  64  67  70  73  76  79  82  85  88  91  94  97 100

set.seed(100)
sample(1:100, 5)

[1] 74 89 78 23 86

paste0("number ", 1:10)

 [1] "number 1"  "number 2"  "number 3"  "number 4"  "number 5"  "number 6"  "number 7"  "number 8"  "number 9"  "number 10"

x=c(1,1,1,2,3,3)

x[5]

[1] 3

which(x==3)

[1] 5 6

which.max(x)

[1] 5

which.min(x)

[1] 1

intersect(c(1,2,3,4,5,6,7), c(2,4,1,5,6,9,5))

[1] 1 2 4 5 6

union(c("狗熊会","聚数据英才"), c("狗熊会","助产业振兴"))

[1] "狗熊会"     "聚数据英才" "助产业振兴"

intersect(c("狗熊会","聚数据英才"), c("狗熊会","助产业振兴"))

[1] "狗熊会"

setdiff(10:2, c(11,8,9,100))

[1] 10  7  6  5  4  3  2

(Age=sample(20:100, 20,replace = T))

 [1] 89 23 74 89 26 26 74 62 80 31 70 91 37 44 21 70 87 87 71 67

label=c("壮年","中年","长辈","老年")
(ages=cut(Age, breaks = c(20,30,50,70,100), labels = label))

 [1] 老年 壮年 老年 老年 壮年 壮年 老年 长辈 老年 中年 长辈 老年 中年 中年 壮年 长辈 老年 老年 老年 长辈
Levels: 壮年 中年 长辈 老年

nchar("欢迎关注狗熊会")

[1] 7

nchar("hello world")

[1] 11

substr("欢迎光临狗熊会", 1, 4)

[1] "欢迎光临"

paste(c("双11","是个","什么节日"), collapse="-" )

[1] "双11-是个-什么节日"

paste(c("双11","是个","什么节日"), sep="-" )

[1] "双11"     "是个"     "什么节日"

paste("A", 1:4, collapse = "_")

[1] "A 1_A 2_A 3_A 4"

paste("A", 1:4, sep = "_", collapse = ":")

[1] "A_1:A_2:A_3:A_4"

txt = c("狗熊会","CluBear","双11","生日")

grep("Bear", txt)

[1] 2

gsub("生日","Happy Birthday",txt)

[1] "狗熊会"         "CluBear"        "双11"           "Happy Birthday"

txt

[1] "狗熊会"  "CluBear" "双11"    "生日"

(zero = matrix(0, nrow = 3, ncol = 3, byrow = FALSE))

     [,1] [,2] [,3]
[1,]    0    0    0
[2,]    0    0    0
[3,]    0    0    0

(dig = diag(rep(1,6)))

     [,1] [,2] [,3] [,4] [,5] [,6]
[1,]    1    0    0    0    0    0
[2,]    0    1    0    0    0    0
[3,]    0    0    1    0    0    0
[4,]    0    0    0    1    0    0
[5,]    0    0    0    0    1    0
[6,]    0    0    0    0    0    1

rep(1:4, 2)

[1] 1 2 3 4 1 2 3 4

rep(1:4, each=2)

[1] 1 1 2 2 3 3 4 4

rep(1:4, each = 2, length.out = 6)

[1] 1 1 2 2 3 3

rep(1:4, 3, each = 2)

 [1] 1 1 2 2 3 3 4 4 1 1 2 2 3 3 4 4 1 1 2 2 3 3 4 4

dim(zero)

[1] 3 3

zero[1,2]

[1] 0

colnames(zero) = paste0("x_", 1:3)
zero

     x_1 x_2 x_3
[1,]   0   0   0
[2,]   0   0   0
[3,]   0   0   0


(price = list(year2014=36:33, year2015=32:35, year2016=30:27))

laply(price, mean)
lapply(price, mean)
sapply(price, mean)
sapply(price, quantile)


(amount = list(year2014=rep(200,4), year2015=rep(100,4), year2016=rep(300,4)))
(income= mapply("*", price, amount))

library(plyr)
(test=read.table("weibo.txt", sep = "\t", fill = T, fileEncoding = "UTF-8", quote = ""))
test[92,]

weibo1=readLines("weibo.txt", encoding = "UTF-8")
head(weibo1)
tmp=strsplit(weibo1, "\t")
tmp[1:2]

tmplength =sapply(tmp, length)

table(tmplength)

LS0tDQp0aXRsZTogIlIgTm90ZWJvb2siDQpvdXRwdXQ6IGh0bWxfbm90ZWJvb2sNCi0tLQ0KDQpUaGlzIGlzIGFuIFtSIE1hcmtkb3duXShodHRwOi8vcm1hcmtkb3duLnJzdHVkaW8uY29tKSBOb3RlYm9vay4gV2hlbiB5b3UgZXhlY3V0ZSBjb2RlIHdpdGhpbiB0aGUgbm90ZWJvb2ssIHRoZSByZXN1bHRzIGFwcGVhciBiZW5lYXRoIHRoZSBjb2RlLiANCg0KVHJ5IGV4ZWN1dGluZyB0aGlzIGNodW5rIGJ5IGNsaWNraW5nIHRoZSAqUnVuKiBidXR0b24gd2l0aGluIHRoZSBjaHVuayBvciBieSBwbGFjaW5nIHlvdXIgY3Vyc29yIGluc2lkZSBpdCBhbmQgcHJlc3NpbmcgKkN0cmwrU2hpZnQrRW50ZXIqLiANCg0KYGBge3J9DQpwbG90KGNhcnMpDQpgYGANCg0KQWRkIGEgbmV3IGNodW5rIGJ5IGNsaWNraW5nIHRoZSAqSW5zZXJ0IENodW5rKiBidXR0b24gb24gdGhlIHRvb2xiYXIgb3IgYnkgcHJlc3NpbmcgKkN0cmwrQWx0K0kqLg0KDQpXaGVuIHlvdSBzYXZlIHRoZSBub3RlYm9vaywgYW4gSFRNTCBmaWxlIGNvbnRhaW5pbmcgdGhlIGNvZGUgYW5kIG91dHB1dCB3aWxsIGJlIHNhdmVkIGFsb25nc2lkZSBpdCAoY2xpY2sgdGhlICpQcmV2aWV3KiBidXR0b24gb3IgcHJlc3MgKkN0cmwrU2hpZnQrSyogdG8gcHJldmlldyB0aGUgSFRNTCBmaWxlKS4NCg0KVGhlIHByZXZpZXcgc2hvd3MgeW91IGEgcmVuZGVyZWQgSFRNTCBjb3B5IG9mIHRoZSBjb250ZW50cyBvZiB0aGUgZWRpdG9yLiBDb25zZXF1ZW50bHksIHVubGlrZSAqS25pdCosICpQcmV2aWV3KiBkb2VzIG5vdCBydW4gYW55IFIgY29kZSBjaHVua3MuIEluc3RlYWQsIHRoZSBvdXRwdXQgb2YgdGhlIGNodW5rIHdoZW4gaXQgd2FzIGxhc3QgcnVuIGluIHRoZSBlZGl0b3IgaXMgZGlzcGxheWVkLg0KDQoNCmBgYHtyfQ0KbGlicmFyeShwbHlyKQ0KU3lzLnNldGxvY2FsZSgiTENfQUxMIiwiQ2hpbmVzZSIpDQptb3ZpZSA9cmVhZC5jc3YoIm1vdmllX2RhdGEudHh0IiwgaGVhZGVyID0gVFJVRSwgc2VwID0gIiwiICwgZmlsZUVuY29kaW5nID0gIlVURi04IikNCmF0dGFjaChtb3ZpZSkNCnByaW50KG1vdmllKQ0KDQpzdW1tYXJ5KG1vdmllKQ0Kc3RyKG1vdmllKQ0KDQoobW92aWUgPSBtb3ZpZVtvcmRlcihtb3ZpZSR0eXBlLG1vdmllJGRvdWJhbnNjb3JlLGRlY3JlYXNpbmcgPSBUUlVFKSxdKQ0KDQoocG9wdWxhcl90eXBlPWRkcGx5KG1vdmllLCAuKHR5cGUpLCBmdW5jdGlvbih4KXttZWFuKHgkYm94b2ZmaWNlKX0pKQ0KKHBvcHVsYXJfdHlwZT1wb3B1bGFyX3R5cGVbb3JkZXIocG9wdWxhcl90eXBlJFYxLCBkZWNyZWFzaW5nID0gVFJVRSksXSkNCg0KcG9wdWxhcl90eXBlDQpjbGFzcyhtb3ZpZSRib3hvZmZpY2UpOyBjbGFzcyhtb3ZpZSRuYW1lKQ0KDQptb3ZpZSRuYW1lW21vdmllJHR5cGUgPT0gIuWWnOWJpyIgJiBtb3ZpZSRkb3ViYW5zY29yZSA+IDddDQoNCm1vdmllJHNob3d0aW1lW21vdmllJG5hbWUgPT0i576O5Lq66bG8IiB8IG1vdmllJG5hbWU9PSLlip/lpKvnhornjKsgMyJdDQoNCihtPWFzLkRhdGUoaGVhZChtb3ZpZSRzaG93dGltZSkpKQ0KZm9ybWF0KG0sIGZvcm1hdCA9ICIlQiAlZCAlWSIpDQpmb3JtYXQobSwgZm9ybWF0ID0gIiVCICVkICVZICVBIikNCmZvcm1hdChtLCBmb3JtYXQgPSAiJUIiKQ0KZm9ybWF0KFN5cy50aW1lKCksIGZvcm1hdCA9ICIlWS8lQi8lZCAlYSAlSDolTTolUyIpDQoNCmBgYA0KYGBge3J9DQoNCmxpYnJhcnkobHVicmlkYXRlKQ0KeD1jKDIwMDkwMTAxLCAiMjAwOS0wMS0wMiIsICIyMDA5IDAxIDAzIiwgIjIwMDktMS00IiwgIjIwMDktMSw1IiwgIkNyZWF0ZWQgb24gMjAwOSAxIDYiLCAiMjAwOTAxICEhISAwNyIpDQp5bWQoeCkNCg0KbWRheShhcy5EYXRlKCIyMDIxLTExLTIwIikpDQp3ZGF5KGFzLkRhdGUoIjIwMjEtMTEtMjAiKSkNCg0KYmVnaW4gPSBhcy5EYXRlKCIyMDIxLTExLTIwIikNCmVuZCA9IGFzLkRhdGUoIjIwMjEtMTItMjAiKQ0KDQooZHVyaW5nID1lbmQtYmVnaW4pDQpkaWZmdGltZShlbmQsIGJlZ2luLCB1bml0cyA9ICJ3ZWVrcyIpDQpkaWZmdGltZShlbmQsIGJlZ2luLCB1bml0cyA9ICJob3VycyIpDQoNClN5cy5zZXRsb2NhbGUoIkxDX0FMTCIsIkNoaW5lc2UiKQ0KbW92aWUgPXJlYWQuY3N2KCJtb3ZpZV9kYXRhLnR4dCIsIGhlYWRlciA9IFRSVUUsIHNlcCA9ICIsIiAsIGZpbGVFbmNvZGluZyA9ICJVVEYtOCIpDQphdHRhY2gobW92aWUpDQoNCmFzLkRhdGUoaGVhZChtb3ZpZSRzaG93dGltZSkpDQoNCmhlYWQoc29ydChhcy5EYXRlKG1vdmllJHNob3d0aW1lKSkpDQoNCmhlYWQobW92aWVbb3JkZXIoYXMuRGF0ZShtb3ZpZSRzaG93dGltZSkpLCBjKCJuYW1lIiwgInNob3d0aW1lIildKQ0KDQpuY2hhcihtb3ZpZSRuYW1lKQ0KDQpgYGANCg0KYGBge3J9DQoNCnNlcSgxLCAxMDAsIGJ5PTMpDQoNCg0Kc2V0LnNlZWQoMTAwKQ0Kc2FtcGxlKDE6MTAwLCA1KQ0KDQpwYXN0ZTAoIm51bWJlciAiLCAxOjEwKQ0KDQoNCng9YygxLDEsMSwyLDMsMykNCg0KeFs1XQ0KDQp3aGljaCh4PT0zKQ0KDQp3aGljaC5tYXgoeCkNCg0Kd2hpY2gubWluKHgpDQoNCmludGVyc2VjdChjKDEsMiwzLDQsNSw2LDcpLCBjKDIsNCwxLDUsNiw5LDUpKQ0KdW5pb24oYygi54uX54aK5LyaIiwi6IGa5pWw5o2u6Iux5omNIiksIGMoIueLl+eGiuS8miIsIuWKqeS6p+S4muaMr+WFtCIpKQ0KaW50ZXJzZWN0KGMoIueLl+eGiuS8miIsIuiBmuaVsOaNruiLseaJjSIpLCBjKCLni5fnhorkvJoiLCLliqnkuqfkuJrmjK/lhbQiKSkNCg0Kc2V0ZGlmZigxMDoyLCBjKDExLDgsOSwxMDApKQ0KDQoNCihBZ2U9c2FtcGxlKDIwOjEwMCwgMjAscmVwbGFjZSA9IFQpKQ0KDQpsYWJlbD1jKCLlo67lubQiLCLkuK3lubQiLCLplb/ovogiLCLogIHlubQiKQ0KKGFnZXM9Y3V0KEFnZSwgYnJlYWtzID0gYygyMCwzMCw1MCw3MCwxMDApLCBsYWJlbHMgPSBsYWJlbCkpDQoNCg0KbmNoYXIoIuasoui/juWFs+azqOeLl+eGiuS8miIpDQoNCm5jaGFyKCJoZWxsbyB3b3JsZCIpDQoNCnN1YnN0cigi5qyi6L+O5YWJ5Li054uX54aK5LyaIiwgMSwgNCkNCg0KcGFzdGUoYygi5Y+MMTEiLCLmmK/kuKoiLCLku4DkuYjoioLml6UiKSwgY29sbGFwc2U9Ii0iICkNCg0KcGFzdGUoYygi5Y+MMTEiLCLmmK/kuKoiLCLku4DkuYjoioLml6UiKSwgc2VwPSItIiApDQoNCnBhc3RlKCJBIiwgMTo0LCBjb2xsYXBzZSA9ICJfIikNCg0KcGFzdGUoIkEiLCAxOjQsIHNlcCA9ICJfIiwgY29sbGFwc2UgPSAiOiIpDQoNCnR4dCA9IGMoIueLl+eGiuS8miIsIkNsdUJlYXIiLCLlj4wxMSIsIueUn+aXpSIpDQoNCmdyZXAoIkJlYXIiLCB0eHQpDQoNCmdzdWIoIueUn+aXpSIsIkhhcHB5IEJpcnRoZGF5Iix0eHQpDQoNCnR4dA0KDQoNCih6ZXJvID0gbWF0cml4KDAsIG5yb3cgPSAzLCBuY29sID0gMywgYnlyb3cgPSBGQUxTRSkpDQoNCihkaWcgPSBkaWFnKHJlcCgxLDYpKSkNCg0KcmVwKDE6NCwgMikNCnJlcCgxOjQsIGVhY2g9MikNCnJlcCgxOjQsIGVhY2ggPSAyLCBsZW5ndGgub3V0ID0gNikNCnJlcCgxOjQsIDMsIGVhY2ggPSAyKQ0KDQoNCmRpbSh6ZXJvKQ0KemVyb1sxLDJdDQpjb2xuYW1lcyh6ZXJvKSA9IHBhc3RlMCgieF8iLCAxOjMpDQp6ZXJvDQoNCg0KYGBgDQoNCg0KYGBge3J9DQoNCihwcmljZSA9IGxpc3QoeWVhcjIwMTQ9MzY6MzMsIHllYXIyMDE1PTMyOjM1LCB5ZWFyMjAxNj0zMDoyNykpDQoNCmxhcGx5KHByaWNlLCBtZWFuKQ0KbGFwcGx5KHByaWNlLCBtZWFuKQ0Kc2FwcGx5KHByaWNlLCBtZWFuKQ0Kc2FwcGx5KHByaWNlLCBxdWFudGlsZSkNCg0KDQooYW1vdW50ID0gbGlzdCh5ZWFyMjAxND1yZXAoMjAwLDQpLCB5ZWFyMjAxNT1yZXAoMTAwLDQpLCB5ZWFyMjAxNj1yZXAoMzAwLDQpKSkNCihpbmNvbWU9IG1hcHBseSgiKiIsIHByaWNlLCBhbW91bnQpKQ0KDQpgYGANCg0KDQpgYGB7cn0NCmxpYnJhcnkocGx5cikNCih0ZXN0PXJlYWQudGFibGUoIndlaWJvLnR4dCIsIHNlcCA9ICJcdCIsIGZpbGwgPSBULCBmaWxlRW5jb2RpbmcgPSAiVVRGLTgiLCBxdW90ZSA9ICIiKSkNCnRlc3RbOTIsXQ0KDQp3ZWlibzE9cmVhZExpbmVzKCJ3ZWliby50eHQiLCBlbmNvZGluZyA9ICJVVEYtOCIpDQpoZWFkKHdlaWJvMSkNCnRtcD1zdHJzcGxpdCh3ZWlibzEsICJcdCIpDQp0bXBbMToyXQ0KDQp0bXBsZW5ndGggPXNhcHBseSh0bXAsIGxlbmd0aCkNCg0KdGFibGUodG1wbGVuZ3RoKQ0KDQpgYGANCg0KDQpgYGB7cn0NCm5vdmVsID0gcmVhZC5jc3YoIm5vdmVsLmNzdiIsIGhlYWRlciA9IFRSVUUsIHNlcCA9ICIsIiwgZmlsZUVuY29kaW5nID0gIlVURi04IikNCmE9dGFibGUobm92ZWwk5bCP6K+057G75Z6LKQ0KYT1hW29yZGVyKGEsIGRlY3JlYXNpbmcgPSBUUlVFKV0NCmJhcnBsb3QoYSwgbmFtZXMuYXJnID0gbmFtZXMoYSksIGNvbCA9IHJhaW5ib3coNSwgYWxwaGEgPSAwLjQpLCB4bGFiID0gIuWwj+ivtOexu+WeiyIsIHlsYWIgPSAi6aKR5pWwIikNCg0KDQpub3ZlbA0KDQoNCmBgYA0KDQo=