抓取自由時報新聞
# Method1 - httr
library(httr)
GET('http://news.ltn.com.tw/list/breakingnews')
## Response [http://news.ltn.com.tw/list/breakingnews]
## Date: 2017-10-01 09:12
## Status: 200
## Content-Type: text/html; charset=UTF-8
## Size: 78.1 kB
## <!DOCTYPE html>
## <html>
## <head>
## <base href="http://news.ltn.com.tw/">
## <meta http-equiv="X-UA-Compatible" content="IE=10; IE=9; IE=8; IE=7">
## <meta name="robots" content="index,follow" />
## <title>總覽新聞 - 即時 - 自由時報電子報</title>
## <meta charset="utf-8" />
## <meta property="og:title" content="總覽新聞 - 即時 - 自由時報電子報" />
## <meta name="google-site-verification" content="sPp7Kk7Tqa6LK-wWblS9Fby06...
## ...
# Method2 - rvest
library(rvest)
## Loading required package: xml2
# 使用網頁連結器取得網頁原始碼
news <- read_html('http://news.ltn.com.tw/list/breakingnews') %>% html_nodes('.list li')
# 產生空白Data Frame
ltn_news <- data.frame()
# 使用For 迴圈取得每一篇新聞內容
for (item in news){
# 取得標題
title <- item %>% html_nodes('p') %>%
html_text() %>% trimws()
# 取得連結
links <- item %>% html_nodes('a.tit') %>%
html_attr('href')
# 取得時間
time <- item %>% html_nodes('span') %>%
.[1] %>% html_text()
# 使用rbind合併資料到DataFrame 之中
df <- data.frame(title = title, links = links, time = time)
ltn_news <- rbind(ltn_news, df)
}
# 檢視資料
View(ltn_news)
# \n => newline
cat('123\n456\n789')
## 123
## 456
## 789
# \t => tab
cat('a\tb\tc\n1\t2\t3\n100\t200\t300')
## a b c
## 1 2 3
## 100 200 300
# trimws => trim white space
a = ' 132 \t '
trimws(a)
## [1] "132"
資料存檔
write.csv(x = ltn_news, file = 'ltn_news.csv')
# get working directory
getwd()
## [1] "C:/Users/Administrator/Desktop"
str(ltn_news)
## 'data.frame': 20 obs. of 3 variables:
## $ title: Factor w/ 20 levels "統促黨上街頭 白狼兒子張瑋也來了!",..: 1 2 3 4 5 6 7 8 9 10 ...
## $ links: Factor w/ 20 levels "http://news.ltn.com.tw/news/politics/breakingnews/2210407",..: 1 2 3 4 5 6 7 8 9 10 ...
## $ time : Factor w/ 15 levels "17:10","17:07",..: 1 2 2 2 3 3 4 5 6 6 ...
使用R 連結MySQL
library(RJDBC)
## Warning: package 'RJDBC' was built under R version 3.4.2
## Loading required package: DBI
## Warning: package 'DBI' was built under R version 3.4.2
## Loading required package: rJava
jar.loc<-'C:\\Program Files (x86)\\MySQL\\Connector.J 5.1\\mysql-connector-java-5.1.42-bin.jar'
drv<-JDBC("com.mysql.jdbc.Driver",jar.loc,identifier.quote="`")
conn <-dbConnect(drv, "jdbc:mysql://localhost/appledaily", "root", "test")
dbListTables(conn)
## [1] "applenews" "news_main"
data(iris)
dbWriteTable(conn, 'iris', iris)
## [1] TRUE
dbListTables(conn)
## [1] "applenews" "iris" "news_main"
iris2 <- dbGetQuery(conn, 'select * from iris where `Sepal.Length` >= 5')
head(iris2)
## Sepal.Length Sepal.Width Petal.Length Petal.Width Species
## 1 5.1 3.5 1.4 0.2 setosa
## 2 5.0 3.6 1.4 0.2 setosa
## 3 5.4 3.9 1.7 0.4 setosa
## 4 5.0 3.4 1.5 0.2 setosa
## 5 5.4 3.7 1.5 0.2 setosa
## 6 5.8 4.0 1.2 0.2 setosa
iris.stat <- dbGetQuery(conn, 'select Species, AVG(`Petal.Length`) from iris group by Species')
iris.stat
## Species AVG(`Petal.Length`)
## 1 setosa 1.462
## 2 versicolor 4.260
## 3 virginica 5.552
tapply(iris$Petal.Length, iris$Species, mean)
## setosa versicolor virginica
## 1.462 4.260 5.552
dbExistsTable(conn, 'iris')
## [1] TRUE
dbListTables(conn)
## [1] "applenews" "iris" "news_main"
if(dbExistsTable(conn, 'iris')){
dbRemoveTable(conn, 'iris')
}
## logical(0)
dbListTables(conn)
## [1] "applenews" "news_main"
#dbWriteTable(conn, "applenews", applenews)
#str(applenews)
dbDisconnect(conn)
## [1] TRUE
Create a Table
# CREATE TABLE news_main (
# content text,
# title varchar(1000) DEFAULT NULL,
# dt datetime DEFAULT NULL,
#
# category varchar(10) DEFAULT NULL,
# `view_cnt` int(11) DEFAULT NULL
#)ENGINE=InnoDB;
library(RJDBC)
jar.loc<-'C:\\Program Files (x86)\\MySQL\\Connector.J 5.1\\mysql-connector-java-5.1.42-bin.jar'
drv<-JDBC("com.mysql.jdbc.Driver",jar.loc,identifier.quote="`")
conn <-dbConnect(drv, "jdbc:mysql://localhost/appledaily", "root", "test")
load('applenews.RData')
dbWriteTable(conn, 'news_main', applenews, append=TRUE,row.names=FALSE,overwrite=FALSE)
## [1] TRUE
res <- dbGetQuery(conn= conn, 'select * from news_main')
res <-dbGetQuery(conn, "SELECT category, count(*) FROM news_main group by category")
pie(res$`count(*)`)

barplot(res$`count(*)`, names.arg = res$category)

dbDisconnect(conn)
## [1] TRUE
Use R to make data statistics (tapply)
a <- c(2,3,1,5,7,8)
g <- c(1,1,1,2,2,2)
tapply(a, g , sum)
## 1 2
## 6 20
tapply(a, g , mean)
## 1 2
## 2.000000 6.666667
applenews$view_cnt <- as.integer(applenews$view_cnt)
tapply(applenews$view_cnt, applenews$category, sum)
## 3C 正妹 生活
## 146308 672949 3417804
## 地產 社會 政治
## 220812 5721750 1701980
## 娛樂 時尚 財經
## 3571005 260499 618243
## 動物 國際 國際","LA","SF","NY","US
## 123287 2485621 43627
## 國際","SF","US 搜奇 論壇
## 11163 668307 312592
## 體育
## 1598067
DPLYR
library(dplyr)
## Warning: package 'dplyr' was built under R version 3.4.2
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
# R Style Filter
head(applenews[applenews$category == '娛樂' , ])
## content
## 16 澎恰恰今簽下新人張芳瑜,準備栽培她演出台灣音樂劇。澎恰恰透露張芳瑜是美國百老匯授權的《媽媽咪呀》國際中文版女主角,巡演超過900場,潛力無窮,「看好她未來是台灣音樂劇第一名伶」。張芳瑜現場也進行拜師儀式,向澎恰恰下跪奉茶,以示慎重。(蔡維歆/台北報導)<U+00A0>
## 21 肯亞警方強押45名台灣人遣送中國,輿論譁然。「星光幫」冠軍賴銘偉有感,改陳奕迅《你的背包》為《你的台胞》,要唱給話術不輸詐騙集團的中國人民共和國與中華民國政府。(娛樂中心/綜合報導)<U+00A0> 肯亞被判無罪釋放的台籍嫌犯(綠衣者)竟被押送到中國。新華社
## 32 藝人白冰冰和日本知名漫畫家<U+68B6>原一騎曾有一段婚姻,兩人生下1女白曉燕,然而在1997年4月14日這天,年僅16歲的白曉燕在上學途中,遭到歹徒陳進興、林春生綁架並撕票,手段極其殘忍,命案震驚全台。時隔19年,白冰冰今凌晨在臉書po文悼念愛女,堅強地說不能忘記曉燕受難的時刻,才能為所有受難者發聲。<U+00A0>白冰冰在臉書談及白曉燕命案,感嘆時光飛逝,「如夢一般,曾經怨,哭,痛苦、沮喪、崩潰」,但她滿懷感恩,感謝這段時間所有的好朋友,用各自的宗教信仰幫她度過難過的那幾年,也感謝大家惦記著曉燕,昨天還有人送花、安慰及祝福。<U+00A0>她感動地說:「我會記住大家的好,現在能過平安的日子,但不能忘懷曉燕受難的那個時刻,才能勇敢的為所有受難者發聲。」白冰冰昨天一整個早上在佛堂念經跟曉燕說話,「下午整理東西,整理心情,天亮後又是一個新的開始」,堅強的母性令人心疼。(陳嘉婉/綜合報導)<U+00A0> 白冰冰談及白曉燕命案,感嘆時光飛逝。翻攝白冰冰臉書
## 40 今天好萊塢喜事連連,繼「花邊教主」布蕾克萊弗莉有喜,為老公萊恩雷諾斯懷了第2胎,「好萊塢男神」萊恩葛斯林的42歲性感女友伊娃曼德斯也傳出懷孕,再度成為高齡產婦。<U+00A0>葛斯林2012年拍攝《末日車神》時與伊娃曼德斯譜戀曲,交往多年一直遲遲沒有結婚,但2人已經育有1女,現又傳出有了第2個愛的結晶,伊娃曼德斯被拍到出現在洛杉磯,以大包包遮住腹部,疑似想遮掩孕肚。(封以恩/綜合報導)<U+00A0> 伊娃曼德斯(左)和萊恩葛斯林交往多年未婚,但已育有1女。翻攝每日郵報
## 47 隋棠今出席阿瘦皮鞋活動,力挺全天下辛勞的媽咪,她說,很多現代媽媽都是身兼數職,格外令人心疼。談到今年母親節,她說是她當媽媽後第一次過節,自己為人母後,更能體驗母親的辛勞,今年想要好好幫媽媽和婆婆過節,不過距離母親節還有1個月,目前還沒有具體想法。<U+00A0>前兩天隋棠和老公帶兒子Max開車到台南、墾丁旅行,她透露因為表妹在台南開民宿,順道去體驗了一下,台南美食果然名不虛傳,她跟Max吃很多,母子倆回台北竟然雙雙變胖了,而第一次長途旅行的Max也十分配合,路上不是吃就是睡,7個多月大的他,上車睡覺、直接尿尿,讓她覺得一點也不麻煩。(葉婉如/台北報導)<U+00A0> 隋棠透露前幾天到台南吃喝竟吃胖了。阿瘦皮鞋提供 隋棠帶兒子Max第一次長途旅行,兒子在車上很乖巧。翻攝隋棠臉書
## 50 日本型男伊勢谷友介被爆和名媛模特兒森星半同居,2人同進同出他的住處,他還開車送女方出門工作,報導曝光後,大家才知道原來他和長澤雅美早就切了!<U+00A0>將滿40歲的伊勢谷友介,歷任女友包括廣末涼子、吉川雛乃、木村佳乃等,一字排開羨煞世間男性。據《FRIDAY》周刊,他和28歲的長澤雅美2012年展開交往,男方友人透露,因雅美頻頻催婚,他斷然拒絕,2人大吵一架,已於1年前分手。<U+00A0>他的新歡森星長相甜美,本月22日滿24歲,曾在巴黎生活,今年3月剛從慶應大學畢業,祖母是名設計師森英惠,姊姊森泉也是藝人。去年11月伊勢谷友介上她擔任助理主持的料理節目,交換聯絡方式後來電,迅速進展到半同居,情場浪子和千金小姐的配對備受矚目。(吳惠菁/綜合報導)<U+00A0> 伊勢谷友介(左)和森星打扮休閒一起遛狗。翻攝《FRIDAY》森泉(右)、森星是日本名媛姊妹花。翻攝森星IG
## title dt category
## 16 澎恰恰收女弟子 拱當台灣第一名伶 2016-04-15 14:17:00 娛樂
## 21 【唱新聞】詐騙嗎?R.O.C.有CHINA但不是CHINA 2016-04-15 14:00:00 娛樂
## 32 白曉燕命案19年了 白冰冰「不能忘」 2016-04-15 13:49:00 娛樂
## 40 好萊塢男神好威 女友再當高齡產婦 2016-04-15 13:40:00 娛樂
## 47 隋棠帶兒遠征南台灣 吃成膨皮母子檔 2016-04-15 13:30:00 娛樂
## 50 伊勢谷友介掰了長澤雅美 半同居小16歲辣模 2016-04-15 13:23:00 娛樂
## view_cnt
## 16 1749
## 21 11696
## 32 3329
## 40 4307
## 47 4651
## 50 5141
# dplyr Style Filter
head(filter(applenews, category == '娛樂'))
## Warning: package 'bindrcpp' was built under R version 3.4.2
## content
## 1 澎恰恰今簽下新人張芳瑜,準備栽培她演出台灣音樂劇。澎恰恰透露張芳瑜是美國百老匯授權的《媽媽咪呀》國際中文版女主角,巡演超過900場,潛力無窮,「看好她未來是台灣音樂劇第一名伶」。張芳瑜現場也進行拜師儀式,向澎恰恰下跪奉茶,以示慎重。(蔡維歆/台北報導)<U+00A0>
## 2 肯亞警方強押45名台灣人遣送中國,輿論譁然。「星光幫」冠軍賴銘偉有感,改陳奕迅《你的背包》為《你的台胞》,要唱給話術不輸詐騙集團的中國人民共和國與中華民國政府。(娛樂中心/綜合報導)<U+00A0> 肯亞被判無罪釋放的台籍嫌犯(綠衣者)竟被押送到中國。新華社
## 3 藝人白冰冰和日本知名漫畫家<U+68B6>原一騎曾有一段婚姻,兩人生下1女白曉燕,然而在1997年4月14日這天,年僅16歲的白曉燕在上學途中,遭到歹徒陳進興、林春生綁架並撕票,手段極其殘忍,命案震驚全台。時隔19年,白冰冰今凌晨在臉書po文悼念愛女,堅強地說不能忘記曉燕受難的時刻,才能為所有受難者發聲。<U+00A0>白冰冰在臉書談及白曉燕命案,感嘆時光飛逝,「如夢一般,曾經怨,哭,痛苦、沮喪、崩潰」,但她滿懷感恩,感謝這段時間所有的好朋友,用各自的宗教信仰幫她度過難過的那幾年,也感謝大家惦記著曉燕,昨天還有人送花、安慰及祝福。<U+00A0>她感動地說:「我會記住大家的好,現在能過平安的日子,但不能忘懷曉燕受難的那個時刻,才能勇敢的為所有受難者發聲。」白冰冰昨天一整個早上在佛堂念經跟曉燕說話,「下午整理東西,整理心情,天亮後又是一個新的開始」,堅強的母性令人心疼。(陳嘉婉/綜合報導)<U+00A0> 白冰冰談及白曉燕命案,感嘆時光飛逝。翻攝白冰冰臉書
## 4 今天好萊塢喜事連連,繼「花邊教主」布蕾克萊弗莉有喜,為老公萊恩雷諾斯懷了第2胎,「好萊塢男神」萊恩葛斯林的42歲性感女友伊娃曼德斯也傳出懷孕,再度成為高齡產婦。<U+00A0>葛斯林2012年拍攝《末日車神》時與伊娃曼德斯譜戀曲,交往多年一直遲遲沒有結婚,但2人已經育有1女,現又傳出有了第2個愛的結晶,伊娃曼德斯被拍到出現在洛杉磯,以大包包遮住腹部,疑似想遮掩孕肚。(封以恩/綜合報導)<U+00A0> 伊娃曼德斯(左)和萊恩葛斯林交往多年未婚,但已育有1女。翻攝每日郵報
## 5 隋棠今出席阿瘦皮鞋活動,力挺全天下辛勞的媽咪,她說,很多現代媽媽都是身兼數職,格外令人心疼。談到今年母親節,她說是她當媽媽後第一次過節,自己為人母後,更能體驗母親的辛勞,今年想要好好幫媽媽和婆婆過節,不過距離母親節還有1個月,目前還沒有具體想法。<U+00A0>前兩天隋棠和老公帶兒子Max開車到台南、墾丁旅行,她透露因為表妹在台南開民宿,順道去體驗了一下,台南美食果然名不虛傳,她跟Max吃很多,母子倆回台北竟然雙雙變胖了,而第一次長途旅行的Max也十分配合,路上不是吃就是睡,7個多月大的他,上車睡覺、直接尿尿,讓她覺得一點也不麻煩。(葉婉如/台北報導)<U+00A0> 隋棠透露前幾天到台南吃喝竟吃胖了。阿瘦皮鞋提供 隋棠帶兒子Max第一次長途旅行,兒子在車上很乖巧。翻攝隋棠臉書
## 6 日本型男伊勢谷友介被爆和名媛模特兒森星半同居,2人同進同出他的住處,他還開車送女方出門工作,報導曝光後,大家才知道原來他和長澤雅美早就切了!<U+00A0>將滿40歲的伊勢谷友介,歷任女友包括廣末涼子、吉川雛乃、木村佳乃等,一字排開羨煞世間男性。據《FRIDAY》周刊,他和28歲的長澤雅美2012年展開交往,男方友人透露,因雅美頻頻催婚,他斷然拒絕,2人大吵一架,已於1年前分手。<U+00A0>他的新歡森星長相甜美,本月22日滿24歲,曾在巴黎生活,今年3月剛從慶應大學畢業,祖母是名設計師森英惠,姊姊森泉也是藝人。去年11月伊勢谷友介上她擔任助理主持的料理節目,交換聯絡方式後來電,迅速進展到半同居,情場浪子和千金小姐的配對備受矚目。(吳惠菁/綜合報導)<U+00A0> 伊勢谷友介(左)和森星打扮休閒一起遛狗。翻攝《FRIDAY》森泉(右)、森星是日本名媛姊妹花。翻攝森星IG
## title dt category
## 1 澎恰恰收女弟子 拱當台灣第一名伶 2016-04-15 14:17:00 娛樂
## 2 【唱新聞】詐騙嗎?R.O.C.有CHINA但不是CHINA 2016-04-15 14:00:00 娛樂
## 3 白曉燕命案19年了 白冰冰「不能忘」 2016-04-15 13:49:00 娛樂
## 4 好萊塢男神好威 女友再當高齡產婦 2016-04-15 13:40:00 娛樂
## 5 隋棠帶兒遠征南台灣 吃成膨皮母子檔 2016-04-15 13:30:00 娛樂
## 6 伊勢谷友介掰了長澤雅美 半同居小16歲辣模 2016-04-15 13:23:00 娛樂
## view_cnt
## 1 1749
## 2 11696
## 3 3329
## 4 4307
## 5 4651
## 6 5141
head(filter(applenews, (category == '娛樂') & (view_cnt > 1000) ))
## content
## 1 澎恰恰今簽下新人張芳瑜,準備栽培她演出台灣音樂劇。澎恰恰透露張芳瑜是美國百老匯授權的《媽媽咪呀》國際中文版女主角,巡演超過900場,潛力無窮,「看好她未來是台灣音樂劇第一名伶」。張芳瑜現場也進行拜師儀式,向澎恰恰下跪奉茶,以示慎重。(蔡維歆/台北報導)<U+00A0>
## 2 肯亞警方強押45名台灣人遣送中國,輿論譁然。「星光幫」冠軍賴銘偉有感,改陳奕迅《你的背包》為《你的台胞》,要唱給話術不輸詐騙集團的中國人民共和國與中華民國政府。(娛樂中心/綜合報導)<U+00A0> 肯亞被判無罪釋放的台籍嫌犯(綠衣者)竟被押送到中國。新華社
## 3 藝人白冰冰和日本知名漫畫家<U+68B6>原一騎曾有一段婚姻,兩人生下1女白曉燕,然而在1997年4月14日這天,年僅16歲的白曉燕在上學途中,遭到歹徒陳進興、林春生綁架並撕票,手段極其殘忍,命案震驚全台。時隔19年,白冰冰今凌晨在臉書po文悼念愛女,堅強地說不能忘記曉燕受難的時刻,才能為所有受難者發聲。<U+00A0>白冰冰在臉書談及白曉燕命案,感嘆時光飛逝,「如夢一般,曾經怨,哭,痛苦、沮喪、崩潰」,但她滿懷感恩,感謝這段時間所有的好朋友,用各自的宗教信仰幫她度過難過的那幾年,也感謝大家惦記著曉燕,昨天還有人送花、安慰及祝福。<U+00A0>她感動地說:「我會記住大家的好,現在能過平安的日子,但不能忘懷曉燕受難的那個時刻,才能勇敢的為所有受難者發聲。」白冰冰昨天一整個早上在佛堂念經跟曉燕說話,「下午整理東西,整理心情,天亮後又是一個新的開始」,堅強的母性令人心疼。(陳嘉婉/綜合報導)<U+00A0> 白冰冰談及白曉燕命案,感嘆時光飛逝。翻攝白冰冰臉書
## 4 今天好萊塢喜事連連,繼「花邊教主」布蕾克萊弗莉有喜,為老公萊恩雷諾斯懷了第2胎,「好萊塢男神」萊恩葛斯林的42歲性感女友伊娃曼德斯也傳出懷孕,再度成為高齡產婦。<U+00A0>葛斯林2012年拍攝《末日車神》時與伊娃曼德斯譜戀曲,交往多年一直遲遲沒有結婚,但2人已經育有1女,現又傳出有了第2個愛的結晶,伊娃曼德斯被拍到出現在洛杉磯,以大包包遮住腹部,疑似想遮掩孕肚。(封以恩/綜合報導)<U+00A0> 伊娃曼德斯(左)和萊恩葛斯林交往多年未婚,但已育有1女。翻攝每日郵報
## 5 隋棠今出席阿瘦皮鞋活動,力挺全天下辛勞的媽咪,她說,很多現代媽媽都是身兼數職,格外令人心疼。談到今年母親節,她說是她當媽媽後第一次過節,自己為人母後,更能體驗母親的辛勞,今年想要好好幫媽媽和婆婆過節,不過距離母親節還有1個月,目前還沒有具體想法。<U+00A0>前兩天隋棠和老公帶兒子Max開車到台南、墾丁旅行,她透露因為表妹在台南開民宿,順道去體驗了一下,台南美食果然名不虛傳,她跟Max吃很多,母子倆回台北竟然雙雙變胖了,而第一次長途旅行的Max也十分配合,路上不是吃就是睡,7個多月大的他,上車睡覺、直接尿尿,讓她覺得一點也不麻煩。(葉婉如/台北報導)<U+00A0> 隋棠透露前幾天到台南吃喝竟吃胖了。阿瘦皮鞋提供 隋棠帶兒子Max第一次長途旅行,兒子在車上很乖巧。翻攝隋棠臉書
## 6 日本型男伊勢谷友介被爆和名媛模特兒森星半同居,2人同進同出他的住處,他還開車送女方出門工作,報導曝光後,大家才知道原來他和長澤雅美早就切了!<U+00A0>將滿40歲的伊勢谷友介,歷任女友包括廣末涼子、吉川雛乃、木村佳乃等,一字排開羨煞世間男性。據《FRIDAY》周刊,他和28歲的長澤雅美2012年展開交往,男方友人透露,因雅美頻頻催婚,他斷然拒絕,2人大吵一架,已於1年前分手。<U+00A0>他的新歡森星長相甜美,本月22日滿24歲,曾在巴黎生活,今年3月剛從慶應大學畢業,祖母是名設計師森英惠,姊姊森泉也是藝人。去年11月伊勢谷友介上她擔任助理主持的料理節目,交換聯絡方式後來電,迅速進展到半同居,情場浪子和千金小姐的配對備受矚目。(吳惠菁/綜合報導)<U+00A0> 伊勢谷友介(左)和森星打扮休閒一起遛狗。翻攝《FRIDAY》森泉(右)、森星是日本名媛姊妹花。翻攝森星IG
## title dt category
## 1 澎恰恰收女弟子 拱當台灣第一名伶 2016-04-15 14:17:00 娛樂
## 2 【唱新聞】詐騙嗎?R.O.C.有CHINA但不是CHINA 2016-04-15 14:00:00 娛樂
## 3 白曉燕命案19年了 白冰冰「不能忘」 2016-04-15 13:49:00 娛樂
## 4 好萊塢男神好威 女友再當高齡產婦 2016-04-15 13:40:00 娛樂
## 5 隋棠帶兒遠征南台灣 吃成膨皮母子檔 2016-04-15 13:30:00 娛樂
## 6 伊勢谷友介掰了長澤雅美 半同居小16歲辣模 2016-04-15 13:23:00 娛樂
## view_cnt
## 1 1749
## 2 11696
## 3 3329
## 4 4307
## 5 4651
## 6 5141
head(filter(applenews, (category == '娛樂') | (view_cnt > 1000) ))
## content
## 1 (更新:新增影片)想要透過刮刮樂彩券一夕致富,但他卻用錯方法!台中市一名黃姓男子覬覦頭獎高達2600萬的「開門見喜」刮刮樂彩券,上月佯裝顧客進入彩券行,趁女店員拿出11張彩券供其挑選時,抓起彩券奪門而出騎車逃逸,警方調閱監視器循線追查,昨日在北區逮捕黃嫌,他坦承搶來的彩券共刮中1萬4千多元,但已經兌獎花用殆盡,警方訊後將全案依詐欺罪嫌移送。<U+00A0>警方調查,黃姓男子﹝27歲﹞上個月頭戴安全帽及口罩,到河南路一家彩券行佯稱購買每張售價2000元的「開門見喜」刮刮樂,並要求挑選彩券號碼,朱姓女店員不疑有他,從櫃檯拿出連號彩券總計11張供其挑選,黃男竟趁朱女不注意之際,抓起彩券奪門而出,並跳上一旁機車逃逸,店家總計損失新臺幣2萬2,000元。<U+00A0>轄區第六分局何安派出所獲報,調閱路口監視器過濾比對,發現嫌犯已預謀將車牌用紅色口罩遮蔽,逃逸時刻意繞行小巷,更3次變裝意圖混淆警方追查,只是看似完美無瑕的犯罪計畫,卻在飆速逃逸時口罩隨風微微揚起,車牌部分英文及數字號碼在鏡頭下仍能辨識,在員警比對將近百支監視鏡頭畫面後,通知孫姓車主到案說明。<U+00A0>孫男到案後表示,案發前已將機車借給黃姓友人使用,但無法提供黃嫌聯絡方式,警方鍥而不捨擴大比對監視畫面,鎖定黃嫌時常出沒北區北平三街一帶,經過日埋伏,昨天逮到狡猾的黃嫌,他供稱因缺錢花用,迫於無奈下才出此下策,所得彩券刮開後總計兌換彩金1萬4,500元,且已全數花費殆盡,警方訊後將全案依詐欺罪嫌移送。(王煌忠/台中報導)<U+00A0>發稿:1304更新:1432<U+00A0> 黃姓男子佯裝購買刮刮樂,趁選號時一把抓走刮刮樂逃逸,女店員當下傻眼不已。翻攝畫面黃嫌逃逸時將車牌以口罩遮住,逃避警方追查。翻攝畫面
## 2 新北市一名33歲男子和另名女子在新莊區同居,卻在2015年6月一大早,及7月中深夜,趁同居女子的10歲女兒熟睡時猥褻其下體、胸部,女童驚醒才罷手。新北地院審酌男子認罪並達成和解,還寫道歉信並搬走,今依故意對兒童犯乘機猥褻罪輕判1年2月徒刑,緩刑3年,另須保護管束;仍可上訴。<U+00A0>2015年,男子跟女子同居新莊,卻在6月某天6時許,撞見同居女子的10歲女兒正熟睡,手伸入其內褲猥褻其下體,女童驚醒才停手。事隔1個月後,男子又趁女童深夜時熟睡,撫摸其胸部,女童再次驚醒,才未再猥褻。<U+00A0>新北地院認為,男子身為女子的同居人,等同父執輩,卻未照護該年幼女童,反為了滿足個人性慾,罔顧人倫而乘機猥褻,但考量男子沒前科,犯後始終坦承犯行,已達成和解,寫下道歉信,搬離新莊住處,女童及同居人也表明不願追究,雖判刑1年2月,但給予緩刑也須保護管束。(孫友廉/新北報導)<U+00A0>【更多司法新聞,請看《蘋果陪審團》粉絲團】
## 3 中央氣象局剛剛發布大雨特報,範圍涵蓋南投、雲林、嘉義縣市、台南、高雄等6縣市,受滯留鋒面及對流發展旺盛影響,今雲林、嘉義、台南、南投地區及高雄山區易有短時強降雨,並有局部大雨發生的機率,請注意瞬間大雨、雷擊及強陣風。(生活中心/台北報導)<U+00A0>
## 4 對台灣人而言「失業去賣雞排」是帶著有點悲情的味道,但在韓國人的眼中卻是羨慕不已?由先覺出版社出版,政大國際關係研究中心亞太所研究員蔡增家撰寫的《上一堂最好玩的韓國學:政大超人氣教授帶你從韓劇看韓國社會、政治、外交與兩韓關係》一書揭露,韓國表面上經濟大幅成長,但韓國人並不快樂,主因就是財閥壟斷,經濟亮麗數字之下的真相是「失業的人連賣泡菜的機會都沒有!」<U+00A0>《商周》節錄其書內容,作著蔡增家指出,一個來台的韓國留學生曾說,在韓國,如果沒有工作想要去賣石鍋拌飯,卻發現韓國規模最大的全州石鍋拌飯是三星集團旗下的子公司開設的;如果想要開一家韓式烤肉店,到處都是現代集團旗下的豐林烤肉店,甚至連泡菜,也幾乎由LG集團旗下的CJ公司所製造販售。「處處都是壟斷,不像台灣處處是機會」。<U+00A0>書中指出,在歷任韓國總統的刻意扶植下,目前韓國前30大財閥,其總產值已占全國GDP的75%,其中韓國規模最大的財閥三星集團,其在2014年的總產值,更高達全國GDP的20%。壟斷之下的韓國,社會普遍以是否進入大財閥工作為成功的唯一標準,因為財閥薪資是一般企業3倍以上,「年輕人的社會價值觀就是進入財閥…這讓韓國年輕人承受無比龐大的心理壓力,年輕人的自殺率是全球最高。」(即時新聞中心/綜合報導)<U+00A0>
## 5 澎恰恰今簽下新人張芳瑜,準備栽培她演出台灣音樂劇。澎恰恰透露張芳瑜是美國百老匯授權的《媽媽咪呀》國際中文版女主角,巡演超過900場,潛力無窮,「看好她未來是台灣音樂劇第一名伶」。張芳瑜現場也進行拜師儀式,向澎恰恰下跪奉茶,以示慎重。(蔡維歆/台北報導)<U+00A0>
## 6 用手機截圖後再截圖,最後會變成怎麼樣子呢?<U+00A0>網友sspsmusic05在PTT笨板分享《蘋果》新聞「飛進永恆 告別20年傳奇」截圖,吐槽湖人一哥Kobe外號「小飛俠」的由來,認為不是因為林強《向前走》的歌詞,表示「我都不知道要怎麼說了!」<U+00A0>有網友補充「小飛俠是新聞前輩傅達仁在他出道時幫他取的」,不過有眼尖的網友發現「圖片怪怪」,上面充滿了手機的工具列,提出問題「到底截了幾次圖?」意外引發其他網友討論。<U+00A0>雖然原PO求饒「大家別這樣我收到圖的時候已經截兩次了!」,不過底下網友已經開始一波「截圖大接龍」,他們把樓上的截圖「再截一次」,只見圖中的小飛俠越來越小,上方的手機工具列越來越多,等這張重複截了上百次後,已經完全看不出來原本的圖是什麼了。(即時新聞中心/綜合報導)<U+00A0> 網友發現原po那張新聞截圖經過多次截圖,開始了截圖接龍。翻攝自ptt StupidClown截圖到最後一張已經變成這個謀樣...翻攝自ptt StupidClown
## title dt
## 1 【更新】搶2.2萬彩券刮中1.4萬 沒發財還得入獄 2016-04-15 14:32:00
## 2 同居人女兒熟睡 淫男伸狼爪 2016-04-15 14:22:00
## 3 又要下雨了 中南部6縣市大雨特報 2016-04-15 14:19:00
## 4 韓留學生超羨慕 「台灣人失業可以賣雞排」 2016-04-15 14:18:00
## 5 澎恰恰收女弟子 拱當台灣第一名伶 2016-04-15 14:17:00
## 6 手機截圖的極限在哪? 鄉民接力完成 2016-04-15 14:15:00
## category view_cnt
## 1 社會 1754
## 2 社會 1076
## 3 生活 12347
## 4 生活 1312
## 5 娛樂 1749
## 6 搜奇 1005
head(filter(applenews, category %in% c('娛樂', '社會')))
## content
## 1 (更新:新增影片)想要透過刮刮樂彩券一夕致富,但他卻用錯方法!台中市一名黃姓男子覬覦頭獎高達2600萬的「開門見喜」刮刮樂彩券,上月佯裝顧客進入彩券行,趁女店員拿出11張彩券供其挑選時,抓起彩券奪門而出騎車逃逸,警方調閱監視器循線追查,昨日在北區逮捕黃嫌,他坦承搶來的彩券共刮中1萬4千多元,但已經兌獎花用殆盡,警方訊後將全案依詐欺罪嫌移送。<U+00A0>警方調查,黃姓男子﹝27歲﹞上個月頭戴安全帽及口罩,到河南路一家彩券行佯稱購買每張售價2000元的「開門見喜」刮刮樂,並要求挑選彩券號碼,朱姓女店員不疑有他,從櫃檯拿出連號彩券總計11張供其挑選,黃男竟趁朱女不注意之際,抓起彩券奪門而出,並跳上一旁機車逃逸,店家總計損失新臺幣2萬2,000元。<U+00A0>轄區第六分局何安派出所獲報,調閱路口監視器過濾比對,發現嫌犯已預謀將車牌用紅色口罩遮蔽,逃逸時刻意繞行小巷,更3次變裝意圖混淆警方追查,只是看似完美無瑕的犯罪計畫,卻在飆速逃逸時口罩隨風微微揚起,車牌部分英文及數字號碼在鏡頭下仍能辨識,在員警比對將近百支監視鏡頭畫面後,通知孫姓車主到案說明。<U+00A0>孫男到案後表示,案發前已將機車借給黃姓友人使用,但無法提供黃嫌聯絡方式,警方鍥而不捨擴大比對監視畫面,鎖定黃嫌時常出沒北區北平三街一帶,經過日埋伏,昨天逮到狡猾的黃嫌,他供稱因缺錢花用,迫於無奈下才出此下策,所得彩券刮開後總計兌換彩金1萬4,500元,且已全數花費殆盡,警方訊後將全案依詐欺罪嫌移送。(王煌忠/台中報導)<U+00A0>發稿:1304更新:1432<U+00A0> 黃姓男子佯裝購買刮刮樂,趁選號時一把抓走刮刮樂逃逸,女店員當下傻眼不已。翻攝畫面黃嫌逃逸時將車牌以口罩遮住,逃避警方追查。翻攝畫面
## 2 新北市一名33歲男子和另名女子在新莊區同居,卻在2015年6月一大早,及7月中深夜,趁同居女子的10歲女兒熟睡時猥褻其下體、胸部,女童驚醒才罷手。新北地院審酌男子認罪並達成和解,還寫道歉信並搬走,今依故意對兒童犯乘機猥褻罪輕判1年2月徒刑,緩刑3年,另須保護管束;仍可上訴。<U+00A0>2015年,男子跟女子同居新莊,卻在6月某天6時許,撞見同居女子的10歲女兒正熟睡,手伸入其內褲猥褻其下體,女童驚醒才停手。事隔1個月後,男子又趁女童深夜時熟睡,撫摸其胸部,女童再次驚醒,才未再猥褻。<U+00A0>新北地院認為,男子身為女子的同居人,等同父執輩,卻未照護該年幼女童,反為了滿足個人性慾,罔顧人倫而乘機猥褻,但考量男子沒前科,犯後始終坦承犯行,已達成和解,寫下道歉信,搬離新莊住處,女童及同居人也表明不願追究,雖判刑1年2月,但給予緩刑也須保護管束。(孫友廉/新北報導)<U+00A0>【更多司法新聞,請看《蘋果陪審團》粉絲團】
## 3 澎恰恰今簽下新人張芳瑜,準備栽培她演出台灣音樂劇。澎恰恰透露張芳瑜是美國百老匯授權的《媽媽咪呀》國際中文版女主角,巡演超過900場,潛力無窮,「看好她未來是台灣音樂劇第一名伶」。張芳瑜現場也進行拜師儀式,向澎恰恰下跪奉茶,以示慎重。(蔡維歆/台北報導)<U+00A0>
## 4 (新增:讀者直擊影片)<U+00A0>台北市基隆路三段台大動物醫院前,今早9時許發生嚴重車禍,1輛價值約500萬的BMW740Li車,疑似駕駛恍神先撞擊橋墩側翻滑行後,又波及正在行駛中的公車,造成車窗玻璃碎裂,所幸沒有人員受傷,相關肇事責任還需警方釐清。<U+00A0>公車駕駛表示,當時車上約有50多名乘客,從公館往市府方向行駛,在行經台大動物醫院前時,聽到「碰」的一聲巨響,從後照鏡發現,內線車道的BMW撞到橋墩,隨即側翻直接撞到公車左側,還撞破了一扇車窗玻璃,還好玻璃碎沒有傷到乘客。<U+00A0>BMW車輛側翻後駕駛還被安全帶繫著,許多行經目擊的機車騎士都停下車幫忙,約20人合力先將車輛翻正,再從駕駛座上救人到路旁休息,肇事駕駛一度恍神無法言語,對於車禍發生經過完全說:「不記得!」這起車禍還造成基隆路車回堵。(突發中心余思維/台北報導)<U+00A0>《蘋果日報》表示,本則影片或照片是投訴人獨家提供《蘋果日報》,若其他媒體未取得授權逕行翻攝,也未註明出處,《蘋果》必訴諸法律,以保障權益。<U+00A0>《蘋果日報》歡迎讀者加入監督社會,向《蘋果》獨家提供照片、影片,經採用可獲獎金,照片一千,影片兩千元,每周點閱數最高,更可獲獎金三萬元,請參考活動網址:http://www.appledaily.com.tw/complainevent/<U+00A0>出版1215更新1412<U+00A0><U+00A0><U+00A0> BMW側翻,後方騎士驚險穿越,幸運沒有追撞上。翻拍畫面BMW側翻後,再撞上一旁的公車。翻拍畫面BMW側翻撞車後,後方車輛全都緊急停下。翻拍畫面BMW740Li車撞到橋墩後,左前輪嚴重毀損,造成側翻後又撞公車。余思維攝車禍現場滿地BMW車輛零件,以及公車玻璃碎片。余思維攝BMW側翻時,撞擊公車左側,造成玻璃碎裂。余思維攝公車玻璃碎裂噴濺,所幸沒有造成乘客受傷。余思維攝BMW疑似撞擊橋墩後發生側翻。余思維攝BMW駕駛對於發生經過,向警方表示:「不記得。」余思維攝
## 5 肯亞警方強押45名台灣人遣送中國,輿論譁然。「星光幫」冠軍賴銘偉有感,改陳奕迅《你的背包》為《你的台胞》,要唱給話術不輸詐騙集團的中國人民共和國與中華民國政府。(娛樂中心/綜合報導)<U+00A0> 肯亞被判無罪釋放的台籍嫌犯(綠衣者)竟被押送到中國。新華社
## 6 台中市一名年逾9旬的魏姓老翁,前天到北屯區一家汽車銷售中心,卻霸坐在展售車上不願離去,警方獲報前往協助,老翁竟語出驚人說「我想要坐車去南京,司機呢?趕快來開車啊」,原來這名有多次走失紀錄的老翁,疑似返鄉心切,欲搭車返回南京,最後通知其女兒到場,好言勸說後才將老翁帶回家,化解這場烏龍鬧劇。<U+00A0>警方表示,台中市北屯區一間汽車銷售中心,前天下午突然走進一名年逾9旬的魏姓老爺爺,毫不理會現場銷售人員招呼,直接就打開車門坐上展示車後座,銷售人員對於老爺爺的怪異舉動錯愕不已,繼續趨前詢問需要甚麼協助,但老爺爺始終不願回應,無奈打電話向警方求助。<U+00A0>轄區第五分局四平所警員到場,詢問老爺爺為何要坐在車上,他竟回說「我想要坐車去南京,司機呢?趕快來開車啊」,警員聽聞既好氣又好笑說「伯伯,這台是人家的展售車,而且要到南京必須坐飛機才會到,這台車不會飛啦!」由於老翁仍堅持坐在車內,警方只好透過警政署知識聯網系統查詢,發現魏姓老翁已有多次走失紀錄,遂通知其女兒到場,經女兒好言勸說後,老翁才心不甘情不願隨女兒返家。(王煌忠/台中報導)<U+00A0><U+00A0>
## title dt
## 1 【更新】搶2.2萬彩券刮中1.4萬 沒發財還得入獄 2016-04-15 14:32:00
## 2 同居人女兒熟睡 淫男伸狼爪 2016-04-15 14:22:00
## 3 澎恰恰收女弟子 拱當台灣第一名伶 2016-04-15 14:17:00
## 4 【驚險有片】BMW撞翻撞公車 後方機車神穿越 2016-04-15 14:12:00
## 5 【唱新聞】詐騙嗎?R.O.C.有CHINA但不是CHINA 2016-04-15 14:00:00
## 6 九巡翁霸坐展售車? 原因好心酸 2016-04-15 13:52:00
## category view_cnt
## 1 社會 1754
## 2 社會 1076
## 3 娛樂 1749
## 4 社會 11886
## 5 娛樂 11696
## 6 社會 4582
# R Style Select
head(applenews[ , c('category', 'view_cnt')])
## category view_cnt
## 1 社會 1754
## 2 國際 0
## 3 地產 0
## 4 國際 0
## 5 時尚 311
## 6 財經 24
# dplyr Style Select
head(select(applenews, category, view_cnt))
## category view_cnt
## 1 社會 1754
## 2 國際 0
## 3 地產 0
## 4 國際 0
## 5 時尚 311
## 6 財經 24
# R Style Data Manipulation
sum(tail(head(iris), 3)$Sepal.Length)
## [1] 15
# magrittr Style Data Manipulation
iris %>% head() %>% tail(3) %>% .$Sepal.Length %>% sum()
## [1] 15
# dplyr data manipulation
applenews %>% filter(category == '社會') %>% select(title, view_cnt) %>% head()
## title view_cnt
## 1 【更新】搶2.2萬彩券刮中1.4萬 沒發財還得入獄 1754
## 2 同居人女兒熟睡 淫男伸狼爪 1076
## 3 【驚險有片】BMW撞翻撞公車 後方機車神穿越 11886
## 4 九巡翁霸坐展售車? 原因好心酸 4582
## 5 催討債務釀衝突 要小弟持槍討債先被抓 1154
## 6 男翻拍女友手機對話 PO爆料公社控劈腿 4322
# Data Sorting
applenews %>% filter(category == '社會') %>% select(title, view_cnt) %>% arrange(view_cnt) %>% head()
## title view_cnt
## 1 憲兵濫搜是否違法 北檢近期將偵結 918
## 2 台電維修變電箱 受百用戶臨時停電 1011
## 3 同居人女兒熟睡 淫男伸狼爪 1076
## 4 中研院化學所實驗室起火 緊急撲滅無人傷亡 1147
## 5 催討債務釀衝突 要小弟持槍討債先被抓 1154
## 6 駕船赴馬祖岸邊採貝 陸男非法入境遭逮 1305
applenews %>% filter(category == '社會') %>% select(title, view_cnt) %>% arrange(desc(view_cnt) ) %>% head()
## title view_cnt
## 1 【更新】正晶揭露新詐騙案 7百萬存款不翼而飛 241842
## 2 貴婦人妻太閒了 她只好和一些網友嘿咻 228203
## 3 【告別小燈泡】爸爸首發聲 「仇恨滋長邪惡」 217096
## 4 長得不像? 男驗DNA才知2女兒都非親骨肉 214796
## 5 殺警再爆內幕 出牆妻再嫁黑道鄉長目的曝光 172024
## 6 性愛偷拍後 璩美鳳這15年來這樣過 171408
freqsum <- applenews %>% select(view_cnt) %>% sum()
applenews %>% select(title, category, view_cnt) %>% mutate(portion = view_cnt / freqsum) %>% head()
## title category view_cnt
## 1 【更新】搶2.2萬彩券刮中1.4萬 沒發財還得入獄 社會 1754
## 2 拿到澳洲護照後 他放火燒中國護照 國際 0
## 3 【特企】房市大追擊- 租屋這些事情要小心 地產 0
## 4 【央廣RTI】美菲軍演 美防長南海登艦 國際 0
## 5 全球最閃牽手夫妻 絕美禮服出自台灣… 時尚 311
## 6 公司遭搜索 浩鼎籲檢調勿公開商業機密 財經 24
## portion
## 1 8.130151e-05
## 2 0.000000e+00
## 3 0.000000e+00
## 4 0.000000e+00
## 5 1.441549e-05
## 6 1.112449e-06
applenews <- applenews %>% select(title, category, view_cnt) %>% mutate(portion = view_cnt / freqsum)
applenews %>% head()
## title category view_cnt
## 1 【更新】搶2.2萬彩券刮中1.4萬 沒發財還得入獄 社會 1754
## 2 拿到澳洲護照後 他放火燒中國護照 國際 0
## 3 【特企】房市大追擊- 租屋這些事情要小心 地產 0
## 4 【央廣RTI】美菲軍演 美防長南海登艦 國際 0
## 5 全球最閃牽手夫妻 絕美禮服出自台灣… 時尚 311
## 6 公司遭搜索 浩鼎籲檢調勿公開商業機密 財經 24
## portion
## 1 8.130151e-05
## 2 0.000000e+00
## 3 0.000000e+00
## 4 0.000000e+00
## 5 1.441549e-05
## 6 1.112449e-06
applenews %>% group_by(category) %>% summarise(view_sum = sum(view_cnt)) %>% arrange(desc(view_sum)) %>% head()
## # A tibble: 6 x 2
## category view_sum
## <chr> <int>
## 1 社會 5721750
## 2 娛樂 3571005
## 3 生活 3417804
## 4 國際 2485621
## 5 政治 1701980
## 6 體育 1598067
applenews %>% group_by(category) %>% summarise(view_sum = sum(view_cnt, na.rm=TRUE)) %>% arrange(desc(view_sum)) %>% head()
## # A tibble: 6 x 2
## category view_sum
## <chr> <int>
## 1 社會 5721750
## 2 娛樂 3571005
## 3 生活 3417804
## 4 國際 2485621
## 5 政治 1701980
## 6 體育 1598067
applenews %>% group_by(category) %>% summarise(view_sum = mean(view_cnt)) %>% arrange(desc(view_sum)) %>% head()
## # A tibble: 6 x 2
## category view_sum
## <chr> <dbl>
## 1 正妹 84118.62
## 2 娛樂 31601.81
## 3 社會 29493.56
## 4 體育 16821.76
## 5 搜奇 12151.04
## 6 政治 11901.96
applenews %>% group_by(category) %>% summarise_each(funs(sum), view_cnt, portion) %>% arrange(desc(portion)) %>% head()
## `summarise_each()` is deprecated.
## Use `summarise_all()`, `summarise_at()` or `summarise_if()` instead.
## To map `funs` over a selection of variables, use `summarise_at()`
## # A tibble: 6 x 3
## category view_cnt portion
## <chr> <int> <dbl>
## 1 社會 5721750 0.26521490
## 2 娛樂 3571005 0.16552344
## 3 生活 3417804 0.15842226
## 4 國際 2485621 0.11521365
## 5 政治 1701980 0.07889028
## 6 體育 1598067 0.07407370
applenews %>%
group_by(category) %>%
summarise_each(funs(min(., na.rm=TRUE), max(., na.rm=TRUE)), matches("view_cnt"))
## `summarise_each()` is deprecated.
## Use `summarise_all()`, `summarise_at()` or `summarise_if()` instead.
## To map `funs` over a selection of variables, use `summarise_at()`
## # A tibble: 16 x 3
## category view_cnt_min view_cnt_max
## <chr> <dbl> <dbl>
## 1 3C 267 20509
## 2 正妹 7999 344733
## 3 生活 20 132880
## 4 地產 0 80691
## 5 社會 918 241842
## 6 政治 221 83059
## 7 娛樂 1631 299235
## 8 時尚 311 67086
## 9 財經 24 54886
## 10 動物 1211 11753
## 11 國際 0 150825
## 12 "國際\",\"LA\",\"SF\",\"NY\",\"US" 1034 12893
## 13 "國際\",\"SF\",\"US" 2875 4171
## 14 搜奇 199 83036
## 15 論壇 275 68208
## 16 體育 523 162907
applenews %>% summarize_each(funs(n()))
## `summarise_each()` is deprecated.
## Use `summarise_all()`, `summarise_at()` or `summarise_if()` instead.
## To map `funs` over all variables, use `summarise_all()`
## title category view_cnt portion
## 1 1500 1500 1500 1500
applenews %>%
select(category) %>%
summarize_each(funs(n_distinct(category)))
## `summarise_each()` is deprecated.
## Use `summarise_all()`, `summarise_at()` or `summarise_if()` instead.
## To map `funs` over all variables, use `summarise_all()`
## category
## 1 16
cat_stat <- applenews %>%
group_by(category) %>%
summarise(view_sum = sum(view_cnt)) %>%
arrange(desc(view_sum))
cat_stat
## # A tibble: 16 x 2
## category view_sum
## <chr> <int>
## 1 社會 5721750
## 2 娛樂 3571005
## 3 生活 3417804
## 4 國際 2485621
## 5 政治 1701980
## 6 體育 1598067
## 7 正妹 672949
## 8 搜奇 668307
## 9 財經 618243
## 10 論壇 312592
## 11 時尚 260499
## 12 地產 220812
## 13 3C 146308
## 14 動物 123287
## 15 "國際\",\"LA\",\"SF\",\"NY\",\"US" 43627
## 16 "國際\",\"SF\",\"US" 11163
?barplot
## starting httpd help server ...
## done
barplot(cat_stat$view_sum, names.arg = cat_stat$category, col="blue", cex.axis=0.6, cex.names=0.6)

?pie
pie(cat_stat$view_sum, labels = cat_stat$category, init.angle = 90, clockwise = TRUE)

load('applenews.RData')
summary(applenews$dt)
## Min. 1st Qu. Median
## "2016-04-13 16:13:00" "2016-04-14 04:49:30" "2016-04-14 15:42:00"
## Mean 3rd Qu. Max.
## "2016-04-14 15:34:04" "2016-04-15 00:14:00" "2016-04-15 14:32:00"
applenews$hour <- format(applenews$dt , '%H')
view_by_hour_stat <- applenews %>%
filter( (dt >= '2016-04-14 00:00:00') & (dt < '2016-04-15 00:00:00') ) %>%
select(hour) %>% group_by(hour) %>% summarise(view_per_hour = n())
plot(view_by_hour_stat$hour, view_by_hour_stat$view_per_hour, type= 'b')

實價登錄網
#download.file('https://raw.githubusercontent.com/ywchiu/cathayr/master/data/lvr_prices.csv', 'lvr_prices.csv')
library(readr)
##
## Attaching package: 'readr'
## The following object is masked from 'package:rvest':
##
## guess_encoding
lvr_prices <- read_csv("C:/Users/Administrator/Desktop/lvr_prices.csv")
## Warning: Missing column names filled in: 'X1' [1]
## Parsed with column specification:
## cols(
## .default = col_character(),
## X1 = col_integer(),
## land_sqmeter = col_double(),
## trading_ymd = col_date(format = ""),
## finish_ymd = col_date(format = ""),
## building_sqmeter = col_double(),
## room = col_integer(),
## living_room = col_integer(),
## bath = col_integer(),
## total_price = col_integer(),
## price_per_sqmeter = col_double(),
## parking_sqmeter = col_double(),
## parking_price = col_integer()
## )
## See spec(...) for full column specifications.
## Warning in rbind(names(probs), probs_f): number of columns of result is not
## a multiple of vector length (arg 1)
## Warning: 32 parsing failures.
## row # A tibble: 5 x 5 col row col expected actual expected <int> <chr> <chr> <chr> actual 1 1282 total_price an integer 6700000000 file 2 2243 total_price an integer 3882685600 row 3 2244 total_price an integer 3373314400 col 4 4629 total_price an integer 3050000000 expected 5 5890 total_price an integer 3133800000 actual # ... with 1 more variables: file <chr>
## ... ................. ... ......................................... ........ ......................................... ...... ......................................... .... ......................................... ... ......................................... ... ......................................... ........ ......................................... ...... .......................................
## See problems(...) for more details.
lvr_prices %>%
select(trading_target, area, total_price, city_land_type) %>%
filter((trading_target == '房地(土地+建物)') & (city_land_type == '住') ) %>%
group_by(area, trading_target, city_land_type) %>%
summarise(mean_price = mean(total_price, na.rm=TRUE)) %>%
arrange(desc(mean_price))
## # A tibble: 12 x 4
## # Groups: area, trading_target [12]
## area trading_target city_land_type mean_price
## <chr> <chr> <chr> <dbl>
## 1 大安區 房地(土地+建物) 住 26559742
## 2 松山區 房地(土地+建物) 住 22337849
## 3 中正區 房地(土地+建物) 住 18957189
## 4 信義區 房地(土地+建物) 住 18031121
## 5 士林區 房地(土地+建物) 住 17780666
## 6 中山區 房地(土地+建物) 住 17515679
## 7 內湖區 房地(土地+建物) 住 14880410
## 8 南港區 房地(土地+建物) 住 13949352
## 9 北投區 房地(土地+建物) 住 12927737
## 10 大同區 房地(土地+建物) 住 12407587
## 11 文山區 房地(土地+建物) 住 12239954
## 12 萬華區 房地(土地+建物) 住 9434200
lvr_prices %>%
select(trading_target, area, total_price, city_land_type) %>%
filter((trading_target == '房地(土地+建物)') & (city_land_type == '住') ) %>%
group_by(area, trading_target, city_land_type) %>%
summarise(mean_price = median(total_price, na.rm=TRUE)) %>%
arrange(desc(mean_price))
## # A tibble: 12 x 4
## # Groups: area, trading_target [12]
## area trading_target city_land_type mean_price
## <chr> <chr> <chr> <dbl>
## 1 大安區 房地(土地+建物) 住 21680000
## 2 松山區 房地(土地+建物) 住 19890000
## 3 信義區 房地(土地+建物) 住 15655000
## 4 中正區 房地(土地+建物) 住 15000000
## 5 中山區 房地(土地+建物) 住 14405000
## 6 士林區 房地(土地+建物) 住 14000000
## 7 內湖區 房地(土地+建物) 住 13500000
## 8 南港區 房地(土地+建物) 住 13000000
## 9 北投區 房地(土地+建物) 住 11300000
## 10 文山區 房地(土地+建物) 住 11280000
## 11 大同區 房地(土地+建物) 住 9890000
## 12 萬華區 房地(土地+建物) 住 8180000
lvr_prices %>%
select(trading_target, area, price_per_sqmeter, city_land_type) %>%
filter((trading_target == '房地(土地+建物)') & (city_land_type == '住') ) %>%
group_by(area, trading_target, city_land_type) %>%
summarise(mean_price = mean(price_per_sqmeter, na.rm=TRUE)) %>%
arrange(desc(mean_price)) %>%
mutate(price_per_pin = mean_price / 0.3025) %>%
select(area, mean_price, price_per_pin)
## Adding missing grouping variables: `trading_target`
## # A tibble: 12 x 4
## # Groups: area, trading_target [12]
## trading_target area mean_price price_per_pin
## <chr> <chr> <dbl> <dbl>
## 1 房地(土地+建物) 大安區 254814.4 842361.7
## 2 房地(土地+建物) 松山區 204113.9 674756.6
## 3 房地(土地+建物) 信義區 193944.3 641138.3
## 4 房地(土地+建物) 中正區 193280.4 638943.5
## 5 房地(土地+建物) 中山區 190802.3 630751.5
## 6 房地(土地+建物) 士林區 162278.9 536459.3
## 7 房地(土地+建物) 內湖區 148749.2 491732.9
## 8 房地(土地+建物) 文山區 147749.6 488428.4
## 9 房地(土地+建物) 南港區 147667.1 488155.8
## 10 房地(土地+建物) 大同區 144051.1 476202.0
## 11 房地(土地+建物) 北投區 132874.7 439255.1
## 12 房地(土地+建物) 萬華區 118855.1 392909.4
lvr_stat <- lvr_prices %>%
select(trading_target, area, price_per_sqmeter, city_land_type) %>%
filter((trading_target == '房地(土地+建物)') & (city_land_type == '住') ) %>%
group_by(area, trading_target, city_land_type) %>%
summarise(mean_price = mean(price_per_sqmeter, na.rm=TRUE)) %>%
arrange(desc(mean_price)) %>%
mutate(price_per_pin = mean_price / 0.3025) %>%
select(area, mean_price, price_per_pin)
## Adding missing grouping variables: `trading_target`
barplot(lvr_stat$price_per_pin, names.arg = lvr_stat$area, col = 'blue', cex.axis = 0.6, cex.names = 0.6)

lvr_stat2 <- lvr_prices %>%
select(trading_target, area, price_per_sqmeter, city_land_type) %>%
filter(city_land_type == '住') %>%
group_by(area, trading_target) %>%
summarise(mean_price = mean(price_per_sqmeter, na.rm=TRUE)) %>%
arrange(desc(mean_price)) %>%
mutate(price_per_pin = mean_price / 0.3025) %>%
select(price_per_pin, area, trading_target)
#install.packages('tidyr')
library(tidyr)
## Warning: package 'tidyr' was built under R version 3.4.2
lvr_stat %>% head()
## # A tibble: 6 x 4
## # Groups: area, trading_target [6]
## trading_target area mean_price price_per_pin
## <chr> <chr> <dbl> <dbl>
## 1 房地(土地+建物) 大安區 254814.4 842361.7
## 2 房地(土地+建物) 松山區 204113.9 674756.6
## 3 房地(土地+建物) 信義區 193944.3 641138.3
## 4 房地(土地+建物) 中正區 193280.4 638943.5
## 5 房地(土地+建物) 中山區 190802.3 630751.5
## 6 房地(土地+建物) 士林區 162278.9 536459.3
?spread
pivot_table <- spread(lvr_stat2, key=trading_target, value = price_per_pin, fill=0)
write.csv(pivot_table, 'lvr_pivot.csv')
Get Geo Location
lvr_prices %>% head() %>% select(address)
library(httr)
res <- GET('https://maps.googleapis.com/maps/api/place/textsearch/json?query=臺北市大安區和平東路三段1巷72弄1~30號&key=<key>')
res2 <- content(res)
res2$results[[1]]$geometry$location$lat
res2$results[[1]]$geometry$location$lng
Read LVR Data
library(readr)
lvr_data <- read_csv("C:/Users/Administrator/Desktop/A_lvr_land_A.csv", locale = locale(encoding = "big5") )
## Parsed with column specification:
## cols(
## .default = col_character(),
## 土地移轉總面積平方公尺 = col_double(),
## 交易年月日 = col_integer(),
## 建物移轉總面積平方公尺 = col_double(),
## `建物現況格局-房` = col_integer(),
## `建物現況格局-廳` = col_integer(),
## `建物現況格局-衛` = col_integer(),
## 總價元 = col_integer(),
## 單價每平方公尺 = col_integer(),
## 車位移轉總面積平方公尺 = col_double(),
## 車位總價元 = col_integer()
## )
## See spec(...) for full column specifications.
#?read_csv