##第一題
#1. cyl欄位的眾數、qsec欄位的平均數、disp欄位的標準差
as.numeric(names(which(table(mtcars$cyl)==max(table(mtcars$cyl)))))
## [1] 8
as.numeric(names(table(mtcars$cyl)))[which.max(table(mtcars$cyl))]
## [1] 8
mean(mtcars$qsec)
## [1] 17.84875
sd(mtcars$disp)
## [1] 123.9387
summary(mtcars)
## mpg cyl disp hp
## Min. :10.40 Min. :4.000 Min. : 71.1 Min. : 52.0
## 1st Qu.:15.43 1st Qu.:4.000 1st Qu.:120.8 1st Qu.: 96.5
## Median :19.20 Median :6.000 Median :196.3 Median :123.0
## Mean :20.09 Mean :6.188 Mean :230.7 Mean :146.7
## 3rd Qu.:22.80 3rd Qu.:8.000 3rd Qu.:326.0 3rd Qu.:180.0
## Max. :33.90 Max. :8.000 Max. :472.0 Max. :335.0
## drat wt qsec vs
## Min. :2.760 Min. :1.513 Min. :14.50 Min. :0.0000
## 1st Qu.:3.080 1st Qu.:2.581 1st Qu.:16.89 1st Qu.:0.0000
## Median :3.695 Median :3.325 Median :17.71 Median :0.0000
## Mean :3.597 Mean :3.217 Mean :17.85 Mean :0.4375
## 3rd Qu.:3.920 3rd Qu.:3.610 3rd Qu.:18.90 3rd Qu.:1.0000
## Max. :4.930 Max. :5.424 Max. :22.90 Max. :1.0000
## am gear carb
## Min. :0.0000 Min. :3.000 Min. :1.000
## 1st Qu.:0.0000 1st Qu.:3.000 1st Qu.:2.000
## Median :0.0000 Median :4.000 Median :2.000
## Mean :0.4062 Mean :3.688 Mean :2.812
## 3rd Qu.:1.0000 3rd Qu.:4.000 3rd Qu.:4.000
## Max. :1.0000 Max. :5.000 Max. :8.000
#2cyl, disp的相關係數,用一張散佈圖
cor(mtcars$cyl, mtcars$disp)
## [1] 0.9020329
plot(mtcars$cyl, mtcars$disp)

#呈現往右上的正相關,也跟cor: 0.9 ~1 相符
boxplot(mtcars$mpg~mtcars$cyl)

#從圖看起來,普遍來說汽缸越小的油耗比較小(mpg值越大),4個汽缸的資料較6、8汽缸的資料分散。6汽缸的油耗分佈曲線對稱,而4跟8汽缸都呈現右偏的特徵。8汽缸有個下界離群值出現...
##第二題
#1. 大學生和碩士生的平均薪資和標準差
salary.df <- data.frame(
"薪資" = c("30000以下", "30000~35000", "35001~40000", "40000以上"),
"大學生人數" = c(320, 62, 15, 10),
"碩士生人數" = c(58,340, 68,44)
)
salary.df
## 薪資 大學生人數 碩士生人數
## 1 30000以下 320 58
## 2 30000~35000 62 340
## 3 35001~40000 15 68
## 4 40000以上 10 44
#1大學生碩士生平均薪資、標準差
salary.df$薪資 <- c(27500, 32500, 37500, 42500)
大學生.mean <- sum(salary.df$薪資*salary.df$大學生人數)/sum(salary.df$大學生人數)
大學生.mean
## [1] 28998.77
碩士生.mean <- sum(salary.df$薪資*salary.df$碩士生人數)/sum(salary.df$碩士生人數)
碩士生.mean
## [1] 33460.78
大學生.sd <- sqrt(sum((salary.df$薪資-大學生.mean)^2*salary.df$大學生人數)/ sum(salary.df$大學生人數)-1)
大學生.sd
## [1] 3282.651
碩士生.sd <- sqrt(sum((salary.df$薪資-碩士生.mean)^2*salary.df$碩士生人數)/ sum(salary.df$碩士生人數)-1)
#2因為不同組資料,比較差異,應用變異係數
大學生.cov <- 大學生.sd/ 大學生.mean; 大學生.cov
## [1] 0.1131996
碩士生.cov <- 碩士生.sd/ 碩士生.mean; 碩士生.cov
## [1] 0.1113452
#因為下面TRUE, 所以大學生薪資差異較大
大學生.cov > 碩士生.cov
## [1] TRUE
#3 資料左偏右偏: 如下列兩圖示,均為右偏
plot(salary.df$薪資, salary.df$大學生人數)

plot(salary.df$薪資, salary.df$碩士生人數)

##第三題
#1. 畫出各組別莖葉圖,分成10組
library(readr)
profile <- read_csv("randomnum.csv")
## Parsed with column specification:
## cols(
## x = col_double()
## )
profile.df <- as.data.frame(profile)
breakprofile.df <- seq(0,1000, by = 100)
labelprofile.df <- c("1-100", "101-200","201-300", "301-400","401-500", "501-600", "601-700", "701-800", "801-900", "901-1000")
profile2.df <- cut(profile.df$x, breakprofile.df, labelprofile.df, ordered_result = F)
table(profile2.df)
## profile2.df
## 1-100 101-200 201-300 301-400 401-500 501-600 601-700 701-800
## 108 109 91 85 92 106 93 109
## 801-900 901-1000
## 110 97
#3-1
stem(as.numeric(table(profile2.df)), scale = 1.2)
##
## The decimal point is 1 digit(s) to the right of the |
##
## 8 | 5
## 9 | 123
## 9 | 7
## 10 |
## 10 | 6899
## 11 | 0
#3-2
barplot(table(profile2.df), xlab = "range", ylab = "frequency")
