HW2_N94020018 陳彥伯

##第一題
#1. cyl欄位的眾數、qsec欄位的平均數、disp欄位的標準差
as.numeric(names(which(table(mtcars$cyl)==max(table(mtcars$cyl)))))

## [1] 8

as.numeric(names(table(mtcars$cyl)))[which.max(table(mtcars$cyl))]

## [1] 8

mean(mtcars$qsec)

## [1] 17.84875

sd(mtcars$disp)

## [1] 123.9387

summary(mtcars)

##       mpg             cyl             disp             hp       
##  Min.   :10.40   Min.   :4.000   Min.   : 71.1   Min.   : 52.0  
##  1st Qu.:15.43   1st Qu.:4.000   1st Qu.:120.8   1st Qu.: 96.5  
##  Median :19.20   Median :6.000   Median :196.3   Median :123.0  
##  Mean   :20.09   Mean   :6.188   Mean   :230.7   Mean   :146.7  
##  3rd Qu.:22.80   3rd Qu.:8.000   3rd Qu.:326.0   3rd Qu.:180.0  
##  Max.   :33.90   Max.   :8.000   Max.   :472.0   Max.   :335.0  
##       drat             wt             qsec             vs        
##  Min.   :2.760   Min.   :1.513   Min.   :14.50   Min.   :0.0000  
##  1st Qu.:3.080   1st Qu.:2.581   1st Qu.:16.89   1st Qu.:0.0000  
##  Median :3.695   Median :3.325   Median :17.71   Median :0.0000  
##  Mean   :3.597   Mean   :3.217   Mean   :17.85   Mean   :0.4375  
##  3rd Qu.:3.920   3rd Qu.:3.610   3rd Qu.:18.90   3rd Qu.:1.0000  
##  Max.   :4.930   Max.   :5.424   Max.   :22.90   Max.   :1.0000  
##        am              gear            carb      
##  Min.   :0.0000   Min.   :3.000   Min.   :1.000  
##  1st Qu.:0.0000   1st Qu.:3.000   1st Qu.:2.000  
##  Median :0.0000   Median :4.000   Median :2.000  
##  Mean   :0.4062   Mean   :3.688   Mean   :2.812  
##  3rd Qu.:1.0000   3rd Qu.:4.000   3rd Qu.:4.000  
##  Max.   :1.0000   Max.   :5.000   Max.   :8.000

#2cyl, disp的相關係數，用一張散佈圖
cor(mtcars$cyl, mtcars$disp)

## [1] 0.9020329

plot(mtcars$cyl, mtcars$disp)

#呈現往右上的正相關，也跟cor: 0.9 ~1 相符
boxplot(mtcars$mpg~mtcars$cyl)

#從圖看起來，普遍來說汽缸越小的油耗比較小（mpg值越大），4個汽缸的資料較6、8汽缸的資料分散。6汽缸的油耗分佈曲線對稱，而4跟8汽缸都呈現右偏的特徵。8汽缸有個下界離群值出現...

##第二題
#1. 大學生和碩士生的平均薪資和標準差
salary.df <- data.frame(
  "薪資" = c("30000以下", "30000~35000", "35001~40000", "40000以上"),
  "大學生人數" = c(320, 62, 15, 10),
  "碩士生人數" = c(58,340, 68,44)
)
salary.df

##          薪資 大學生人數 碩士生人數
## 1   30000以下        320         58
## 2 30000~35000         62        340
## 3 35001~40000         15         68
## 4   40000以上         10         44

#1大學生碩士生平均薪資、標準差
salary.df$薪資 <- c(27500, 32500, 37500, 42500)
大學生.mean <- sum(salary.df$薪資*salary.df$大學生人數)/sum(salary.df$大學生人數)
大學生.mean

## [1] 28998.77

碩士生.mean <- sum(salary.df$薪資*salary.df$碩士生人數)/sum(salary.df$碩士生人數)
碩士生.mean

## [1] 33460.78

大學生.sd <- sqrt(sum((salary.df$薪資-大學生.mean)^2*salary.df$大學生人數)/ sum(salary.df$大學生人數)-1)
大學生.sd

## [1] 3282.651

碩士生.sd <- sqrt(sum((salary.df$薪資-碩士生.mean)^2*salary.df$碩士生人數)/ sum(salary.df$碩士生人數)-1)
#2因為不同組資料，比較差異，應用變異係數
大學生.cov <- 大學生.sd/ 大學生.mean; 大學生.cov

## [1] 0.1131996

碩士生.cov <- 碩士生.sd/ 碩士生.mean; 碩士生.cov

## [1] 0.1113452

#因為下面TRUE, 所以大學生薪資差異較大
大學生.cov > 碩士生.cov

## [1] TRUE

#3 資料左偏右偏: 如下列兩圖示，均為右偏
plot(salary.df$薪資, salary.df$大學生人數)

plot(salary.df$薪資, salary.df$碩士生人數)

##第三題
#1. 畫出各組別莖葉圖，分成10組
library(readr)
profile <- read_csv("randomnum.csv")

## Parsed with column specification:
## cols(
##   x = col_double()
## )

profile.df <- as.data.frame(profile)
breakprofile.df <- seq(0,1000, by = 100)
labelprofile.df <- c("1-100", "101-200","201-300", "301-400","401-500", "501-600", "601-700", "701-800", "801-900", "901-1000")

profile2.df <- cut(profile.df$x, breakprofile.df, labelprofile.df, ordered_result = F)
table(profile2.df)

## profile2.df
##    1-100  101-200  201-300  301-400  401-500  501-600  601-700  701-800 
##      108      109       91       85       92      106       93      109 
##  801-900 901-1000 
##      110       97

#3-1
stem(as.numeric(table(profile2.df)), scale = 1.2)

## 
##   The decimal point is 1 digit(s) to the right of the |
## 
##    8 | 5
##    9 | 123
##    9 | 7
##   10 | 
##   10 | 6899
##   11 | 0

#3-2
barplot(table(profile2.df), xlab = "range", ylab = "frequency")

HW2_N94020018 陳彥伯

Yanbo Chen

11/6/2020