library(readxl)
read_excel("C:\\Users\\user\\OneDrive\\바탕 화면\\R\\mlu.xls", sheet = 2) -> mlu
library(dplyr)
##
## 다음의 패키지를 부착합니다: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
mlu %>% filter(utterances_mlu <= 500)
## # A tibble: 5 × 10
## File age utterances_mlu words_mlu DurationTime DurationSec Types_freq
## <chr> <chr> <dbl> <dbl> <chr> <dbl> <dbl>
## 1 27_A0P06M.… A0 470 813 00:12:07 727 378
## 2 28_A0P07M.… A0 371 976 00:11:53 713 419
## 3 15_A1P05F.… A1 381 1046 00:15:14 914 555
## 4 12_A2P04M.… A2 481 1672 00:17:01 1021 921
## 5 18_A2P07M.… A2 323 890 00:08:47 527 476
## # ℹ 3 more variables: Token_freq <dbl>, mlu <dbl>, `token/type` <dbl>
500문장 이하를 말한 엄마가 5명 있다는 것을 알 수 있다.
mlu %>% select(-DurationTime, -DurationSec) -> new_mlu
new_mlu
## # A tibble: 35 × 8
## File age utterances_mlu words_mlu Types_freq Token_freq mlu `token/type`
## <chr> <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 13_A… A0 566 1290 580 1346 2.28 2.32
## 2 21_A… A0 565 1602 737 1606 2.84 2.18
## 3 27_A… A0 470 813 378 832 1.73 2.20
## 4 28_A… A0 371 976 419 979 2.63 2.34
## 5 29_A… A0 802 2239 814 2253 2.79 2.77
## 6 2_A0… A0 563 1243 425 1263 2.21 2.97
## 7 30_A… A0 574 1705 828 1712 2.97 2.07
## 8 31_A… A0 539 1110 426 1124 2.06 2.64
## 9 35_A… A0 705 1847 622 1860 2.62 2.99
## 10 36_A… A0 752 2120 1014 2599 2.82 2.56
## # ℹ 25 more rows
mlu %>%
group_by(age) %>%
summarise(mean_mlu = mean(mlu))
## # A tibble: 3 × 2
## age mean_mlu
## <chr> <dbl>
## 1 A0 2.50
## 2 A1 2.59
## 3 A2 2.99
각 나이대 별 mlu의 평균은 A0은 2.50, A1은 2.59, A2는 2.99임을 알 수 있다.
mlu %>%
group_by(age) %>%
summarise(mean_talk = mean(`token/type`))
## # A tibble: 3 × 2
## age mean_talk
## <chr> <dbl>
## 1 A0 2.57
## 2 A1 2.74
## 3 A2 2.66
각 그룹별 token/type 비율의 평균은 A0은 2.57, A1은 2.74, A2는 2.66임을 알 수 있다.