Ch 6 more on excel data
- 엑셀파일의 해당 sheet 를 불러들여와 주세요.
library(readxl)
read_excel("C:/Users/chosun/Downloads/mlu (1) (1).xls", sheet=2)->mlu
- 문장 발화 갯수가 너무 적은 데이터는 수상해서 한번 살펴볼 필요가
있어요. 주어진 녹음 시간 동안 500 문장 이하를 말한 엄마가 몇명이나
되는지 찾아주세요.
library(dplyr)
##
## 다음의 패키지를 부착합니다: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
mlu %>% filter(mlu$utterances_mlu <= 500)-> utterances_mlu
dim(utterances_mlu)
## [1] 5 8
- 데이터 중에서 DurationTime 과 DurationSec 는 필요하지 않으니
이것들을 제외하고 데이터 프레임을 다시 만들어서 새로운 이름으로
저장해주세요.
mlu %>% select(-DurationTime,-DurationSec) -> mlu2
mlu2
## # A tibble: 35 × 6
## File age utterances_mlu words_mlu Types_freq Token_freq
## <chr> <chr> <dbl> <dbl> <dbl> <dbl>
## 1 13_A0P04M.cha A0 566 1290 580 1346
## 2 21_A0P05M.cha A0 565 1602 737 1606
## 3 27_A0P06M.cha A0 470 813 378 832
## 4 28_A0P07M.cha A0 371 976 419 979
## 5 29_A0P08M.cha A0 802 2239 814 2253
## 6 2_A0P01M.cha A0 563 1243 425 1263
## 7 30_A0P09F.cha A0 574 1705 828 1712
## 8 31_A0P10F.cha A0 539 1110 426 1124
## 9 35_A0P11M.cha A0 705 1847 622 1860
## 10 36_A0P12M.cha A0 752 2120 1014 2599
## # ℹ 25 more rows
- 세그룹의 나이가 있는데 각 나이대 별로 평균 MLU를 알고 싶습니다.
이것은 두단계를 거쳐야 하겠죠? 먼저 지난번 숙제에서 한것처럼
words/utterance 해서 MLU 변수 칼럼을 추가해 주세요. 그 다음에 group_by
와 mean 함수가 돌아가는 사람은 dplyr 의 명령어를 이용하고 그렇지 않은
사람은 aggregate 를 이용해서 각 그룹별로 평균 MLU 를 구해주세요.