Ch6 more on excel data

1번

library(readxl)
read_excel("C:\\Users\\user\\OneDrive\\바탕 화면\\R\\mlu.xls", sheet = 2) -> mlu

2번

library(dplyr)

## 
## 다음의 패키지를 부착합니다: 'dplyr'

## The following objects are masked from 'package:stats':
## 
##     filter, lag

## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union

mlu %>% filter(utterances_mlu <= 500)

## # A tibble: 5 × 10
##   File        age   utterances_mlu words_mlu DurationTime DurationSec Types_freq
##   <chr>       <chr>          <dbl>     <dbl> <chr>              <dbl>      <dbl>
## 1 27_A0P06M.… A0               470       813 00:12:07             727        378
## 2 28_A0P07M.… A0               371       976 00:11:53             713        419
## 3 15_A1P05F.… A1               381      1046 00:15:14             914        555
## 4 12_A2P04M.… A2               481      1672 00:17:01            1021        921
## 5 18_A2P07M.… A2               323       890 00:08:47             527        476
## # ℹ 3 more variables: Token_freq <dbl>, mlu <dbl>, `token/type` <dbl>

500문장 이하를 말한 엄마가 5명 있다는 것을 알 수 있다.

3번

mlu %>% select(-DurationTime, -DurationSec) -> new_mlu
new_mlu

## # A tibble: 35 × 8
##    File  age   utterances_mlu words_mlu Types_freq Token_freq   mlu `token/type`
##    <chr> <chr>          <dbl>     <dbl>      <dbl>      <dbl> <dbl>        <dbl>
##  1 13_A… A0               566      1290        580       1346  2.28         2.32
##  2 21_A… A0               565      1602        737       1606  2.84         2.18
##  3 27_A… A0               470       813        378        832  1.73         2.20
##  4 28_A… A0               371       976        419        979  2.63         2.34
##  5 29_A… A0               802      2239        814       2253  2.79         2.77
##  6 2_A0… A0               563      1243        425       1263  2.21         2.97
##  7 30_A… A0               574      1705        828       1712  2.97         2.07
##  8 31_A… A0               539      1110        426       1124  2.06         2.64
##  9 35_A… A0               705      1847        622       1860  2.62         2.99
## 10 36_A… A0               752      2120       1014       2599  2.82         2.56
## # ℹ 25 more rows

4번

mlu %>%
  group_by(age) %>%
  summarise(mean_mlu = mean(mlu))

## # A tibble: 3 × 2
##   age   mean_mlu
##   <chr>    <dbl>
## 1 A0        2.50
## 2 A1        2.59
## 3 A2        2.99

각 나이대 별 mlu의 평균은 A0은 2.50, A1은 2.59, A2는 2.99임을 알 수 있다.

5번

mlu %>%
  group_by(age) %>%
  summarise(mean_talk = mean(`token/type`))

## # A tibble: 3 × 2
##   age   mean_talk
##   <chr>     <dbl>
## 1 A0         2.57
## 2 A1         2.74
## 3 A2         2.66

각 그룹별 token/type 비율의 평균은 A0은 2.57, A1은 2.74, A2는 2.66임을 알 수 있다.

Ch6 more on excel data

류가은

2023-10-11

1번

2번

3번

4번

5번