US_PATH <- "data/1_raw_data/US/"
CN_PATH <- "data/1_raw_data/CN/"

MERGED_DATA_PATH <- here("data/2_merged/merged_all.csv")
MERGED_DEMOGS_PATH <- here("data/2_merged/merged_demogs.csv")


US_TBA_FD_PATH <- here("data/to_be_annotated/US/us_tba_fd.csv")
US_TBA_CA_PATH <- here("data/to_be_annotated/US/us_tba_ca.csv")
US_SYMS_LABEL_PATH <- here("data/to_be_annotated/US/us_syms_label.csv")
#funnel debriefing and sanity check 
US_HUMANREAD_PATH <- here("data/to_be_annotated/US/us_hr.csv")

CN_TBA_FD_PATH <- here("data/to_be_annotated/CN/cn_tba_fd.csv")
CN_TBA_CA_PATH <- here("data/to_be_annotated/CN/cn_tba_ca.csv")

CN_SYMS_LABEL_PATH <- here("data/to_be_annotated/CN/cn_syms_label.csv")
CN_HUMANREAD_PATH <- here("data/to_be_annotated/CN/cn_hr.csv")

# task-based exclusion and completion based exclusion
TRIMMED_DATA_PATH <- here("data/3_trimmed/trimmed_all.csv")
TRIMMED_DEMOGS_PATH <- here("data/3_trimmed/trimmed_demogs.csv")



# tidy data 
PROCESSED_MAIN_PATH <- here("data/4_processed/tidy_main.csv")

Intro

This script will read in the raw data from servers and generate a series of files in data folder The folders are organized as following:

1_raw_data (does not live on github)
- US: *.csv, raw data from servers
- CN: *.csv, raw data from servers
2_merged
- merged_data.csv: aggregated data from both 1_raw_data/US and 1_raw_data/CN, untrimmed / unprocessed
- merged_demogs.csv: aggregated demographic information from both 1_raw_data/US and 1_raw_data/CN, untrimmed / unprocessed
3_trimmed
- trimmed_data.csv: generated from merged_data.csv and merged_demogs.csvusing task-based exclusion & demographic-based exclusion
- trimmed_demogs.csv: generated from trimmed_data.csv
4_processed
- tidy_main.csv: main analysis table processed from trimme_data.dsv
- … [may have task-specific exploratory analysis]
to_be_annotated (data that needs human to check)
- US
  - us_tba_ca.csv: causal attribution answer to be annotated
  - us_tba_fd.csv: free description answer to be annotated
  - us_hr.csv: funnel debriefing answer and general feedback
- CN
  - cn_tba_ca.csv: causal attribution answer to be annotated
  - cn_tba_fd.csv: free description answer to be annotated
  - cn_hr.csv: funnel debriefing answer and general feedback

Read in raw data

The current script saves data for users who did not finish the experiment, including those who did not finish the pre-experiment instruction session. As a result, there are going to be a non-trivial number of csv files that contain non-usable data. In these non-usable* csv file, the number of columns do not match with other participants, causing the map_dfread in function won’t work. Therefore the first step is to examine and exclude the non-usable csv files.

*note: we distinguish between participants who proceeded long enough into the experiment and quit with those who did not really start the experiment. With our preregistration criteria, the former might be included in the final analysis, if we have more than 20% exclusion rate. On the contrary, the later will be excluded in this first step.

First, we can examine how many csv files are from usable data.

us_files <- str_c(US_PATH, dir(here(US_PATH), "*.csv"))
cn_files <- str_c(CN_PATH, dir(here(CN_PATH), "*.csv"))


us_data_RAW <- map_df(us_files, function(file) {
  d <- read_csv(file) %>% 
    count() %>% 
    mutate(
      file_name = file 
    )
  }) 


cn_data_RAW <- map_df(cn_files, function(file) {
  d <- read_csv(file) %>% 
    count() %>% 
    mutate(
      file_name = file 
    )
  }) 

#Tentatively setting minimum row to be 180, so we only read in files with more than 180 rows

MIN_ROW = 180

us_data <- map_df((us_data_RAW %>% filter(n > MIN_ROW))$file_name,
                  function(file){
                    d <- read_csv(file)
                  }) %>% 
  mutate(culture = "US") %>% 
  filter(trial_type != "prolific-id")


cn_data <- map_df((cn_data_RAW %>% filter(n > MIN_ROW))$file_name,
                  function(file){
                    d <- read_csv(file)
                  })%>% 
  mutate(culture = "CN") %>% 
  filter(trial_type != "prolific-id")

# count number of raw participants: 
fun.count_s <- function(df){
  num_s <- df %>% distinct(subject) %>% count()
  return(num_s)
}

fun.count_s(us_data)

## # A tibble: 1 x 1
##       n
##   <int>
## 1    60

fun.count_s(cn_data)

## # A tibble: 1 x 1
##       n
##   <int>
## 1    33

There are 60 US participants and 33 CN participants.

Merging data and extracting demogs and write to `2_merged` folder

Here we combine the US data and CN data together

#combine US and CN 
merged_data <- bind_rows(us_data,cn_data)

#extract demographic and combine them together
us_demogs <- extract_demog(us_data, "US")
cn_demogs <- extract_demog(cn_data, "CN")  
merged_demogs <- bind_rows(us_demogs, cn_demogs)

write_csv(merged_data, MERGED_DATA_PATH)
write_csv(merged_demogs, MERGED_DEMOGS_PATH)

#take a look at the tables
#merged_data %>% datatable()
#merged_demogs %>% datatable()

Sanity Check: participants feedback

us_ff_table <- extract_funnel_feedback(MERGED_DATA_PATH, US_HUMANREAD_PATH, "US")
us_ff_table %>% datatable()

cn_ff_table <- extract_funnel_feedback(MERGED_DATA_PATH, CN_HUMANREAD_PATH, "CN")
cn_ff_table %>% datatable()

If no raw data, start here!

merged_data <- read_csv(MERGED_DATA_PATH)

## Parsed with column specification:
## cols(
##   .default = col_character(),
##   trial_index = col_double(),
##   time_elapsed = col_double(),
##   correct = col_logical(),
##   activate = col_logical(),
##   startTime = col_double(),
##   endTime = col_double(),
##   RT = col_double(),
##   answer_correct = col_double(),
##   unique_position = col_double(),
##   passed = col_logical(),
##   preamble = col_logical()
## )

## See spec(...) for full column specifications.

## Warning: 35 parsing failures.
##   row      col           expected                  actual                                                                          file
##  1184 preamble 1/0/T/F/TRUE/FALSE <b>Language Fluency</b> '/Users/caoanjie/Desktop/projects/CCRR_analysis/data/2_merged/merged_all.csv'
##  7745 preamble 1/0/T/F/TRUE/FALSE <b>Language Fluency</b> '/Users/caoanjie/Desktop/projects/CCRR_analysis/data/2_merged/merged_all.csv'
##  7944 preamble 1/0/T/F/TRUE/FALSE <b>Language Fluency</b> '/Users/caoanjie/Desktop/projects/CCRR_analysis/data/2_merged/merged_all.csv'
##  9336 preamble 1/0/T/F/TRUE/FALSE <b>Language Fluency</b> '/Users/caoanjie/Desktop/projects/CCRR_analysis/data/2_merged/merged_all.csv'
## 10725 preamble 1/0/T/F/TRUE/FALSE <b>Language Fluency</b> '/Users/caoanjie/Desktop/projects/CCRR_analysis/data/2_merged/merged_all.csv'
## ..... ........ .................. ....................... .............................................................................
## See problems(...) for more details.

Exclusion

Based on demographic

demographic exclusion: - abroad experience region don’t fit - language fluency > 3

us_trimmed_demog <- extract_demog(merged_data, "US")

## Adding missing grouping variables: `variable_type`

cn_trimmed_demog <- extract_demog(merged_data, "CN")

## Adding missing grouping variables: `variable_type`

# detail_table == TRUE will print out participant info
demog_exclusion(us_trimmed_demog, "US", 
                check_exclusion = TRUE, 
                detail_table = FALSE)

demog_exclusion(cn_trimmed_demog, "CN",
                check_exclusion = TRUE, 
                detail_table = FALSE)

demog_ex_id_us <- demog_exclusion(us_trimmed_demog, "US", 
                                  check_exclusion = FALSE, 
                                  detail_table = FALSE) 
demog_ex_id_cn <- demog_exclusion(cn_trimmed_demog, "CN", 
                                  check_exclusion = FALSE, 
                                  detail_table = FALSE) 
demog_ex_id_cn <- c()#too high for Chinese participants
demog_ex_id <- c(demog_ex_id_us, demog_ex_id_cn)

language distribution

us_trimmed_demog <- extract_demog(merged_data, "US")

## Adding missing grouping variables: `variable_type`

cn_trimmed_demog <- extract_demog(merged_data, "CN")

## Adding missing grouping variables: `variable_type`

demog <- bind_rows(us_trimmed_demog, cn_trimmed_demog)

demog %>% 
  filter(demog_question == "lang_ud" | demog_question == "lang_sp") %>% 
  mutate(demog_response = as.numeric(demog_response)) %>% 
  ggplot(aes(x = demog_response)) + 
  geom_histogram(bins = 10) + 
  facet_grid(culture~demog_question)

Based on non-human coder task

task-based exclusion:
- Ebbinghaus: side bias, > 90% trials pressed button on one side
- RMTS: side bias, all trials pressed button on one side
- self_inflation: the number of circles drawn do not correspond to the number of lables provided
- Free description and Causal attribution: >.25 uncodeable study
completion-based exclusion (unlikely): in one task the missing / unusable trials > 0.25

# Culture string is necessary because we also want to read from human annotated data

task_exclusion(filter(merged_data, culture == "US"), 
                                culture = "US", 
                                include_annotation = FALSE, 
                                check_exclusion = TRUE, 
                                detail_table = FALSE)

## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`

task_exclusion(filter(merged_data, culture == "CN"), 
                                culture = "CN", 
                                include_annotation = FALSE, 
                                check_exclusion = TRUE, 
                                detail_table = FALSE)

## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`

task_ex_id_us <- task_exclusion(filter(merged_data, culture == "US"), 
                                culture = "US", 
                                include_annotation = FALSE, 
                                check_exclusion = FALSE)

## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`

task_ex_id_cn <- task_exclusion(filter(merged_data, culture == "CN"),
                                culture = "CN", 
                                include_annotation = FALSE, 
                                check_exclusion = FALSE)

## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`

# current ignoring circle drawing
complete_ex_id <- complete_exclusion(merged_data)

ex_id <- c(task_ex_id_us,task_ex_id_cn,complete_ex_id, demog_ex_id)
ex_id <- ex_id[!duplicated(ex_id)]

task_trimmed_d <- merged_data %>%
     filter(
       !(subject %in% ex_id)
     )

write_csv(task_trimmed_d, TRIMMED_DATA_PATH)

Extract Human coders required task

Create spreadsheet for human coders (after first round of exclusion)

us_tba_fd_table <- extract_HIT_table(TRIMMED_DATA_PATH,US_TBA_FD_PATH, "US", "FD")

## New names:
## * subject -> subject...1
## * subject -> subject...4

us_tba_ca_table <- extract_HIT_table(TRIMMED_DATA_PATH,US_TBA_CA_PATH, "US", "CA")

## New names:
## * subject -> subject...1
## * subject -> subject...4

cn_tba_fd_table <- extract_HIT_table(TRIMMED_DATA_PATH,CN_TBA_FD_PATH, "CN", "FD")

## New names:
## * subject -> subject...1
## * subject -> subject...4

cn_tba_ca_table <- extract_HIT_table(TRIMMED_DATA_PATH, CN_TBA_CA_PATH, "CN", "CA")

## New names:
## * subject -> subject...1
## * subject -> subject...4

assume already coded, Exclude based on human coders

# take a look at distribution
task_exclusion(filter(merged_data, culture == "US"), 
                                culture = "US", 
                                include_annotation = TRUE, 
                                check_exclusion = TRUE, 
                                detail_table = FALSE)

## Parsed with column specification:
## cols(
##   subject = col_character(),
##   task_name = col_character(),
##   stimulus = col_character(),
##   trial_raw = col_character(),
##   trial_num = col_double(),
##   codeable = col_double(),
##   first_mention_focal = col_double(),
##   bckgrd_description = col_double(),
##   focal_description = col_double(),
##   coder = col_logical()
## )

## Parsed with column specification:
## cols(
##   subject = col_character(),
##   task_name = col_character(),
##   trial_raw = col_character(),
##   trial_num = col_double(),
##   stimulus = col_character(),
##   codeable = col_double(),
##   person_attribution = col_double(),
##   coder = col_logical()
## )

## `summarise()` ungrouping output (override with `.groups` argument)
## `summarise()` ungrouping output (override with `.groups` argument)

## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`

task_exclusion(filter(merged_data, culture == "CN"), 
                                culture = "CN", 
                                include_annotation = TRUE, 
                                check_exclusion = TRUE, 
                                detail_table = FALSE)

## Parsed with column specification:
## cols(
##   subject = col_character(),
##   task_name = col_character(),
##   stimulus = col_character(),
##   trial_raw = col_character(),
##   trial_num = col_double(),
##   codeable = col_double(),
##   first_mention_focal = col_double(),
##   bckgrd_description = col_double(),
##   focal_description = col_double(),
##   coder = col_logical()
## )

## Parsed with column specification:
## cols(
##   subject = col_character(),
##   task_name = col_character(),
##   trial_raw = col_character(),
##   trial_num = col_double(),
##   stimulus = col_character(),
##   codeable = col_double(),
##   person_attribution = col_double(),
##   coder = col_logical()
## )

## `summarise()` ungrouping output (override with `.groups` argument)
## `summarise()` ungrouping output (override with `.groups` argument)

## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`

task_ex_id_us <- task_exclusion(filter(task_trimmed_d, culture == "US"), 
                                culture = "US", 
                                include_annotation = TRUE, 
                                check_exclusion = FALSE, 
                                detail_table = FALSE)

## Parsed with column specification:
## cols(
##   subject = col_character(),
##   task_name = col_character(),
##   stimulus = col_character(),
##   trial_raw = col_character(),
##   trial_num = col_double(),
##   codeable = col_double(),
##   first_mention_focal = col_double(),
##   bckgrd_description = col_double(),
##   focal_description = col_double(),
##   coder = col_logical()
## )

## Parsed with column specification:
## cols(
##   subject = col_character(),
##   task_name = col_character(),
##   trial_raw = col_character(),
##   trial_num = col_double(),
##   stimulus = col_character(),
##   codeable = col_double(),
##   person_attribution = col_double(),
##   coder = col_logical()
## )

## `summarise()` ungrouping output (override with `.groups` argument)
## `summarise()` ungrouping output (override with `.groups` argument)

## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`

task_ex_id_cn <- task_exclusion(filter(task_trimmed_d, culture == "CN"),
                                culture = "CN", 
                                include_annotation = TRUE, 
                                check_exclusion = FALSE, 
                                detail_table = FALSE)

## Parsed with column specification:
## cols(
##   subject = col_character(),
##   task_name = col_character(),
##   stimulus = col_character(),
##   trial_raw = col_character(),
##   trial_num = col_double(),
##   codeable = col_double(),
##   first_mention_focal = col_double(),
##   bckgrd_description = col_double(),
##   focal_description = col_double(),
##   coder = col_logical()
## )

## Parsed with column specification:
## cols(
##   subject = col_character(),
##   task_name = col_character(),
##   trial_raw = col_character(),
##   trial_num = col_double(),
##   stimulus = col_character(),
##   codeable = col_double(),
##   person_attribution = col_double(),
##   coder = col_logical()
## )

## `summarise()` ungrouping output (override with `.groups` argument)
## `summarise()` ungrouping output (override with `.groups` argument)

## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`
## Adding missing grouping variables: `subject`

ex_id <- c(task_ex_id_us,task_ex_id_cn)
ex_id <- ex_id[!duplicated(ex_id)]

trimmed_d <- task_trimmed_d %>%
     filter(
       !(subject %in% ex_id)
     )

us_trimmed_demogs <- extract_demog(trimmed_d, "US")

## Adding missing grouping variables: `variable_type`

cn_trimmed_demogs <- extract_demog(trimmed_d, "CN")

## Adding missing grouping variables: `variable_type`

trimmed_demogs <- bind_rows(us_trimmed_demogs, cn_trimmed_demogs)

write.csv(trimmed_d, TRIMMED_DATA_PATH)
write.csv(trimmed_demogs, TRIMMED_DEMOGS_PATH)

Tidy up the dataset

clean up the trimmed data into tidy format

TASK <- c("EBB", 
          "RMTS", 
          #"SI", 
          "HZ", 
          "CP", 
          "RV", 
          "FD", 
          "CA")

main <- TASK %>% 
  map_df(~ eval(parse(text = paste0("get_", ., "_main(trimmed_d)"))))



write.csv(main,PROCESSED_MAIN_PATH)

#main %>% datatable()

01_preprocessing.R

anjie

9/18/2020

Intro

Read in raw data

Merging data and extracting demogs and write to `2_merged` folder

Sanity Check: participants feedback

If no raw data, start here!

Exclusion

Based on demographic

language distribution

Based on non-human coder task

Extract Human coders required task

Create spreadsheet for human coders (after first round of exclusion)

assume already coded, Exclude based on human coders

Tidy up the dataset

01_preprocessing.R

anjie

9/18/2020

Intro

Read in raw data

Merging data and extracting demogs and write to 2_merged folder

Sanity Check: participants feedback

If no raw data, start here!

Exclusion

Based on demographic

language distribution

Based on non-human coder task

Extract Human coders required task

Create spreadsheet for human coders (after first round of exclusion)

assume already coded, Exclude based on human coders

Tidy up the dataset

Merging data and extracting demogs and write to `2_merged` folder