Machine Learning - Learning Lab 4 Badge

As a reminder, to earn a badge for each lab, you are required to respond to a set of prompts for two parts:

In Part I, you will reflect on your understanding of key concepts and begin to think about potential next steps for your own study.
In Part II, you will create a simple data product in R that demonstrates your ability to apply an analytic technique introduced in this learning lab.

Part I: Reflect and Plan

Part A:

How interpretable or useful is the solution we estimated in the case study?

It is very useful.

How might a qualitative analysis follow from the Latent Profile Analysis we carried out? What steps could you take in a qualitative investigation? Think broadly and creatively here! It allows for the identification of unexpected or surprising patterns that may have been overlooked by human coders due to expectation bias or interpretive fatigue

Part B: Once last time, use the institutional library (e.g. NCSU Library), Google Scholar or search engine to locate a research article, presentation, or resource that applies unsupervised machine learning to an educational context aligned with your research interests. More specifically, locate a study that involve using Latent Profile Analysis or a similar method. You may find the published papers that have used LPA helpful in this respect; those can be browsed here.

Provide an APA citation for your selected study.

Rosenberg, J. M., & Krist, C. (2021). Combining machine learning and qualitative methods to elaborate students’ ideas about the generality of their model-based explanations. Journal of Science Education and Technology, 30, 255-267.
What research questions were the authors of this study trying to address using Latent Profile Analysis or a similar method?

How can an approach that integratesML methods and interpretive qualitative coding be used to elaborate students’ consideration of generality as a means of assessing students’ participation in science practices?

What were the results of these analyses?

The authors illustrated how unsupervised machine learning methods, when coupled with qualitative, interpretive coding, were used to revise our construct map for generality in a way that allowed for a more nuanced evaluation that was closely tied to empirical patterns in the data.

Lastly, what value might a Computational Grounded Theory analysis have in the context of their analysis?

According to the researchers, they adopted a CGT approach with the aim of grounded conceptual development: to elaborate and iteratively revise a construct map that represented how we characterized students’ consideration of the epistemic criterion of generality when constructing model-based scientific explanations.

Part II: Data Product

Like the last data product, this one may be a challenge, too. Here, estimate latent profiles using your own data. If you do not have ready access to appropriate data (for LPA, continuous/numeric data), choose any of the data sets in the data folder of this repository.

library(tidyverse)

## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr     1.1.2     ✔ readr     2.1.4
## ✔ forcats   1.0.0     ✔ stringr   1.5.0
## ✔ ggplot2   3.4.3     ✔ tibble    3.2.1
## ✔ lubridate 1.9.2     ✔ tidyr     1.3.0
## ✔ purrr     1.0.2     
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag()    masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors

library(tidyLPA)

## You can use the function citation('tidyLPA') to create a citation for the use of {tidyLPA}.
## Mplus is not installed. Use only package = 'mclust' when calling estimate_profiles().

library(tidytext)
library(textdata)

   transcript <- read_csv("data/r-processed-transcript.csv")

## Rows: 2927 Columns: 18
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## chr  (2): group, transcript_text
## dbl  (5): index, nwords, duration_seconds, words_per_second, liwc_certitude
## lgl  (8): question_mark, elipses, word_present_maybe, word_present_sort_of, ...
## time (3): start, end, duration
## 
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.

transcript %>% 
    glimpse()

## Rows: 2,927
## Columns: 18
## $ group                  <chr> "orange", "orange", "orange", "orange", "orange…
## $ index                  <dbl> 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, …
## $ start                  <time> 00:03:18, 00:03:20, 00:03:28, 00:03:34, 00:03:…
## $ end                    <time> 00:03:20, 00:03:21, 00:03:30, 00:03:38, 00:03:…
## $ duration               <time> 00:00:02, 00:00:01, 00:00:02, 00:00:04, 00:00:…
## $ transcript_text        <chr> "It's table 6, right?", "I think so.", "Always …
## $ question_mark          <lgl> TRUE, FALSE, FALSE, FALSE, FALSE, FALSE, FALSE,…
## $ elipses                <lgl> FALSE, FALSE, FALSE, FALSE, FALSE, FALSE, FALSE…
## $ nwords                 <dbl> 4, 3, 5, 8, 1, 1, 5, 11, 8, 7, 1, 4, 5, 12, 3, …
## $ duration_seconds       <dbl> 2.314815, 1.157407, 2.314815, 4.629630, 1.15740…
## $ words_per_second       <dbl> 1.728, 2.592, 2.160, 1.728, 0.864, 0.864, 2.160…
## $ word_present_maybe     <lgl> FALSE, FALSE, FALSE, FALSE, FALSE, FALSE, FALSE…
## $ word_present_sort_of   <lgl> FALSE, FALSE, FALSE, FALSE, FALSE, FALSE, FALSE…
## $ word_present_unsure    <lgl> FALSE, FALSE, FALSE, FALSE, FALSE, FALSE, FALSE…
## $ word_present_dont_know <lgl> FALSE, FALSE, FALSE, FALSE, FALSE, FALSE, FALSE…
## $ word_present_confused  <lgl> FALSE, FALSE, FALSE, FALSE, FALSE, FALSE, FALSE…
## $ word_present_possibly  <lgl> FALSE, FALSE, FALSE, FALSE, FALSE, FALSE, FALSE…
## $ liwc_certitude         <dbl> 0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00,…

nrc <- get_sentiments("nrc") # this access sentiment

transcript <- transcript %>% 
    select(group, index, start, end, duration, transcript_text) # select the variables we'll be using

transcript %>% 
    unnest_tokens(word, transcript_text) %>% # this changes the data to be in "long" form, with each row consisting of individual words in the transcript data
    left_join(nrc, relationship = "many-to-many") %>% # ignore warnings
    count(sentiment)

## Joining with `by = join_by(word)`

## # A tibble: 11 × 2
##    sentiment        n
##    <chr>        <int>
##  1 anger           98
##  2 anticipation   268
##  3 disgust         72
##  4 fear           134
##  5 joy            199
##  6 negative       296
##  7 positive       407
##  8 sadness        142
##  9 surprise       104
## 10 trust          282
## 11 <NA>         17294

chunk_size <- 45  # chunk duration in seconds
start_point <- transcript$start %>% as.integer() %>% pluck(1) # find the starting point of the time stamps
end_point <- transcript$end %>% as.integer() %>% pluck(nrow(transcript)) # find the ending point of the time stamps

transcript$start <- as.integer(transcript$start)
transcript$end <- as.integer(transcript$end)

# Create a new variable for the chunks
transcript$segment_id <- cut(transcript$start, breaks = seq(from = start_point, to = end_point, by = chunk_size))

number_of_words_per_segment <- transcript  %>% 
    unnest_tokens(word, transcript_text) %>% 
    count(segment_id) %>% 
    rename(words_per_segment = n)

data_for_lpa <- transcript  %>% 
    unnest_tokens(word, transcript_text) %>% # create a one-word-per-row structure
    left_join(nrc, relationship = "many-to-many") %>% # join the sentiment data
    count(segment_id, sentiment) %>% # count the number of words assigned to each emotional expression
    spread(sentiment, n) %>% # change the data to be in wide form
    janitor::clean_names() %>% # make the names easier to type
    left_join(number_of_words_per_segment) %>% # join the number of words per segment
    reframe(pct_fear = fear / words_per_segment, # create summary variables, dividing each sentiment score by the nubmer of the words in each segment
            pct_joy = joy / words_per_segment,
            pct_anticipation = anticipation / words_per_segment,
            pct_disgust = disgust / words_per_segment,
            pct_sadness = sadness / words_per_segment,
            pct_surprise = surprise / words_per_segment,
            pct_trust = trust / words_per_segment) %>% 
    mutate_if(is.numeric, replace_na, 0) # replace NA values with 0s

## Joining with `by = join_by(word)`
## Joining with `by = join_by(segment_id)`

data_for_lpa %>% 
    estimate_profiles(n_profiles = 3)

## tidyLPA analysis using mclust: 
## 
##  Model Classes AIC      BIC      Entropy prob_min prob_max n_min n_max BLRT_p
##  1     3       -6379.76 -6291.51 0.93    0.96     0.98     0.16  0.62  0.01

data_for_lpa %>% 
    estimate_profiles(n_profiles = 3) %>% 
    plot_profiles(add_line = TRUE)

data_for_lpa %>%
    estimate_profiles(1:7) %>% 
    compare_solutions()

## Warning: The solution with the maximum number of classes under consideration
## was considered to be the best solution according to one or more fit indices.
## Examine your results with care and consider estimating more classes.

## Compare tidyLPA solutions:
## 
##  Model Classes BIC      
##  1     1       -6012.392
##  1     2       -6175.140
##  1     3       -6291.511
##  1     4       -6288.654
##  1     5       -6250.156
##  1     6       -6270.330
##  1     7       -6240.073
## 
## Best model according to BIC is Model 1 with 3 classes.
## 
## An analytic hierarchy process, based on the fit indices AIC, AWE, BIC, CLC, and KIC (Akogul & Erisoglu, 2017), suggests the best solution is Model 1 with 1 classes.

data_for_lpa %>%
    estimate_profiles(1:4) %>% 
    get_fit()

## # A tibble: 4 × 18
##   Model Classes LogLik    AIC    AWE    BIC   CAIC    CLC    KIC  SABIC   ICL
##   <dbl>   <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl> <dbl>
## 1     1       1  3041. -6054. -5903. -6012. -5998. -6080. -6037. -6057. 6012.
## 2     1       2  3142. -6240. -6002. -6175. -6153. -6282. -6215. -6245. 6164.
## 3     1       3  3220. -6380. -6055. -6292. -6262. -6438. -6347. -6386. 6282.
## 4     1       4  3238. -6400. -5989. -6289. -6251. -6475. -6359. -6409. 6274.
## # ℹ 7 more variables: Entropy <dbl>, prob_min <dbl>, prob_max <dbl>,
## #   n_min <dbl>, n_max <dbl>, BLRT_val <dbl>, BLRT_p <dbl>

We can also plot several possible solutions; again, please replace compare_solutions(), this time with plot_profiles(add_line = TRUE):

data_for_lpa %>%
    estimate_profiles(1:4) %>% 
    plot_profiles(add_line = TRUE)

Your Turn ⤵

To do so, run estimate_profiles(), specifying two profiles, and assigning the output the name two_profile_solution.

two_profile_solution <- estimate_profiles(data_for_lpa, n_profiles = 2)

Let’s plot this solution using plot_profiles(add_line = TRUE)

plot_profiles(two_profile_solution, add_line = TRUE)

data_for_two_profile_solution <- 
    get_data(two_profile_solution) %>% # get the classes for each row of data
    select(Class) %>% # let's select just the class (profile) variable
    mutate(segment_id = unique(transcript$segment_id)) # this assigns the segment IDs back to the data, so we can join the transcript data later on

Your Turn ⤵

Then, let’s bind together the profiles assigned to each chunk with the original data. Please use bind_rows(), providing both data_for_lpa and data_for_two_profile_solution together and assigning the output the name combined_data.

combined_data <- bind_cols(data_for_lpa, data_for_two_profile_solution)

Now, let’s take a look at the data using View() the data frame we create next, data_to_view. Don’t write this in a code chunk; instead, just view the data frame you just created by typing the code into the console (as View() can cause issues when it comes time to knit — unless it is commented!).

data_to_view <- left_join(transcript, combined_data) # this joins the transcript and combined data, so we can see which segment is associated with which profile, or class

## Joining with `by = join_by(segment_id)`

# View(data_to_view)

Please interpret the results of your analysis below. What did you find? How interpretable and useful are the profiles? And, what next steps - including those involving qualitative analysis - might you take to deepen this analysis? There are two main latent profiles. To interpret qualitative data more carefully and compare results with unsupervised modeling.

Knit and Publish

Complete the following steps to knit and publish your work:

First, change the name of the author: in the YAML header at the very top of this document to your name. The YAML header controls the style and feel for knitted document but doesn’t actually display in the final output.
Next, click the knit button in the toolbar above to “knit” your R Markdown document to a HTML file that will be saved in your R Project folder. You should see a formatted webpage appear in your Viewer tab in the lower right pan or in a new browser window. Let’s us know if you run into any issues with knitting.
Finally, publish your webpage on Posit Cloud by clicking the “Publish” button located in the Viewer Pane after you knit your document. See screenshot below.

Receiving Your Machine Learning Badge

To receive credit for this assignment and earn your fourth ML badge, share the link to published webpage under the next incomplete badge artifact column on the 2023 LASER Scholar Information and Documents spreadsheet: https://go.ncsu.edu/laser-sheet.

Once your instructor has checked your link, you will be provided a physical version of the badge below!

LS0tDQp0aXRsZTogJ01hY2hpbmUgTGVhcm5pbmcgLSBMZWFybmluZyBMYWIgNCBCYWRnZScNCmF1dGhvcjogIkhvbmd3ZWkgWXUiDQpkYXRlOiAiYHIgZm9ybWF0KFN5cy5EYXRlKCksJyVCICVlLCAlWScpYCINCm91dHB1dDogDQogIGh0bWxfZG9jdW1lbnQ6DQogICAgdG9jOiB5ZXMNCiAgICB0b2NfZGVwdGg6IDQNCiAgICB0b2NfZmxvYXQ6IHllcw0KICAgIGNvZGVfZm9sZGluZzogc2hvdw0KICAgIGNvZGVfZG93bmxvYWQ6IFRSVUUNCmVkaXRvcl9vcHRpb25zOg0KICBtYXJrZG93bjoNCiAgICB3cmFwOiA3Mg0KDQotLS0NCg0KYGBge3Igc2V0dXAsIGluY2x1ZGU9RkFMU0V9DQogIGtuaXRyOjpvcHRzX2NodW5rJHNldChlY2hvID0gVFJVRSkNCg0KICBzZXQuc2VlZCgxMDIzMDYzMCkgIyBzbyB0aGUgcmVzdWx0cyBhcmUgcmVhZGlseSByZXByb2R1Y2libGUNCmBgYA0KDQohW10oaW1nL01MX1VNX0h4LmpwZyl7d2lkdGg9IjMwJSJ9DQoNCkFzIGEgcmVtaW5kZXIsIHRvIGVhcm4gYSBiYWRnZSBmb3IgZWFjaCBsYWIsIHlvdSBhcmUgcmVxdWlyZWQgdG8gcmVzcG9uZCB0byBhIHNldCBvZiBwcm9tcHRzIGZvciB0d28gcGFydHM6DQoNCi0gICBJbiBQYXJ0IEksIHlvdSB3aWxsIHJlZmxlY3Qgb24geW91ciB1bmRlcnN0YW5kaW5nIG9mIGtleSBjb25jZXB0cyBhbmQgYmVnaW4gdG8gdGhpbmsgYWJvdXQgcG90ZW50aWFsIG5leHQgc3RlcHMgZm9yIHlvdXIgb3duIHN0dWR5Lg0KDQotICAgSW4gUGFydCBJSSwgeW91IHdpbGwgY3JlYXRlIGEgc2ltcGxlIGRhdGEgcHJvZHVjdCBpbiBSIHRoYXQgZGVtb25zdHJhdGVzIHlvdXIgYWJpbGl0eSB0byBhcHBseSBhbiBhbmFseXRpYyB0ZWNobmlxdWUgaW50cm9kdWNlZCBpbiB0aGlzIGxlYXJuaW5nIGxhYi4NCg0KIyMjIFBhcnQgSTogUmVmbGVjdCBhbmQgUGxhbg0KDQpQYXJ0IEE6DQoNCjEuICBIb3cgaW50ZXJwcmV0YWJsZSBvciB1c2VmdWwgaXMgdGhlIHNvbHV0aW9uIHdlIGVzdGltYXRlZCBpbiB0aGUgY2FzZSBzdHVkeT8NCg0KLSAgIEl0IGlzIHZlcnkgdXNlZnVsLiANCg0KMi4gIEhvdyBtaWdodCBhIHF1YWxpdGF0aXZlIGFuYWx5c2lzIGZvbGxvdyBmcm9tIHRoZSBMYXRlbnQgUHJvZmlsZSBBbmFseXNpcyB3ZSBjYXJyaWVkIG91dD8gV2hhdCBzdGVwcyBjb3VsZCB5b3UgdGFrZSBpbiBhIHF1YWxpdGF0aXZlIGludmVzdGlnYXRpb24/IFRoaW5rIGJyb2FkbHkgYW5kIGNyZWF0aXZlbHkgaGVyZSENCiAgIEl0IGFsbG93cyBmb3IgdGhlIGlkZW50aWZpY2F0aW9uIG9mIHVuZXhwZWN0ZWQgb3Igc3VycHJpc2luZyBwYXR0ZXJucyB0aGF0IG1heSBoYXZlIGJlZW4gb3Zlcmxvb2tlZCBieSBodW1hbiBjb2RlcnMgZHVlIHRvIGV4cGVjdGF0aW9uIGJpYXMgb3IgaW50ZXJwcmV0aXZlIGZhdGlndWUgDQotICAgDQoNClBhcnQgQjogT25jZSBsYXN0IHRpbWUsIHVzZSB0aGUgaW5zdGl0dXRpb25hbCBsaWJyYXJ5IChlLmcuIFtOQ1NVIExpYnJhcnldKGh0dHBzOi8vd3d3LmxpYi5uY3N1LmVkdS8jYXJ0aWNsZXMpKSwgW0dvb2dsZSBTY2hvbGFyXShodHRwczovL3NjaG9sYXIuZ29vZ2xlLmNvbS8pIG9yIHNlYXJjaCBlbmdpbmUgdG8gbG9jYXRlIGEgcmVzZWFyY2ggYXJ0aWNsZSwgcHJlc2VudGF0aW9uLCBvciByZXNvdXJjZSB0aGF0IGFwcGxpZXMgdW5zdXBlcnZpc2VkIG1hY2hpbmUgbGVhcm5pbmcgdG8gYW4gZWR1Y2F0aW9uYWwgY29udGV4dCBhbGlnbmVkIHdpdGggeW91ciByZXNlYXJjaCBpbnRlcmVzdHMuIE1vcmUgc3BlY2lmaWNhbGx5LCAqKmxvY2F0ZSBhIHN0dWR5IHRoYXQgaW52b2x2ZSB1c2luZyBMYXRlbnQgUHJvZmlsZSBBbmFseXNpcyBvciBhIHNpbWlsYXIgbWV0aG9kKiouIFlvdSBtYXkgZmluZCB0aGUgcHVibGlzaGVkIHBhcGVycyB0aGF0IGhhdmUgdXNlZCBMUEEgaGVscGZ1bCBpbiB0aGlzIHJlc3BlY3Q7IHRob3NlIGNhbiBiZSBicm93c2VkIFtoZXJlXShodHRwczovL3NjaG9sYXIuZ29vZ2xlLmNvbS9zY2hvbGFyP2hsPWVuJmFzX3NkdD0wJTJDMzQmcT10aWR5bHBhJmJ0bkc9KS4NCg0KMS4gIFByb3ZpZGUgYW4gQVBBIGNpdGF0aW9uIGZvciB5b3VyIHNlbGVjdGVkIHN0dWR5Lg0KDQogICAgUm9zZW5iZXJnLCBKLiBNLiwgJiBLcmlzdCwgQy4gKDIwMjEpLiBDb21iaW5pbmcgbWFjaGluZSBsZWFybmluZyBhbmQgcXVhbGl0YXRpdmUgbWV0aG9kcyB0byBlbGFib3JhdGUgc3R1ZGVudHMnIGlkZWFzIGFib3V0IHRoZSBnZW5lcmFsaXR5IG9mIHRoZWlyIG1vZGVsLWJhc2VkICAgICBleHBsYW5hdGlvbnMuIEpvdXJuYWwgb2YgU2NpZW5jZSBFZHVjYXRpb24gYW5kIFRlY2hub2xvZ3ksIDMwLCAyNTUtMjY3LiAgIA0KDQoyLiAgV2hhdCByZXNlYXJjaCBxdWVzdGlvbnMgd2VyZSB0aGUgYXV0aG9ycyBvZiB0aGlzIHN0dWR5IHRyeWluZyB0byBhZGRyZXNzIHVzaW5nIExhdGVudCBQcm9maWxlIEFuYWx5c2lzIG9yIGEgc2ltaWxhciBtZXRob2Q/DQoNCkhvdyBjYW4gYW4gYXBwcm9hY2ggdGhhdCBpbnRlZ3JhdGVzTUwgbWV0aG9kcyBhbmQgaW50ZXJwcmV0aXZlIHF1YWxpdGF0aXZlIGNvZGluZyBiZSB1c2VkIHRvIGVsYWJvcmF0ZSBzdHVkZW50c+KAmSBjb25zaWRlcmF0aW9uIG9mIGdlbmVyYWxpdHkgYXMgYSBtZWFucyBvZiBhc3Nlc3NpbmcgIHN0dWRlbnRz4oCZIHBhcnRpY2lwYXRpb24gaW4gc2NpZW5jZSBwcmFjdGljZXM/DQoNCjMuICBXaGF0IHdlcmUgdGhlIHJlc3VsdHMgb2YgdGhlc2UgYW5hbHlzZXM/DQoNClRoZSBhdXRob3JzIGlsbHVzdHJhdGVkIGhvdyB1bnN1cGVydmlzZWQgbWFjaGluZSBsZWFybmluZyBtZXRob2RzLCB3aGVuIGNvdXBsZWQgd2l0aCBxdWFsaXRhdGl2ZSwgaW50ZXJwcmV0aXZlIGNvZGluZywgd2VyZQ0KdXNlZCB0byByZXZpc2Ugb3VyIGNvbnN0cnVjdCBtYXAgZm9yIGdlbmVyYWxpdHkgaW4gYSB3YXkgdGhhdCBhbGxvd2VkIGZvciBhIG1vcmUgbnVhbmNlZCBldmFsdWF0aW9uIHRoYXQgd2FzIGNsb3NlbHkgdGllZCB0byBlbXBpcmljYWwgcGF0dGVybnMgaW4gdGhlIGRhdGEuICAgIA0KDQo0LiAgTGFzdGx5LCB3aGF0IHZhbHVlIG1pZ2h0IGEgQ29tcHV0YXRpb25hbCBHcm91bmRlZCBUaGVvcnkgYW5hbHlzaXMgaGF2ZSBpbiB0aGUgY29udGV4dCBvZiB0aGVpciBhbmFseXNpcz8NCg0KQWNjb3JkaW5nIHRvIHRoZSByZXNlYXJjaGVycywgdGhleSBhZG9wdGVkIGEgQ0dUIGFwcHJvYWNoIHdpdGggdGhlIGFpbSBvZiBncm91bmRlZCBjb25jZXB0dWFsIGRldmVsb3BtZW50OiB0byBlbGFib3JhdGUgYW5kIGl0ZXJhdGl2ZWx5IHJldmlzZSBhIGNvbnN0cnVjdCBtYXAgdGhhdCByZXByZXNlbnRlZCBob3cgd2UgY2hhcmFjdGVyaXplZCBzdHVkZW50c+KAmSBjb25zaWRlcmF0aW9uIG9mIHRoZSBlcGlzdGVtaWMgY3JpdGVyaW9uIG9mIGdlbmVyYWxpdHkgd2hlbiBjb25zdHJ1Y3RpbmcgbW9kZWwtYmFzZWQgc2NpZW50aWZpYyBleHBsYW5hdGlvbnMuICANCg0KIyMjIFBhcnQgSUk6IERhdGEgUHJvZHVjdA0KDQpMaWtlIHRoZSBsYXN0IGRhdGEgcHJvZHVjdCwgdGhpcyBvbmUgbWF5IGJlIGEgY2hhbGxlbmdlLCB0b28uIEhlcmUsIGVzdGltYXRlIGxhdGVudCBwcm9maWxlcyB1c2luZyAqeW91ciBvd24gZGF0YSouIElmIHlvdSBkbyBub3QgaGF2ZSByZWFkeSBhY2Nlc3MgdG8gYXBwcm9wcmlhdGUgZGF0YSAoZm9yIExQQSwgY29udGludW91cy9udW1lcmljIGRhdGEpLCBjaG9vc2UgYW55IG9mIHRoZSBkYXRhIHNldHMgaW4gdGhlIGBkYXRhYCBmb2xkZXIgb2YgdGhpcyByZXBvc2l0b3J5Lg0KDQpgYGB7cn0NCmxpYnJhcnkodGlkeXZlcnNlKQ0KbGlicmFyeSh0aWR5TFBBKQ0KbGlicmFyeSh0aWR5dGV4dCkNCmxpYnJhcnkodGV4dGRhdGEpDQpgYGANCg0KYGBge3J9DQogICB0cmFuc2NyaXB0IDwtIHJlYWRfY3N2KCJkYXRhL3ItcHJvY2Vzc2VkLXRyYW5zY3JpcHQuY3N2IikNCmBgYA0KDQpgYGB7cn0NCnRyYW5zY3JpcHQgJT4lIA0KICAgIGdsaW1wc2UoKQ0KYGBgDQoNCmBgYHtyfQ0KbnJjIDwtIGdldF9zZW50aW1lbnRzKCJucmMiKSAjIHRoaXMgYWNjZXNzIHNlbnRpbWVudA0KDQp0cmFuc2NyaXB0IDwtIHRyYW5zY3JpcHQgJT4lIA0KICAgIHNlbGVjdChncm91cCwgaW5kZXgsIHN0YXJ0LCBlbmQsIGR1cmF0aW9uLCB0cmFuc2NyaXB0X3RleHQpICMgc2VsZWN0IHRoZSB2YXJpYWJsZXMgd2UnbGwgYmUgdXNpbmcNCg0KdHJhbnNjcmlwdCAlPiUgDQogICAgdW5uZXN0X3Rva2Vucyh3b3JkLCB0cmFuc2NyaXB0X3RleHQpICU+JSAjIHRoaXMgY2hhbmdlcyB0aGUgZGF0YSB0byBiZSBpbiAibG9uZyIgZm9ybSwgd2l0aCBlYWNoIHJvdyBjb25zaXN0aW5nIG9mIGluZGl2aWR1YWwgd29yZHMgaW4gdGhlIHRyYW5zY3JpcHQgZGF0YQ0KICAgIGxlZnRfam9pbihucmMsIHJlbGF0aW9uc2hpcCA9ICJtYW55LXRvLW1hbnkiKSAlPiUgIyBpZ25vcmUgd2FybmluZ3MNCiAgICBjb3VudChzZW50aW1lbnQpDQpgYGANCg0KYGBge3J9DQpjaHVua19zaXplIDwtIDQ1ICAjIGNodW5rIGR1cmF0aW9uIGluIHNlY29uZHMNCnN0YXJ0X3BvaW50IDwtIHRyYW5zY3JpcHQkc3RhcnQgJT4lIGFzLmludGVnZXIoKSAlPiUgcGx1Y2soMSkgIyBmaW5kIHRoZSBzdGFydGluZyBwb2ludCBvZiB0aGUgdGltZSBzdGFtcHMNCmVuZF9wb2ludCA8LSB0cmFuc2NyaXB0JGVuZCAlPiUgYXMuaW50ZWdlcigpICU+JSBwbHVjayhucm93KHRyYW5zY3JpcHQpKSAjIGZpbmQgdGhlIGVuZGluZyBwb2ludCBvZiB0aGUgdGltZSBzdGFtcHMNCg0KdHJhbnNjcmlwdCRzdGFydCA8LSBhcy5pbnRlZ2VyKHRyYW5zY3JpcHQkc3RhcnQpDQp0cmFuc2NyaXB0JGVuZCA8LSBhcy5pbnRlZ2VyKHRyYW5zY3JpcHQkZW5kKQ0KDQojIENyZWF0ZSBhIG5ldyB2YXJpYWJsZSBmb3IgdGhlIGNodW5rcw0KdHJhbnNjcmlwdCRzZWdtZW50X2lkIDwtIGN1dCh0cmFuc2NyaXB0JHN0YXJ0LCBicmVha3MgPSBzZXEoZnJvbSA9IHN0YXJ0X3BvaW50LCB0byA9IGVuZF9wb2ludCwgYnkgPSBjaHVua19zaXplKSkNCmBgYA0KDQoNCmBgYHtyfQ0KbnVtYmVyX29mX3dvcmRzX3Blcl9zZWdtZW50IDwtIHRyYW5zY3JpcHQgICU+JSANCiAgICB1bm5lc3RfdG9rZW5zKHdvcmQsIHRyYW5zY3JpcHRfdGV4dCkgJT4lIA0KICAgIGNvdW50KHNlZ21lbnRfaWQpICU+JSANCiAgICByZW5hbWUod29yZHNfcGVyX3NlZ21lbnQgPSBuKQ0KDQpkYXRhX2Zvcl9scGEgPC0gdHJhbnNjcmlwdCAgJT4lIA0KICAgIHVubmVzdF90b2tlbnMod29yZCwgdHJhbnNjcmlwdF90ZXh0KSAlPiUgIyBjcmVhdGUgYSBvbmUtd29yZC1wZXItcm93IHN0cnVjdHVyZQ0KICAgIGxlZnRfam9pbihucmMsIHJlbGF0aW9uc2hpcCA9ICJtYW55LXRvLW1hbnkiKSAlPiUgIyBqb2luIHRoZSBzZW50aW1lbnQgZGF0YQ0KICAgIGNvdW50KHNlZ21lbnRfaWQsIHNlbnRpbWVudCkgJT4lICMgY291bnQgdGhlIG51bWJlciBvZiB3b3JkcyBhc3NpZ25lZCB0byBlYWNoIGVtb3Rpb25hbCBleHByZXNzaW9uDQogICAgc3ByZWFkKHNlbnRpbWVudCwgbikgJT4lICMgY2hhbmdlIHRoZSBkYXRhIHRvIGJlIGluIHdpZGUgZm9ybQ0KICAgIGphbml0b3I6OmNsZWFuX25hbWVzKCkgJT4lICMgbWFrZSB0aGUgbmFtZXMgZWFzaWVyIHRvIHR5cGUNCiAgICBsZWZ0X2pvaW4obnVtYmVyX29mX3dvcmRzX3Blcl9zZWdtZW50KSAlPiUgIyBqb2luIHRoZSBudW1iZXIgb2Ygd29yZHMgcGVyIHNlZ21lbnQNCiAgICByZWZyYW1lKHBjdF9mZWFyID0gZmVhciAvIHdvcmRzX3Blcl9zZWdtZW50LCAjIGNyZWF0ZSBzdW1tYXJ5IHZhcmlhYmxlcywgZGl2aWRpbmcgZWFjaCBzZW50aW1lbnQgc2NvcmUgYnkgdGhlIG51Ym1lciBvZiB0aGUgd29yZHMgaW4gZWFjaCBzZWdtZW50DQogICAgICAgICAgICBwY3Rfam95ID0gam95IC8gd29yZHNfcGVyX3NlZ21lbnQsDQogICAgICAgICAgICBwY3RfYW50aWNpcGF0aW9uID0gYW50aWNpcGF0aW9uIC8gd29yZHNfcGVyX3NlZ21lbnQsDQogICAgICAgICAgICBwY3RfZGlzZ3VzdCA9IGRpc2d1c3QgLyB3b3Jkc19wZXJfc2VnbWVudCwNCiAgICAgICAgICAgIHBjdF9zYWRuZXNzID0gc2FkbmVzcyAvIHdvcmRzX3Blcl9zZWdtZW50LA0KICAgICAgICAgICAgcGN0X3N1cnByaXNlID0gc3VycHJpc2UgLyB3b3Jkc19wZXJfc2VnbWVudCwNCiAgICAgICAgICAgIHBjdF90cnVzdCA9IHRydXN0IC8gd29yZHNfcGVyX3NlZ21lbnQpICU+JSANCiAgICBtdXRhdGVfaWYoaXMubnVtZXJpYywgcmVwbGFjZV9uYSwgMCkgIyByZXBsYWNlIE5BIHZhbHVlcyB3aXRoIDBzDQpgYGANCg0KYGBge3J9DQpkYXRhX2Zvcl9scGEgJT4lIA0KICAgIGVzdGltYXRlX3Byb2ZpbGVzKG5fcHJvZmlsZXMgPSAzKQ0KYGBgDQoNCmBgYHtyfQ0KZGF0YV9mb3JfbHBhICU+JSANCiAgICBlc3RpbWF0ZV9wcm9maWxlcyhuX3Byb2ZpbGVzID0gMykgJT4lIA0KICAgIHBsb3RfcHJvZmlsZXMoYWRkX2xpbmUgPSBUUlVFKQ0KYGBgDQoNCg0KYGBge3J9DQpkYXRhX2Zvcl9scGEgJT4lDQogICAgZXN0aW1hdGVfcHJvZmlsZXMoMTo3KSAlPiUgDQogICAgY29tcGFyZV9zb2x1dGlvbnMoKQ0KYGBgDQoNCg0KYGBge3J9DQpkYXRhX2Zvcl9scGEgJT4lDQogICAgZXN0aW1hdGVfcHJvZmlsZXMoMTo0KSAlPiUgDQogICAgZ2V0X2ZpdCgpDQpgYGANCg0KV2UgY2FuIGFsc28gcGxvdCBzZXZlcmFsIHBvc3NpYmxlIHNvbHV0aW9uczsgYWdhaW4sIHBsZWFzZSByZXBsYWNlDQpgY29tcGFyZV9zb2x1dGlvbnMoKWAsIHRoaXMgdGltZSB3aXRoIGBwbG90X3Byb2ZpbGVzKGFkZF9saW5lID0gVFJVRSlgOg0KDQpgYGB7cn0NCmRhdGFfZm9yX2xwYSAlPiUNCiAgICBlc3RpbWF0ZV9wcm9maWxlcygxOjQpICU+JSANCiAgICBwbG90X3Byb2ZpbGVzKGFkZF9saW5lID0gVFJVRSkNCmBgYA0KDQoNCiMjIyMgW1lvdXIgVHVybl17c3R5bGU9ImNvbG9yOiBncmVlbjsifSDipLUNCg0KVG8gZG8gc28sIHJ1biBgZXN0aW1hdGVfcHJvZmlsZXMoKWAsIHNwZWNpZnlpbmcgdHdvIHByb2ZpbGVzLCBhbmQNCmFzc2lnbmluZyB0aGUgb3V0cHV0IHRoZSBuYW1lIGB0d29fcHJvZmlsZV9zb2x1dGlvbmAuDQoNCmBgYHtyfQ0KdHdvX3Byb2ZpbGVfc29sdXRpb24gPC0gZXN0aW1hdGVfcHJvZmlsZXMoZGF0YV9mb3JfbHBhLCBuX3Byb2ZpbGVzID0gMikNCmBgYA0KDQpMZXQncyBwbG90IHRoaXMgc29sdXRpb24gdXNpbmcgYHBsb3RfcHJvZmlsZXMoYWRkX2xpbmUgPSBUUlVFKWANCg0KYGBge3J9DQpwbG90X3Byb2ZpbGVzKHR3b19wcm9maWxlX3NvbHV0aW9uLCBhZGRfbGluZSA9IFRSVUUpDQpgYGANCg0KDQpgYGB7cn0NCmRhdGFfZm9yX3R3b19wcm9maWxlX3NvbHV0aW9uIDwtIA0KICAgIGdldF9kYXRhKHR3b19wcm9maWxlX3NvbHV0aW9uKSAlPiUgIyBnZXQgdGhlIGNsYXNzZXMgZm9yIGVhY2ggcm93IG9mIGRhdGENCiAgICBzZWxlY3QoQ2xhc3MpICU+JSAjIGxldCdzIHNlbGVjdCBqdXN0IHRoZSBjbGFzcyAocHJvZmlsZSkgdmFyaWFibGUNCiAgICBtdXRhdGUoc2VnbWVudF9pZCA9IHVuaXF1ZSh0cmFuc2NyaXB0JHNlZ21lbnRfaWQpKSAjIHRoaXMgYXNzaWducyB0aGUgc2VnbWVudCBJRHMgYmFjayB0byB0aGUgZGF0YSwgc28gd2UgY2FuIGpvaW4gdGhlIHRyYW5zY3JpcHQgZGF0YSBsYXRlciBvbg0KYGBgDQoNCg0KIyMjIyBbWW91ciBUdXJuXXtzdHlsZT0iY29sb3I6IGdyZWVuOyJ9IOKktQ0KDQpUaGVuLCBsZXQncyAqYmluZCogdG9nZXRoZXIgdGhlIHByb2ZpbGVzIGFzc2lnbmVkIHRvIGVhY2ggY2h1bmsgd2l0aCB0aGUNCm9yaWdpbmFsIGRhdGEuIFBsZWFzZSB1c2UNCltgYmluZF9yb3dzKClgXShodHRwczovL2RwbHlyLnRpZHl2ZXJzZS5vcmcvcmVmZXJlbmNlL2JpbmQuaHRtbCksDQpwcm92aWRpbmcgYm90aCBgZGF0YV9mb3JfbHBhYCBhbmQgYGRhdGFfZm9yX3R3b19wcm9maWxlX3NvbHV0aW9uYA0KdG9nZXRoZXIgYW5kIGFzc2lnbmluZyB0aGUgb3V0cHV0IHRoZSBuYW1lIGBjb21iaW5lZF9kYXRhYC4NCg0KYGBge3J9DQpjb21iaW5lZF9kYXRhIDwtIGJpbmRfY29scyhkYXRhX2Zvcl9scGEsIGRhdGFfZm9yX3R3b19wcm9maWxlX3NvbHV0aW9uKQ0KYGBgDQoNCk5vdywgbGV0J3MgdGFrZSBhIGxvb2sgYXQgdGhlIGRhdGEgdXNpbmcgYFZpZXcoKWAgdGhlIGRhdGEgZnJhbWUgd2UNCmNyZWF0ZSBuZXh0LCBgZGF0YV90b192aWV3YC4gKkRvbid0KiB3cml0ZSB0aGlzIGluIGEgY29kZSBjaHVuazsNCmluc3RlYWQsIGp1c3QgdmlldyB0aGUgZGF0YSBmcmFtZSB5b3UganVzdCBjcmVhdGVkIGJ5IHR5cGluZyB0aGUgY29kZQ0KaW50byB0aGUgY29uc29sZSAoYXMgYFZpZXcoKWAgY2FuIGNhdXNlIGlzc3VlcyB3aGVuIGl0IGNvbWVzIHRpbWUgdG8NCmtuaXQgLS0tIHVubGVzcyBpdCBpcyBjb21tZW50ZWQhKS4NCg0KYGBge3J9DQpkYXRhX3RvX3ZpZXcgPC0gbGVmdF9qb2luKHRyYW5zY3JpcHQsIGNvbWJpbmVkX2RhdGEpICMgdGhpcyBqb2lucyB0aGUgdHJhbnNjcmlwdCBhbmQgY29tYmluZWQgZGF0YSwgc28gd2UgY2FuIHNlZSB3aGljaCBzZWdtZW50IGlzIGFzc29jaWF0ZWQgd2l0aCB3aGljaCBwcm9maWxlLCBvciBjbGFzcw0KIyBWaWV3KGRhdGFfdG9fdmlldykNCmBgYA0KDQpQbGVhc2UgaW50ZXJwcmV0IHRoZSByZXN1bHRzIG9mIHlvdXIgYW5hbHlzaXMgYmVsb3cuIFdoYXQgZGlkIHlvdSBmaW5kPyBIb3cgaW50ZXJwcmV0YWJsZSBhbmQgdXNlZnVsIGFyZSB0aGUgcHJvZmlsZXM/IEFuZCwgd2hhdCBuZXh0IHN0ZXBzIC0gaW5jbHVkaW5nIHRob3NlIGludm9sdmluZyBxdWFsaXRhdGl2ZSBhbmFseXNpcyAtIG1pZ2h0IHlvdSB0YWtlIHRvIGRlZXBlbiB0aGlzIGFuYWx5c2lzPw0KVGhlcmUgYXJlIHR3byBtYWluIGxhdGVudCBwcm9maWxlcy4gVG8gaW50ZXJwcmV0IHF1YWxpdGF0aXZlIGRhdGEgbW9yZSBjYXJlZnVsbHkgYW5kIGNvbXBhcmUgcmVzdWx0cyB3aXRoIHVuc3VwZXJ2aXNlZCBtb2RlbGluZy4gDQoNCiMjIyBLbml0IGFuZCBQdWJsaXNoDQoNCkNvbXBsZXRlIHRoZSBmb2xsb3dpbmcgc3RlcHMgdG8ga25pdCBhbmQgcHVibGlzaCB5b3VyIHdvcms6DQoNCjEuICBGaXJzdCwgY2hhbmdlIHRoZSBuYW1lIG9mIHRoZSBgYXV0aG9yOmAgaW4gdGhlIFtZQU1MIGhlYWRlcl0oaHR0cHM6Ly9ib29rZG93bi5vcmcveWlodWkvcm1hcmtkb3duLWNvb2tib29rL3JtYXJrZG93bi1hbmF0b215Lmh0bWwjeWFtbC1tZXRhZGF0YSkgYXQgdGhlIHZlcnkgdG9wIG9mIHRoaXMgZG9jdW1lbnQgdG8geW91ciBuYW1lLiBUaGUgWUFNTCBoZWFkZXIgY29udHJvbHMgdGhlIHN0eWxlIGFuZCBmZWVsIGZvciBrbml0dGVkIGRvY3VtZW50IGJ1dCBkb2Vzbid0IGFjdHVhbGx5IGRpc3BsYXkgaW4gdGhlIGZpbmFsIG91dHB1dC4NCg0KMi4gIE5leHQsIGNsaWNrIHRoZSBrbml0IGJ1dHRvbiBpbiB0aGUgdG9vbGJhciBhYm92ZSB0byAia25pdCIgeW91ciBSIE1hcmtkb3duIGRvY3VtZW50IHRvIGEgW0hUTUxdKGh0dHBzOi8vYm9va2Rvd24ub3JnL3lpaHVpL3JtYXJrZG93bi9odG1sLWRvY3VtZW50Lmh0bWwpIGZpbGUgdGhhdCB3aWxsIGJlIHNhdmVkIGluIHlvdXIgUiBQcm9qZWN0IGZvbGRlci4gWW91IHNob3VsZCBzZWUgYSBmb3JtYXR0ZWQgd2VicGFnZSBhcHBlYXIgaW4geW91ciBWaWV3ZXIgdGFiIGluIHRoZSBsb3dlciByaWdodCBwYW4gb3IgaW4gYSBuZXcgYnJvd3NlciB3aW5kb3cuIExldCdzIHVzIGtub3cgaWYgeW91IHJ1biBpbnRvIGFueSBpc3N1ZXMgd2l0aCBrbml0dGluZy4NCg0KMy4gIEZpbmFsbHksIHB1Ymxpc2ggeW91ciB3ZWJwYWdlIG9uIFBvc2l0IENsb3VkIGJ5IGNsaWNraW5nIHRoZSAiUHVibGlzaCIgYnV0dG9uIGxvY2F0ZWQgaW4gdGhlIFZpZXdlciBQYW5lIGFmdGVyIHlvdSBrbml0IHlvdXIgZG9jdW1lbnQuIFNlZSBzY3JlZW5zaG90IGJlbG93Lg0KDQohW10oaW1nL2tuaXQtcHVibGlzaC5wbmcpe3dpZHRoPSI4MCUifQ0KDQojIyMgUmVjZWl2aW5nIFlvdXIgTWFjaGluZSBMZWFybmluZyBCYWRnZQ0KDQpUbyByZWNlaXZlIGNyZWRpdCBmb3IgdGhpcyBhc3NpZ25tZW50IGFuZCBlYXJuIHlvdXIgZm91cnRoIE1MIGJhZGdlLCBzaGFyZSB0aGUgbGluayB0byBwdWJsaXNoZWQgd2VicGFnZSB1bmRlciB0aGUgbmV4dCBpbmNvbXBsZXRlIGJhZGdlIGFydGlmYWN0IGNvbHVtbiBvbiB0aGUgMjAyMyBMQVNFUiBTY2hvbGFyIEluZm9ybWF0aW9uIGFuZCBEb2N1bWVudHMgc3ByZWFkc2hlZXQ6IDxodHRwczovL2dvLm5jc3UuZWR1L2xhc2VyLXNoZWV0Pi4gDQoNCk9uY2UgeW91ciBpbnN0cnVjdG9yIGhhcyBjaGVja2VkIHlvdXIgbGluaywgeW91IHdpbGwgYmUgcHJvdmlkZWQgYSBwaHlzaWNhbCB2ZXJzaW9uIG9mIHRoZSBiYWRnZSBiZWxvdyENCg0KIVtdKGltZy9NTF9VTV9IeC5qcGcpe3dpZHRoPSIzMCUifQ0K

Machine Learning - Learning Lab 4 Badge

Hongwei Yu

November 23, 2023

Part I: Reflect and Plan

Part II: Data Product

Your Turn ⤵

Your Turn ⤵

Knit and Publish

Receiving Your Machine Learning Badge