library(dplyr)


Attaching package: ‘dplyr’

The following objects are masked from ‘package:stats’:

    filter, lag

The following objects are masked from ‘package:base’:

    intersect, setdiff, setequal, union

library(readr)
library(tidyverse)

── Attaching core tidyverse packages ──────────────────────────────────────────────────────────────────────── tidyverse 2.0.0 ──
✔ forcats   1.0.0     ✔ stringr   1.5.1
✔ ggplot2   3.5.1     ✔ tibble    3.2.1
✔ lubridate 1.9.4     ✔ tidyr     1.3.1
✔ purrr     1.0.2     ── Conflicts ────────────────────────────────────────────────────────────────────────────────────────── tidyverse_conflicts() ──
✖ dplyr::filter() masks stats::filter()
✖ dplyr::lag()    masks stats::lag()
ℹ Use the ]8;;http://conflicted.r-lib.org/conflicted package]8;; to force all conflicts to become errors

library(ggplot2)
library(conflicted)

#Reading the data set
data <- read.csv("dataset.csv")
conflicted::conflicts_prefer(dplyr::filter)

[conflicted] Will prefer dplyr::filter over any other package.

# Filtering dataset where explicit is "True" and taking a sample of 9,000 rows
sample_data <- data |> filter(explicit == "True") |> sample_n(9000)
data <- sample_data
data

Select an interesting binary column of data, or one which can be reasonably converted into a binary variable. This should be something worth modeling.

# Identify binary columns
binary_columns <- data |> select(where(~ n_distinct(.) == 2)) |> names()

# Print binary columns
print(binary_columns)

[1] "mode"

# Display unique values in the mode column
unique_values <- unique(data$mode)

# Print the unique values
print(unique_values)

[1] 1 0

# Print values in mode column
print(data$mode)

   [1] 1 0 0 1 0 0 0 0 0 1 0 0 1 1 1 0 1 0 1 0 0 1 0 1 1 0 0 0 1 0 0 1 1 1 0 1 1 0 1 1 0 0 1 1 1 1 1 1 0 1 0 1 1 0 1 0 0 0 1 1 1
  [62] 1 1 1 1 1 1 1 0 1 1 0 1 0 1 0 1 1 1 0 1 0 0 0 0 1 1 1 1 1 0 1 0 1 0 0 1 0 1 0 1 0 0 1 1 1 1 1 0 0 1 0 0 0 1 0 1 1 1 1 0 1
 [123] 1 1 0 1 0 0 1 0 0 0 0 1 1 1 0 1 0 1 1 0 1 1 0 1 1 1 1 0 1 1 1 0 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 0 1 0 1 0 1 1 0 1 1 0 1
 [184] 1 1 1 1 1 1 1 1 1 1 1 1 0 0 1 0 0 0 0 0 1 1 0 1 1 1 1 1 1 1 1 1 1 0 1 0 0 1 0 0 0 1 0 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 0 1 0
 [245] 0 1 0 1 0 1 1 1 1 1 0 1 1 0 1 0 0 1 0 1 1 1 0 1 0 1 0 0 1 0 0 0 1 1 0 1 0 1 1 0 1 1 1 1 0 1 1 1 1 1 1 0 1 0 1 1 1 0 0 0 1
 [306] 1 1 0 0 0 1 0 1 0 1 0 1 1 0 1 0 1 0 0 1 0 0 0 0 1 1 1 0 1 0 1 1 0 0 0 1 1 1 1 1 1 1 1 1 1 0 1 1 0 1 1 1 1 1 1 0 1 1 1 0 1
 [367] 1 0 1 1 1 1 1 1 1 0 1 0 1 1 0 1 1 1 1 1 1 0 0 1 0 1 0 1 0 1 1 0 1 1 0 0 1 1 0 0 1 1 0 1 1 1 0 1 1 0 0 1 0 0 1 0 0 0 0 1 1
 [428] 0 1 0 0 0 1 0 0 0 1 1 1 0 0 0 0 1 1 0 1 1 1 1 0 0 0 1 1 1 0 1 1 1 1 0 1 1 0 0 1 0 1 1 1 1 0 1 1 1 1 0 0 0 1 0 0 0 1 1 1 0
 [489] 0 1 1 1 0 1 1 0 1 0 1 1 0 0 1 0 1 0 0 0 0 1 0 1 1 1 1 1 1 0 1 1 0 0 1 1 0 1 0 0 0 1 1 0 0 1 1 0 1 0 1 0 1 0 0 0 1 1 0 1 1
 [550] 0 0 1 1 1 0 0 1 1 1 0 0 1 0 0 1 0 1 0 0 0 1 1 1 0 0 1 1 0 0 1 0 1 1 0 0 0 0 0 1 1 1 1 0 0 1 0 0 0 1 1 1 1 0 1 0 1 1 0 1 0
 [611] 0 0 1 1 0 1 1 0 1 1 0 0 1 0 1 0 0 1 1 1 1 0 0 0 1 1 0 0 0 1 1 1 1 1 1 0 1 1 0 1 0 0 0 0 1 1 1 0 0 1 0 0 1 0 1 0 0 0 1 1 0
 [672] 1 0 1 1 1 1 1 1 1 1 1 1 0 0 1 0 0 1 0 0 1 0 0 1 0 1 0 1 1 1 0 1 0 0 1 0 1 0 0 1 1 1 1 1 1 1 0 0 0 0 1 0 0 1 1 0 0 0 1 1 1
 [733] 0 1 0 0 1 0 1 0 0 0 0 1 1 0 0 1 0 0 1 1 1 0 0 0 0 1 1 0 0 1 1 0 1 0 0 0 0 1 0 1 0 1 1 0 0 0 0 1 0 1 1 1 1 0 1 1 1 0 0 1 1
 [794] 0 0 1 1 0 0 0 1 0 1 0 1 1 0 1 1 0 0 0 0 0 0 1 1 0 1 1 0 0 1 0 0 1 1 0 0 0 1 0 1 1 0 1 0 1 1 0 1 1 0 0 1 1 1 0 1 1 1 1 1 0
 [855] 1 1 1 1 1 1 0 0 1 1 1 1 1 1 1 1 0 1 1 0 1 1 1 0 0 1 1 0 0 1 1 1 1 0 1 1 1 0 1 1 0 1 1 1 0 0 0 1 1 1 0 1 1 0 1 0 1 0 0 1 1
 [916] 0 0 1 1 1 1 0 1 1 1 1 1 0 0 1 1 1 0 0 0 1 1 1 1 1 1 1 0 1 1 0 1 0 0 1 1 1 1 0 0 1 1 0 1 1 1 0 1 1 0 0 1 1 1 0 1 1 0 0 1 0
 [977] 0 0 0 0 0 0 0 1 1 1 1 1 1 1 0 1 1 0 0 1 1 0 0 0
 [ reached getOption("max.print") -- omitted 8000 entries ]

The binary column in the dataset is “mode”. The values in it are: 0 and 1. The binary column is essential for applying logistic regression to predict probabilities and interpret the relationship between predictors (like danceability) and a binary outcome.

This binary nature makes it a natural choice for logistic regression, as it allows us to model and interpret the relationship between musical features (like danceability) and the probability of a song being in a particular key.

Insight: The mode column is binary (0 = Minor, 1 = Major), meaning we can use logistic regression to model it.

Significance: Understanding mode helps analyze whether certain features influence a song’s emotional tone. Further Questions: Do other categorical variables (like key or explicit content) also show strong patterns with mode?

Build a logistic regression model for this variable, using between 1-4 explanatory variables.

Using danceability, energy, and tempo as explanatory variables.

# Fit the logistic regression model
logit_model <- glm(mode ~ danceability + energy + tempo, data = data, family = binomial)

# Display model summary
summary(logit_model)


Call:
glm(formula = mode ~ danceability + energy + tempo, family = binomial, 
    data = data)

Coefficients:
               Estimate Std. Error z value Pr(>|z|)    
(Intercept)   0.6614037  0.1746617   3.787 0.000153 ***
danceability -0.9446418  0.1384768  -6.822    9e-12 ***
energy        0.2603858  0.1256781   2.072 0.038280 *  
tempo         0.0005437  0.0007138   0.762 0.446266    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 12262  on 8999  degrees of freedom
Residual deviance: 12183  on 8996  degrees of freedom
AIC: 12191

Number of Fisher Scoring iterations: 4

# Display model coefficients
coef(summary(logit_model))

                  Estimate   Std. Error    z value     Pr(>|z|)
(Intercept)   0.6614037170 0.1746617358  3.7867694 1.526186e-04
danceability -0.9446418025 0.1384767966 -6.8216613 8.999365e-12
energy        0.2603857685 0.1256781342  2.0718462 3.827978e-02
tempo         0.0005437059 0.0007138487  0.7616543 4.462664e-01

# To interpret them as odds ratios, exponentiate them
exp(coef(logit_model))

 (Intercept) danceability       energy        tempo 
   1.9375101    0.3888188    1.2974305    1.0005439

Insight: Danceability negatively affects mode, meaning more danceable songs are likely minor. Energy positively affects mode, meaning high-energy songs are more likely major. Tempo has no significant effect. Significance: These findings suggest that dance-friendly songs tend to have minor tones, while high-energy songs are typically major, influencing music production and recommendation algorithms. Further Questions: Would adding features like valence (happiness) or key improve the model’s accuracy?

Interpret the coefficients, and explain what they mean in your notebook.

Intercept (0.5746, p = 0.0011) Interpretation: When all predictors (danceability, energy, tempo) are zero, the log-odds of mode = 1 is 0.5746. Exponentiation: exp(0.5746) ≈ 1.776, meaning that the baseline odds of mode = 1 are 1.776 times that of mode = 0 when all predictors are zero.

Danceability (-0.8736, p < 0.0001) Interpretation: A 1-unit increase in danceability decreases the log-odds of mode = 1 by 0.8736. Exponentiation: exp(-0.8736) ≈ 0.417, meaning that higher danceability decreases the odds of mode = 1 by ~58.3%. Conclusion: Danceability has a strong negative impact on mode.
Energy (0.3327, p = 0.0083) Interpretation: A 1-unit increase in energy increases the log-odds of mode = 1 by 0.3327. Exponentiation: exp(0.3327) ≈ 1.394, meaning that higher energy increases the odds of mode = 1 by ~39.4%. Conclusion: Energy has a moderate positive impact on mode.
Tempo (0.0005, p = 0.4815) Interpretation: A 1-unit increase in tempo increases the log-odds of mode = 1 by 0.0005. Exponentiation: exp(0.0005) ≈ 1.0005, meaning that tempo has almost no effect on mode. Conclusion: Since p = 0.48 (greater than 0.05), tempo is not statistically significant.
Mode (target variable): 0 = Minor (sad), 1 = Major (happy).
Danceability (-0.87, significant): More danceable songs are less likely to be in a major mode.
Energy (+0.33, significant): Higher energy makes a song more likely to be in a major mode.
Tempo (+0.0005, not significant): Song speed does not affect major or minor mode.
Key insight: High-energy songs tend to be major, while danceable songs tend to be minor.

Using the Standard Error for at least one coefficient, build a C.I. for that coefficient, and translate its meaning.


# Given values from the model
beta_hat <- -0.8736  # Coefficient for danceability
se <- 0.1386         # Standard Error for danceability

# Calculate 95% Confidence Interval in log-odds scale
lower_bound_log <- beta_hat - (1.96 * se)
upper_bound_log <- beta_hat + (1.96 * se)

# Convert everything to the odds ratio scale (e^log-odds)
lower_bound_or <- exp(lower_bound_log)
upper_bound_or <- exp(upper_bound_log)
beta_hat_or <- exp(beta_hat)

# Print the result (Odds ratio scale)
cat("Beta (odds ratio) for danceability: ", beta_hat_or, "\n")

Beta (odds ratio) for danceability:  0.417446

cat("95% CI for danceability (Odds ratio scale): [", lower_bound_or, ",", upper_bound_or, "]\n")

95% CI for danceability (Odds ratio scale): [ 0.3181425 , 0.5477458 ]

beta_hat_or = 0.417: This means that for every one-unit increase in danceability, the odds of the outcome (e.g., song popularity or another binary outcome) are multiplied by 0.417. This suggests a decrease in the odds of the outcome as danceability increases.

The 95% CI for the odds ratio is between 0.318 and 0.548. This means we can be 95% confident that the true odds ratio for danceability lies within this range.

To exponentiate everything (both beta_hat and the confidence interval), we make sure that both the coefficient and its confidence interval are on the same scale (odds ratio), which is much easier to interpret than the log-odds scale. This approach is statistically correct and gives a more meaningful interpretation, particularly when we need to explain the effect of a predictor in terms of changes in odds rather than log-odds.

Explanation of the Output:

Beta (odds ratio) for danceability: 0.417446
This means that for every one-unit increase in danceability, the odds of the outcome (such as song popularity or a binary outcome) decrease by a factor of 0.417. In other words, a higher danceability score is associated with a lower likelihood of the event occurring, as the odds of the outcome are reduced by approximately 58.3% (since 1 - 0.417 = 0.583, or a decrease of 58.3%).
95% CI for danceability (Odds ratio scale): [0.3181425, 0.5477458]
This means that with 95% confidence, the true odds ratio for danceability lies between 0.318 and 0.548. The confidence interval tells us the range of possible values for the odds ratio, indicating that the true effect of danceability on the odds of the event could vary within this range. Since this range does not include 1, we can conclude that the effect of danceability on the outcome is statistically significant at the 95% confidence level.

Key Insights:

A one-unit increase in danceability is associated with a decrease in the odds of the event occurring.
The 95% confidence interval suggests a reliable association, as the interval does not cross 1.
The result indicates that danceability has a moderate negative effect on the odds of the outcome, meaning songs with higher danceability are less likely to have the outcome (depending on the context, such as popularity, classification, etc.).

Further Questions: Does the effect of danceability on the odds of the outcome vary across different genres or types of music? Does this pattern hold across different genres? Would the effect change if we analyzed specific decades? What happens to the odds ratio for danceability when controlling for other factors (e.g., artist popularity, release date, or song length)? How does danceability compare to other musical features (e.g., tempo, loudness, valence) in terms of predicting the outcome?

LS0tDQp0aXRsZTogIkRhdGEgRGl2ZSAtIDEwIg0Kb3V0cHV0OiBodG1sX25vdGVib29rDQotLS0NCg0KYGBge3J9DQpsaWJyYXJ5KGRwbHlyKQ0KbGlicmFyeShyZWFkcikNCmxpYnJhcnkodGlkeXZlcnNlKQ0KbGlicmFyeShnZ3Bsb3QyKQ0KbGlicmFyeShjb25mbGljdGVkKQ0KYGBgDQoNCmBgYHtyfQ0KI1JlYWRpbmcgdGhlIGRhdGEgc2V0DQpkYXRhIDwtIHJlYWQuY3N2KCJkYXRhc2V0LmNzdiIpDQpjb25mbGljdGVkOjpjb25mbGljdHNfcHJlZmVyKGRwbHlyOjpmaWx0ZXIpDQojIEZpbHRlcmluZyBkYXRhc2V0IHdoZXJlIGV4cGxpY2l0IGlzICJUcnVlIiBhbmQgdGFraW5nIGEgc2FtcGxlIG9mIDksMDAwIHJvd3MNCnNhbXBsZV9kYXRhIDwtIGRhdGEgfD4gZmlsdGVyKGV4cGxpY2l0ID09ICJUcnVlIikgfD4gc2FtcGxlX24oOTAwMCkNCmRhdGEgPC0gc2FtcGxlX2RhdGENCmRhdGENCmBgYA0KDQojIFNlbGVjdCBhbiBpbnRlcmVzdGluZyBiaW5hcnkgY29sdW1uIG9mIGRhdGEsIG9yIG9uZSB3aGljaCBjYW4gYmUgcmVhc29uYWJseSBjb252ZXJ0ZWQgaW50byBhIGJpbmFyeSB2YXJpYWJsZS4gVGhpcyBzaG91bGQgYmUgc29tZXRoaW5nIHdvcnRoIG1vZGVsaW5nLg0KDQoNCmBgYHtyfQ0KIyBJZGVudGlmeSBiaW5hcnkgY29sdW1ucw0KYmluYXJ5X2NvbHVtbnMgPC0gZGF0YSB8PiBzZWxlY3Qod2hlcmUofiBuX2Rpc3RpbmN0KC4pID09IDIpKSB8PiBuYW1lcygpDQoNCiMgUHJpbnQgYmluYXJ5IGNvbHVtbnMNCnByaW50KGJpbmFyeV9jb2x1bW5zKQ0KDQojIERpc3BsYXkgdW5pcXVlIHZhbHVlcyBpbiB0aGUgbW9kZSBjb2x1bW4NCnVuaXF1ZV92YWx1ZXMgPC0gdW5pcXVlKGRhdGEkbW9kZSkNCg0KIyBQcmludCB0aGUgdW5pcXVlIHZhbHVlcw0KcHJpbnQodW5pcXVlX3ZhbHVlcykNCg0KIyBQcmludCB2YWx1ZXMgaW4gbW9kZSBjb2x1bW4NCnByaW50KGRhdGEkbW9kZSkNCmBgYA0KVGhlIGJpbmFyeSBjb2x1bW4gaW4gdGhlIGRhdGFzZXQgaXMgIm1vZGUiLiBUaGUgdmFsdWVzIGluIGl0IGFyZTogMCBhbmQgMS4gDQpUaGUgYmluYXJ5IGNvbHVtbiBpcyBlc3NlbnRpYWwgZm9yIGFwcGx5aW5nIGxvZ2lzdGljIHJlZ3Jlc3Npb24gdG8gcHJlZGljdCBwcm9iYWJpbGl0aWVzIGFuZCBpbnRlcnByZXQgdGhlIHJlbGF0aW9uc2hpcCBiZXR3ZWVuIHByZWRpY3RvcnMgKGxpa2UgZGFuY2VhYmlsaXR5KSBhbmQgYSBiaW5hcnkgb3V0Y29tZS4NCg0KVGhpcyBiaW5hcnkgbmF0dXJlIG1ha2VzIGl0IGEgbmF0dXJhbCBjaG9pY2UgZm9yIGxvZ2lzdGljIHJlZ3Jlc3Npb24sIGFzIGl0IGFsbG93cyB1cyB0byBtb2RlbCBhbmQgaW50ZXJwcmV0IHRoZSByZWxhdGlvbnNoaXAgYmV0d2VlbiBtdXNpY2FsIGZlYXR1cmVzIChsaWtlIGRhbmNlYWJpbGl0eSkgYW5kIHRoZSBwcm9iYWJpbGl0eSBvZiBhIHNvbmcgYmVpbmcgaW4gYSBwYXJ0aWN1bGFyIGtleS4gDQoNCkluc2lnaHQ6IFRoZSBtb2RlIGNvbHVtbiBpcyBiaW5hcnkgKDAgPSBNaW5vciwgMSA9IE1ham9yKSwgbWVhbmluZyB3ZSBjYW4gdXNlIGxvZ2lzdGljIHJlZ3Jlc3Npb24gdG8gbW9kZWwgaXQuDQoNClNpZ25pZmljYW5jZTogVW5kZXJzdGFuZGluZyBtb2RlIGhlbHBzIGFuYWx5emUgd2hldGhlciBjZXJ0YWluIGZlYXR1cmVzIGluZmx1ZW5jZSBhIHNvbmcncyBlbW90aW9uYWwgdG9uZS4NCkZ1cnRoZXIgUXVlc3Rpb25zOiBEbyBvdGhlciBjYXRlZ29yaWNhbCB2YXJpYWJsZXMgKGxpa2Uga2V5IG9yIGV4cGxpY2l0IGNvbnRlbnQpIGFsc28gc2hvdyBzdHJvbmcgcGF0dGVybnMgd2l0aCBtb2RlPw0KDQoNCiMgQnVpbGQgYSBsb2dpc3RpYyByZWdyZXNzaW9uIG1vZGVsIGZvciB0aGlzIHZhcmlhYmxlLCB1c2luZyBiZXR3ZWVuIDEtNCBleHBsYW5hdG9yeSB2YXJpYWJsZXMuIA0KDQpVc2luZyBkYW5jZWFiaWxpdHksIGVuZXJneSwgYW5kIHRlbXBvIGFzIGV4cGxhbmF0b3J5IHZhcmlhYmxlcy4NCmBgYHtyfQ0KIyBGaXQgdGhlIGxvZ2lzdGljIHJlZ3Jlc3Npb24gbW9kZWwNCmxvZ2l0X21vZGVsIDwtIGdsbShtb2RlIH4gZGFuY2VhYmlsaXR5ICsgZW5lcmd5ICsgdGVtcG8sIGRhdGEgPSBkYXRhLCBmYW1pbHkgPSBiaW5vbWlhbCkNCg0KIyBEaXNwbGF5IG1vZGVsIHN1bW1hcnkNCnN1bW1hcnkobG9naXRfbW9kZWwpDQoNCiMgRGlzcGxheSBtb2RlbCBjb2VmZmljaWVudHMNCmNvZWYoc3VtbWFyeShsb2dpdF9tb2RlbCkpDQoNCiMgVG8gaW50ZXJwcmV0IHRoZW0gYXMgb2RkcyByYXRpb3MsIGV4cG9uZW50aWF0ZSB0aGVtDQpleHAoY29lZihsb2dpdF9tb2RlbCkpDQpgYGANCg0KSW5zaWdodDogRGFuY2VhYmlsaXR5IG5lZ2F0aXZlbHkgYWZmZWN0cyBtb2RlLCBtZWFuaW5nIG1vcmUgZGFuY2VhYmxlIHNvbmdzIGFyZSBsaWtlbHkgbWlub3IuIEVuZXJneSBwb3NpdGl2ZWx5IGFmZmVjdHMgbW9kZSwgbWVhbmluZyBoaWdoLWVuZXJneSBzb25ncyBhcmUgbW9yZSBsaWtlbHkgbWFqb3IuIFRlbXBvIGhhcyBubyBzaWduaWZpY2FudCBlZmZlY3QuDQpTaWduaWZpY2FuY2U6IFRoZXNlIGZpbmRpbmdzIHN1Z2dlc3QgdGhhdCBkYW5jZS1mcmllbmRseSBzb25ncyB0ZW5kIHRvIGhhdmUgbWlub3IgdG9uZXMsIHdoaWxlIGhpZ2gtZW5lcmd5IHNvbmdzIGFyZSB0eXBpY2FsbHkgbWFqb3IsIGluZmx1ZW5jaW5nIG11c2ljIHByb2R1Y3Rpb24gYW5kIHJlY29tbWVuZGF0aW9uIGFsZ29yaXRobXMuDQpGdXJ0aGVyIFF1ZXN0aW9uczogV291bGQgYWRkaW5nIGZlYXR1cmVzIGxpa2UgdmFsZW5jZSAoaGFwcGluZXNzKSBvciBrZXkgaW1wcm92ZSB0aGUgbW9kZWwncyBhY2N1cmFjeT8NCg0KIyBJbnRlcnByZXQgdGhlIGNvZWZmaWNpZW50cywgYW5kIGV4cGxhaW4gd2hhdCB0aGV5IG1lYW4gaW4geW91ciBub3RlYm9vay4NCg0KSW50ZXJjZXB0ICgwLjU3NDYsIHAgPSAwLjAwMTEpDQpJbnRlcnByZXRhdGlvbjogV2hlbiBhbGwgcHJlZGljdG9ycyAoZGFuY2VhYmlsaXR5LCBlbmVyZ3ksIHRlbXBvKSBhcmUgemVybywgdGhlIGxvZy1vZGRzIG9mIG1vZGUgPSAxIGlzIDAuNTc0Ni4NCkV4cG9uZW50aWF0aW9uOiBleHAoMC41NzQ2KSDiiYggMS43NzYsIG1lYW5pbmcgdGhhdCB0aGUgYmFzZWxpbmUgb2RkcyBvZiBtb2RlID0gMSBhcmUgMS43NzYgdGltZXMgdGhhdCBvZiBtb2RlID0gMCB3aGVuIGFsbCBwcmVkaWN0b3JzIGFyZSB6ZXJvLg0KDQoxLiBEYW5jZWFiaWxpdHkgKC0wLjg3MzYsIHAgPCAwLjAwMDEpDQpJbnRlcnByZXRhdGlvbjogQSAxLXVuaXQgaW5jcmVhc2UgaW4gZGFuY2VhYmlsaXR5IGRlY3JlYXNlcyB0aGUgbG9nLW9kZHMgb2YgbW9kZSA9IDEgYnkgMC44NzM2Lg0KRXhwb25lbnRpYXRpb246IGV4cCgtMC44NzM2KSDiiYggMC40MTcsIG1lYW5pbmcgdGhhdCBoaWdoZXIgZGFuY2VhYmlsaXR5IGRlY3JlYXNlcyB0aGUgb2RkcyBvZiBtb2RlID0gMSBieSB+NTguMyUuDQpDb25jbHVzaW9uOiBEYW5jZWFiaWxpdHkgaGFzIGEgc3Ryb25nIG5lZ2F0aXZlIGltcGFjdCBvbiBtb2RlLg0KDQoyLiBFbmVyZ3kgKDAuMzMyNywgcCA9IDAuMDA4MykNCkludGVycHJldGF0aW9uOiBBIDEtdW5pdCBpbmNyZWFzZSBpbiBlbmVyZ3kgaW5jcmVhc2VzIHRoZSBsb2ctb2RkcyBvZiBtb2RlID0gMSBieSAwLjMzMjcuDQpFeHBvbmVudGlhdGlvbjogZXhwKDAuMzMyNykg4omIIDEuMzk0LCBtZWFuaW5nIHRoYXQgaGlnaGVyIGVuZXJneSBpbmNyZWFzZXMgdGhlIG9kZHMgb2YgbW9kZSA9IDEgYnkgfjM5LjQlLg0KQ29uY2x1c2lvbjogRW5lcmd5IGhhcyBhIG1vZGVyYXRlIHBvc2l0aXZlIGltcGFjdCBvbiBtb2RlLg0KDQozLiBUZW1wbyAoMC4wMDA1LCBwID0gMC40ODE1KQ0KSW50ZXJwcmV0YXRpb246IEEgMS11bml0IGluY3JlYXNlIGluIHRlbXBvIGluY3JlYXNlcyB0aGUgbG9nLW9kZHMgb2YgbW9kZSA9IDEgYnkgMC4wMDA1Lg0KRXhwb25lbnRpYXRpb246IGV4cCgwLjAwMDUpIOKJiCAxLjAwMDUsIG1lYW5pbmcgdGhhdCB0ZW1wbyBoYXMgYWxtb3N0IG5vIGVmZmVjdCBvbiBtb2RlLg0KQ29uY2x1c2lvbjogU2luY2UgcCA9IDAuNDggKGdyZWF0ZXIgdGhhbiAwLjA1KSwgdGVtcG8gaXMgbm90IHN0YXRpc3RpY2FsbHkgc2lnbmlmaWNhbnQuDQoNCg0KDQoxLiAqKk1vZGUgKHRhcmdldCB2YXJpYWJsZSkqKjogMCA9IE1pbm9yIChzYWQpLCAxID0gTWFqb3IgKGhhcHB5KS4gIA0KMi4gKipEYW5jZWFiaWxpdHkgKC0wLjg3LCBzaWduaWZpY2FudCkqKjogTW9yZSBkYW5jZWFibGUgc29uZ3MgYXJlICoqbGVzcyBsaWtlbHkqKiB0byBiZSBpbiBhIG1ham9yIG1vZGUuICANCjMuICoqRW5lcmd5ICgrMC4zMywgc2lnbmlmaWNhbnQpKio6IEhpZ2hlciBlbmVyZ3kgbWFrZXMgYSBzb25nICoqbW9yZSBsaWtlbHkqKiB0byBiZSBpbiBhIG1ham9yIG1vZGUuICANCjQuICoqVGVtcG8gKCswLjAwMDUsIG5vdCBzaWduaWZpY2FudCkqKjogU29uZyBzcGVlZCBkb2VzICoqbm90IGFmZmVjdCoqIG1ham9yIG9yIG1pbm9yIG1vZGUuICANCjUuICoqS2V5IGluc2lnaHQqKjogSGlnaC1lbmVyZ3kgc29uZ3MgdGVuZCB0byBiZSBtYWpvciwgd2hpbGUgZGFuY2VhYmxlIHNvbmdzIHRlbmQgdG8gYmUgbWlub3IuICANCg0KDQojIFVzaW5nIHRoZSBTdGFuZGFyZCBFcnJvciBmb3IgYXQgbGVhc3Qgb25lIGNvZWZmaWNpZW50LCBidWlsZCBhIEMuSS4gZm9yIHRoYXQgY29lZmZpY2llbnQsIGFuZCB0cmFuc2xhdGUgaXRzIG1lYW5pbmcuDQoNCmBgYHtyfQ0KDQojIEdpdmVuIHZhbHVlcyBmcm9tIHRoZSBtb2RlbA0KYmV0YV9oYXQgPC0gLTAuODczNiAgIyBDb2VmZmljaWVudCBmb3IgZGFuY2VhYmlsaXR5DQpzZSA8LSAwLjEzODYgICAgICAgICAjIFN0YW5kYXJkIEVycm9yIGZvciBkYW5jZWFiaWxpdHkNCg0KIyBDYWxjdWxhdGUgOTUlIENvbmZpZGVuY2UgSW50ZXJ2YWwgaW4gbG9nLW9kZHMgc2NhbGUNCmxvd2VyX2JvdW5kX2xvZyA8LSBiZXRhX2hhdCAtICgxLjk2ICogc2UpDQp1cHBlcl9ib3VuZF9sb2cgPC0gYmV0YV9oYXQgKyAoMS45NiAqIHNlKQ0KDQojIENvbnZlcnQgZXZlcnl0aGluZyB0byB0aGUgb2RkcyByYXRpbyBzY2FsZSAoZV5sb2ctb2RkcykNCmxvd2VyX2JvdW5kX29yIDwtIGV4cChsb3dlcl9ib3VuZF9sb2cpDQp1cHBlcl9ib3VuZF9vciA8LSBleHAodXBwZXJfYm91bmRfbG9nKQ0KYmV0YV9oYXRfb3IgPC0gZXhwKGJldGFfaGF0KQ0KDQojIFByaW50IHRoZSByZXN1bHQgKE9kZHMgcmF0aW8gc2NhbGUpDQpjYXQoIkJldGEgKG9kZHMgcmF0aW8pIGZvciBkYW5jZWFiaWxpdHk6ICIsIGJldGFfaGF0X29yLCAiXG4iKQ0KY2F0KCI5NSUgQ0kgZm9yIGRhbmNlYWJpbGl0eSAoT2RkcyByYXRpbyBzY2FsZSk6IFsiLCBsb3dlcl9ib3VuZF9vciwgIiwiLCB1cHBlcl9ib3VuZF9vciwgIl1cbiIpDQoNCmBgYA0KYmV0YV9oYXRfb3IgPSAwLjQxNzogVGhpcyBtZWFucyB0aGF0IGZvciBldmVyeSBvbmUtdW5pdCBpbmNyZWFzZSBpbiBkYW5jZWFiaWxpdHksIHRoZSBvZGRzIG9mIHRoZSBvdXRjb21lIChlLmcuLCBzb25nIHBvcHVsYXJpdHkgb3IgYW5vdGhlciBiaW5hcnkgb3V0Y29tZSkgYXJlIG11bHRpcGxpZWQgYnkgMC40MTcuIFRoaXMgc3VnZ2VzdHMgYSBkZWNyZWFzZSBpbiB0aGUgb2RkcyBvZiB0aGUgb3V0Y29tZSBhcyBkYW5jZWFiaWxpdHkgaW5jcmVhc2VzLg0KDQpUaGUgOTUlIENJIGZvciB0aGUgb2RkcyByYXRpbyBpcyBiZXR3ZWVuIDAuMzE4IGFuZCAwLjU0OC4gVGhpcyBtZWFucyB3ZSBjYW4gYmUgOTUlIGNvbmZpZGVudCB0aGF0IHRoZSB0cnVlIG9kZHMgcmF0aW8gZm9yIGRhbmNlYWJpbGl0eSBsaWVzIHdpdGhpbiB0aGlzIHJhbmdlLg0KDQpUbyBleHBvbmVudGlhdGUgZXZlcnl0aGluZyAoYm90aCBiZXRhX2hhdCBhbmQgdGhlIGNvbmZpZGVuY2UgaW50ZXJ2YWwpLCB3ZSBtYWtlIHN1cmUgdGhhdCBib3RoIHRoZSBjb2VmZmljaWVudCBhbmQgaXRzIGNvbmZpZGVuY2UgaW50ZXJ2YWwgYXJlIG9uIHRoZSBzYW1lIHNjYWxlIChvZGRzIHJhdGlvKSwgd2hpY2ggaXMgbXVjaCBlYXNpZXIgdG8gaW50ZXJwcmV0IHRoYW4gdGhlIGxvZy1vZGRzIHNjYWxlLiBUaGlzIGFwcHJvYWNoIGlzIHN0YXRpc3RpY2FsbHkgY29ycmVjdCBhbmQgZ2l2ZXMgYSBtb3JlIG1lYW5pbmdmdWwgaW50ZXJwcmV0YXRpb24sIHBhcnRpY3VsYXJseSB3aGVuIHdlIG5lZWQgdG8gZXhwbGFpbiB0aGUgZWZmZWN0IG9mIGEgcHJlZGljdG9yIGluIHRlcm1zIG9mIGNoYW5nZXMgaW4gb2RkcyByYXRoZXIgdGhhbiBsb2ctb2Rkcy4NCg0KIyMjIEV4cGxhbmF0aW9uIG9mIHRoZSBPdXRwdXQ6DQoNCi0gKipCZXRhIChvZGRzIHJhdGlvKSBmb3IgZGFuY2VhYmlsaXR5OiAwLjQxNzQ0NioqICANCiAgIFRoaXMgbWVhbnMgdGhhdCBmb3IgZXZlcnkgKipvbmUtdW5pdCBpbmNyZWFzZSoqIGluICoqZGFuY2VhYmlsaXR5KiosIHRoZSAqKm9kZHMqKiBvZiB0aGUgb3V0Y29tZSAoc3VjaCBhcyBzb25nIHBvcHVsYXJpdHkgb3IgYSBiaW5hcnkgb3V0Y29tZSkgZGVjcmVhc2UgYnkgYSBmYWN0b3Igb2YgKiowLjQxNyoqLiBJbiBvdGhlciB3b3JkcywgYSBoaWdoZXIgZGFuY2VhYmlsaXR5IHNjb3JlIGlzIGFzc29jaWF0ZWQgd2l0aCBhICoqbG93ZXIgbGlrZWxpaG9vZCoqIG9mIHRoZSBldmVudCBvY2N1cnJpbmcsIGFzIHRoZSBvZGRzIG9mIHRoZSBvdXRjb21lIGFyZSAqKnJlZHVjZWQqKiBieSBhcHByb3hpbWF0ZWx5ICoqNTguMyUqKiAoc2luY2UgMSAtIDAuNDE3ID0gMC41ODMsIG9yIGEgZGVjcmVhc2Ugb2YgNTguMyUpLg0KDQotICoqOTUlIENJIGZvciBkYW5jZWFiaWxpdHkgKE9kZHMgcmF0aW8gc2NhbGUpOiBbMC4zMTgxNDI1LCAwLjU0Nzc0NThdKiogIA0KICAgVGhpcyBtZWFucyB0aGF0IHdpdGggKio5NSUgY29uZmlkZW5jZSoqLCB0aGUgdHJ1ZSBvZGRzIHJhdGlvIGZvciBkYW5jZWFiaWxpdHkgbGllcyBiZXR3ZWVuICoqMC4zMTgqKiBhbmQgKiowLjU0OCoqLiBUaGUgY29uZmlkZW5jZSBpbnRlcnZhbCB0ZWxscyB1cyB0aGUgcmFuZ2Ugb2YgcG9zc2libGUgdmFsdWVzIGZvciB0aGUgb2RkcyByYXRpbywgaW5kaWNhdGluZyB0aGF0IHRoZSB0cnVlIGVmZmVjdCBvZiBkYW5jZWFiaWxpdHkgb24gdGhlIG9kZHMgb2YgdGhlIGV2ZW50IGNvdWxkIHZhcnkgd2l0aGluIHRoaXMgcmFuZ2UuIFNpbmNlIHRoaXMgcmFuZ2UgZG9lcyBub3QgaW5jbHVkZSAqKjEqKiwgd2UgY2FuIGNvbmNsdWRlIHRoYXQgdGhlIGVmZmVjdCBvZiBkYW5jZWFiaWxpdHkgb24gdGhlIG91dGNvbWUgaXMgc3RhdGlzdGljYWxseSBzaWduaWZpY2FudCBhdCB0aGUgOTUlIGNvbmZpZGVuY2UgbGV2ZWwuDQoNCiMjIyBLZXkgSW5zaWdodHM6DQotIEEgKipvbmUtdW5pdCBpbmNyZWFzZSoqIGluIGRhbmNlYWJpbGl0eSBpcyBhc3NvY2lhdGVkIHdpdGggYSAqKmRlY3JlYXNlIGluIHRoZSBvZGRzKiogb2YgdGhlIGV2ZW50IG9jY3VycmluZy4NCi0gVGhlICoqOTUlIGNvbmZpZGVuY2UgaW50ZXJ2YWwqKiBzdWdnZXN0cyBhICoqcmVsaWFibGUgYXNzb2NpYXRpb24qKiwgYXMgdGhlIGludGVydmFsIGRvZXMgbm90IGNyb3NzIDEuIA0KLSBUaGUgcmVzdWx0IGluZGljYXRlcyB0aGF0IGRhbmNlYWJpbGl0eSBoYXMgYSAqKm1vZGVyYXRlIG5lZ2F0aXZlIGVmZmVjdCoqIG9uIHRoZSBvZGRzIG9mIHRoZSBvdXRjb21lLCBtZWFuaW5nIHNvbmdzIHdpdGggaGlnaGVyIGRhbmNlYWJpbGl0eSBhcmUgbGVzcyBsaWtlbHkgdG8gaGF2ZSB0aGUgb3V0Y29tZSAoZGVwZW5kaW5nIG9uIHRoZSBjb250ZXh0LCBzdWNoIGFzIHBvcHVsYXJpdHksIGNsYXNzaWZpY2F0aW9uLCBldGMuKS4NCg0KDQpGdXJ0aGVyIFF1ZXN0aW9uczogDQpEb2VzIHRoZSBlZmZlY3Qgb2YgZGFuY2VhYmlsaXR5IG9uIHRoZSBvZGRzIG9mIHRoZSBvdXRjb21lIHZhcnkgYWNyb3NzIGRpZmZlcmVudCBnZW5yZXMgb3IgdHlwZXMgb2YgbXVzaWM/DQpEb2VzIHRoaXMgcGF0dGVybiBob2xkIGFjcm9zcyBkaWZmZXJlbnQgZ2VucmVzPyBXb3VsZCB0aGUgZWZmZWN0IGNoYW5nZSBpZiB3ZSBhbmFseXplZCBzcGVjaWZpYyBkZWNhZGVzPw0KV2hhdCBoYXBwZW5zIHRvIHRoZSBvZGRzIHJhdGlvIGZvciBkYW5jZWFiaWxpdHkgd2hlbiBjb250cm9sbGluZyBmb3Igb3RoZXIgZmFjdG9ycyAoZS5nLiwgYXJ0aXN0IHBvcHVsYXJpdHksIHJlbGVhc2UgZGF0ZSwgb3Igc29uZyBsZW5ndGgpPw0KSG93IGRvZXMgZGFuY2VhYmlsaXR5IGNvbXBhcmUgdG8gb3RoZXIgbXVzaWNhbCBmZWF0dXJlcyAoZS5nLiwgdGVtcG8sIGxvdWRuZXNzLCB2YWxlbmNlKSBpbiB0ZXJtcyBvZiBwcmVkaWN0aW5nIHRoZSBvdXRjb21lPw0KDQoNCg0KDQo=

Data Dive - 10

Select an interesting binary column of data, or one which can be reasonably converted into a binary variable. This should be something worth modeling.

Build a logistic regression model for this variable, using between 1-4 explanatory variables.

Interpret the coefficients, and explain what they mean in your notebook.

Using the Standard Error for at least one coefficient, build a C.I. for that coefficient, and translate its meaning.

Explanation of the Output:

Key Insights: