library(tidyverse)

## Warning: package 'tidyverse' was built under R version 4.0.4

## -- Attaching packages --------------------------------------- tidyverse 1.3.0 --

## v ggplot2 3.3.3     v purrr   0.3.4
## v tibble  3.0.6     v dplyr   1.0.3
## v tidyr   1.1.2     v stringr 1.4.0
## v readr   1.4.0     v forcats 0.5.1

## -- Conflicts ------------------------------------------ tidyverse_conflicts() --
## x dplyr::filter() masks stats::filter()
## x dplyr::lag()    masks stats::lag()

The survey

Exercise 1

Answer: These statistics are based on sample statistics because they were collected from a poll. In this case, knowing the exact population parameters would be impossible.

Exercise 2

Answer: We would presume that each nation is independent and that the sample size of each country is less than 10% of the total population. I believe it is fair to expect both and it is impossible that one person’s response to the poll will influence the response of another. In comparison, the poll’s estimated sample size was 50,000 participants, which is less than 10% of the world’s population.

The data

download.file("http://www.openintro.org/stat/data/atheism.RData", destfile = "atheism.RData")
load("atheism.RData")

Exercice 3

Answer: Each row represents a nation that was polled, and each row of atheism represents the percentage of people who identified as persuaded atheists in that country’s study.

Exercice 4

us12 <- subset(atheism, nationality == "United States" & year == "2012")
us12ath <- subset(atheism, nationality == "United States" & year == "2012" & response == "atheist")
nrow(us12ath)/nrow(us12)

## [1] 0.0499002

table(us12$response)

## 
##     atheist non-atheist 
##          50         952

prop.table(table(us12), 1)

## , , year = 2012
## 
##                                               response
## nationality                                      atheist non-atheist
##   Afghanistan                                                       
##   Argentina                                                         
##   Armenia                                                           
##   Australia                                                         
##   Austria                                                           
##   Azerbaijan                                                        
##   Belgium                                                           
##   Bosnia and Herzegovina                                            
##   Brazil                                                            
##   Bulgaria                                                          
##   Cameroon                                                          
##   Canada                                                            
##   China                                                             
##   Colombia                                                          
##   Czech Republic                                                    
##   Ecuador                                                           
##   Fiji                                                              
##   Finland                                                           
##   France                                                            
##   Georgia                                                           
##   Germany                                                           
##   Ghana                                                             
##   Hong Kong                                                         
##   Iceland                                                           
##   India                                                             
##   Iraq                                                              
##   Ireland                                                           
##   Italy                                                             
##   Japan                                                             
##   Kenya                                                             
##   Korea, Rep (South)                                                
##   Lebanon                                                           
##   Lithuania                                                         
##   Macedonia                                                         
##   Malaysia                                                          
##   Moldova                                                           
##   Netherlands                                                       
##   Nigeria                                                           
##   Pakistan                                                          
##   Palestinian territories (West Bank and Gaza)                      
##   Peru                                                              
##   Poland                                                            
##   Romania                                                           
##   Russian Federation                                                
##   Saudi Arabia                                                      
##   Serbia                                                            
##   South Africa                                                      
##   South Sudan                                                       
##   Spain                                                             
##   Sweden                                                            
##   Switzerland                                                       
##   Tunisia                                                           
##   Turkey                                                            
##   Ukraine                                                           
##   United States                                0.0499002   0.9500998
##   Uzbekistan                                                        
##   Vietnam

Answer: The computed value from the atheism responses is 4.99%, so around 5% and it agrees with the Table 6 value which is also 5%.

Inference on proportions

Exercice 5

Answer: The surveys are independent, as shown by the fact that the US random sample size is 1,002. (which is less than 10 percent of the US population). Also, as 1002(.05)= 50.1, the success-failure condition (np >= 10) is satisfied. The conditions for inference have been fulfilled.

inference(us12$response, est = "proportion", type = "ci", method = "theoretical", 
          success = "atheist")

## Warning: package 'BHH2' was built under R version 4.0.4

## Single proportion -- success: atheist 
## Summary statistics:

## p_hat = 0.0499 ;  n = 1002 
## Check conditions: number of successes = 50 ; number of failures = 952 
## Standard error = 0.0069 
## 95 % Confidence interval = ( 0.0364 , 0.0634 )

Exercice 6

SE = 0.0069
Z_score = 1.96
ME = SE * Z_score
ME

## [1] 0.013524

Answer:The margin or error for the Us estimate is 0.013524.

Exercice 7

fr12 <- subset(atheism, nationality == "France" & year == "2012")
de12 <- subset(atheism, nationality == "Germany" & year == "2012")

table(fr12$response)

## 
##     atheist non-atheist 
##         485        1203

table(de12$response)

## 
##     atheist non-atheist 
##          75         427

inference(fr12$response, est = "proportion", type = "ci", method = "theoretical", 
          success = "atheist")

## Single proportion -- success: atheist 
## Summary statistics:

## p_hat = 0.2873 ;  n = 1688 
## Check conditions: number of successes = 485 ; number of failures = 1203 
## Standard error = 0.011 
## 95 % Confidence interval = ( 0.2657 , 0.3089 )

inference(de12$response, est = "proportion", type = "ci", method = "theoretical", 
          success = "atheist")

## Single proportion -- success: atheist 
## Summary statistics:

## p_hat = 0.1494 ;  n = 502 
## Check conditions: number of successes = 75 ; number of failures = 427 
## Standard error = 0.0159 
## 95 % Confidence interval = ( 0.1182 , 0.1806 )

# For France
SE = 0.011 
Z_score = 1.96
ME = SE * Z_score
ME

## [1] 0.02156

# For Germany
SE =  0.0159 
Z_score = 1.96
ME = SE * Z_score
ME

## [1] 0.031164

Answer: The countries chosen were France and Germany. The conditions for inference (independence and the success-failure condition) were met. The sample size for France was 485 (which is less than 10% of the population). For Germany, the sample size was 75 (also less than 10% of the population). The success-failure condition (np >= 10) for France was met since 485(.05)= 24.25 and the success-failure condition for Germany was less than 10 since 75(.05)= 3.75 which is less than 10. The margin or error for the France estimate is 0.02156 and the 95% confident interval is (0.2657, 0.3089). The margin or error for the Germany estimate is 0.031164 and the 95% confident interval is (0.1182 , 0.1806).

How does the proportion affect the margin of error?

n <- 1000
p <- seq(0, 1, 0.01)
me <- 2 * sqrt(p * (1 - p)/n)
plot(me ~ p, ylab = "Margin of Error", xlab = "Population Proportion")

Exercice 8

Answer: Holding the sample size constant, the ME reaches its maximum value when p=.50 (50%). ME decreases symmetrically as p increases to 1 (100%). It is a parabolic distribution (non linear), which n increase as p increases until p=.5 and then margin of error drops.

Success-failure condition

p <- 0.1
n <- 1040
p_hats <- rep(0, 5000)

for(i in 1:5000){
  samp <- sample(c("atheist", "non_atheist"), n, replace = TRUE, prob = c(p, 1-p))
  p_hats[i] <- sum(samp == "atheist")/n
}

hist(p_hats, main = "p = 0.1, n = 1040", xlim = c(0, 0.18))

Exercice 9

summary(p_hats)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## 0.07019 0.09327 0.09904 0.09969 0.10577 0.12981

sd(p_hats)

## [1] 0.009287382

IQR(p_hats)

## [1] 0.0125

mean.p_hats <- mean(p_hats)
median.p_hats <- median(p_hats)

boxplot(p_hats,y_lab="p_hats",x_lab="proportions")
abline(h = median.p_hats, col = "blue")
abline(h = mean.p_hats, col = "red")
abline(h= quantile(p_hats,0.25), col = "orange")
abline(h = quantile(p_hats,0.75), col = "green")

Answer: The sampling distribution has a near normal distribution with the mean close to the population mean of 0.1. There are a few outliers on both upper and lower tails but these are small compared to the total sample size.

Exercice 10

p <- 0.1
n <- 400
p_hats2 <- rep(0, 5000)

for(i in 1:5000){
  samp <- sample(c("atheist", "non_atheist"), n, replace = TRUE, prob = c(p, 1-p))
  p_hats2[i] <- sum(samp == "atheist")/n
}

p <- 0.2
n <- 1040
p_hats3 <- rep(0, 5000)

for(i in 1:5000){
  samp <- sample(c("atheist", "non_atheist"), n, replace = TRUE, prob = c(p, 1-p))
  p_hats3[i] <- sum(samp == "atheist")/n
}

p <- 0.2
n <- 400
p_hats4 <- rep(0, 5000)

for(i in 1:5000){
  samp <- sample(c("atheist", "non_atheist"), n, replace = TRUE, prob = c(p, 1-p))
  p_hats4[i] <- sum(samp == "atheist")/n
}

par(mfrow = c(2, 2))
hist(p_hats, main = "p = 0.1, n = 1040", xlim = c(0, 0.30))
hist(p_hats2, main = "p = 0.1, n = 400", xlim = c(0, 0.30))
hist(p_hats3, main = "p = 0.2, n = 1040", xlim = c(0, 0.30))
hist(p_hats4, main = "p = 0.2, n = 400", xlim = c(0, 0.30))

Answer: The larger the sample size n, the smaller the spread. The smaller the spread, the smaller the margin of error. For p, it is the opposite. The large the p, the smaller the spread. Thus the margin of error increases with increasing p (until it reaches 0.5 then the opposite is true).

Exercice 11

table( subset(atheism, nationality == "Australia" & year == "2012")$response)

## 
##     atheist non-atheist 
##         104         935

table( subset(atheism, nationality == "Ecuador" & year == "2012")$response)

## 
##     atheist non-atheist 
##           8         396

Answer: Both tend to have reasonably regular distributions, and both samples are less than 10% of each country’s population; however, although Australia meets the success-failure condition [1040(.1) = 104 >= 10], Ecuador does not [400(.02) = 8 which is not >= 10]. In that regard, I will not follow the report’s lead.

On your own

Exercice 12

Part A

Answer: H0: In Spain, there is no difference between the proportion of atheists in 2005 and 2012. HA: In Spain, there is a difference between the proportion of atheists in 2005 and 2012. Inference conditions: - Independent: the sample sizes were 1145 and 1146 (less than 10% of the population). - Success-failure condition: the success-failure condition (np >= 10) was met since 1146(.05)= 57.3 and 1145(.05)= 57.25

Spain05 = subset(atheism, nationality == "Spain" & year == "2005")
Spain12 = subset(atheism, nationality == "Spain" & year == "2012")

nrow(Spain05)

## [1] 1146

nrow(Spain12)

## [1] 1145

spain = atheism %>% 
  subset(year == 2005 || year == 2012) %>% 
  subset(nationality == "Spain")

inference(spain$response, x = spain$year, est = "proportion", type = "ht", null = 0,  alternative = "twosided",  method = "theoretical", success = "atheist")

## Warning: Explanatory variable was numerical, it has been converted to
## categorical. In order to avoid this warning, first convert your explanatory
## variable to a categorical variable using the as.factor() function.

## Response variable: categorical, Explanatory variable: categorical
## Two categorical variables
## Difference between two proportions -- success: atheist
## Summary statistics:
##              x
## y             2005 2012  Sum
##   atheist      115  103  218
##   non-atheist 1031 1042 2073
##   Sum         1146 1145 2291

## Observed difference between proportions (2005-2012) = 0.0104
## 
## H0: p_2005 - p_2012 = 0 
## HA: p_2005 - p_2012 != 0 
## Pooled proportion = 0.0952 
## Check conditions:
##    2005 : number of expected successes = 109 ; number of expected failures = 1037 
##    2012 : number of expected successes = 109 ; number of expected failures = 1036 
## Standard error = 0.012 
## Test statistic: Z =  0.848 
## p-value =  0.3966

p_spain05 = 0.1003
n_spain05 = 1146 
p_spain12 = 0.09
n_spain12 = 1145 

PE_spain = p_spain12 - p_spain05

SE_spn = sqrt((p_spain05*(1-p_spain05)/n_spain05)+(p_spain12*(1-p_spain12)/n_spain12))
SE_spn

## [1] 0.01225854

PE_spain + (1.96*SE_spn)

## [1] 0.01372674

PE_spain - (1.96*SE_spn)

## [1] -0.03432674

Answer: Since the p-value is 0.3966 and less than the alpha which is 0.05, we reject the null hypothesis that, in Spain, there is moderate evidence that there is no difference in proportions of atheists in Spain between the year 2005 and the year 2012.

Part B

Answer: H0: proportion of US’s atheists in 2005 = proportion of US’s atheists in 2012 HA: proportion of US’s atheists in 2005 != proportion of US’s atheists in 2012 Inference conditions: - Independent: the sample sizes were 1002 (less than 10% of the population). - Success-failure condition: the success-failure condition (np >= 10) was met since 1002(.05)= 50.1

usa05 <- subset(atheism, nationality == "United States" & year == "2005")
usa12 <- subset(atheism, nationality == "United States" & year == "2012")

nrow(usa05)

## [1] 1002

nrow(usa12)

## [1] 1002

US = atheism %>% 
  subset(year == 2005 || year == 2012) %>% 
  subset(nationality == "United States")

inference(US$response, x = US$year, est = "proportion", type = "ht", null = 0,  alternative = "twosided",  method = "theoretical", success = "atheist")

## Warning: Explanatory variable was numerical, it has been converted to
## categorical. In order to avoid this warning, first convert your explanatory
## variable to a categorical variable using the as.factor() function.

## Response variable: categorical, Explanatory variable: categorical
## Two categorical variables
## Difference between two proportions -- success: atheist
## Summary statistics:
##              x
## y             2005 2012  Sum
##   atheist       10   50   60
##   non-atheist  992  952 1944
##   Sum         1002 1002 2004

## Observed difference between proportions (2005-2012) = -0.0399
## 
## H0: p_2005 - p_2012 = 0 
## HA: p_2005 - p_2012 != 0 
## Pooled proportion = 0.0299 
## Check conditions:
##    2005 : number of expected successes = 30 ; number of expected failures = 972 
##    2012 : number of expected successes = 30 ; number of expected failures = 972 
## Standard error = 0.008 
## Test statistic: Z =  -5.243 
## p-value =  0

p_usa05 = 0.01
n_usa05 = 1002 
p_usa12 = 0.05
n_usa12 = 1002 

PE_usa = p_usa12 - p_usa05

SE_usa = sqrt(((p_usa05*(1-p_usa05))/n_usa05)+((p_usa12*(1-p_usa12))/n_usa12))
SE_usa

## [1] 0.007568714

PE_usa + (1.96*SE_usa)

## [1] 0.05483468

PE_usa - (1.96*SE_usa)

## [1] 0.02516532

Answer: Since the p-value is 0 and less than the alpha which is 0.05, we reject the null hypothesis that, in USA, there is very strong evidence that there is no difference in proportions of atheists in USa between the year 2005 and the year 2012.

Exercice 13

Answer: It’s a Type I error to detect a shift when there isn’t any (rejecting H0 when H0 is true). This is likely to happen, but not more than 5% of the time. With 39 countries in Table 4, we’d like to see a difference in around 2 countries [39*0.05 = 1.95].

Execrice 14

ME = 0.01
z = 1.96 
n <- (z^2 * .25)/ ME^2

Answer: The sample size should be at least 9604.

LS0tDQp0aXRsZTogIkxhYiA5OiBDYXRlZ29yaWNhbCBEYXRhIg0KYXV0aG9yOiAiQXVyaWFuZSBHcmlwcGkiDQpkYXRlOiAiYHIgU3lzLkRhdGUoKWAiDQpvdXRwdXQ6IG9wZW5pbnRybzo6bGFiX3JlcG9ydA0KLS0tDQoNCg0KYGBge3J9DQpsaWJyYXJ5KHRpZHl2ZXJzZSkNCmBgYA0KDQoNCg0KIyBUaGUgc3VydmV5DQoNCiMjIEV4ZXJjaXNlIDENCg0KQW5zd2VyOiBUaGVzZSBzdGF0aXN0aWNzIGFyZSBiYXNlZCBvbiBzYW1wbGUgc3RhdGlzdGljcyBiZWNhdXNlIHRoZXkgd2VyZSBjb2xsZWN0ZWQgZnJvbSBhIHBvbGwuIEluIHRoaXMgY2FzZSwga25vd2luZyB0aGUgZXhhY3QgcG9wdWxhdGlvbiBwYXJhbWV0ZXJzIHdvdWxkIGJlIGltcG9zc2libGUuDQoNCg0KIyMgRXhlcmNpc2UgMg0KDQpBbnN3ZXI6IFdlIHdvdWxkIHByZXN1bWUgdGhhdCBlYWNoIG5hdGlvbiBpcyBpbmRlcGVuZGVudCBhbmQgdGhhdCB0aGUgc2FtcGxlIHNpemUgb2YgZWFjaCBjb3VudHJ5IGlzIGxlc3MgdGhhbiAxMCUgb2YgdGhlIHRvdGFsIHBvcHVsYXRpb24uIEkgYmVsaWV2ZSBpdCBpcyBmYWlyIHRvIGV4cGVjdCBib3RoIGFuZCBpdCBpcyBpbXBvc3NpYmxlIHRoYXQgb25lIHBlcnNvbidzIHJlc3BvbnNlIHRvIHRoZSBwb2xsIHdpbGwgaW5mbHVlbmNlIHRoZSByZXNwb25zZSBvZiBhbm90aGVyLiBJbiBjb21wYXJpc29uLCB0aGUgcG9sbCdzIGVzdGltYXRlZCBzYW1wbGUgc2l6ZSB3YXMgNTAsMDAwIHBhcnRpY2lwYW50cywgd2hpY2ggaXMgbGVzcyB0aGFuIDEwJSBvZiB0aGUgd29ybGQncyBwb3B1bGF0aW9uLg0KDQoNCg0KIyBUaGUgZGF0YQ0KDQpgYGB7cn0NCmRvd25sb2FkLmZpbGUoImh0dHA6Ly93d3cub3BlbmludHJvLm9yZy9zdGF0L2RhdGEvYXRoZWlzbS5SRGF0YSIsIGRlc3RmaWxlID0gImF0aGVpc20uUkRhdGEiKQ0KbG9hZCgiYXRoZWlzbS5SRGF0YSIpDQpgYGANCg0KDQojIyBFeGVyY2ljZSAzDQoNCkFuc3dlcjogRWFjaCByb3cgcmVwcmVzZW50cyBhIG5hdGlvbiB0aGF0IHdhcyBwb2xsZWQsIGFuZCBlYWNoIHJvdyBvZiBhdGhlaXNtIHJlcHJlc2VudHMgdGhlIHBlcmNlbnRhZ2Ugb2YgcGVvcGxlIHdobyBpZGVudGlmaWVkIGFzIHBlcnN1YWRlZCBhdGhlaXN0cyBpbiB0aGF0IGNvdW50cnkncyBzdHVkeS4NCg0KDQojIyBFeGVyY2ljZSA0DQoNCmBgYHtyfQ0KdXMxMiA8LSBzdWJzZXQoYXRoZWlzbSwgbmF0aW9uYWxpdHkgPT0gIlVuaXRlZCBTdGF0ZXMiICYgeWVhciA9PSAiMjAxMiIpDQp1czEyYXRoIDwtIHN1YnNldChhdGhlaXNtLCBuYXRpb25hbGl0eSA9PSAiVW5pdGVkIFN0YXRlcyIgJiB5ZWFyID09ICIyMDEyIiAmIHJlc3BvbnNlID09ICJhdGhlaXN0IikNCm5yb3codXMxMmF0aCkvbnJvdyh1czEyKQ0KYGBgDQoNCmBgYHtyfQ0KdGFibGUodXMxMiRyZXNwb25zZSkNCnByb3AudGFibGUodGFibGUodXMxMiksIDEpDQpgYGANCg0KQW5zd2VyOiBUaGUgY29tcHV0ZWQgdmFsdWUgZnJvbSB0aGUgYXRoZWlzbSByZXNwb25zZXMgaXMgNC45OSUsIHNvIGFyb3VuZCA1JSBhbmQgaXQgYWdyZWVzIHdpdGggdGhlIFRhYmxlIDYgdmFsdWUgd2hpY2ggaXMgYWxzbyA1JS4NCg0KDQoNCiMgSW5mZXJlbmNlIG9uIHByb3BvcnRpb25zDQoNCg0KIyMgRXhlcmNpY2UgNQ0KDQpBbnN3ZXI6IFRoZSBzdXJ2ZXlzIGFyZSBpbmRlcGVuZGVudCwgYXMgc2hvd24gYnkgdGhlIGZhY3QgdGhhdCB0aGUgVVMgcmFuZG9tIHNhbXBsZSBzaXplIGlzIDEsMDAyLiAod2hpY2ggaXMgbGVzcyB0aGFuIDEwIHBlcmNlbnQgb2YgdGhlIFVTIHBvcHVsYXRpb24pLiBBbHNvLCBhcyAxMDAyKC4wNSk9IDUwLjEsIHRoZSBzdWNjZXNzLWZhaWx1cmUgY29uZGl0aW9uIChucCA+PSAxMCkgaXMgc2F0aXNmaWVkLiBUaGUgY29uZGl0aW9ucyBmb3IgaW5mZXJlbmNlIGhhdmUgYmVlbiBmdWxmaWxsZWQuDQoNCmBgYHtyfQ0KaW5mZXJlbmNlKHVzMTIkcmVzcG9uc2UsIGVzdCA9ICJwcm9wb3J0aW9uIiwgdHlwZSA9ICJjaSIsIG1ldGhvZCA9ICJ0aGVvcmV0aWNhbCIsIA0KICAgICAgICAgIHN1Y2Nlc3MgPSAiYXRoZWlzdCIpDQpgYGANCg0KDQojIyBFeGVyY2ljZSA2DQoNCmBgYHtyfQ0KU0UgPSAwLjAwNjkNClpfc2NvcmUgPSAxLjk2DQpNRSA9IFNFICogWl9zY29yZQ0KTUUNCmBgYA0KDQpBbnN3ZXI6VGhlIG1hcmdpbiBvciBlcnJvciBmb3IgdGhlIFVzIGVzdGltYXRlIGlzIDAuMDEzNTI0Lg0KDQoNCiMjIEV4ZXJjaWNlIDcNCg0KYGBge3J9DQpmcjEyIDwtIHN1YnNldChhdGhlaXNtLCBuYXRpb25hbGl0eSA9PSAiRnJhbmNlIiAmIHllYXIgPT0gIjIwMTIiKQ0KZGUxMiA8LSBzdWJzZXQoYXRoZWlzbSwgbmF0aW9uYWxpdHkgPT0gIkdlcm1hbnkiICYgeWVhciA9PSAiMjAxMiIpDQpgYGANCg0KYGBge3J9DQp0YWJsZShmcjEyJHJlc3BvbnNlKQ0KdGFibGUoZGUxMiRyZXNwb25zZSkNCmBgYA0KDQpgYGB7cn0NCmluZmVyZW5jZShmcjEyJHJlc3BvbnNlLCBlc3QgPSAicHJvcG9ydGlvbiIsIHR5cGUgPSAiY2kiLCBtZXRob2QgPSAidGhlb3JldGljYWwiLCANCiAgICAgICAgICBzdWNjZXNzID0gImF0aGVpc3QiKQ0KYGBgDQoNCmBgYHtyfQ0KaW5mZXJlbmNlKGRlMTIkcmVzcG9uc2UsIGVzdCA9ICJwcm9wb3J0aW9uIiwgdHlwZSA9ICJjaSIsIG1ldGhvZCA9ICJ0aGVvcmV0aWNhbCIsIA0KICAgICAgICAgIHN1Y2Nlc3MgPSAiYXRoZWlzdCIpDQpgYGANCg0KYGBge3J9DQojIEZvciBGcmFuY2UNClNFID0gMC4wMTEgDQpaX3Njb3JlID0gMS45Ng0KTUUgPSBTRSAqIFpfc2NvcmUNCk1FDQpgYGANCg0KYGBge3J9DQojIEZvciBHZXJtYW55DQpTRSA9ICAwLjAxNTkgDQpaX3Njb3JlID0gMS45Ng0KTUUgPSBTRSAqIFpfc2NvcmUNCk1FDQpgYGANCg0KQW5zd2VyOiANClRoZSBjb3VudHJpZXMgY2hvc2VuIHdlcmUgRnJhbmNlIGFuZCBHZXJtYW55LiBUaGUgY29uZGl0aW9ucyBmb3IgaW5mZXJlbmNlIChpbmRlcGVuZGVuY2UgYW5kIHRoZSBzdWNjZXNzLWZhaWx1cmUgY29uZGl0aW9uKSB3ZXJlIG1ldC4gVGhlIHNhbXBsZSBzaXplIGZvciBGcmFuY2Ugd2FzIDQ4NSAod2hpY2ggaXMgbGVzcyB0aGFuIDEwJSBvZiB0aGUgcG9wdWxhdGlvbikuIEZvciBHZXJtYW55LCB0aGUgc2FtcGxlIHNpemUgd2FzIDc1IChhbHNvIGxlc3MgdGhhbiAxMCUgb2YgdGhlIHBvcHVsYXRpb24pLiBUaGUgc3VjY2Vzcy1mYWlsdXJlIGNvbmRpdGlvbiAobnAgPj0gMTApIGZvciBGcmFuY2Ugd2FzIG1ldCBzaW5jZSA0ODUoLjA1KT0gMjQuMjUgYW5kIHRoZSBzdWNjZXNzLWZhaWx1cmUgY29uZGl0aW9uIGZvciBHZXJtYW55IHdhcyBsZXNzIHRoYW4gMTAgc2luY2UgNzUoLjA1KT0gMy43NSB3aGljaCBpcyBsZXNzIHRoYW4gMTAuDQpUaGUgbWFyZ2luIG9yIGVycm9yIGZvciB0aGUgRnJhbmNlIGVzdGltYXRlIGlzIDAuMDIxNTYgYW5kIHRoZSA5NSUgY29uZmlkZW50IGludGVydmFsIGlzICgwLjI2NTcsIDAuMzA4OSkuDQpUaGUgbWFyZ2luIG9yIGVycm9yIGZvciB0aGUgR2VybWFueSBlc3RpbWF0ZSBpcyAwLjAzMTE2NCBhbmQgdGhlIDk1JSBjb25maWRlbnQgaW50ZXJ2YWwgaXMgKDAuMTE4MiAsIDAuMTgwNikuDQoNCg0KDQojIEhvdyBkb2VzIHRoZSBwcm9wb3J0aW9uIGFmZmVjdCB0aGUgbWFyZ2luIG9mIGVycm9yPw0KDQpgYGB7cn0NCm4gPC0gMTAwMA0KcCA8LSBzZXEoMCwgMSwgMC4wMSkNCm1lIDwtIDIgKiBzcXJ0KHAgKiAoMSAtIHApL24pDQpwbG90KG1lIH4gcCwgeWxhYiA9ICJNYXJnaW4gb2YgRXJyb3IiLCB4bGFiID0gIlBvcHVsYXRpb24gUHJvcG9ydGlvbiIpDQpgYGANCg0KDQojIyBFeGVyY2ljZSA4DQoNCkFuc3dlcjogSG9sZGluZyB0aGUgc2FtcGxlIHNpemUgY29uc3RhbnQsIHRoZSBNRSByZWFjaGVzIGl0cyBtYXhpbXVtIHZhbHVlIHdoZW4gcD0uNTAgKDUwJSkuIE1FIGRlY3JlYXNlcyBzeW1tZXRyaWNhbGx5IGFzIHAgaW5jcmVhc2VzIHRvIDEgKDEwMCUpLiBJdCBpcyBhIHBhcmFib2xpYyBkaXN0cmlidXRpb24gKG5vbiBsaW5lYXIpLCB3aGljaCBuIGluY3JlYXNlIGFzIHAgaW5jcmVhc2VzIHVudGlsIHA9LjUgYW5kIHRoZW4gbWFyZ2luIG9mIGVycm9yIGRyb3BzLg0KDQoNCg0KIyBTdWNjZXNzLWZhaWx1cmUgY29uZGl0aW9uDQoNCmBgYHtyfQ0KcCA8LSAwLjENCm4gPC0gMTA0MA0KcF9oYXRzIDwtIHJlcCgwLCA1MDAwKQ0KDQpmb3IoaSBpbiAxOjUwMDApew0KICBzYW1wIDwtIHNhbXBsZShjKCJhdGhlaXN0IiwgIm5vbl9hdGhlaXN0IiksIG4sIHJlcGxhY2UgPSBUUlVFLCBwcm9iID0gYyhwLCAxLXApKQ0KICBwX2hhdHNbaV0gPC0gc3VtKHNhbXAgPT0gImF0aGVpc3QiKS9uDQp9DQoNCmhpc3QocF9oYXRzLCBtYWluID0gInAgPSAwLjEsIG4gPSAxMDQwIiwgeGxpbSA9IGMoMCwgMC4xOCkpDQpgYGANCg0KDQojIyBFeGVyY2ljZSA5DQoNCmBgYHtyfQ0Kc3VtbWFyeShwX2hhdHMpDQpzZChwX2hhdHMpDQpJUVIocF9oYXRzKQ0KbWVhbi5wX2hhdHMgPC0gbWVhbihwX2hhdHMpDQptZWRpYW4ucF9oYXRzIDwtIG1lZGlhbihwX2hhdHMpDQpgYGANCg0KYGBge3J9DQpib3hwbG90KHBfaGF0cyx5X2xhYj0icF9oYXRzIix4X2xhYj0icHJvcG9ydGlvbnMiKQ0KYWJsaW5lKGggPSBtZWRpYW4ucF9oYXRzLCBjb2wgPSAiYmx1ZSIpDQphYmxpbmUoaCA9IG1lYW4ucF9oYXRzLCBjb2wgPSAicmVkIikNCmFibGluZShoPSBxdWFudGlsZShwX2hhdHMsMC4yNSksIGNvbCA9ICJvcmFuZ2UiKQ0KYWJsaW5lKGggPSBxdWFudGlsZShwX2hhdHMsMC43NSksIGNvbCA9ICJncmVlbiIpDQpgYGANCg0KQW5zd2VyOiBUaGUgc2FtcGxpbmcgZGlzdHJpYnV0aW9uIGhhcyBhIG5lYXIgbm9ybWFsIGRpc3RyaWJ1dGlvbiB3aXRoIHRoZSBtZWFuIGNsb3NlIHRvIHRoZSBwb3B1bGF0aW9uIG1lYW4gb2YgMC4xLiBUaGVyZSBhcmUgYSBmZXcgb3V0bGllcnMgb24gYm90aCB1cHBlciBhbmQgbG93ZXIgdGFpbHMgYnV0IHRoZXNlIGFyZSBzbWFsbCBjb21wYXJlZCB0byB0aGUgdG90YWwgc2FtcGxlIHNpemUuDQoNCg0KIyMgRXhlcmNpY2UgMTANCg0KYGBge3J9DQpwIDwtIDAuMQ0KbiA8LSA0MDANCnBfaGF0czIgPC0gcmVwKDAsIDUwMDApDQoNCmZvcihpIGluIDE6NTAwMCl7DQogIHNhbXAgPC0gc2FtcGxlKGMoImF0aGVpc3QiLCAibm9uX2F0aGVpc3QiKSwgbiwgcmVwbGFjZSA9IFRSVUUsIHByb2IgPSBjKHAsIDEtcCkpDQogIHBfaGF0czJbaV0gPC0gc3VtKHNhbXAgPT0gImF0aGVpc3QiKS9uDQp9DQpgYGANCg0KYGBge3J9DQpwIDwtIDAuMg0KbiA8LSAxMDQwDQpwX2hhdHMzIDwtIHJlcCgwLCA1MDAwKQ0KDQpmb3IoaSBpbiAxOjUwMDApew0KICBzYW1wIDwtIHNhbXBsZShjKCJhdGhlaXN0IiwgIm5vbl9hdGhlaXN0IiksIG4sIHJlcGxhY2UgPSBUUlVFLCBwcm9iID0gYyhwLCAxLXApKQ0KICBwX2hhdHMzW2ldIDwtIHN1bShzYW1wID09ICJhdGhlaXN0Iikvbg0KfQ0KYGBgDQoNCmBgYHtyfQ0KcCA8LSAwLjINCm4gPC0gNDAwDQpwX2hhdHM0IDwtIHJlcCgwLCA1MDAwKQ0KDQpmb3IoaSBpbiAxOjUwMDApew0KICBzYW1wIDwtIHNhbXBsZShjKCJhdGhlaXN0IiwgIm5vbl9hdGhlaXN0IiksIG4sIHJlcGxhY2UgPSBUUlVFLCBwcm9iID0gYyhwLCAxLXApKQ0KICBwX2hhdHM0W2ldIDwtIHN1bShzYW1wID09ICJhdGhlaXN0Iikvbg0KfQ0KYGBgDQoNCmBgYHtyfQ0KcGFyKG1mcm93ID0gYygyLCAyKSkNCmhpc3QocF9oYXRzLCBtYWluID0gInAgPSAwLjEsIG4gPSAxMDQwIiwgeGxpbSA9IGMoMCwgMC4zMCkpDQpoaXN0KHBfaGF0czIsIG1haW4gPSAicCA9IDAuMSwgbiA9IDQwMCIsIHhsaW0gPSBjKDAsIDAuMzApKQ0KaGlzdChwX2hhdHMzLCBtYWluID0gInAgPSAwLjIsIG4gPSAxMDQwIiwgeGxpbSA9IGMoMCwgMC4zMCkpDQpoaXN0KHBfaGF0czQsIG1haW4gPSAicCA9IDAuMiwgbiA9IDQwMCIsIHhsaW0gPSBjKDAsIDAuMzApKQ0KYGBgDQoNCkFuc3dlcjogVGhlIGxhcmdlciB0aGUgc2FtcGxlIHNpemUgbiwgdGhlIHNtYWxsZXIgdGhlIHNwcmVhZC4gVGhlIHNtYWxsZXIgdGhlIHNwcmVhZCwgdGhlIHNtYWxsZXIgdGhlIG1hcmdpbiBvZiBlcnJvci4gRm9yIHAsIGl0IGlzIHRoZSBvcHBvc2l0ZS4gVGhlIGxhcmdlIHRoZSBwLCB0aGUgc21hbGxlciB0aGUgc3ByZWFkLiBUaHVzIHRoZSBtYXJnaW4gb2YgZXJyb3IgaW5jcmVhc2VzIHdpdGggaW5jcmVhc2luZyBwICh1bnRpbCBpdCByZWFjaGVzIDAuNSB0aGVuIHRoZSBvcHBvc2l0ZSBpcyB0cnVlKS4NCg0KDQojIyBFeGVyY2ljZSAxMQ0KDQpgYGB7cn0NCnRhYmxlKCBzdWJzZXQoYXRoZWlzbSwgbmF0aW9uYWxpdHkgPT0gIkF1c3RyYWxpYSIgJiB5ZWFyID09ICIyMDEyIikkcmVzcG9uc2UpDQpgYGANCg0KYGBge3J9DQp0YWJsZSggc3Vic2V0KGF0aGVpc20sIG5hdGlvbmFsaXR5ID09ICJFY3VhZG9yIiAmIHllYXIgPT0gIjIwMTIiKSRyZXNwb25zZSkNCmBgYA0KDQpBbnN3ZXI6IEJvdGggdGVuZCB0byBoYXZlIHJlYXNvbmFibHkgcmVndWxhciBkaXN0cmlidXRpb25zLCBhbmQgYm90aCBzYW1wbGVzIGFyZSBsZXNzIHRoYW4gMTAlIG9mIGVhY2ggY291bnRyeSdzIHBvcHVsYXRpb247IGhvd2V2ZXIsIGFsdGhvdWdoIEF1c3RyYWxpYSBtZWV0cyB0aGUgc3VjY2Vzcy1mYWlsdXJlIGNvbmRpdGlvbiBbMTA0MCguMSkgPSAxMDQgPj0gMTBdLCBFY3VhZG9yIGRvZXMgbm90IFs0MDAoLjAyKSA9IDggd2hpY2ggaXMgbm90ID49IDEwXS4gSW4gdGhhdCByZWdhcmQsIEkgd2lsbCBub3QgZm9sbG93IHRoZSByZXBvcnQncyBsZWFkLg0KDQoNCg0KIyBPbiB5b3VyIG93bg0KDQoNCiMjIEV4ZXJjaWNlIDEyDQoNCiMjIyBQYXJ0IEENCg0KQW5zd2VyOiANCkgwOiBJbiBTcGFpbiwgdGhlcmUgaXMgbm8gZGlmZmVyZW5jZSBiZXR3ZWVuIHRoZSBwcm9wb3J0aW9uIG9mIGF0aGVpc3RzIGluIDIwMDUgYW5kIDIwMTIuDQpIQTogSW4gU3BhaW4sIHRoZXJlIGlzIGEgZGlmZmVyZW5jZSBiZXR3ZWVuIHRoZSBwcm9wb3J0aW9uIG9mIGF0aGVpc3RzIGluIDIwMDUgYW5kIDIwMTIuIA0KSW5mZXJlbmNlIGNvbmRpdGlvbnM6DQotIEluZGVwZW5kZW50OiB0aGUgc2FtcGxlIHNpemVzIHdlcmUgMTE0NSBhbmQgMTE0NiAobGVzcyB0aGFuIDEwJSBvZiB0aGUgcG9wdWxhdGlvbikuDQotIFN1Y2Nlc3MtZmFpbHVyZSBjb25kaXRpb246IHRoZSBzdWNjZXNzLWZhaWx1cmUgY29uZGl0aW9uIChucCA+PSAxMCkgd2FzIG1ldCBzaW5jZSAxMTQ2KC4wNSk9IDU3LjMgYW5kIDExNDUoLjA1KT0gNTcuMjUNCg0KYGBge3J9DQpTcGFpbjA1ID0gc3Vic2V0KGF0aGVpc20sIG5hdGlvbmFsaXR5ID09ICJTcGFpbiIgJiB5ZWFyID09ICIyMDA1IikNClNwYWluMTIgPSBzdWJzZXQoYXRoZWlzbSwgbmF0aW9uYWxpdHkgPT0gIlNwYWluIiAmIHllYXIgPT0gIjIwMTIiKQ0KYGBgDQoNCmBgYHtyfQ0KbnJvdyhTcGFpbjA1KQ0KYGBgDQoNCmBgYHtyfQ0KbnJvdyhTcGFpbjEyKQ0KYGBgDQoNCmBgYHtyfQ0Kc3BhaW4gPSBhdGhlaXNtICU+JSANCiAgc3Vic2V0KHllYXIgPT0gMjAwNSB8fCB5ZWFyID09IDIwMTIpICU+JSANCiAgc3Vic2V0KG5hdGlvbmFsaXR5ID09ICJTcGFpbiIpDQoNCmluZmVyZW5jZShzcGFpbiRyZXNwb25zZSwgeCA9IHNwYWluJHllYXIsIGVzdCA9ICJwcm9wb3J0aW9uIiwgdHlwZSA9ICJodCIsIG51bGwgPSAwLCAgYWx0ZXJuYXRpdmUgPSAidHdvc2lkZWQiLCAgbWV0aG9kID0gInRoZW9yZXRpY2FsIiwgc3VjY2VzcyA9ICJhdGhlaXN0IikNCmBgYA0KDQpgYGB7cn0NCnBfc3BhaW4wNSA9IDAuMTAwMw0Kbl9zcGFpbjA1ID0gMTE0NiANCnBfc3BhaW4xMiA9IDAuMDkNCm5fc3BhaW4xMiA9IDExNDUgDQoNClBFX3NwYWluID0gcF9zcGFpbjEyIC0gcF9zcGFpbjA1DQoNClNFX3NwbiA9IHNxcnQoKHBfc3BhaW4wNSooMS1wX3NwYWluMDUpL25fc3BhaW4wNSkrKHBfc3BhaW4xMiooMS1wX3NwYWluMTIpL25fc3BhaW4xMikpDQpTRV9zcG4NCmBgYA0KDQpgYGB7cn0NClBFX3NwYWluICsgKDEuOTYqU0Vfc3BuKQ0KUEVfc3BhaW4gLSAoMS45NipTRV9zcG4pDQpgYGANCg0KQW5zd2VyOiBTaW5jZSB0aGUgcC12YWx1ZSBpcyAwLjM5NjYgYW5kIGxlc3MgdGhhbiB0aGUgYWxwaGEgd2hpY2ggaXMgMC4wNSwgd2UgcmVqZWN0IHRoZSBudWxsIGh5cG90aGVzaXMgdGhhdCwgaW4gU3BhaW4sIHRoZXJlIGlzIG1vZGVyYXRlIGV2aWRlbmNlIHRoYXQgdGhlcmUgaXMgbm8gZGlmZmVyZW5jZSBpbiBwcm9wb3J0aW9ucyBvZiBhdGhlaXN0cyBpbiBTcGFpbiBiZXR3ZWVuIHRoZSB5ZWFyIDIwMDUgYW5kIHRoZSB5ZWFyIDIwMTIuIA0KDQojIyMgUGFydCBCDQoNCkFuc3dlcjogDQpIMDogcHJvcG9ydGlvbiBvZiBVU+KAmXMgYXRoZWlzdHMgaW4gMjAwNSA9IHByb3BvcnRpb24gb2YgVVPigJlzIGF0aGVpc3RzIGluIDIwMTINCkhBOiBwcm9wb3J0aW9uIG9mIFVT4oCZcyBhdGhlaXN0cyBpbiAyMDA1ICE9IHByb3BvcnRpb24gb2YgVVPigJlzIGF0aGVpc3RzIGluIDIwMTINCkluZmVyZW5jZSBjb25kaXRpb25zOg0KLSBJbmRlcGVuZGVudDogdGhlIHNhbXBsZSBzaXplcyB3ZXJlIDEwMDIgKGxlc3MgdGhhbiAxMCUgb2YgdGhlIHBvcHVsYXRpb24pLg0KLSBTdWNjZXNzLWZhaWx1cmUgY29uZGl0aW9uOiB0aGUgc3VjY2Vzcy1mYWlsdXJlIGNvbmRpdGlvbiAobnAgPj0gMTApIHdhcyBtZXQgc2luY2UgMTAwMiguMDUpPSA1MC4xDQoNCmBgYHtyfQ0KdXNhMDUgPC0gc3Vic2V0KGF0aGVpc20sIG5hdGlvbmFsaXR5ID09ICJVbml0ZWQgU3RhdGVzIiAmIHllYXIgPT0gIjIwMDUiKQ0KdXNhMTIgPC0gc3Vic2V0KGF0aGVpc20sIG5hdGlvbmFsaXR5ID09ICJVbml0ZWQgU3RhdGVzIiAmIHllYXIgPT0gIjIwMTIiKQ0KYGBgDQoNCmBgYHtyfQ0KbnJvdyh1c2EwNSkNCmBgYA0KDQpgYGB7cn0NCm5yb3codXNhMTIpDQpgYGANCg0KYGBge3J9DQpVUyA9IGF0aGVpc20gJT4lIA0KICBzdWJzZXQoeWVhciA9PSAyMDA1IHx8IHllYXIgPT0gMjAxMikgJT4lIA0KICBzdWJzZXQobmF0aW9uYWxpdHkgPT0gIlVuaXRlZCBTdGF0ZXMiKQ0KDQppbmZlcmVuY2UoVVMkcmVzcG9uc2UsIHggPSBVUyR5ZWFyLCBlc3QgPSAicHJvcG9ydGlvbiIsIHR5cGUgPSAiaHQiLCBudWxsID0gMCwgIGFsdGVybmF0aXZlID0gInR3b3NpZGVkIiwgIG1ldGhvZCA9ICJ0aGVvcmV0aWNhbCIsIHN1Y2Nlc3MgPSAiYXRoZWlzdCIpDQpgYGANCg0KYGBge3J9DQpwX3VzYTA1ID0gMC4wMQ0Kbl91c2EwNSA9IDEwMDIgDQpwX3VzYTEyID0gMC4wNQ0Kbl91c2ExMiA9IDEwMDIgDQoNClBFX3VzYSA9IHBfdXNhMTIgLSBwX3VzYTA1DQoNClNFX3VzYSA9IHNxcnQoKChwX3VzYTA1KigxLXBfdXNhMDUpKS9uX3VzYTA1KSsoKHBfdXNhMTIqKDEtcF91c2ExMikpL25fdXNhMTIpKQ0KU0VfdXNhDQpgYGANCg0KYGBge3J9DQpQRV91c2EgKyAoMS45NipTRV91c2EpDQpQRV91c2EgLSAoMS45NipTRV91c2EpDQpgYGANCg0KQW5zd2VyOiBTaW5jZSB0aGUgcC12YWx1ZSBpcyAwIGFuZCBsZXNzIHRoYW4gdGhlIGFscGhhIHdoaWNoIGlzIDAuMDUsIHdlIHJlamVjdCB0aGUgbnVsbCBoeXBvdGhlc2lzIHRoYXQsIGluIFVTQSwgdGhlcmUgaXMgdmVyeSBzdHJvbmcgZXZpZGVuY2UgdGhhdCB0aGVyZSBpcyBubyBkaWZmZXJlbmNlIGluIHByb3BvcnRpb25zIG9mIGF0aGVpc3RzIGluIFVTYSBiZXR3ZWVuIHRoZSB5ZWFyIDIwMDUgYW5kIHRoZSB5ZWFyIDIwMTIuIA0KDQoNCiMjIEV4ZXJjaWNlIDEzDQoNCkFuc3dlcjogSXQncyBhIFR5cGUgSSBlcnJvciB0byBkZXRlY3QgYSBzaGlmdCB3aGVuIHRoZXJlIGlzbid0IGFueSAocmVqZWN0aW5nIEgwIHdoZW4gSDAgaXMgdHJ1ZSkuIFRoaXMgaXMgbGlrZWx5IHRvIGhhcHBlbiwgYnV0IG5vdCBtb3JlIHRoYW4gNSUgb2YgdGhlIHRpbWUuIFdpdGggMzkgY291bnRyaWVzIGluIFRhYmxlIDQsIHdlJ2QgbGlrZSB0byBzZWUgYSBkaWZmZXJlbmNlIGluIGFyb3VuZCAyIGNvdW50cmllcyBbMzkqMC4wNSA9IDEuOTVdLg0KDQoNCiMjIEV4ZWNyaWNlIDE0DQoNCmBgYHtyfQ0KTUUgPSAwLjAxDQp6ID0gMS45NiANCm4gPC0gKHpeMiAqIC4yNSkvIE1FXjINCmBgYA0KDQpBbnN3ZXI6IFRoZSBzYW1wbGUgc2l6ZSBzaG91bGQgYmUgYXQgbGVhc3QgOTYwNC4NCg0KDQo=

Lab 9: Categorical Data

Auriane Grippi

2021-04-01