OpenIntro Lab 8: Inference for Categorical Data

library(tidyverse)
library(openintro)
download.file("http://www.openintro.org/stat/data/atheism.RData", destfile = "atheism.RData")
load("atheism.RData")

Exercise 1

The values presented in the first few paragraphs are sample statistics, because they were obtained through polling data, not the entirety of the global population.

Exercise 2

The assumption which must be made in order to generalize the sample to the global population is that the sample is representative of the global population, in other words, there are no groups being significantly over or underrepresented. I cannot conclude whether this is a reasonable assumption to make without more information about the sampling method, as there could be many sources of error.

Exercise 3

Each row of table 6 corresponds to the mean religiosity percentage values for a specific country. Each row of the dataframe “atheism” corresponds to a response from an individual person.

Exercise 4

This proportion (0.050) agrees with the value presented in table 6.

us12 <- subset(atheism, nationality == "United States" & year == "2012")
summary(us12)

##         nationality          response        year     
##  United States:1002   atheist    : 50   Min.   :2012  
##  Afghanistan  :   0   non-atheist:952   1st Qu.:2012  
##  Argentina    :   0                     Median :2012  
##  Armenia      :   0                     Mean   :2012  
##  Australia    :   0                     3rd Qu.:2012  
##  Austria      :   0                     Max.   :2012  
##  (Other)      :   0

50/1002

## [1] 0.0499002

Exercise 5

One set of conditions for inference for a proportion is that in our sample both np > 10 and n(1-p) > 10. Both of these conditions are met. The other condition is that our observations are random and independent of each other, which I cannot confirm without more information.

Exercise 6

The margin of error as indicated by the R output is plus or minus 1.35% at 95% confidence.

inference(us12$response, est = "proportion", type = "ci", method = "theoretical", 
          success = "atheist")

## Single proportion -- success: atheist 
## Summary statistics:

## p_hat = 0.0499 ;  n = 1002 
## Check conditions: number of successes = 50 ; number of failures = 952 
## Standard error = 0.0069 
## 95 % Confidence interval = ( 0.0364 , 0.0634 )

(0.0634 - 0.0364)/2

## [1] 0.0135

Exercise 7

The size conditions (np and n(p-1)) are met for both China and Brazil. The margin of error for China was plus or minus 4.37%, and the margin of error for Brazil was plus or minus 0.435%. The confidence intervals are given in the R outputs.

china12 <- subset(atheism, nationality == "China" & year == "2012")
brazil12 <- subset(atheism, nationality == "Brazil" & year == "2012")

inference(china12$response, est = "proportion", type = "ci", method = "theoretical", 
          success = "atheist")

## Single proportion -- success: atheist 
## Summary statistics:

## p_hat = 0.47 ;  n = 500 
## Check conditions: number of successes = 235 ; number of failures = 265 
## Standard error = 0.0223 
## 95 % Confidence interval = ( 0.4263 , 0.5137 )

(0.5137 - 0.4263)/2

## [1] 0.0437

inference(brazil12$response, est = "proportion", type = "ci", method = "theoretical", 
          success = "atheist")

## Single proportion -- success: atheist 
## Summary statistics:

## p_hat = 0.01 ;  n = 2002 
## Check conditions: number of successes = 20 ; number of failures = 1982 
## Standard error = 0.0022 
## 95 % Confidence interval = ( 0.0056 , 0.0143 )

(0.0143 - 0.0056)/2

## [1] 0.00435

Exercise 8

The Margin of Error for a proportion is lowest when the population proportion is closest to 0 or 1, and the margin of error is smallest when the population proportion is closest to 0.5. This was surprising to me, but I guess it makes sense because the standard error would decrease as the probability of obtaining a differing result decreases.

n <- 1000
p <- seq(0, 1, 0.01)
me <- 2 * sqrt(p * (1 - p)/n)
plot(me ~ p, ylab = "Margin of Error", xlab = "Population Proportion")

Exercise 9

Sampling distribution of p hat:
Shape: Roughly bell shaped
Center: Mean at 0.100
Spread: s = 0.009, which can be interpreted as a standard error

set.seed(1)
p <- 0.1
n <- 1040
p_hats <- rep(0, 5000)

for(i in 1:5000){
  samp <- sample(c("atheist", "non_atheist"), n, replace = TRUE, prob = c(p, 1-p))
  p_hats[i] <- sum(samp == "atheist")/n
}

hist(p_hats, main = "p = 0.1, n = 1040", xlim = c(0, 0.18))

summary(p_hats)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## 0.07212 0.09327 0.10000 0.09981 0.10577 0.13269

sd(p_hats)

## [1] 0.00927704

Exercise 10

The shapes, centers, and spreads of the three plots essentially confirm the ideas that I discussed in exercise 8. For p = 0.02 with n = 400 as compared to p = 0.1 with n = 400, the center shifts to the left AND the spread decreases. When the sample size goes from n = 400 to n = 1040, the spread decreases even more. All of the sampling distributions have a roughly bell-shape.

set.seed(2)
# sampling distribution 1

p <- 0.1
n <- 400
p_hats1 <- rep(0, 5000)

for(i in 1:5000){
  samp <- sample(c("atheist", "non_atheist"), n, replace = TRUE, prob = c(p, 1-p))
  p_hats1[i] <- sum(samp == "atheist")/n
}

# sampling distribution 2

p <- 0.02
n <- 1040
p_hats2 <- rep(0, 5000)

for(i in 1:5000){
  samp <- sample(c("atheist", "non_atheist"), n, replace = TRUE, prob = c(p, 1-p))
  p_hats2[i] <- sum(samp == "atheist")/n
}

# sampling distribution 3

p <- 0.02
n <- 400
p_hats3 <- rep(0, 5000)

for(i in 1:5000){
  samp <- sample(c("atheist", "non_atheist"), n, replace = TRUE, prob = c(p, 1-p))
  p_hats3[i] <- sum(samp == "atheist")/n
}

par(mfrow = c(2, 2))
hist(p_hats1, main = "p = 0.1, n = 400", xlim = c(0, 0.18))
hist(p_hats2, main = "p = 0.02, n = 1040", xlim = c(0, 0.18))
hist(p_hats3, main = "p = 0.02, n = 400", xlim = c(0, 0.18))

Exercise 11

Based on solely the shape of the sampling distributions, I might proceed with inference, but knowing the values p = 0.02 for Ecuador given n = 400, I know that n*p = 8, which is not greater than or equal to 10. Therefore, while I might proceed with inference and reporting a margin of error for Australia, I would hesitate to continue for Ecuador. The report also never truly mentions margins of error for any distribution in particular, and perhaps this was to avoid scrutiny that the conditions for inference were not actually met?

LS0tDQp0aXRsZTogIk9wZW5JbnRybyBMYWIgODogSW5mZXJlbmNlIGZvciBDYXRlZ29yaWNhbCBEYXRhIg0KYXV0aG9yOiAiQWRpIFYiDQpkYXRlOiAiYHIgU3lzLkRhdGUoKWAiDQpvdXRwdXQ6IG9wZW5pbnRybzo6bGFiX3JlcG9ydA0KLS0tDQoNCmBgYHtyIGxvYWQtcGFja2FnZXMsIG1lc3NhZ2U9RkFMU0V9DQpsaWJyYXJ5KHRpZHl2ZXJzZSkNCmxpYnJhcnkob3BlbmludHJvKQ0KZG93bmxvYWQuZmlsZSgiaHR0cDovL3d3dy5vcGVuaW50cm8ub3JnL3N0YXQvZGF0YS9hdGhlaXNtLlJEYXRhIiwgZGVzdGZpbGUgPSAiYXRoZWlzbS5SRGF0YSIpDQpsb2FkKCJhdGhlaXNtLlJEYXRhIikNCmBgYA0KDQojIyMgRXhlcmNpc2UgMQ0KDQpUaGUgdmFsdWVzIHByZXNlbnRlZCBpbiB0aGUgZmlyc3QgZmV3IHBhcmFncmFwaHMgYXJlIHNhbXBsZSBzdGF0aXN0aWNzLCBiZWNhdXNlDQp0aGV5IHdlcmUgb2J0YWluZWQgdGhyb3VnaCBwb2xsaW5nIGRhdGEsIG5vdCB0aGUgZW50aXJldHkgb2YgdGhlIGdsb2JhbCBwb3B1bGF0aW9uLg0KDQojIyMgRXhlcmNpc2UgMg0KDQpUaGUgYXNzdW1wdGlvbiB3aGljaCBtdXN0IGJlIG1hZGUgaW4gb3JkZXIgdG8gZ2VuZXJhbGl6ZSB0aGUgc2FtcGxlIHRvIHRoZQ0KZ2xvYmFsIHBvcHVsYXRpb24gaXMgdGhhdCB0aGUgc2FtcGxlIGlzIHJlcHJlc2VudGF0aXZlIG9mIHRoZSBnbG9iYWwgcG9wdWxhdGlvbiwNCmluIG90aGVyIHdvcmRzLCB0aGVyZSBhcmUgbm8gZ3JvdXBzIGJlaW5nIHNpZ25pZmljYW50bHkgb3ZlciBvciB1bmRlcnJlcHJlc2VudGVkLg0KSSBjYW5ub3QgY29uY2x1ZGUgd2hldGhlciB0aGlzIGlzIGEgcmVhc29uYWJsZSBhc3N1bXB0aW9uIHRvIG1ha2Ugd2l0aG91dCBtb3JlDQppbmZvcm1hdGlvbiBhYm91dCB0aGUgc2FtcGxpbmcgbWV0aG9kLCBhcyB0aGVyZSBjb3VsZCBiZSBtYW55IHNvdXJjZXMgb2YgZXJyb3IuDQoNCiMjIyBFeGVyY2lzZSAzDQoNCkVhY2ggcm93IG9mIHRhYmxlIDYgY29ycmVzcG9uZHMgdG8gdGhlIG1lYW4gcmVsaWdpb3NpdHkgcGVyY2VudGFnZSB2YWx1ZXMgZm9yDQphIHNwZWNpZmljIGNvdW50cnkuIEVhY2ggcm93IG9mIHRoZSBkYXRhZnJhbWUgImF0aGVpc20iIGNvcnJlc3BvbmRzIHRvIGEgcmVzcG9uc2UNCmZyb20gYW4gaW5kaXZpZHVhbCBwZXJzb24uDQoNCiMjIyBFeGVyY2lzZSA0DQoNClRoaXMgcHJvcG9ydGlvbiAoMC4wNTApIGFncmVlcyB3aXRoIHRoZSB2YWx1ZSBwcmVzZW50ZWQgaW4gdGFibGUgNi4NCg0KYGBge3IgY29kZS1jaHVuay00fQ0KdXMxMiA8LSBzdWJzZXQoYXRoZWlzbSwgbmF0aW9uYWxpdHkgPT0gIlVuaXRlZCBTdGF0ZXMiICYgeWVhciA9PSAiMjAxMiIpDQpzdW1tYXJ5KHVzMTIpDQo1MC8xMDAyDQpgYGANCg0KIyMjIEV4ZXJjaXNlIDUNCg0KT25lIHNldCBvZiBjb25kaXRpb25zIGZvciBpbmZlcmVuY2UgZm9yIGEgcHJvcG9ydGlvbiBpcyB0aGF0IGluIG91ciBzYW1wbGUgYm90aCBuKnAgPiAxMA0KYW5kIG4qKDEtcCkgPiAxMC4gQm90aCBvZiB0aGVzZSBjb25kaXRpb25zIGFyZSBtZXQuIFRoZSBvdGhlciBjb25kaXRpb24gaXMgdGhhdA0Kb3VyIG9ic2VydmF0aW9ucyBhcmUgcmFuZG9tIGFuZCBpbmRlcGVuZGVudCBvZiBlYWNoIG90aGVyLCB3aGljaCBJIGNhbm5vdCBjb25maXJtDQp3aXRob3V0IG1vcmUgaW5mb3JtYXRpb24uDQoNCiMjIyBFeGVyY2lzZSA2DQoNClRoZSBtYXJnaW4gb2YgZXJyb3IgYXMgaW5kaWNhdGVkIGJ5IHRoZSBSIG91dHB1dCBpcyBwbHVzIG9yIG1pbnVzIDEuMzUlIGF0IDk1JQ0KY29uZmlkZW5jZS4NCg0KYGBge3IgY29kZS1jaHVuay02fQ0KaW5mZXJlbmNlKHVzMTIkcmVzcG9uc2UsIGVzdCA9ICJwcm9wb3J0aW9uIiwgdHlwZSA9ICJjaSIsIG1ldGhvZCA9ICJ0aGVvcmV0aWNhbCIsIA0KICAgICAgICAgIHN1Y2Nlc3MgPSAiYXRoZWlzdCIpDQooMC4wNjM0IC0gMC4wMzY0KS8yDQpgYGANCg0KIyMjIEV4ZXJjaXNlIDcNCg0KVGhlIHNpemUgY29uZGl0aW9ucyAobnAgYW5kIG4ocC0xKSkgYXJlIG1ldCBmb3IgYm90aCBDaGluYSBhbmQgQnJhemlsLiBUaGUNCm1hcmdpbiBvZiBlcnJvciBmb3IgQ2hpbmEgd2FzIHBsdXMgb3IgbWludXMgNC4zNyUsIGFuZCB0aGUgbWFyZ2luIG9mDQplcnJvciBmb3IgQnJhemlsIHdhcyBwbHVzIG9yIG1pbnVzIDAuNDM1JS4gVGhlIGNvbmZpZGVuY2UgaW50ZXJ2YWxzIGFyZSBnaXZlbg0KaW4gdGhlIFIgb3V0cHV0cy4NCg0KYGBge3IgY29kZS1jaHVuay03fQ0KY2hpbmExMiA8LSBzdWJzZXQoYXRoZWlzbSwgbmF0aW9uYWxpdHkgPT0gIkNoaW5hIiAmIHllYXIgPT0gIjIwMTIiKQ0KYnJhemlsMTIgPC0gc3Vic2V0KGF0aGVpc20sIG5hdGlvbmFsaXR5ID09ICJCcmF6aWwiICYgeWVhciA9PSAiMjAxMiIpDQoNCmluZmVyZW5jZShjaGluYTEyJHJlc3BvbnNlLCBlc3QgPSAicHJvcG9ydGlvbiIsIHR5cGUgPSAiY2kiLCBtZXRob2QgPSAidGhlb3JldGljYWwiLCANCiAgICAgICAgICBzdWNjZXNzID0gImF0aGVpc3QiKQ0KDQooMC41MTM3IC0gMC40MjYzKS8yDQoNCg0KaW5mZXJlbmNlKGJyYXppbDEyJHJlc3BvbnNlLCBlc3QgPSAicHJvcG9ydGlvbiIsIHR5cGUgPSAiY2kiLCBtZXRob2QgPSAidGhlb3JldGljYWwiLCANCiAgICAgICAgICBzdWNjZXNzID0gImF0aGVpc3QiKQ0KDQooMC4wMTQzIC0gMC4wMDU2KS8yDQpgYGANCg0KIyMjIEV4ZXJjaXNlIDgNCg0KVGhlIE1hcmdpbiBvZiBFcnJvciBmb3IgYSBwcm9wb3J0aW9uIGlzIGxvd2VzdCB3aGVuIHRoZSBwb3B1bGF0aW9uIHByb3BvcnRpb24NCmlzIGNsb3Nlc3QgdG8gMCBvciAxLCBhbmQgdGhlIG1hcmdpbiBvZiBlcnJvciBpcyBzbWFsbGVzdCB3aGVuIHRoZSBwb3B1bGF0aW9uDQpwcm9wb3J0aW9uIGlzIGNsb3Nlc3QgdG8gMC41LiBUaGlzIHdhcyBzdXJwcmlzaW5nIHRvIG1lLCBidXQgSSBndWVzcyBpdCBtYWtlcw0Kc2Vuc2UgYmVjYXVzZSB0aGUgc3RhbmRhcmQgZXJyb3Igd291bGQgZGVjcmVhc2UgYXMgdGhlIHByb2JhYmlsaXR5DQpvZiBvYnRhaW5pbmcgYSBkaWZmZXJpbmcgcmVzdWx0IGRlY3JlYXNlcy4NCg0KYGBge3IgY29kZS1jaHVuay04fQ0KbiA8LSAxMDAwDQpwIDwtIHNlcSgwLCAxLCAwLjAxKQ0KbWUgPC0gMiAqIHNxcnQocCAqICgxIC0gcCkvbikNCnBsb3QobWUgfiBwLCB5bGFiID0gIk1hcmdpbiBvZiBFcnJvciIsIHhsYWIgPSAiUG9wdWxhdGlvbiBQcm9wb3J0aW9uIikNCmBgYA0KDQojIyMgRXhlcmNpc2UgOQ0KDQpTYW1wbGluZyBkaXN0cmlidXRpb24gb2YgcCBoYXQ6ICANClNoYXBlOiBSb3VnaGx5IGJlbGwgc2hhcGVkICANCkNlbnRlcjogTWVhbiBhdCAwLjEwMCAgDQpTcHJlYWQ6IHMgPSAwLjAwOSwgd2hpY2ggY2FuIGJlIGludGVycHJldGVkIGFzIGEgc3RhbmRhcmQgZXJyb3INCg0KYGBge3IgY29kZS1jaHVuay05fQ0Kc2V0LnNlZWQoMSkNCnAgPC0gMC4xDQpuIDwtIDEwNDANCnBfaGF0cyA8LSByZXAoMCwgNTAwMCkNCg0KZm9yKGkgaW4gMTo1MDAwKXsNCiAgc2FtcCA8LSBzYW1wbGUoYygiYXRoZWlzdCIsICJub25fYXRoZWlzdCIpLCBuLCByZXBsYWNlID0gVFJVRSwgcHJvYiA9IGMocCwgMS1wKSkNCiAgcF9oYXRzW2ldIDwtIHN1bShzYW1wID09ICJhdGhlaXN0Iikvbg0KfQ0KDQpoaXN0KHBfaGF0cywgbWFpbiA9ICJwID0gMC4xLCBuID0gMTA0MCIsIHhsaW0gPSBjKDAsIDAuMTgpKQ0Kc3VtbWFyeShwX2hhdHMpDQpzZChwX2hhdHMpDQpgYGANCg0KIyMjIEV4ZXJjaXNlIDEwDQoNClRoZSBzaGFwZXMsIGNlbnRlcnMsIGFuZCBzcHJlYWRzIG9mIHRoZSB0aHJlZSBwbG90cyBlc3NlbnRpYWxseSBjb25maXJtIHRoZQ0KaWRlYXMgdGhhdCBJIGRpc2N1c3NlZCBpbiBleGVyY2lzZSA4LiBGb3IgcCA9IDAuMDIgd2l0aCBuID0gNDAwIGFzIGNvbXBhcmVkIHRvDQpwID0gMC4xIHdpdGggbiA9IDQwMCwgdGhlIGNlbnRlciBzaGlmdHMgdG8gdGhlIGxlZnQgQU5EIHRoZSBzcHJlYWQgZGVjcmVhc2VzLg0KV2hlbiB0aGUgc2FtcGxlIHNpemUgZ29lcyBmcm9tIG4gPSA0MDAgdG8gbiA9IDEwNDAsIHRoZSBzcHJlYWQgZGVjcmVhc2VzIGV2ZW4NCm1vcmUuIEFsbCBvZiB0aGUgc2FtcGxpbmcgZGlzdHJpYnV0aW9ucyBoYXZlIGEgcm91Z2hseSBiZWxsLXNoYXBlLg0KDQpgYGB7ciBjb2RlLWNodW5rLTEwfQ0Kc2V0LnNlZWQoMikNCiMgc2FtcGxpbmcgZGlzdHJpYnV0aW9uIDENCg0KcCA8LSAwLjENCm4gPC0gNDAwDQpwX2hhdHMxIDwtIHJlcCgwLCA1MDAwKQ0KDQpmb3IoaSBpbiAxOjUwMDApew0KICBzYW1wIDwtIHNhbXBsZShjKCJhdGhlaXN0IiwgIm5vbl9hdGhlaXN0IiksIG4sIHJlcGxhY2UgPSBUUlVFLCBwcm9iID0gYyhwLCAxLXApKQ0KICBwX2hhdHMxW2ldIDwtIHN1bShzYW1wID09ICJhdGhlaXN0Iikvbg0KfQ0KDQojIHNhbXBsaW5nIGRpc3RyaWJ1dGlvbiAyDQoNCnAgPC0gMC4wMg0KbiA8LSAxMDQwDQpwX2hhdHMyIDwtIHJlcCgwLCA1MDAwKQ0KDQpmb3IoaSBpbiAxOjUwMDApew0KICBzYW1wIDwtIHNhbXBsZShjKCJhdGhlaXN0IiwgIm5vbl9hdGhlaXN0IiksIG4sIHJlcGxhY2UgPSBUUlVFLCBwcm9iID0gYyhwLCAxLXApKQ0KICBwX2hhdHMyW2ldIDwtIHN1bShzYW1wID09ICJhdGhlaXN0Iikvbg0KfQ0KDQojIHNhbXBsaW5nIGRpc3RyaWJ1dGlvbiAzDQoNCnAgPC0gMC4wMg0KbiA8LSA0MDANCnBfaGF0czMgPC0gcmVwKDAsIDUwMDApDQoNCmZvcihpIGluIDE6NTAwMCl7DQogIHNhbXAgPC0gc2FtcGxlKGMoImF0aGVpc3QiLCAibm9uX2F0aGVpc3QiKSwgbiwgcmVwbGFjZSA9IFRSVUUsIHByb2IgPSBjKHAsIDEtcCkpDQogIHBfaGF0czNbaV0gPC0gc3VtKHNhbXAgPT0gImF0aGVpc3QiKS9uDQp9DQoNCnBhcihtZnJvdyA9IGMoMiwgMikpDQpoaXN0KHBfaGF0czEsIG1haW4gPSAicCA9IDAuMSwgbiA9IDQwMCIsIHhsaW0gPSBjKDAsIDAuMTgpKQ0KaGlzdChwX2hhdHMyLCBtYWluID0gInAgPSAwLjAyLCBuID0gMTA0MCIsIHhsaW0gPSBjKDAsIDAuMTgpKQ0KaGlzdChwX2hhdHMzLCBtYWluID0gInAgPSAwLjAyLCBuID0gNDAwIiwgeGxpbSA9IGMoMCwgMC4xOCkpDQpgYGANCg0KIyMjIEV4ZXJjaXNlIDExDQoNCkJhc2VkIG9uIHNvbGVseSB0aGUgc2hhcGUgb2YgdGhlIHNhbXBsaW5nIGRpc3RyaWJ1dGlvbnMsIEkgbWlnaHQgcHJvY2VlZCB3aXRoDQppbmZlcmVuY2UsIGJ1dCBrbm93aW5nIHRoZSB2YWx1ZXMgcCA9IDAuMDIgZm9yIEVjdWFkb3IgZ2l2ZW4gbiA9IDQwMCwgSSBrbm93DQp0aGF0IG4qcCA9IDgsIHdoaWNoIGlzIG5vdCBncmVhdGVyIHRoYW4gb3IgZXF1YWwgdG8gMTAuIFRoZXJlZm9yZSwgd2hpbGUNCkkgbWlnaHQgcHJvY2VlZCB3aXRoIGluZmVyZW5jZSBhbmQgcmVwb3J0aW5nIGEgbWFyZ2luIG9mIGVycm9yIGZvciBBdXN0cmFsaWEsDQpJIHdvdWxkIGhlc2l0YXRlIHRvIGNvbnRpbnVlIGZvciBFY3VhZG9yLiBUaGUgcmVwb3J0IGFsc28gbmV2ZXIgdHJ1bHkgbWVudGlvbnMNCm1hcmdpbnMgb2YgZXJyb3IgZm9yIGFueSBkaXN0cmlidXRpb24gaW4gcGFydGljdWxhciwgYW5kIHBlcmhhcHMgdGhpcyB3YXMgdG8NCmF2b2lkIHNjcnV0aW55IHRoYXQgdGhlIGNvbmRpdGlvbnMgZm9yIGluZmVyZW5jZSB3ZXJlIG5vdCBhY3R1YWxseSBtZXQ/