R project 2

#Task 1 — Create Subsets

data(iris)

#1. Create a subset called setosa containing only observations where Species == “setosa”.

setosa <- subset(iris, Species == "setosa")

#2. Create a subset called versicolor containing only observations where Species == “versicolor”.

versicolor <- subset(iris, Species == "versicolor")

#3. Report: The sample size of each subset. The sample mean of Sepal.Length for each subset.

n_setosa <- nrow(setosa)
n_versicolor <- nrow(versicolor)

mean_setosa <- mean(setosa$Sepal.Length)
mean_versicolor <- mean(versicolor$Sepal.Length)

n_setosa

[1] 50

n_versicolor

[1] 50

mean_setosa

[1] 5.006

mean_versicolor

[1] 5.936

#Task 2-One-Sample t-Test Confidence Interval #1.

versicolor_test <- t.test(versicolor$Sepal.Length, conf.level = 0.90)

versicolor_test


    One Sample t-test

data:  versicolor$Sepal.Length
t = 81.318, df = 49, p-value < 2.2e-16
alternative hypothesis: true mean is not equal to 0
90 percent confidence interval:
 5.813616 6.058384
sample estimates:
mean of x 
    5.936

versicolor_test$estimate

mean of x 
    5.936

versicolor_test$conf.int

[1] 5.813616 6.058384
attr(,"conf.level")
[1] 0.9

versicolor_test$parameter

df 
49

#2.

versicolor_test$estimate

mean of x 
    5.936

versicolor_test$conf.int

[1] 5.813616 6.058384
attr(,"conf.level")
[1] 0.9

versicolor_test$parameter

df 
49

#Task 3 - Two-Sample Welch t-Test #1.

two_sample_test <- t.test(setosa$Sepal.Length, versicolor$Sepal.Length)

two_sample_test


    Welch Two Sample t-test

data:  setosa$Sepal.Length and versicolor$Sepal.Length
t = -10.521, df = 86.538, p-value < 2.2e-16
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -1.1057074 -0.7542926
sample estimates:
mean of x mean of y 
    5.006     5.936

two_sample_test$estimate

mean of x mean of y 
    5.006     5.936

two_sample_test$conf.int

[1] -1.1057074 -0.7542926
attr(,"conf.level")
[1] 0.95

two_sample_test$p.value

[1] 3.746743e-17

#2 #The estimated difference in means (setosa − versicolor):0.93 # 95% confidence interval for the difference: (-1.1057074 -0.7542926) # p-value: 3.746743e-17

#3 #The estimated difference in means is approximately -0.93, meaning that setosa sepals are about 0.93 units shorter than versicolor sepals. The 95% confidence interval for the difference is (-1.106, -.754). Since this confidence interval does not include 0, it suggests a difference between groups. The p-value is extremely small (3.75e-17), which is much smaller than .05. Therefore, it is statistically significant that the mean Sepal.Length differs between setosa and versicolor. The data provided evidence that versicolor flowers have longer sepals on average than setosa flowers.

#Task 4 #(a) #1.In this context the Type I error that occurs is that when it comes to rejecting the null hypothesis that the means are equal it’s difficult as they are equal.

#2. If α = 0.05, the probability of making a Type I error would be 5%.

#3. Rejecting the null hypothesis would be a mistake as it says that they are different when they are actually the same.

#(b)

data(iris)

setosa <- iris[iris$Species == "setosa", "Sepal.Length"]
versicolor <- iris[iris$Species == "versicolor", "Sepal.Length"]

#Pooled 
pooled <- c(setosa, versicolor)

set.seed(2026)

nrep <- 100
rejections <- integer(nrep)

for (i in 1:nrep) {
# shuffle values
  shuffled <- sample(pooled)

#Two group of size 50
  g1 <- shuffled[1:50]
  g2 <- shuffled[51:100]

#t-test
  t_res <- t.test(g1, g2)
  
  rejections[i] <- as.integer(t_res$p.value < 0.05)
}

num_rejections <- sum(rejections)
Prop_rejections <- mean(rejections)

num_rejections

[1] 6

Prop_rejections

[1] 0.06

LS0tCnRpdGxlOiAiUiBwcm9qZWN0IDIiCm91dHB1dDoKICBodG1sX25vdGVib29rOiBkZWZhdWx0CiAgcGRmX2RvY3VtZW50OiBkZWZhdWx0CiAgaHRtbF9kb2N1bWVudDoKICAgIGRmX3ByaW50OiBwYWdlZAogIHdvcmRfZG9jdW1lbnQ6IGRlZmF1bHQKLS0tCiNUYXNrIDEg4oCUIENyZWF0ZSBTdWJzZXRzCmBgYHtyfQpkYXRhKGlyaXMpCmBgYAojMS4gQ3JlYXRlIGEgc3Vic2V0IGNhbGxlZCBzZXRvc2EgY29udGFpbmluZyBvbmx5IG9ic2VydmF0aW9ucyB3aGVyZSBTcGVjaWVzID09ICJzZXRvc2EiLgpgYGB7cn0Kc2V0b3NhIDwtIHN1YnNldChpcmlzLCBTcGVjaWVzID09ICJzZXRvc2EiKQpgYGAKIzIuIENyZWF0ZSBhIHN1YnNldCBjYWxsZWQgdmVyc2ljb2xvciBjb250YWluaW5nIG9ubHkgb2JzZXJ2YXRpb25zIHdoZXJlIFNwZWNpZXMgPT0gInZlcnNpY29sb3IiLgpgYGB7cn0KdmVyc2ljb2xvciA8LSBzdWJzZXQoaXJpcywgU3BlY2llcyA9PSAidmVyc2ljb2xvciIpCmBgYAojMy4gUmVwb3J0OiBUaGUgc2FtcGxlIHNpemUgb2YgZWFjaCBzdWJzZXQuIFRoZSBzYW1wbGUgbWVhbiBvZiBTZXBhbC5MZW5ndGggZm9yIGVhY2ggc3Vic2V0LgpgYGB7cn0Kbl9zZXRvc2EgPC0gbnJvdyhzZXRvc2EpCm5fdmVyc2ljb2xvciA8LSBucm93KHZlcnNpY29sb3IpCmBgYAoKYGBge3J9Cm1lYW5fc2V0b3NhIDwtIG1lYW4oc2V0b3NhJFNlcGFsLkxlbmd0aCkKbWVhbl92ZXJzaWNvbG9yIDwtIG1lYW4odmVyc2ljb2xvciRTZXBhbC5MZW5ndGgpCmBgYAoKYGBge3J9Cm5fc2V0b3NhCm5fdmVyc2ljb2xvcgptZWFuX3NldG9zYQptZWFuX3ZlcnNpY29sb3IKYGBgCiNUYXNrIDItT25lLVNhbXBsZSB0LVRlc3QgQ29uZmlkZW5jZSBJbnRlcnZhbAojMS4KYGBge3J9CnZlcnNpY29sb3JfdGVzdCA8LSB0LnRlc3QodmVyc2ljb2xvciRTZXBhbC5MZW5ndGgsIGNvbmYubGV2ZWwgPSAwLjkwKQoKdmVyc2ljb2xvcl90ZXN0CgpgYGAKIzIuCgoKYGBge3J9CnZlcnNpY29sb3JfdGVzdCRlc3RpbWF0ZQoKdmVyc2ljb2xvcl90ZXN0JGNvbmYuaW50Cgp2ZXJzaWNvbG9yX3Rlc3QkcGFyYW1ldGVyIApgYGAKI1Rhc2sgMyAtIFR3by1TYW1wbGUgV2VsY2ggdC1UZXN0CiMxLgpgYGB7cn0KdHdvX3NhbXBsZV90ZXN0IDwtIHQudGVzdChzZXRvc2EkU2VwYWwuTGVuZ3RoLCB2ZXJzaWNvbG9yJFNlcGFsLkxlbmd0aCkKCnR3b19zYW1wbGVfdGVzdAoKYGBgCgpgYGB7cn0KdHdvX3NhbXBsZV90ZXN0JGVzdGltYXRlCnR3b19zYW1wbGVfdGVzdCRjb25mLmludAp0d29fc2FtcGxlX3Rlc3QkcC52YWx1ZQpgYGAKIzIgCiNUaGUgZXN0aW1hdGVkIGRpZmZlcmVuY2UgaW4gbWVhbnMgKHNldG9zYSDiiJIgdmVyc2ljb2xvcik6MC45MwojIDk1JSBjb25maWRlbmNlIGludGVydmFsIGZvciB0aGUgZGlmZmVyZW5jZTogKC0xLjEwNTcwNzQgLTAuNzU0MjkyNikKIyBwLXZhbHVlOiAzLjc0Njc0M2UtMTcKCiMzIAojVGhlIGVzdGltYXRlZCBkaWZmZXJlbmNlIGluIG1lYW5zIGlzIGFwcHJveGltYXRlbHkgLTAuOTMsIG1lYW5pbmcgdGhhdCBzZXRvc2Egc2VwYWxzIGFyZSBhYm91dCAwLjkzIHVuaXRzIHNob3J0ZXIgdGhhbiB2ZXJzaWNvbG9yIHNlcGFscy4gVGhlIDk1JSBjb25maWRlbmNlIGludGVydmFsIGZvciB0aGUgZGlmZmVyZW5jZSBpcyAoLTEuMTA2LCAtLjc1NCkuIFNpbmNlIHRoaXMgY29uZmlkZW5jZSBpbnRlcnZhbCBkb2VzIG5vdCBpbmNsdWRlIDAsIGl0IHN1Z2dlc3RzIGEgZGlmZmVyZW5jZSBiZXR3ZWVuIGdyb3Vwcy4gVGhlIHAtdmFsdWUgaXMgZXh0cmVtZWx5IHNtYWxsICgzLjc1ZS0xNyksIHdoaWNoIGlzIG11Y2ggc21hbGxlciB0aGFuIC4wNS4gVGhlcmVmb3JlLCBpdCBpcyBzdGF0aXN0aWNhbGx5IHNpZ25pZmljYW50IHRoYXQgdGhlIG1lYW4gU2VwYWwuTGVuZ3RoIGRpZmZlcnMgYmV0d2VlbiBzZXRvc2EgYW5kIHZlcnNpY29sb3IuIFRoZSBkYXRhIHByb3ZpZGVkIGV2aWRlbmNlIHRoYXQgdmVyc2ljb2xvciBmbG93ZXJzIGhhdmUgbG9uZ2VyIHNlcGFscyBvbiBhdmVyYWdlIHRoYW4gc2V0b3NhIGZsb3dlcnMuCgojVGFzayA0CiMoYSkKIzEuSW4gdGhpcyBjb250ZXh0IHRoZSBUeXBlIEkgZXJyb3IgdGhhdCBvY2N1cnMgaXMgdGhhdCB3aGVuIGl0IGNvbWVzIHRvIHJlamVjdGluZyB0aGUgbnVsbCBoeXBvdGhlc2lzIHRoYXQgdGhlIG1lYW5zIGFyZSBlcXVhbCBpdCdzIGRpZmZpY3VsdCBhcyB0aGV5IGFyZSBlcXVhbC4KCiMyLiBJZiDOsSA9IDAuMDUsIHRoZSBwcm9iYWJpbGl0eSBvZiBtYWtpbmcgYSBUeXBlIEkgZXJyb3Igd291bGQgYmUgNSUuIAoKIzMuIFJlamVjdGluZyB0aGUgbnVsbCBoeXBvdGhlc2lzIHdvdWxkIGJlIGEgbWlzdGFrZSBhcyBpdCBzYXlzIHRoYXQgdGhleSBhcmUgZGlmZmVyZW50IHdoZW4gdGhleSBhcmUgYWN0dWFsbHkgdGhlIHNhbWUuCgojKGIpCmBgYHtyfQpkYXRhKGlyaXMpCgpzZXRvc2EgPC0gaXJpc1tpcmlzJFNwZWNpZXMgPT0gInNldG9zYSIsICJTZXBhbC5MZW5ndGgiXQp2ZXJzaWNvbG9yIDwtIGlyaXNbaXJpcyRTcGVjaWVzID09ICJ2ZXJzaWNvbG9yIiwgIlNlcGFsLkxlbmd0aCJdCgojUG9vbGVkIApwb29sZWQgPC0gYyhzZXRvc2EsIHZlcnNpY29sb3IpCgpzZXQuc2VlZCgyMDI2KQoKbnJlcCA8LSAxMDAKcmVqZWN0aW9ucyA8LSBpbnRlZ2VyKG5yZXApCgpmb3IgKGkgaW4gMTpucmVwKSB7CiMgc2h1ZmZsZSB2YWx1ZXMKICBzaHVmZmxlZCA8LSBzYW1wbGUocG9vbGVkKQoKI1R3byBncm91cCBvZiBzaXplIDUwCiAgZzEgPC0gc2h1ZmZsZWRbMTo1MF0KICBnMiA8LSBzaHVmZmxlZFs1MToxMDBdCgojdC10ZXN0CiAgdF9yZXMgPC0gdC50ZXN0KGcxLCBnMikKICAKICByZWplY3Rpb25zW2ldIDwtIGFzLmludGVnZXIodF9yZXMkcC52YWx1ZSA8IDAuMDUpCn0KCm51bV9yZWplY3Rpb25zIDwtIHN1bShyZWplY3Rpb25zKQpQcm9wX3JlamVjdGlvbnMgPC0gbWVhbihyZWplY3Rpb25zKQoKbnVtX3JlamVjdGlvbnMgClByb3BfcmVqZWN0aW9ucwpgYGAKCgo=