###Өгөгдөл татах

Нийт амьд үлдэгсдийн хувь

table(Titanic_Survival$survived)
## 
##  no yes 
## 809 500
prop.table(table(Titanic_Survival$survived)) * 100  
## 
##      no     yes 
## 61.8029 38.1971

Хүйсийн харьцаа

table(Titanic_Survival$sex)
## 
## female   male 
##    466    843
prop.table(table(Titanic_Survival$sex)) * 100
## 
##   female     male 
## 35.59969 64.40031

Дундаж нас

mean(Titanic_Survival$age, na.rm = TRUE)
## [1] 29.88113

Ангилалаар нь бүлэглэх

table(Titanic_Survival$passengerClass)
## 
## 1st 2nd 3rd 
## 323 277 709
library(ggplot2)
## Warning: package 'ggplot2' was built under R version 4.3.2
ggplot(Titanic_Survival, aes(x = age)) +
  geom_histogram(binwidth = 5, fill = "steelblue", color = "black", alpha = 0.7) +
  labs(title = "Насны тархалт", x = "Нас", y = "Хүн амын тоо") +
  theme_minimal()
## Warning: Removed 263 rows containing non-finite outside the scale range
## (`stat_bin()`).

Titanic дээр 8 настай балчраас 80 настай буурал хүртэл зорчиж байсан аж. Мөн 20 настай залуучууд хамгийн олон байжээ.

library(ggplot2)
ggplot(Titanic_Survival, aes(x = sex, fill = factor(survived))) +
  geom_bar(position = "dodge") +
  labs(title = "Амьд үлдсэн хүмүүсийн хүйсийн харьцаа", 
       x = "Хүйс", y = "Тоо ширхэг", fill = "Амьд үлдсэн эсэх") +
  scale_fill_manual(values = c("red", "blue")) +
  theme_classic()

Нийт нас барсан 809 хүнээс манай эрэгтэйчүүд л ихэнх хувийн бүрдүүлж байна. Ямар ч үед бид чинь эмэгтэйчүүд болон хүүхдүүдээ эхэнд тавьдаг гэдгийг харж болно.

Дээрх үзүүлэлт нь санамсаргүйгээр эмэгтэйчүүд илүү их амьд гарсан уу? эсвэл үнэхээр түрүүлж аврах завинд суулгасан болхоор ийм харьцаатай байна уу гэдгийг Chi-square тест ашиглан шалгах:

table_sex_survived <- table(Titanic_Survival$sex, Titanic_Survival$survived)
chisq.test(table_sex_survived)
## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  table_sex_survived
## X-squared = 363.62, df = 1, p-value < 2.2e-16

Уг таамаглал нь: H0:“Хүйс болон амьд үлдэлт нь хоорондоо хамааралгүй” H1:“Хүйс болон амьд үлдэлт хоорондоо хамааралтай” бөгөөд p-value < 2.2e-16 гэдэг нь 0.05 аас хамаагүй бага утга тул 0 таамаглал няцаана.

X-squared = 363.62 гэдэг нь хүйс болон амьд үлдсэн хоёр хувьсагч хооронд маш өндөр хамаарал байгааг илтгэнэ.

ggplot(Titanic_Survival, aes(x = age, fill = factor(survived))) +
  geom_density(alpha = 0.5) +
  labs(title = "Амьд үлдэлтийн насны хамаарал", 
       x = "Нас", y = "Нягтрал", fill = "Амьд үлдсэн эсэх") +
  scale_fill_manual(values = c("red", "green")) +
  theme_classic() 
## Warning: Removed 263 rows containing non-finite outside the scale range
## (`stat_density()`).

20-30 насны залуучууд их хэмжээгээр зорчиж явсан бөгөөд хэвийн тархалтын хуулиараа залуучууд нь их хэмжээгээр нас баржээ.0-10 насны хүүхдүүд болон 45-60 насны хүмүүсийн амьд үлдсэн харьцаа нь өндөр байна. Энэ нь 45-60 насны хүмүүс баян байх магадлал нь хамгийн өндөр буюу 1-р зэрэглэлд зорчиж явсан байх хамгийн боломжтой тул хүүхдүүд эмэгтэйчүүдийн дараа аврах завинд түрүүлж суусан байж болох юм.

library(rpart)
library(rpart.plot)
## Warning: package 'rpart.plot' was built under R version 4.3.2
tree_model <- rpart(survived ~ sex + age + passengerClass, data = Titanic_Survival, method = "class")
rpart.plot(tree_model, type = 2, extra = 102)

Дээрх шийдвэрийн мод нь зорчигчийн нас, хүйс, зорчигчийн ангилал дээр тулгуурлан амьд үлдэх магадлалыг харуулж байна.Хамгийн сонирхолтой нь 3-р ангилалын 10 аас бага насны бүх хүүхэд амьд үлдсэн байна.

ggplot(Titanic_Survival, aes(x = factor(passengerClass), fill = factor(survived))) +
  geom_bar(position = "fill") +
  labs(title = "Зорчигчийн ангилал ба амьд үлдэлтийн харьцаа", 
       x = "Зорчигчийн ангилал", y = "Хувь", fill = "Амьд үлдсэн эсэх") +
  scale_fill_manual(values = c("purple", "navy")) +
  theme_classic()

Дээрх үр дүнгээс харахад 3-р зэрийн зорчигчид нь илүү олон амь үрэгдсэн байна. Энэ нь зэрэглэл өндөр байх тусмаа ослын үеийн жижиг завинд түрүүлж суулгасан байж болох юм.

ggplot(Titanic_Survival, aes(x = factor(passengerClass), y = age, fill = factor(survived))) +
  geom_violin(alpha = 0.7) +
  labs(title = "Нас, зорчигчийн ангилал ба амьд үлдэлт", 
       x = "Зорчигчийн ангилал", y = "Нас", fill = "Амьд үлдсэн эсэх") +
  scale_fill_manual(values = c("red", "blue")) +
  theme_minimal()
## Warning: Removed 263 rows containing non-finite outside the scale range
## (`stat_ydensity()`).

ggplot(Titanic_Survival, aes(x = factor(passengerClass), y = age, fill = sex)) +
  geom_boxplot() +
  labs(title = "Насны хуваарилалт зорчигчийн ангиллаар", 
       x = "Зорчигчийн ангилал", y = "Нас", fill = "Хүйс") +
  scale_fill_manual(values = c("pink", "lightblue")) +
  theme_classic()
## Warning: Removed 263 rows containing non-finite outside the scale range
## (`stat_boxplot()`).