{r setup, include=FALSE} library(corrplot) library(ggplot2) library(tidyverse) knitr::opts_chunk$set(echo = TRUE)
t=file.choose()
p <- read.csv(t)
names(p)
str(p)
summary(p)
summarise(p)
head(p)
head(p,3)
p %>% count(age)
table(p$age)
shapiro.test(p$age)
# p nhỏ hơn 0,05 rất nhiều nên ko có phân phối chuẩn
p$gender=ifelse(p$gender == "M", 1, 0)
cor(p)
corrplot(cor(p), type = "upper", method = "number")
corrplot(cor(p), method = "circle")
p %>% count(age)
table(hp$age)
p$age_grp = cut(p$age, breaks = seq(13,88,5))
c = p %>% count(age_grp)
table(p$age_grp)
c
p %>% count(age_grp,gender)
shapiro.test(p$age)
shapiro.test(p$height)
shapiro.test(p$pcfat)
# p nhỏ hơn 0,05 rất nhiều nên ko có phân phối chuẩn
ggplot(data = p, mapping = aes(x=age))+
geom_histogram(color = "red", fill = "#7A9B57")+
ggtitle("ABC")
p %>%
ggplot(aes(age)) +
geom_histogram(color = "red", fill = "#7A9B57")+
ggtitle("ABC")
library(ggthemes)
c %>%
ggplot(aes(x=age_grp, y= n)) +
geom_bar(stat="identity", fill="#f68060", alpha=.6, width=.4) +
xlab("Age group") + ylab("No.") + ggtitle("No. of in age group") +
theme_economist()
ggplot(data = p, mapping = aes(x=pcfat))+
geom_histogram(color = "red", fill = "#7A9B57")+
ggtitle("Pcfat")
ggplot(data = p, mapping = aes(age_grp))+
geom_histogram(color = "red", fill = "#7A9B57")+
ggtitle("")
p$pcfat_grp = cut(p$pcfat, breaks = seq(9.2,48.4,5))
pc = p %>% count(pcfat_grp)
pc
library(ggthemes)
pc %>%
ggplot(aes(x=pcfat_grp, y= n)) +
geom_bar(stat="identity", fill="#f68060", alpha=.6, width=.4) +
xlab("pcfat group") + ylab("No.") + ggtitle("No. of in pcfat group") +
theme_economist()
library(ggplot2); library(gridExtra)
m = ggplot(data=p, aes(x=pcfat))
m1 = m +
geom_histogram(color="white",
fill="blue")
m1
m = m +
geom_histogram(aes(y=..density..),color="white", fill="blue")
m2 = m + geom_density(col="red")
grid.arrange(m1, m2, ncol=2)
m3 = m1 + geom_density(col="red")
grid.arrange(m1, m3, ncol=2)
p$gender[p$gender == 0] = "female"
p$gender[p$gender == 1] = "male"
h = ggplot(data=p, aes(x=pcfat,
fill = gender))
h
h1 = h +
geom_histogram(position="dodge")
h1
h2 = ggplot(data=p, aes(x=pcfat,
fill=gender, color=gender)) +
geom_density(alpha = 0.1)
h2
grid.arrange(h1, h2, nrow=2)
#Ảnh hưởng của tuổi đến tỉ trọng mỡ ?
l1 = lm(pcfat ~ age, data=p)
summary(l1)
#Phương trình: pcfat = 25.6 + 0.13*age
#Diễn giải: Mỗi năm tăng độ tuổi, tỉ trọng mỡ tăng 0.13% (SE 0.011), và mối liên quan này có ý nghĩa thống kê (P < 0.0001)
l1 = lm(pcfat ~ age, data=p)
plot(p$pcfat ~ p$age, pch=16, col="blue")
abline(l1, col="red")
#Tỉ trọng mỡ khác nhau giữa nam và nữ
l2 = lm(pcfat ~ gender, data=p)
summary(l2)
#Phương trình pcfat = 34.7 – 10.5*gender(M)
#Diễn giải: Nam có tỉ trọng mỡ thấp hơn nữ 10.5% (SE 0.34%), và sự khác biệt này có ý nghĩa thống kê (P < 0.0001).
#Khác biệt giữa nam và nữ giải thích 44% những khác biệt về phương sai của tỉ trọng mỡ.