movies_dataset <- read.csv("D:/movies_dataset.csv")
dim(movies_dataset)
## [1] 999999 17
==> Bộ dữ liệu có 999999 quan sát và 17 biến
names(movies_dataset)
## [1] "MovieID" "Title" "Genre"
## [4] "ReleaseYear" "ReleaseDate" "Country"
## [7] "BudgetUSD" "US_BoxOfficeUSD" "Global_BoxOfficeUSD"
## [10] "Opening_Day_SalesUSD" "One_Week_SalesUSD" "IMDbRating"
## [13] "RottenTomatoesScore" "NumVotesIMDb" "NumVotesRT"
## [16] "Director" "LeadActor"
sapply(movies_dataset, class)
## MovieID Title Genre
## "integer" "character" "character"
## ReleaseYear ReleaseDate Country
## "integer" "character" "character"
## BudgetUSD US_BoxOfficeUSD Global_BoxOfficeUSD
## "numeric" "numeric" "numeric"
## Opening_Day_SalesUSD One_Week_SalesUSD IMDbRating
## "numeric" "numeric" "numeric"
## RottenTomatoesScore NumVotesIMDb NumVotesRT
## "integer" "integer" "integer"
## Director LeadActor
## "character" "character"
summary(movies_dataset)
## MovieID Title Genre ReleaseYear
## Min. : 1 Length:999999 Length:999999 Min. :1950
## 1st Qu.:250001 Class :character Class :character 1st Qu.:1984
## Median :500000 Mode :character Mode :character Median :2001
## Mean :500000 Mean :1998
## 3rd Qu.:750000 3rd Qu.:2014
## Max. :999999 Max. :2025
## ReleaseDate Country BudgetUSD US_BoxOfficeUSD
## Length:999999 Length:999999 Min. : 100000 Min. :4.002e+04
## Class :character Class :character 1st Qu.: 1190511 1st Qu.:1.490e+06
## Mode :character Mode :character Median : 3265790 Median :4.389e+06
## Mean : 9802824 Mean :1.496e+07
## 3rd Qu.: 9002791 3rd Qu.:1.288e+07
## Max. :300000000 Max. :1.018e+09
## Global_BoxOfficeUSD Opening_Day_SalesUSD One_Week_SalesUSD IMDbRating
## Min. :1.000e+05 Min. : 4050 Min. : 16507 Min. : 1.000
## 1st Qu.:2.762e+06 1st Qu.: 279026 1st Qu.: 738315 1st Qu.: 5.500
## Median :8.090e+06 Median : 838722 Median : 2179436 Median : 6.500
## Mean :2.721e+07 Mean : 2992745 Mean : 7483442 Mean : 6.495
## 3rd Qu.:2.355e+07 3rd Qu.: 2510360 3rd Qu.: 6415143 3rd Qu.: 7.500
## Max. :1.499e+09 Max. :295751068 Max. :579555113 Max. :10.000
## RottenTomatoesScore NumVotesIMDb NumVotesRT Director
## Min. : 0.00 Min. : 100 Min. : 50 Length:999999
## 1st Qu.: 53.00 1st Qu.: 1083 1st Qu.: 119 Class :character
## Median : 65.00 Median : 2983 Median : 405 Mode :character
## Mean : 64.78 Mean : 9137 Mean : 2032
## 3rd Qu.: 77.00 3rd Qu.: 8192 3rd Qu.: 1360
## Max. :100.00 Max. :1000000 Max. :500000
## LeadActor
## Length:999999
## Class :character
## Mode :character
##
##
##
sum(duplicated(movies_dataset))
## [1] 0
==> Không có quan sát nào bị trùng lặp trong bộ dữ liệu
any(is.na(movies_dataset))
## [1] FALSE
colSums(is.na(movies_dataset))
## MovieID Title Genre
## 0 0 0
## ReleaseYear ReleaseDate Country
## 0 0 0
## BudgetUSD US_BoxOfficeUSD Global_BoxOfficeUSD
## 0 0 0
## Opening_Day_SalesUSD One_Week_SalesUSD IMDbRating
## 0 0 0
## RottenTomatoesScore NumVotesIMDb NumVotesRT
## 0 0 0
## Director LeadActor
## 0 0
==> Không có giá trị nào bị thiếu trong bộ dữ liệu
Ý_nghĩa_biến <- data.frame(
Biến = c("MovieID", "Title", "Genre", "ReleaseYear", "ReleaseDate", "Country",
"BudgetUSD", "US_BoxOfficeUSD", "Global_BoxOfficeUSD",
"Opening_Day_SalesUSD", "One_Week_SalesUSD", "IMDbRating",
"RottenTomatoesScore", "NumVotesIMDb", "NumVotesRT",
"Director", "LeadActor"),
Ý_nghĩa = c(
"Mã định danh duy nhất cho mỗi phim",
"Tên hoặc tựa đề của phim",
"Thể loại phim (Ví dụ: Hài, Tài liệu, Kinh dị...)",
"Năm phim được phát hành",
"Ngày chính xác phim được phát hành",
"Quốc gia sản xuất phim",
"Ngân sách đầu tư cho phim (đơn vị USD)",
"Doanh thu phòng vé tại Mỹ (đơn vị USD)",
"Doanh thu phòng vé toàn cầu (đơn vị USD)",
"Doanh thu ngày đầu tiên phim ra mắt (đơn vị USD)",
"Doanh thu tuần đầu tiên phim ra mắt (đơn vị USD)",
"Điểm đánh giá phim trên IMDb (thang điểm 10)",
"Điểm đánh giá phim trên Rotten Tomatoes (thang điểm 100)",
"Số lượng lượt người đánh giá trên IMDb",
"Số lượng lượt người đánh giá trên Rotten Tomatoes",
"Tên đạo diễn của bộ phim",
"Tên diễn viên chính trong phim"
),
stringsAsFactors = FALSE
)
library(knitr)
kable(Ý_nghĩa_biến, col.names = c("Biến", "Ý nghĩa"))
| Biến | Ý nghĩa |
|---|---|
| MovieID | Mã định danh duy nhất cho mỗi phim |
| Title | Tên hoặc tựa đề của phim |
| Genre | Thể loại phim (Ví dụ: Hài, Tài liệu, Kinh dị…) |
| ReleaseYear | Năm phim được phát hành |
| ReleaseDate | Ngày chính xác phim được phát hành |
| Country | Quốc gia sản xuất phim |
| BudgetUSD | Ngân sách đầu tư cho phim (đơn vị USD) |
| US_BoxOfficeUSD | Doanh thu phòng vé tại Mỹ (đơn vị USD) |
| Global_BoxOfficeUSD | Doanh thu phòng vé toàn cầu (đơn vị USD) |
| Opening_Day_SalesUSD | Doanh thu ngày đầu tiên phim ra mắt (đơn vị USD) |
| One_Week_SalesUSD | Doanh thu tuần đầu tiên phim ra mắt (đơn vị USD) |
| IMDbRating | Điểm đánh giá phim trên IMDb (thang điểm 10) |
| RottenTomatoesScore | Điểm đánh giá phim trên Rotten Tomatoes (thang điểm 100) |
| NumVotesIMDb | Số lượng lượt người đánh giá trên IMDb |
| NumVotesRT | Số lượng lượt người đánh giá trên Rotten Tomatoes |
| Director | Tên đạo diễn của bộ phim |
| LeadActor | Tên diễn viên chính trong phim |