Bộ dữ liệu này kết hợp số lượng thô đối với tên/tên riêng của trẻ sơ sinh nam và nữ trong các khoảng thời gian đó, sau đó tính toán xác suất cho một tên dựa trên số lượng tổng hợp. Các bộ dữ liệu nguồn là từ các cơ quan chính phủ: -Mỹ: Tên em bé từ các ứng dụng thẻ an sinh xã hội - Dữ liệu quốc gia, 1880 đến 2019 -Anh: Tên em bé ở Anh và xứ Wales Bản tin thống kê, 2011 đến 2018 -Canada: British Columbia 100 năm tên em bé phổ biến , 1918 đến 2018 -Úc: Những tên bé phổ biến, Bộ Tư pháp, 1944 đến 2019
Địa chỉ link: https://drive.google.com/file/d/1O6eVGXVCaU7kSVdMu0ol-ekqkzSNrdk9/view?usp=sharing
Name: tên
Gender: Giới tính (M:giới tính Nam,F:giới tính nữ)
count: Số người cùng tên
Probability: Xác suất
Hiển thị dữ liệu
##
## 1 function (..., list = character(), package = NULL, lib.loc = NULL,
## 2 verbose = getOption("verbose"), envir = .GlobalEnv, overwrite = TRUE)
## 3 {
## 4 fileExt <- function(x) {
## 5 db <- grepl("\\\\.[^.]+\\\\.(gz|bz2|xz)$", x)
## 6 ans <- sub(".*\\\\.", "", x)
## 7 ans[db] <- sub(".*\\\\.([^.]+\\\\.)(gz|bz2|xz)$", "\\\\1\\\\2",
## 8 x[db])
## 9 ans
## 10 }
Tóm tắt dữ liệu:
## Name Gender Count Probability
## Length:147269 Length:147269 Min. : 1 Min. :3.000e-09
## Class :character Class :character 1st Qu.: 5 1st Qu.:1.400e-08
## Mode :character Mode :character Median : 17 Median :4.700e-08
## Mean : 2481 Mean :6.790e-06
## 3rd Qu.: 132 3rd Qu.:3.610e-07
## Max. :5304407 Max. :1.452e-02