Code
library(WDI)
library(DT)
library(tidyverse)
library(scales)
Để tìm được dữ liệu phục vụ cho vấn đề nghiêu cứu không phải là việc đơn giản, đối với những người mới tiếp cận với việc phân tích dữ liệu, đặc biệt là các bạn sinh viên thì việc này lại càng không đơn giản. Trong bài viết này tôi sẽ liệt kê một số trang web có cung cấp dữ liệu miễn phí để giúp việc tìm kiếm dữ liệu của các bạn thuận tiện hơn, ít nhất là các bạn có được dữ liệu để thực hành, từ những thao tác trên các trang web này hy vọng sẽ tạo được sự thích thú đối với việc học môn Phân tích dữ liệu.
DART-Europe E-thesis Portal, Truy cập tới 1,3 triệu luận văn, luận án truy cập mở từ 580 trường Đại học ở 29 quốc gia châu Âu. Website: https://www.dart-europe.org
Global ETD, CSDL có hơn 6 triệu luận văn, luận án điện tử có trong kho lưu trữ. Website: http://search.ndltd.org
ProQuest Thesis and Dissertations Global, PQDT Open có hơn 60 ngàn nhan đề luận văn, luận án truy cập mở. Website: https://www.proquest.com/?defaultdiss=true
Open Access Theses and Dissertations, OATD hiện có hơn 6 triệu luận văn, luận án từ hơn 1.100 trường cao đẳng, đại học và viện nghiên cứu. Website: https://oatd.org/
EBSCO Open Dissertations, EBSCO Open Dissertations hiện có hơn 1,5 triệu luận văn, luận án từ 320 trường. Website: https://biblioboard.com/opendissertations/
Dữ liệu của Tổ chức Hợp tác và Phát triển Kinh tế (Organization for Economic Cooperation and Development - OECD).
Dữ liệu của Tổ chức y tế thế giới (World Health Organization - WHO).
Dữ liệu của Ngân hàng thế giới (World Bank - WB).
Dữ liệu của Quỹ tiền tệ quốc tế (International Monetary Fund - IMF).
Dữ liệu của Ngân hàng phát triển Châu Á (The Asian Development Bank - ADB).
Dữ liệu của Tổ chức Lương thực và Nông nghiệp Liên Hiệp Quốc (Food and Agriculture Organization of the United Nations)
National Centers for Environmental Information: Dig into the world’s largest provider of weather and climate data.
https://download.bls.gov/pub/time.series/ Dữ liệu về time series
http://data.un.org/Default.aspx
https://unctadstat.unctad.org
https://www.bis.org/statistics/index.htm?m=6%7C37
https://ec.europa.eu/eurostat/data/database
https://sdw.ecb.europa.eu/
https://data.iadb.org/DataCatalog/Dataset
https://www.federalreserve.gov/data.htm
https://home.treasury.gov/
https://www.bea.gov/data/economic-accounts/international
https://fred.stlouisfed.org/
https://data.gov/
https://www.nationmaster.com/
https://www.indexmundi.com/
https://tradingeconomics.com/commodities
Federal Reserve balance sheets: https://www.federalreserve.gov
United Nations Human Development Reports: http://hdr.undp.org/en
World Debt Clocks: https://worlddebtclocks.com/US
World Government Bonds -CD Swaps: http://www.worldgovernmentbonds.com/sovereign-cds/
UK House price indices: https://landregistry.data.gov.uk/app/ukhpiUS
Treasury data sets https://fiscaldata.treasury.gov/datasets/
Silver Institute supply and demand https://www.silverinstitute.org/silver-supply-demand/
Measuring worth data sets on everything: https://www.measuringworth.com/index.php
Federal Reserve Data sets on everything: https://www.newyorkfed.org/research/data_indicators
Federal Reserve weekly balance sheet: https://www.federalreserve.gov/releases/h41/current/h41.htm
Penn World Table https://www.rug.nl/ggdc/productivity/pwt
Global Financial Data: https://www.globalfinancialdata.com
The World Factbook: https://www.cia.gov/the-world-factbook
Gapminder: https://www.gapminder.org
World Income Inequality Database (WIID): https://www.wider.unu.edu/data
Commodity Futures Trading Commission: https://www.cftc.gov/Marke…/CommitmentsofTraders/index.htm
U.S. Bureau of Labor Statistics: https://www.bls.gov/bls/api_features.htm
Migration Data Portal: https://www.migrationdataportal.org
Missing Migrants Project by International Organization for Migration (IOM): https://missingmigrants.iom.int/data
Our World In Data by Global Change Data Lab: https://ourworldindata.org/
QoG Data: https://www.gu.se/…/qog…/data-downloads/standard-dataset
UK Bank Database https://www.bankofengland.co.uk/boeapps/databas
Bank of Japan: https://www.boj.or.jp/en/statistics/index.htm
Một số tổ chức có khối lượng dữ liệu rất khổng lồ, để việc cung cấp dữ liệu trở nên bài bản hơn, khoa học hơn thì các tổ chức này sẽ cung cấp công cụ phục vụ cho việc này.
Để lấy được và lấy đúng dữ liệu chúng ta cần từ Worldbank chúng ta phải cài Package WDI và hiểu được tên các biến thống kê (indecator) do WB đặt. Tên và ý nghĩa của các indicator có thể tìm hiểu ở đường link: https://datahelpdesk.worldbank.org/knowledgebase/articles/201175-how-does-the-world-bank-code-its-indicators.
Sau khi đã hoàn thành bước cài đặt và tìm hiểu chúng ta sẽ thực hiện một số thao tác sau để tìm dữ liệu chúng ta cần và download về. Trong package WDI chúng ta thường xuyên sử dụng 2 hàm sau:
library(WDI)
library(DT)
library(tidyverse)
library(scales)
<- WDIsearch('gdp')
ind datatable(ind)
<- WDIsearch('Total reserves')
ind datatable(ind)
Chúng ta thấy kết quả của câu lệnh này sẽ trả về tên của các indicator và chú thích của chúng.
<- WDI(indicator = 'NY.GDP.PCAP.KD.ZG', country = 'VN', extra = T, start = 1960, end = 2022)
d <- d %>% select(year, NY.GDP.PCAP.KD.ZG)
tmp <- na.omit(tmp)
tmp names(tmp) <- c('year','GDP')
#tmp$GDP <- percent(tmp$GDP, accuracy = .01)
datatable(tmp)
Tương tự chúng có thể download dữ liệu về Dự trữ ngoại hối của Việt Nam theo tháng nhập khẩu và xử lý thì được kết quả như sau:
<- WDI(indicator = 'FI.RES.TOTL.MO', country = c('VN'), extra = T)
d <- d %>% select(year,FI.RES.TOTL.MO)
tmp <- na.omit(tmp)
tmp names(tmp) <- c('year','DuTru')
datatable(tmp)