12 July 2021
Chúng ta đang bước vào kỷ nguyên số với nhu cầu lưu trữ và khai thác các nguồn dữ liệu (Big Data) ngày một lớn. Trở thành một nhà phân tích dữ liệu hoặc đảm nhiệm các vị trí liên quan đến lĩnh vực phân tích dữ liệu là công việc có ý nghĩa quan trọng với bất kì tổ chức, doanh nghiệp nào.
Phân tích dữ liệu (Data Analysis) là một chuyên ngành trong Công nghệ thông tin. Công việc tập trung vào việc thu thập, khai thác, quản lý và xử lý bộ dữ liệu. Từ đó đưa ra các nhận định, dự đoán xu hướng hoạt động của tương lai. Phân tích dữ liệu có thể bao gồm phân tích dữ liệu thăm dò (EDA), phân tích dữ liệu xác nhận, phân tích dữ liệu định lượng và phân tích dữ liệu định tính.
Quá trình phân tích dữ liệu
Khoa học dữ liệu (data science) ở cấp độ cơ bản nhất được định nghĩa là sử dụng dữ liệu để có được thông tin chuyên sâu và có giá trị. Ở mức cao hơn, khoa học dữ liệu là sự kết hợp phức tạp của các kỹ năng như lập trình, trực quan hóa dữ liệu, công cụ dòng lệnh, cơ sở dữ liệu, thống kê, học máy và nhiều hơn nữa để phân tích dữ liệu và thu thập thông tin giá trị từ số lượng lớn dữ liệu.
Nói cách khác, Data science là sự tổng hòa của 3 khía cạnh: toán học và thống kê; khoa học máy tính và hiểu biết về kinh doanh
Chúng ta có thể theo dõi tỷ lệ so sánh dưới đây, khảo sát do Analytics India Magazine thực hiện năm 2019 cho biết ngôn ngữ lập trình ưa thích của các nhà tuyển dụng:
R là một ngôn ngữ lập trình và môi trường thường được sử dụng trong tính toán thống kê, phân tích dữ liệu và nghiên cứu khoa học. Đây là một trong những ngôn ngữ phổ biến dùng cho thu thập, làm sạch, phân tích, biểu đồ hóa và biểu diễn dữ liệu. Nhờ vào giao diện dễ sử dụng và cú pháp dễ hiểu, R trở nên phổ biến nhanh trong những năm gần đây. R là một ngôn ngữ lập trình mà nhiều nhà phân tích dữ liệu, nhà khoa học dữ liệu, nhà thống kê sử dụng cho mục đích phân tích dữ liệu và thực hiện phân thích thống kê bằng biểu đồ và các công cụ trực quan khác. Qua việc sử dụng R, người ta có thể phân tích các bộ dữ liệu lớn(big data) . R đang nổi lên như là một ngôn ngữ mang nhiều tiềm năng và ngày càng mở rộng với hàng ngàn gói (packages) cung cấp cho nhiều ứng dụng.
Chi tiết hơn xem bài viết tại đây
Ngôn ngữ R
Thống kê là một bộ môn khoa học về dữ liệu. Dữ liệu có thể được thu thập từ những nghiên cứu khoa học, những cũng có thể bắt nguồn từ những “thí nghiệm tự nhiên” trong xã hội và đời sống hàng ngày. Khoa học thống kê (statistical science) và những phương pháp thống kê giúp chúng ta chuyển hóa dữ liệu thô thành thông tin, và với kiến thức chuyên ngành, biến thông tin thành tri thức. Do đó, khoa học thống kê đóng một vai trò không thể thiếu được trong việc hoán chuyển dữ liệu thành thông tin và tri thức.
Bài viết sau đây sẽ giới thiệu một số package quan trọng trong R về xử lý dữ liệu thống kê, xem tại đây
Giới thiệu về bộ dữ liệu PISA và lấy dữ liệu tại đây (https://github.com/quytran88/Dataset-PISA). Các bạn download dữ liệu về từ github và load dữ liệu vào RStudio. Để download R và RStudio các bạn vào link sau:
Download R: https://cran.r-project.org/bin/windows/base/
Download RStudio (IDE of R): https://www.rstudio.com/products/rstudio/#rstudio-desktop
Thực hành phân tích dữ liệu PISA
Xem Bài viết
Xem Bài viết
Thực hành trực quan hóa dữ liệu với thư viện ggplot2 # WordCloud ## WordCloud with TextMining * Khái niệm TextMining
Về bản chất, Text Mining là các phương pháp cho phép chúng ta miêu tả, làm sáng tỏ các từ khóa được sử dụng nhiều nhất trong 1 đoạn văn bản hoặc 1 đoạn văn bản. Khi mô phỏng dữ liệu trong đoạn văn bản này, dữ liệu sẽ được mô phỏng theo dạng hình đám mây từ ngữ - word cloud và diễn giải các từ được sử dụng nhiều nhất.
Trong R, chúng ta sử dụng hai thư viện khi làm việc liên quan đến nội dung này:
Thư viện tm : Sử dụng cho khai phá văn bản - text mininig
Thư viện wordcloud: Sử dụng để mô phỏng dữ liệu dạng đám mây
Ứng dụng xây dựng WordCloud trong R
Xem bài viết
Thống kê là một bộ môn khoa học về dữ liệu. Dữ liệu có thể được thu thập từ những nghiên cứu khoa học, những cũng có thể bắt nguồn từ những “thí nghiệm tự nhiên” trong xã hội và đời sống hàng ngày. Khoa học thống kê (statistical science) và những phương pháp thống kê giúp chúng ta chuyển hóa dữ liệu thô thành thông tin, và với kiến thức chuyên ngành, biến thông tin thành tri thức. Do đó, khoa học thống kê đóng một vai trò không thể thiếu được trong việc hoán chuyển dữ liệu thành thông tin và tri thức.
Máy tính mà không có phần mềm thì máy tính cũng chỉ là một đống sắt hay silicon “vô hồn” và vô dụng. Một phần mềm đã, đang và sẽ làm cách mạng thống kê là R. Phần mềm này được một số nhà nghiên cứu thống kê và khoa học trên thế giới phát triển và hoàn thiện trong khoảng 20 năm qua để sử dụng cho việc học tập, giảng dạy và nghiên cứu.
Hy vọng với chút kiến thức nhỏ nhoi trong thời đại của kỷ nguyên số, kỷ nguyên của Bigdata sẽ giúp các bạn phần nào có những khái niệm về phân tích và trực quan dữ liệu, một công việc đã, đang và sẽ rất cần thiết trong mọi lĩnh vực của tương lai.
Xin trân trọng cám ơn!
Cuộc sống là những hành trình khám phá bất tận. Chúng ta luôn đặt ra các câu hỏi khám phá và tìm ra câu trả lời về những câu hỏi đó. “Một câu hỏi đúng được đặt ra thì tốt hơn rất nhiều lần so với việc có hàng nghìn câu trả lời đúng cho một câu hỏi sai - John Tukey”. Hãy không ngừng đam mê và khám phá!