12 July 2021

Phân tích dữ liệu

Một số khái niệm

  • Chúng ta đang bước vào kỷ nguyên số với nhu cầu lưu trữ và khai thác các nguồn dữ liệu (Big Data) ngày một lớn. Trở thành một nhà phân tích dữ liệu hoặc đảm nhiệm các vị trí liên quan đến lĩnh vực phân tích dữ liệu là công việc có ý nghĩa quan trọng với bất kì tổ chức, doanh nghiệp nào.

  • Phân tích dữ liệu (Data Analysis) là một chuyên ngành trong Công nghệ thông tin. Công việc tập trung vào việc thu thập, khai thác, quản lý và xử lý bộ dữ liệu. Từ đó đưa ra các nhận định, dự đoán xu hướng hoạt động của tương lai. Phân tích dữ liệu có thể bao gồm phân tích dữ liệu thăm dò (EDA), phân tích dữ liệu xác nhận, phân tích dữ liệu định lượng và phân tích dữ liệu định tính.

  • Quá trình phân tích dữ liệu

Data Science

Khoa học dữ liệu

     Khoa học dữ liệu (data science) ở cấp độ cơ bản nhất được định nghĩa là sử dụng dữ liệu để có được thông tin chuyên sâu và có giá trị. Ở mức cao hơn, khoa học dữ liệu là sự kết hợp phức tạp của các kỹ năng như lập trình, trực quan hóa dữ liệu, công cụ dòng lệnh, cơ sở dữ liệu, thống kê, học máy và nhiều hơn nữa để phân tích dữ liệu và thu thập thông tin giá trị từ số lượng lớn dữ liệu.

     Nói cách khác, Data science là sự tổng hòa của 3 khía cạnh: toán học và thống kê; khoa học máy tínhhiểu biết về kinh doanh

Lựa chọn ngôn ngữ phù hợp

So sánh các ngôn ngữ

     Chúng ta có thể theo dõi tỷ lệ so sánh dưới đây, khảo sát do Analytics India Magazine thực hiện năm 2019 cho biết ngôn ngữ lập trình ưa thích của các nhà tuyển dụng:

  • Ngôn ngữ Python
  • Ngôn ngữ R (trước đây là ngôn ngữ S)
  • Ngôn ngữ SPSS
  • Ngôn ngữ SAS
  • Ngôn ngữ Matlab

Ngôn ngữ R

Giới thiệu ngôn ngữ R

     R là một ngôn ngữ lập trình và môi trường thường được sử dụng trong tính toán thống kê, phân tích dữ liệu và nghiên cứu khoa học. Đây là một trong những ngôn ngữ phổ biến dùng cho thu thập, làm sạch, phân tích, biểu đồ hóa và biểu diễn dữ liệu. Nhờ vào giao diện dễ sử dụng và cú pháp dễ hiểu, R trở nên phổ biến nhanh trong những năm gần đây. R là một ngôn ngữ lập trình mà nhiều nhà phân tích dữ liệu, nhà khoa học dữ liệu, nhà thống kê sử dụng cho mục đích phân tích dữ liệu và thực hiện phân thích thống kê bằng biểu đồ và các công cụ trực quan khác. Qua việc sử dụng R, người ta có thể phân tích các bộ dữ liệu lớn(big data) . R đang nổi lên như là một ngôn ngữ mang nhiều tiềm năng và ngày càng mở rộng với hàng ngàn gói (packages) cung cấp cho nhiều ứng dụng.

     Chi tiết hơn xem bài viết tại đây

Ngôn ngữ R

Một số thư viện

Giới thiệu một số thư viện thống kê

     Thống kê là một bộ môn khoa học về dữ liệu. Dữ liệu có thể được thu thập từ những nghiên cứu khoa học, những cũng có thể bắt nguồn từ những “thí nghiệm tự nhiên” trong xã hội và đời sống hàng ngày. Khoa học thống kê (statistical science) và những phương pháp thống kê giúp chúng ta chuyển hóa dữ liệu thô thành thông tin, và với kiến thức chuyên ngành, biến thông tin thành tri thức. Do đó, khoa học thống kê đóng một vai trò không thể thiếu được trong việc hoán chuyển dữ liệu thành thông tin và tri thức.

     Bài viết sau đây sẽ giới thiệu một số package quan trọng trong R về xử lý dữ liệu thống kê, xem tại đây

Thực hành trên máy tính

Thực hành phân tích thống kê trong R

Visualization

Trực quan dữ liệu - Visualization

  • Sự cần thiết của trực quan dữ liệu

Xem Bài viết

  • Nguyên tắc thiết kế biểu đồ

Xem Bài viết

Thực hành trực quan hóa dữ liệu với thư viện ggplot2 # WordCloud ## WordCloud with TextMining * Khái niệm TextMining

     Về bản chất, Text Mining là các phương pháp cho phép chúng ta miêu tả, làm sáng tỏ các từ khóa được sử dụng nhiều nhất trong 1 đoạn văn bản hoặc 1 đoạn văn bản. Khi mô phỏng dữ liệu trong đoạn văn bản này, dữ liệu sẽ được mô phỏng theo dạng hình đám mây từ ngữ - word cloud và diễn giải các từ được sử dụng nhiều nhất.

     Trong R, chúng ta sử dụng hai thư viện khi làm việc liên quan đến nội dung này:

  • Thư viện tm : Sử dụng cho khai phá văn bản - text mininig

  • Thư viện wordcloud: Sử dụng để mô phỏng dữ liệu dạng đám mây

  • Ứng dụng xây dựng WordCloud trong R

Xem bài viết

Lời kết

Một số vấn đề đề cập

     Thống kê là một bộ môn khoa học về dữ liệu. Dữ liệu có thể được thu thập từ những nghiên cứu khoa học, những cũng có thể bắt nguồn từ những “thí nghiệm tự nhiên” trong xã hội và đời sống hàng ngày. Khoa học thống kê (statistical science) và những phương pháp thống kê giúp chúng ta chuyển hóa dữ liệu thô thành thông tin, và với kiến thức chuyên ngành, biến thông tin thành tri thức. Do đó, khoa học thống kê đóng một vai trò không thể thiếu được trong việc hoán chuyển dữ liệu thành thông tin và tri thức.

     Máy tính mà không có phần mềm thì máy tính cũng chỉ là một đống sắt hay silicon “vô hồn” và vô dụng. Một phần mềm đã, đang và sẽ làm cách mạng thống kê là R. Phần mềm này được một số nhà nghiên cứu thống kê và khoa học trên thế giới phát triển và hoàn thiện trong khoảng 20 năm qua để sử dụng cho việc học tập, giảng dạy và nghiên cứu.

     Hy vọng với chút kiến thức nhỏ nhoi trong thời đại của kỷ nguyên số, kỷ nguyên của Bigdata sẽ giúp các bạn phần nào có những khái niệm về phân tích và trực quan dữ liệu, một công việc đã, đang và sẽ rất cần thiết trong mọi lĩnh vực của tương lai.

Xin trân trọng cám ơn!

Tác giả

Một chút chia sẻ

     Cuộc sống là những hành trình khám phá bất tận. Chúng ta luôn đặt ra các câu hỏi khám phá và tìm ra câu trả lời về những câu hỏi đó. “Một câu hỏi đúng được đặt ra thì tốt hơn rất nhiều lần so với việc có hàng nghìn câu trả lời đúng cho một câu hỏi sai - John Tukey”. Hãy không ngừng đam mê và khám phá!

Thank you

Thank you for your attention