1 Danh sách (list) trong ngôn ngữ R

Trong ngôn ngữ R, danh sách (list) là một cấu trúc dữ liệu linh hoạt có thể chứa các phần tử thuộc nhiều loại dữ liệu khác nhau, bao gồm con số, chuỗi kí tự, vector, hàm và thậm chí là các danh sách khác (nested list) hoặc một cách tổng quát: bất kì R object nào. Dưới đây là một phân tích tổng quan về bản chất và đặc điểm của danh sách trong R:

Tính đa dạng: Danh sách có thể chứa đồng thời nhiều loại dữ liệu. Ví dụ, một danh sách có thể lưu đồng thời giá trị số, vector ký tự, một matrix, một dataframe, hàm và thậm chí là một danh sách khác.

Đa số kết quả phân tích thống kê thường xuất ra dưới dạng list, bên trong chứa nhiều thông tin. Ví dụ một mô hình có thể bao gồm bảng kết quả, dữ liệu gốc, các thông số kỹ thuật. Dataframe trong R cũng có bản chất là list.

Tính Đệ quy: Danh sách có thể chứa các danh sách khác. Điều này làm cho chúng trở nên đệ quy, vì cấu trúc của chúng có thể được lồng ghép vào nhau.

Kích thước Kích thước của danh sách đề cập đến số lượng phần tử mà nó chứa, R list có thể có bất kỳ kích thước nào, kể cả list rỗng (kích thước = 0)

Đặt tên: Các phần tử của danh sách có thể đặt tên. Những tên này có thể được sử dụng để tham chiếu đến các phần tử, tính năng này gần giống với key trong Python dictionary.

Chỉ mục: Các phần tử trong một danh sách có thể được truy cập sử dụng ký hiệu ngoặc vuông kép [[ ]] hoặc dollar $ nếu các phần tử được đặt tên. Ngoặc vuông đơn [ ] trả về một danh sách con thay vì chính phần tử đó.

Linh hoạt: Kích thước và nội dung của danh sách có thể được sửa đổi. Bạn có thể thêm, xóa và sửa đổi các phần tử bên trong danh sách.

Tính linh động: Trong R, loại (type) của các phần tử trong danh sách có thể thay đổi trong thời gian thi hành (giống như ngôn ngữ Python hay JavaScript, và khác với ngôn ngữ C hay Java)

Python dictionary là cấu trúc dữ liệu tương đồng nhất về tính năng so với R list, tuy nhiên Python dict có tốc độ tìm và truy xuất dữ liệu nhanh hơn do dựa trên hashtable trong khi R list có hiệu suất kém hơn do có bản chất là array.

2 Ví dụ về công dụng của list trong lập trình hàm

Giả sử ta cần viết một hàm cho phép vẽ 1 trong 3 loại biểu đồ: density plot, histogram hoặc dot plot, do người dùng tùy chọn qua parameter plot_type:

Giải pháp sơ cấp thường được nghĩ đến là dùng câu lệnh điều kiện (control flow) với if và else if như sau:

library(tidyverse)
dist_plot_1 <- function(data, x, plot_type) {
  # Check if the provided column name is valid
  if (!x %in% names(data)) {
    stop("The specified column does not exist in the data frame.")
  }
  
  # Check if the plot type is valid
  valid_plot_types <- c("kde", "hist", "dot")
  if (!plot_type %in% valid_plot_types) {
    stop("Unknown plot type. Valid plot types are: ", paste(valid_plot_types, collapse = ", "))
  }
  
  # Generate the plot based on the type
  p <- ggplot(data, aes_string(x = x))
  
  if (plot_type == "kde") {
    p <- p + geom_density(fill = "blue", alpha = 0.5) + 
      labs(title = paste("Kernel Density Estimate of", x))
  } else if (plot_type == "hist") {
    p <- p + geom_histogram(fill = "red", alpha = 0.5) + 
      labs(title = paste("Histogram of", x))
  } else if (plot_type == "dot") {
    p <- p + geom_dotplot(binaxis = 'x', dotsize = 1) + 
      labs(title = paste("Dot Plot of", x))
  }
  
  # Return the plot
  return(p)
}

Ta có thể áp dụng list để thay cho cấu trúc if_else, vì biết rằng list có thể chứa bất cứ object nào, nên ở đây ta dùng list để chứa các ggplot layers khác nhau (bản chất là hàm), với key là plot_type.

dist_plot_2a <- function(data, x, plot_type) {
  # Check if the provided column name is valid
  if (!x %in% names(data)) {
    stop("The specified column does not exist in the data frame.")
  }
  
  # Define a list of ggplot layers for each plot type
  plot_layers <- list(
    kde = geom_density(aes_string(x = x), fill = "blue", alpha = 0.5),
    hist = geom_histogram(aes_string(x = x), fill = "red", alpha = 0.5),
    dot = geom_dotplot(aes_string(x = x), binaxis = 'x', dotsize = 1)
  )
  
  # Get the ggplot layer from the list based on plot_type
  layer <- plot_layers[[plot_type]]
  
  # Check if plot_type is valid and layer exists
  if (is.null(layer)) {
    stop("Unknown plot type. Valid plot types are: 'kde', 'hist', 'dot'.")
  }
  
  # Create the ggplot object with the specified layer and return it
  p <- ggplot(data) + layer + labs(title = paste(plot_type, "of", x))
  
  return(p)
}

Ta còn có thể dùng nested_list để truy xuất cả layer (function) và title (string) cho mỗi plot_type

dist_plot_2b <- function(data, x, plot_type) {
  # Validate input
  if (!x %in% names(data)) {
    stop("The specified column does not exist in the data frame.")
  }
  
  # Mapping of plot types to ggplot layers and additional settings
  plot_layers <- list(
    kde = list(layer = geom_density(fill = "blue", alpha = 0.5), title = "Kernel Density Estimate"),
    hist = list(layer = geom_histogram(fill = "red", alpha = 0.5), title = "Histogram"),
    dot = list(layer = geom_dotplot(binaxis = 'x', dotsize = 0.5), title = "Dot Plot")
  )
  
  # Retrieve the plot settings for the specified plot_type
  plot_setting <- plot_layers[[plot_type]]
  if (is.null(plot_setting)) {
    stop("Unknown plot type. Valid plot types are: 'kde', 'hist', 'dot'.")
  }
  
  # Create the ggplot object and add the layer and title
  p <- ggplot(data, aes_string(x = x)) +
    plot_setting$layer +
    labs(title = paste(plot_setting$title, "of", x))
  
  return(p)
}

Một cách tổng quát, ta có thể dùng list để chứa các hàm anonymous với nội dung tùy thích như sau:

dist_plot_3 <- function(data, x, plot_type) {
  # Check if the provided column name is valid
  if (!x %in% names(data)) {
    stop("The specified column does not exist in the data frame.")
  }
  
  # Define a list of plot types and their corresponding ggplot2 functions
  plot_types <- list(
    "kde" = function() ggplot(data, aes_string(x = x)) + 
      geom_density(fill = "blue", alpha = 0.5),
    "hist" = function() ggplot(data, aes_string(x = x)) + 
      geom_histogram(fill = "red", alpha = 0.5),
    "dot" = function() ggplot(data, aes_string(x = x)) + 
      geom_dotplot(binaxis = 'x', dotsize = 1)
  )
  
  # Check if the plot type is valid and get the corresponding function
  plot_func <- plot_types[[plot_type]]
  if (is.null(plot_func)) {
    stop("Unknown plot type. Valid plot types are: ", paste(names(plot_types), collapse = ", "))
  }
  
  # Generate and return the plot
  p <- plot_func()
  p + labs(title = paste(plot_type, "Plot of", x))
}

Thay vì dùng trực tiếp list, trong ngôn ngữ R còn có cấu trúc điều kiện rẽ nhánh (switch), bản chất của nó cũng là một list chứa các object được tạo ra trong lúc thi hành tùy theo từ khóa điều kiện

dist_plot_4 <- function(data, x, plot_type) {
  # Check if the provided column name is valid
  if (!x %in% names(data)) {
    stop("The specified column does not exist in the data frame.")
  }
  
  # Define the plot
  p <- ggplot(data, aes_string(x = x))
  
  # Generate the plot based on the type using switch
  p <- switch(plot_type,
              kde = p + geom_density(fill = "blue", alpha = 0.5) + 
                labs(title = paste("Kernel Density Estimate of", x)),
              hist = p + geom_histogram(fill = "red", alpha = 0.5) + 
                labs(title = paste("Histogram of", x)),
              dot = p + geom_dotplot(binaxis = 'x', 
                                     dotsize = 1) + 
                labs(title = paste("Dot Plot of", x)),
              stop("Unknown plot type. Valid plot types are: kde, hist, dot")
  )
  
  # Return the plot
  return(p)
}
