เนื้อหาในบทนี้จะกล่าวถึงความรู้เบื้องต้นเกี่ยวกับ R โดยประกอบด้วย การอธิบายบทบาทและประสิทธิภาพของโปรแกรม R จากนั้นจะอธิบายวิธีการติดตั้งโปรแกรม และในส่วนท้ายของบทจะกล่าวถึงสภาพแวดล้อมของโปรแกรม R และการใช้โปรแกรม R พื้นฐาน รายละเอียดเป็นดังนี้
ปัจจุบัน R เป็นโปรแกรมทางสถิติที่ได้รับความนิยมเป็นอย่างสูงโดยเฉพาะในวงการนักสถิติ (statistician) นักวิเคราะห์ข้อมูล (data analyst) และนักวิทยาการข้อมูล (data scientist) จากการสำรวจปี ค.ศ. 2014 พบว่ามีผู้ใช้งานโปรแกรม R ทั่วโลกมากกว่า 2 ล้านคน และจากการจัดอันดับโปรแกรมภาษาที่ได้รับความนิยมมากที่สุดในปี 2017 โดยนิตยสาร IEEE spectrum พบว่า R เป็นโปรแกรมภาษาที่ได้รับความนิยมเป็นอันดับที่ 6 จากทั้งหมด 42 อันดับ และได้คะแนนการจัดอันดับคิดเป็นร้อยละ 87.7 ซึ่งสูงกว่าโปรแกรมทางสถิติและคณิตศาสตร์ชั้นนำหลายโปรแกรม เช่น SAS, Tableau, MATLAB, SPSS, Stata, Minitab และ JMP เป็นต้น
นอกจากนี้จากการสำรวจความต้องการในสายงานนักวิทยาการข้อมูล โดยเวปไซด์ http://r4stats.com/2017/02/28/r-passes-sas/ พบว่าทักษะการใช้โปรแกรม R เป็นทักษะที่มีความต้องการเป็นอันดับที่ 5 คิดเป็นตำแหน่งงานมากกว่า 8,000 ตำแหน่ง
R เป็นโปรแกรมที่มีประสิทธิภาพสูงสำหรับการทำงานทางด้านสถิติสมัยใหม่โดยเฉพาะงานด้านการวิเคราะห์ข้อมูล (data analysis) และด้านวิทยาการข้อมูล (data science) ความสามารถหลักของโปรแกรม R จำแนกได้เป็น 4 ด้าน
การเก็บรวบรวมข้อมูล (collecting data) โปรแกรม R มีความสามารถในการนำเข้าข้อมูลจากแหล่งต่าง ๆ ทั้งข้อมูลที่อยู่ในรูปแบบ Flat File, Excel File, Database, Website รวมทั้งไฟล์ข้อมูลจากโปรแกรมวิเคราะห์ข้อมูลทางสถิติต่าง เช่น SPSS, SAS, STATA และ MiniTab เป็นต้น ผู้เรียนจะได้ศึกษารายละเอียดของการนำไฟล์ข้อมูลประเภทต่าง ๆ จากหลายแหล่งเข้าสู่โปรแกรม R ในบทที่ 3
การจัดกระทำข้อมูล (manipulating data) นอกจากความสามารถในการนำเข้าไฟล์ข้อมูลที่หลากหลายแล้ว โปรแกรม R ยังมีความสามารถในการจัดกระทำข้อมูลเพื่อจัดระเบียบข้อมูลดิบที่นำเข้า และสร้างชุดข้อมูลใหม่ที่มีความพร้อมต่อการนำไปวิเคราะห์ข้อมูลตามวัตถุประสงค์การวิจัย โดยปกติการจัดกระทำข้อมูลสามารถจำแนกออกได้เป็น 3 กระบวนการย่อย ได้แก่ การสำรวจข้อมูลดิบ การจัดกระทำข้อมูล และการเตรียมชุดข้อมูลสำหรับการวิเคราะห์ตามวัตถุประสงค์การวิจัย ผู้เรียนจะได้ศึกษารายละเอียดในการใช้โปรแกรม R เพื่อจัดกระทำข้อมูลดังกล่าวในบทที่ 4
การสำรวจและวิเคราะห์ข้อมูล (explorating and analyzing data) โปรแกรม R มีฟังก์ชันที่รองรับการวิเคราะห์ข้อมูลด้วยโมเดลทางสถิติที่หลากหลายเทียบเท่า (หรืออาจมากกว่า) โปรแกรมวิเคราะห์ข้อมูลทางสถิติชัั้นนำ เช่น SPSS, SAS, Minitab และ Stata
การรายงานผลการวิเคราะห์(reporing the results) ความสามารถด้านนี้อาจจำแนกได้เป็นสองส่วน ส่วนแรกคือความสามารถในการสร้างทัศนภาพข้อมูล (visualizing data) ที่สามารถสร้างได้อย่างหลากหลายตามความต้องการของผู้วิจัย และมีความสวยงาม เป็นมืออาชีพ และส่วนที่สองคือความสามารถการสร้างรายงาน (report) ในหลากหลายรูปแบบทั้งในรูปแบบของ webpage, pdf document, word document และ presentation slide เป็นต้น ผ่านทาง package “R Markdown” ทำให้การสร้างและเผยแพร่ผลการวิเคราะห์สามารถทำได้โดยง่ายและไม่มีข้อจำกัด (report example) อีกทั้งยังสามารถนำเสนอผลการวิเคราะห์ได้อย่างหลากหลายโดยเฉพาะการนำเสนอทัศนภาพเชิงปฏิสัมพันธ์ (interactive data visualization) ที่การนำเสนอในรูปแบบกระดาษปกติไม่สามารถนำเสนอได้ ดังตัวอย่างในรูปที่ 3
Rstudio เป็นโปรแกรมที่ถูกพัฒนาขึ้นเพื่อเป็นเครื่องมือช่วยในการทำงานด้านการวิเคราะห์ข้อมูลด้วยภาษา R เรียกว่า Integrated Development Environment (IDE) โดยมีสิ่งอำนวยความสะดวกต่าง ๆ ให้แก่ผู้ใช้ ทำให้ผู้ใช้สามารถทำงานได้ง่าย รวดเร็ว และมีประสิทธิภาพมากขึ้น
ผู้เรียนสามารถศึกษาคุณสมบัติต่าง ๆ ของโปรแกรม RStudio ได้เพิ่มเติมจาก website: https://www.rstudio.com/products/rstudio/features/
ถึงแม้ว่าในบทเรียนนี้จะใช้ RStudio เป็นหลัก แต่การทำงานของ RStudio จำเป็นต้องใช้โปรแกรม R เป็นเครื่องมือในการประมวลผลเบื้องหลัง ดังนั้นการติดตั้งโปรแกรมในครั้งแรกผู้วิเคราะห์จำเป็นต้องติดตั้งทั้งโปรแกรม R และ RStudio โดยมีขั้นตอนดังต่อไปนี้
เข้าสู่ website download R
ดำเนินการติดตั้งโปรแกรมตามคำแนะนำของตัวช่วยติดตั้ง
โปรดตอบคำถามในแบบรายงานตนเองตามจริง
ในบทเรียนนี้จะกล่าวถึงสภาพแวดล้อมของโปรแกรม R และการใช้งานโปรแกรมพื้น โปรแกรม R ประกอบด้วยหน้าต่างทำงานจำนวน 3 หน้าต่างได้แก่ R Console, Editor และ Graphics
การเรียกใช้หน้าต่าง Editor สามารถทำได้โดยการคลิกเลือกที่เมนู File ที่แถบเมนูด้านบนจากนั้นเลือก “New Script” (สำหรับระบบปฏิบัติการ Windows) หรือเลือก “New Document” (สำหรับระบบปฏิบัติการ MacOS) ด้วยการทำ highlight ที่คำสั่งแล้วกดปุ่ม clt+R
(สำหรับ ระบบปฏิบัติการ Windows) หรือกดปุ่ม command+return
(สำหรับระบบปฏิบัติการ MacOS) ดังตัวอย่างในรูปที่ 2.3
x<-c(30,70)
barplot(x)
โปรแกรม R มีฟังก์ชันพื้นฐานสำหรับการคำนวณทางคณิตศาสตร์หลายฟังก์ชัน ตารางที่ 2.1 แสดงฟังก์ชันทางคณิตศาสตร์พื้นฐานที่ใช้บ่อย
ตาราง 2.1 ฟังก์ชันทางคณิตศาสตร์พื้นฐานในโปรแกรม R(1.1) \(6+16=?\)
(1.2) \(20-6=?\)
(1.3) \(4 \times 5=?\)
(1.4) \(\sqrt{52^4}=?\)
(1.5) \(exp(10) \div exp(5)=?\)
โดยใส่คำตอบที่ได้ลงในแบบบันทึกคำตอบField, A. P., Miles, J., & Field, Z. (2014). Discovering statistics using R. London: Sage.
Hadley Wickham, Jim Hester and Romain Francois (2017). readr: Read Rectangular Text Data. R package version 1.1.1. https://CRAN.R-project.org/package=readr
Hadley Wickham, Romain Francois, Lionel Henry and Kirill Müller (2017). dplyr: A
Grammar of Data Manipulation. R package version 0.7.4. https://CRAN.R-project.org/package=dplyr
Hadley Wickham (2017). tidyverse: Easily Install and Load the ‘Tidyverse’. R package version 1.2.1. https://CRAN.R-project.org/package=tidyverse
Howell, D.C. (2010). Statistical methods for psychology, (Seventh Edition). Belmont: Wadsworth, Cengage Learning.
Schumacker, R. E. (2014). Learning statistics using R. Thousand Oaks, CA: SAGE.