Week 3 Importing Data & Basic Programming

Outline

** Relational Operators

** Logical Operators

** Conditional Statement

** Looping Operators

** Create Function in R

Importing Data

จากที่กล่าวไว้ในบทก่อนหน้าว่า การนำเข้าข้อมูลในโปรแกรม R สามารถทำได้สองแนวทางใหญ่ ๆ แนวทางแรกคือการนำข้อมูลเข้าสู่โปรแกรม R โดยตรง ซึ่งได้กล่าวรายละเอียดไว้แล้วในบทก่อนหน้านี้ ในบทนี้จะกล่าวถึงการนำเข้าข้อมูลจากไฟล์ข้อมูลได้แก่

  1. Flat Files

  2. Excel Files

  3. SPSS Files

การกำหนด Working Directory (wd)

สิ่งสำคัญประการหนึ่งที่ผู้วิเคราะห์ข้อมูลจำเป็นในการนำเข้าข้อมูลจากไฟล์ข้อมูลอื่น ๆ คือการกำหนด directory หรือ folder สำหรับเรียกและบันทึกไฟล์ข้อมูล รวมทั้ง script file และไฟล์อื่น ๆ ที่นักวิเคราะห์ใช้ในการทำงาน

ฟังก์ชันที่เกี่ยวข้องกับการเรียกและกำหนด wd มีสองฟังก์ชันได้แก่

setwd("path")

โดยที่ path คือที่อยู่ของ wd ที่ผู้วิเคราะห์ต้องการกำหนด โดยที่อยู่ดังกล่าวจะเป็นต้องอยู่ภายใต้เครื่องหมาย quotation เช่น

ยกตัวอย่างเช่น

setwd("~/Desktop")
getwd()
## [1] "/Users/siwachoat/Desktop"
setwd("/Users/siwachoat/Documents")
getwd()
## [1] "/Users/siwachoat/Documents"

Flat Files

คือไฟล์ที่เก็บข้อมูลอยู่ในรูปแบบข้อความทั่วไป (plain text file) โดยไม่มีโครงสร้างตารางในการเก็บข้อมูล แต่ละบรรทัดในไฟล์จะเรียกว่า เรคคอร์ด (record) ที่ประกอบด้วยสองส่วน ได้แก่ ส่วนบรรทัดแรก เรียกว่า ชื่อฟีลด์ (field name) หรือชื่อของตัวแปรในแต่ละคอลัมน์ของไฟล์ข้อมูล และส่วนที่สองตั้งแต่บรรทัดที่สองเป็นต้นไปคือส่วนของข้อมูล (data) โดยที่ข้อมูลในแต่ละเรคคอร์จะถูกคั่นด้วย ตัวคั่น (delimiters) เช่น เครื่องหมายวรรคตอน (comma “,”) หรือเว้นวรรค (tab) ในบทนี้จะกล่าวถึง flat file สองชนิดที่ผู้วิเคราะห์พบเจอได้ทั่วไปในปัจจุบัน ได้แก่ CSV และ tab-delimited

โครงสร้าง .csv Files

การนำข้อมูลจากไฟล์ .csv เข้าสู่โปรแกรม R สามารถทำได้โดยใช้คำสั่ง read.csv() ซึ่งอยู่ภายใต้ “utils packages” โดยมีรูปแบบคำสั่งดังนี้

read.csv("file.csv",header=TRUE)
โครงสร้าง tab-delimited Files

Relational Operators

การเขียนโปรแกรมส่วนมากมักต้องใช้การเปรียบค่าของตัวแปร หรือค่าของสมาชิกภายในเวกเตอร์ หรือเมทริกซ์ เพื่อใช้เป็นเกณฑ์ประกอบการตัดสินใจ เครื่องมือในการเขียนโปรแกรมสำหรับการเปรียบเทียบค่าดังกล่าวเรียกว่า ตัวดำเนินการความสัมพันธ์ (relational operators) ซึ่งประกอบด้วยตัวดำเนินการดังรายละเอียดในตาราง

Operator R Syntax ความหมาย
\(=\) == เท่ากับ (equal)
\(\neq\) != ไม่เท่ากับ (unequal)
\(>\) > มากกว่า (greater than)
\(<\) < น้อยกว่า (less than)
\(\geqslant\) >= มากกว่าหรือเท่ากับ (greater than or equal)
\(\leqslant\) <= น้อยกว่าหรือเท่ากับ (less than or equal)