데이터의 종류

변수 : var_ // variable
상수 : const_ // constant
값 : data
스페이스 두 번 줄 바꾸기
샵 글자 크기 키우기

var.a <- 1
var.b <- 2
var.a + var.b

함수의 종류

c() 숫자타입의 벡터를 생성
vec.a <- c(1,2,5,7,8)
vec.a
vec.b <- c(1:5)
vec.c <- seq(1,10,by=2)
vec.c
vec.b + vec.c
c() 문자타입의 벡터를 생성
var.a <- c("Hello", "world","is","good!!!")
var.a
[1] "Hello"   "world"   "is"      "good!!!"

scalar

스칼라(영어: scalar 스케일러[*])란 크기와 방향을 가지는 벡터에 대비하는 개념으로, 크기만 있고 방향을 가지지 않는 양을 말한다.
위키백과

vector

벡터(vector)는 방향과 크기의 의미를 모두 포함하는 표현 도구로서 주로 힘이나 자기장, 전기장, 변위 등의 물리적 개념을 설명할 때 이용된다. 위키백과 동일한 패턴.,

dataframe

정형 데이터를 저장하는 장소 벡터가 확장된 개념 > row(case, 대상 하나의 정보)과 column(var.data)로 구성된 표

vec.name <- c("김지훈","이유진","박동현","김민지")
vec.name
vec.eng <- c(90,80,60,70)
vec.eng
vec.math <- c(50,60,100,20)
vec.math
df.score <- data.frame(vec.name, vec.eng, vec.math)
df.score
id <- c(1:6)
class <- c(1,1,1,1,2,2)
math <- c(50,60,45,30,23,50)
english <- c(98,97,86,98,80,89)
science <- c(50,60,78,58,65,98)

df.score <- data.frame(id,class,math,english,science)
df.score

vec.name <- c(“김지훈”,“이유진”,“박동현”,“김민지”) vec.name vec.eng <- c(90,80,60,70) vec.eng vec.math <- c(50,60,100,20) vec.math vec.class <- c(1,1,2,2) vec.class df.score <- data.frame(vec.name, vec.eng, vec.math, vec.class) df.score

id <- c(1:10) class <- c(1,1,1,1,1,2,2,2,2,2) math <- c(50,60,45,30,23,50,30,25,50,50) english <- c(98,97,86,98,80,89,30,25,50,50) science <- c(50,60,78,58,65,98,30,25,50,50)

df.score <- data.frame(id,class,math,english,science) #전체 학생 점수 보기 df.score # n번째 row 까지만 보여주기 head(df.n) 함수 p.101 head(df.score, 8)

밑에서 n번째 row 까지만 보여주기 tail(df.n) 함수 p.102

tail(df.score, 8)

뷰어창에서 df 확인 View(df) *View의 V는 대문자 View(df.score)

df , row count, col count // 디멘션은 쓰지 말고 보통 스트럭쳐 씀

dim(df.score)

str() structure 를 나타내는 함수

str(df.score)

summary() 요약

summary(df.score)

df.score <- difly::rename( df.score, id=uid)

df.score %>% #파이프라인

data.table::setnames(

)

library(dplyr)

df.score %>% data.table::setnames( old = “id”, new = “아이디” ) df.score df.score\(총점 <- df.score\)math + df.score\(english + df.score\)science df.score\(평균 <- df.score\)총점 / 3 df.score

hist(df.score$총점) #p.116

ifelse()

df.score\(합격여부 <- ifelse(df.score\)평균>=50, “합격”, “불합격”)

df.score\(등급 <- ifelse(df.score\)평균>=50, “A”, ifelse(df.score$평균>=30, “B”, “C”))

table()

library(ggplot2) ggplot2::qplot(df.score$합격여부)

package

library(ggplot2) # 이 파일로 불러오는 것 df.mpg <- as.data.frame(ggplot2::mpg)

4함수 :: headm tail, str, summary

head(df.mpg) tail(df.mpg) str(df.mpg) summary(df.mpg)

‘data.frame’: 234 obs. of 11 variables:

$ manufacturer(제조회사): chr “audi” “audi” “audi” “audi” …

$ model(모델) : chr “a4” “a4” “a4” “a4” …

$ displ(배기량) : num 1.8 1.8 2 2 2.8 2.8 3.1 1.8 1.8 2 …

$ year(생산연도) : int 1999 1999 2008 2008 1999 1999 2008 1999 1999 2008 …

$ cyl(실린더 개수) : int 4 4 4 4 6 6 6 4 4 4 …

$ trans(변속기 종류) : chr “auto(l5)” “manual(m5)” “manual(m6)” “auto(av)” …

$ drv(구동 방식) : chr “f” “f” “f” “f” …

$ cty(도시 연비) : int 18 21 20 21 16 18 18 18 16 20 …

$ hwy(고속도로 연비) : int 29 29 31 30 26 26 27 26 25 28 …

$ fl(연료 종류) : chr “p” “p” “p” “p” …

$ class(자동차 종류) : chr “compact” “compact” “compact” “compact” …

> summary(df.mpg)

manufacturer model displ year

Length:234 Length:234 Min. :1.600 Min. :1999

Class :character Class :character 1st Qu.:2.400 1st Qu.:1999

Mode :character Mode :character Median :3.300 Median :2004

Mean :3.472 Mean :2004

3rd Qu.:4.600 3rd Qu.:2008

Max. :7.000 Max. :2008

cyl trans drv cty

Min. :4.000 Length:234 Length:234 Min. : 9.00

1st Qu.:4.000 Class :character Class :character 1st Qu.:14.00

Median :6.000 Mode :character Mode :character Median :17.00

Mean :5.889 Mean :16.86

3rd Qu.:8.000 3rd Qu.:19.00

Max. :8.000 Max. :35.00

hwy fl class

Min. :12.00 Length:234 Length:234

1st Qu.:18.00 Class :character Class :character

Median :24.00 Mode :character Mode :character

Mean :23.44

3rd Qu.:27.00

Max. :44.00

library(ggplot2) midwest <- as.data.frame(ggplot2::midwest)

head(midwest)

library(dplyr) df.midwest %>% data.table::setnames(old = “popasian”, new = “asian”) df.midwest

midwest\(ratio <- midwest\)asian/midwest\(total*100 hist(midwest\)ratio)

mean(midwest$ratio)

midwest\(group <- ifelse(midwest\)ratio > 0.4872462, “large”, “small”)

table(midwest$group)

library(ggplot2) qplot(midwest$group)

