데이터의 종류
변수 : var_ // variable
상수 : const_ // constant
값 : data
스페이스 두 번 줄 바꾸기
샵 글자 크기 키우기
var.a <- 1
var.b <- 2
var.a + var.b
함수의 종류
c() 숫자타입의 벡터를 생성
vec.a <- c(1,2,5,7,8)
vec.a
vec.b <- c(1:5)
vec.c <- seq(1,10,by=2)
vec.c
vec.b + vec.c
c() 문자타입의 벡터를 생성
var.a <- c("Hello", "world","is","good!!!")
var.a
[1] "Hello" "world" "is" "good!!!"
scalar
스칼라(영어: scalar 스케일러[*])란 크기와 방향을 가지는 벡터에 대비하는 개념으로, 크기만 있고 방향을 가지지 않는 양을 말한다.
위키백과
vector
벡터(vector)는 방향과 크기의 의미를 모두 포함하는 표현 도구로서 주로 힘이나 자기장, 전기장, 변위 등의 물리적 개념을 설명할 때 이용된다. 위키백과 동일한 패턴.,
dataframe
정형 데이터를 저장하는 장소 벡터가 확장된 개념 > row(case, 대상 하나의 정보)과 column(var.data)로 구성된 표
vec.name <- c("김지훈","이유진","박동현","김민지")
vec.name
vec.eng <- c(90,80,60,70)
vec.eng
vec.math <- c(50,60,100,20)
vec.math
df.score <- data.frame(vec.name, vec.eng, vec.math)
df.score
id <- c(1:6)
class <- c(1,1,1,1,2,2)
math <- c(50,60,45,30,23,50)
english <- c(98,97,86,98,80,89)
science <- c(50,60,78,58,65,98)
df.score <- data.frame(id,class,math,english,science)
df.score
vec.name <- c(“김지훈”,“이유진”,“박동현”,“김민지”) vec.name vec.eng <- c(90,80,60,70) vec.eng vec.math <- c(50,60,100,20) vec.math vec.class <- c(1,1,2,2) vec.class df.score <- data.frame(vec.name, vec.eng, vec.math, vec.class) df.score
id <- c(1:10) class <- c(1,1,1,1,1,2,2,2,2,2) math <- c(50,60,45,30,23,50,30,25,50,50) english <- c(98,97,86,98,80,89,30,25,50,50) science <- c(50,60,78,58,65,98,30,25,50,50)
df.score <- data.frame(id,class,math,english,science) #전체 학생 점수 보기 df.score # n번째 row 까지만 보여주기 head(df.n) 함수 p.101 head(df.score, 8)
밑에서 n번째 row 까지만 보여주기 tail(df.n) 함수 p.102
tail(df.score, 8)
뷰어창에서 df 확인 View(df) *View의 V는 대문자 View(df.score)
df , row count, col count // 디멘션은 쓰지 말고 보통 스트럭쳐 씀
dim(df.score)
str() structure 를 나타내는 함수
str(df.score)
summary() 요약
summary(df.score)
df.score <- difly::rename( df.score, id=uid)
df.score %>% #파이프라인
data.table::setnames(
)
library(dplyr)
df.score %>% data.table::setnames( old = “id”, new = “아이디” ) df.score df.score\(총점 <- df.score\)math + df.score\(english + df.score\)science df.score\(평균 <- df.score\)총점 / 3 df.score
hist(df.score$총점) #p.116
ifelse()
df.score\(합격여부 <- ifelse(df.score\)평균>=50, “합격”, “불합격”)
df.score\(등급 <- ifelse(df.score\)평균>=50, “A”, ifelse(df.score$평균>=30, “B”, “C”))
table()
library(ggplot2) ggplot2::qplot(df.score$합격여부)
package
library(ggplot2) # 이 파일로 불러오는 것 df.mpg <- as.data.frame(ggplot2::mpg)
4함수 :: headm tail, str, summary
head(df.mpg) tail(df.mpg) str(df.mpg) summary(df.mpg)
‘data.frame’: 234 obs. of 11 variables:
$ manufacturer(제조회사): chr “audi” “audi” “audi” “audi” …
$ model(모델) : chr “a4” “a4” “a4” “a4” …
$ displ(배기량) : num 1.8 1.8 2 2 2.8 2.8 3.1 1.8 1.8 2 …
$ year(생산연도) : int 1999 1999 2008 2008 1999 1999 2008 1999 1999 2008 …
$ cyl(실린더 개수) : int 4 4 4 4 6 6 6 4 4 4 …
$ trans(변속기 종류) : chr “auto(l5)” “manual(m5)” “manual(m6)” “auto(av)” …
$ drv(구동 방식) : chr “f” “f” “f” “f” …
$ cty(도시 연비) : int 18 21 20 21 16 18 18 18 16 20 …
$ hwy(고속도로 연비) : int 29 29 31 30 26 26 27 26 25 28 …
$ fl(연료 종류) : chr “p” “p” “p” “p” …
$ class(자동차 종류) : chr “compact” “compact” “compact” “compact” …
> summary(df.mpg)
manufacturer model displ year
Length:234 Length:234 Min. :1.600 Min. :1999
Class :character Class :character 1st Qu.:2.400 1st Qu.:1999
Mode :character Mode :character Median :3.300 Median :2004
Mean :3.472 Mean :2004
3rd Qu.:4.600 3rd Qu.:2008
Max. :7.000 Max. :2008
cyl trans drv cty
Min. :4.000 Length:234 Length:234 Min. : 9.00
1st Qu.:4.000 Class :character Class :character 1st Qu.:14.00
Median :6.000 Mode :character Mode :character Median :17.00
Mean :5.889 Mean :16.86
3rd Qu.:8.000 3rd Qu.:19.00
Max. :8.000 Max. :35.00
hwy fl class
Min. :12.00 Length:234 Length:234
1st Qu.:18.00 Class :character Class :character
Median :24.00 Mode :character Mode :character
Mean :23.44
3rd Qu.:27.00
Max. :44.00
library(ggplot2) midwest <- as.data.frame(ggplot2::midwest)
head(midwest)
library(dplyr) df.midwest %>% data.table::setnames(old = “popasian”, new = “asian”) df.midwest
midwest\(ratio <- midwest\)asian/midwest\(total*100 hist(midwest\)ratio)
mean(midwest$ratio)
midwest\(group <- ifelse(midwest\)ratio > 0.4872462, “large”, “small”)
table(midwest$group)
library(ggplot2) qplot(midwest$group)
