本节介绍 R 的基础语法,也是使用 R 必须掌握的常识性基础知识。

多亏了强大的数据科学 IDE RStudio,有很多与分析工作无关的繁琐细节已经不需要关注了,我们可以更专注于数据的处理和分析,因此本节尝试用简短的篇幅来介绍 R 作为一门编程语言的基础语法,而后用最快的速度转向其作为数据科学分析工具的功能(毕竟 R 是一门数据科学语言)。

对象和函数

R 的大多数功能都是通过对对象(object)的创建和操作(manipulation)以及使用各种函数来实现的。抛开计算机科学的严格定义,对象实际上是指一切可以进行赋值(assign)的东西。R 是一门面向对象编程的语言,因此任何内容都可以是对象,例如变量、函数、数据、图表等等。

变量的创建和删除

R 通过赋值语句来创建变量。与其他编程语言不同,R 的标准赋值号并不是=,而是<-或者->,“箭头”方向指向被赋值的变量。尽管大多数情况下=也是允许的,但这种用法不标准,有些情况下还可能造成问题。在 RStudio 中的 R 环境下,可以通过快捷键 “Alt + -” 来快速插入<-

x <- 2
y <- 5

而如果将赋值语句用小括号括起来,则会在赋值后返回该变量的值:

(x <- 3)
[1] 3

删除变量使用rm()函数,如果需要清空环境中的所有变量,可以直接点击 RStudio 右上角环境窗口的扫帚图标。

函数的使用和创建

R 函数的使用语法和许多其他编程语言一样,都是函数名(对象,参数)的形式,视函数定义情况可能没有对象,传递实参的方法也分为位置参数和关键字参数,当传递的实参和定义中的相应形参所处位置相同时,可以省略参数名,否则就需要显式地指出参数名。使用?函数名或者help(函数名)可以在帮助文档中查看一个函数使用的各种参数的详细信息。

使用包名::函数名()可以在不加载包的前提下调用某个包中的函数(同样的语法也可以用来调用某个包中的数据集)。

R 函数的创建使用function()函数,其基本结构为:

函数名 = function(形式变量,形式参数) {
       各种运算、操作
       ……
       return(返回值)
}

返回值不是必须的,但大多数函数都有。

R 还支持匿名函数,也就是不显式地使用函数名,也不必显式地使用return语句,而使用function(变量){……, 变量表达式}的方式,把最后一个表达式的结果作为返回值。在实际调用时,将定义语句括起来,再在后面将要传递的变量值括起来: (function(变量){变量表达式})(变量值)。当只有一个表达式的时候,花括号可以省略。此外,匿名函数也可以通过赋值来指定函数名,从而成为普通的函数。

基本数学运算和函数

R 作为一门数据科学语言,当然离不开计算,base 包中包含了一些基本的数学运算,如下表所示:

运算 符号/函数 运算 符号/函数 运算 符号/函数 运算 符号/函数
+ - * /
乘方 ^ %/% 余数/取模 %% 自然对数 log()
常用对数(十进对数) log10() 以a为底b的对数 log(x=b, base=a) 以e为底的指数 exp() 绝对值 abs()
算术平方根 sqrt() 正弦 sin() 余弦 cos() 正切 tan()
余切 atan() 正割 acos() 余割 asin() 双曲正弦 sinh()
双曲余弦 cosh() 双曲正切 tanh()

此外,对于小数:

计算精度的设置使用函数options(digits = 位数, prompt = "光标类型"),最高精度为16位;

对于取整,R 提供了一系列取整函数:

  • floor() 向下取整

  • ceiling() 向上取整

  • trunc() 截去小数部分取整(向0取整)

  • round(x, digits = )signif(x, digits = ) 均为四舍五入,前者 digits 参数设定小数点后保留位数,默认取 0,后者 digits 参数设定保留有效数字位数,默认取 6

浮点数比较问题

由于计算机以二进制储存数据,因此在计算十进制浮点数时,可能无法得到精确的结果,例如,在R和Python中:

0.2 + 0.2 == 0.4会返回True,但0.1 + 0.2 == 0.3就会返回False,因为0.1无法以二进制精确表示。

对于这一问题,在 R 中可以使用all.equal()函数来进行比较,该函数包含一个绝对误差限参数tolerance,忽略小于该值的误差, 默认值为1.5×10−8。在 Python 中可以用math包中的isclose()函数或者numpy包中的allclose()函数来进行比较。

条件与循环

条件语句和循环语句在任何编程语言中都十分重要,对代码的结构有较大影响。

条件语句

和许多编程语言一样,R 使用 if 条件语句,

基本 if 语句:if(逻辑值条件) {操作} 满足条件时执行操作。R 对缩进不敏感,只要操作的内容在条件之后即可,可以是同一行,也可以是下一行,当只有一个操作语句时,甚至可以不加花括号。

if-else 语句:if(条件1) {操作1} else {操作2} 满足条件1时执行操作1,否则执行操作2。if-else 语句相当于在基本 if 语句之后增加了一个分支条件,else 语句不能单独存在,也不能单独占一行,必须跟操作1的右花括号在同一行,或者在操作1只有一个操作语句时,与操作1语句在同一行。

else if 语句:if(条件1) {操作1} else if(条件2) {操作2} ··· else 之后可以插入 if 语句,成为 else if 语句,进一步增加分支条件(注意 else if 是一个整体不能分行),后面还可以继续增加 else 语句和 else if 语句,来增加更多的分支。

示例:使用 if 条件语句自定义一个绝对值函数.

ABS <- function(x) {
  if (x>=0) {
    answer <- x
    } else answer <- -x
  return(answer)
}
ABS(12);ABS(-6)

循环语句

R 有三种循环语句:for 循环语句、while 循环语句和 repeat 循环语句。

for 循环语句

当明确循环次数或者需要遍历的值的范围时,使用 for 循环语句,其语法为:

for (循环变量 in 向量) {操作} 循环变量会遍历向量中的每一个值,每次循环都会进行相应的操作。

示例:计算数列 \(a_n = \dfrac1n\) 的前100项和.

Sum = 0
for (i in 1:100) {
  Sum = Sum + 1/i
}
Sum
[1] 5.187378

while 循环语句

当循环次数未知,也没有明确的遍历值范围,只知道需要在什么条件下进行循环时,使用 while 循环语句,其语法为:

while (循环条件) {操作} 只要循环条件满足,就会进行一次循环,执行一次操作,然后再检验条件是否满足。由于没有显式地指明循环次数,因此要注意避免死循环。

示例:找出1000以内最大的19的倍数.

ind <- 0
while (ind<=1000) {
  if (ind%%19==0) ans <- ind
  ind <- ind + 1
}
ans
[1] 988

repeat 循环语句

当 for 循环语句和 while 循环语句的使用条件都不满足时,要使用循环只能使用 repeat 循环语句,其语法为:

repeat {操作} 这是一个无限执行的死循环,想要结束循环需要使用以下方式来打断:

  • break:退出循环
  • next:跳过本次循环
  • stop()函数:退出循环并以报错的形式显示指定信息

这些方法也可用于另外两种循环。

示例:在循环中增加一个用于判断的 if 语句,如果循环次数超过100,就退出循环.

ind = 0
while(1>0){
  x = 1
  ind = ind + 1
  if (ind>=100) break
}
ind
[1] 100
---
title: "R 基础语法"
author: "Ellery Holmes"
date: "`r Sys.Date()`"
output: 
  html_notebook: 
    toc: yes
    # toc_float: yes
---

```{r setup, include=FALSE}
knitr::opts_chunk$set(eval=TRUE)
```

本节介绍 R 的基础语法，也是使用 R 必须掌握的常识性基础知识。

多亏了强大的数据科学 IDE RStudio，有很多与分析工作无关的繁琐细节已经不需要关注了，我们可以更专注于数据的处理和分析，因此本节尝试用简短的篇幅来介绍 R 作为一门编程语言的基础语法，而后用最快的速度转向其作为数据科学分析工具的功能（毕竟 R 是一门数据科学语言）。

# 对象和函数

R 的大多数功能都是通过对对象(object)的创建和操作(manipulation)以及使用各种函数来实现的。抛开计算机科学的严格定义，对象实际上是指一切可以进行赋值(assign)的东西。R 是一门面向对象编程的语言，因此任何内容都可以是对象，例如变量、函数、数据、图表等等。

## 变量的创建和删除

R 通过赋值语句来创建变量。与其他编程语言不同，R 的标准赋值号并不是`=`，而是`<-`或者`->`，"箭头"方向指向被赋值的变量。尽管大多数情况下`=`也是允许的，但这种用法不标准，有些情况下还可能造成问题。在 RStudio 中的 R 环境下，可以通过快捷键 "Alt + -" 来快速插入`<-`。

```{r}
x <- 2
y <- 5
```

而如果将赋值语句用小括号括起来，则会在赋值后返回该变量的值：

```{r}
(x <- 3)
```

删除变量使用`rm()`函数，如果需要清空环境中的所有变量，可以直接点击 RStudio 右上角环境窗口的扫帚图标。

## 函数的使用和创建

R 函数的使用语法和许多其他编程语言一样，都是`函数名(对象,参数)`的形式，视函数定义情况可能没有对象，传递实参的方法也分为位置参数和关键字参数，当传递的实参和定义中的相应形参所处位置相同时，可以省略参数名，否则就需要显式地指出参数名。使用`?函数名`或者`help(函数名)`可以在帮助文档中查看一个函数使用的各种参数的详细信息。

使用`包名::函数名()`可以在不加载包的前提下调用某个包中的函数（同样的语法也可以用来调用某个包中的数据集）。

R 函数的创建使用`function()`函数，其基本结构为：

```         
函数名 = function(形式变量，形式参数) {
       各种运算、操作
       ……
       return(返回值)
}
```

返回值不是必须的，但大多数函数都有。

R 还支持<font color = red>匿名函数</font>，也就是不显式地使用函数名，也不必显式地使用`return`语句，而使用`function(变量){……, 变量表达式}`的方式，把最后一个表达式的结果作为返回值。在实际调用时，将定义语句括起来，再在后面将要传递的变量值括起来： `(function(变量){变量表达式})(变量值)`。当只有一个表达式的时候，花括号可以省略。此外，匿名函数也可以通过赋值来指定函数名，从而成为普通的函数。

## 基本数学运算和函数

R 作为一门数据科学语言，当然离不开计算，base 包中包含了一些基本的数学运算，如下表所示：

|        运算        | 符号/函数 |      运算      |    符号/函数     |     运算      | 符号/函数 |   运算   | 符号/函数 |
|:-------:|:-------:|:-------:|:-------:|:-------:|:-------:|:-------:|:-------:|
|         加         |    \+     |       减       |        \-        |      乘       |    \*     |    除    |     /     |
|        乘方        |    \^     |       商       |       %/%        |   余数/取模   |    %%     | 自然对数 |   log()   |
| 常用对数(十进对数) |  log10()  | 以a为底b的对数 | log(x=b, base=a) | 以e为底的指数 |   exp()   |  绝对值  |   abs()   |
|     算术平方根     |  sqrt()   |      正弦      |      sin()       |     余弦      |   cos()   |   正切   |   tan()   |
|        余切        |  atan()   |      正割      |      acos()      |     余割      |  asin()   | 双曲正弦 |  sinh()   |
|      双曲余弦      |  cosh()   |    双曲正切    |      tanh()      |               |           |          |           |

此外，对于小数：

计算精度的设置使用函数`options(digits = 位数, prompt = "光标类型")`，最高精度为16位；

对于取整，R 提供了一系列取整函数：

-   `floor()` 向下取整

-   `ceiling()` 向上取整

-   `trunc()` 截去小数部分取整（向0取整）

-   `round(x, digits = )` 和 `signif(x, digits = )` 均为四舍五入，前者 digits 参数设定小数点后保留位数，默认取 0，后者 digits 参数设定保留有效数字位数，默认取 6

### **<font color = red>浮点数比较问题</font>**

由于计算机以二进制储存数据，因此在计算十进制浮点数时，可能无法得到精确的结果，例如，在R和Python中：

`0.2 + 0.2 == 0.4`会返回`True`，但`0.1 + 0.2 == 0.3`就会返回`False`，因为0.1无法以二进制精确表示。

对于这一问题，在 R 中可以使用`all.equal()`函数来进行比较，该函数包含一个绝对误差限参数`tolerance`，忽略小于该值的误差， 默认值为1.5×10^−8^。在 Python 中可以用`math`包中的`isclose()`函数或者`numpy`包中的`allclose()`函数来进行比较。

# 条件与循环

条件语句和循环语句在任何编程语言中都十分重要，对代码的结构有较大影响。

## 条件语句

和许多编程语言一样，R 使用 if 条件语句，

基本 if 语句：`if(逻辑值条件) {操作}` 满足条件时执行操作。R 对缩进不敏感，只要操作的内容在条件之后即可，可以是同一行，也可以是下一行，当只有一个操作语句时，甚至可以不加花括号。

if-else 语句：`if(条件1) {操作1} else {操作2}` 满足条件1时执行操作1，否则执行操作2。if-else 语句相当于在基本 if 语句之后增加了一个分支条件，else 语句不能单独存在，也不能单独占一行，必须跟操作1的右花括号在同一行，或者在操作1只有一个操作语句时，与操作1语句在同一行。

else if 语句：`if(条件1) {操作1} else if(条件2) {操作2} ···` else 之后可以插入 if 语句，成为 else if 语句，进一步增加分支条件（注意 else if 是一个整体不能分行），后面还可以继续增加 else 语句和 else if 语句，来增加更多的分支。

示例：使用 if 条件语句自定义一个绝对值函数.

```{r}
ABS <- function(x) {
  if (x>=0) {
    answer <- x
    } else answer <- -x
  return(answer)
}
ABS(12);ABS(-6)
```

## 循环语句

R 有三种循环语句：for 循环语句、while 循环语句和 repeat 循环语句。

### for 循环语句

当明确循环次数或者需要遍历的值的范围时，使用 for 循环语句，其语法为：

`for (循环变量 in 向量) {操作}` 循环变量会遍历向量中的每一个值，每次循环都会进行相应的操作。

示例：计算数列 $a_n = \dfrac1n$ 的前100项和.
```{r}
Sum <- 0
for (i in 1:100) {
  Sum <- Sum + 1/i
}
Sum
```


### while 循环语句

当循环次数未知，也没有明确的遍历值范围，只知道需要在什么条件下进行循环时，使用 while 循环语句，其语法为：

`while (循环条件) {操作}` 只要循环条件满足，就会进行一次循环，执行一次操作，然后再检验条件是否满足。由于没有显式地指明循环次数，因此要注意避免死循环。

示例：找出1000以内最大的19的倍数.

```{r}
ind <- 0 #定义一个指示变量记录循环次数
while (ind<=1000) {
  if (ind%%19==0) ans <- ind
  ind <- ind + 1
}
ans
```
### repeat 循环语句

当 for 循环语句和 while 循环语句的使用条件都不满足时，要使用循环只能使用 repeat 循环语句，其语法为：

`repeat {操作}` 这是一个无限执行的死循环，想要结束循环需要使用以下方式来打断：

- `break`：退出循环
- `next`：跳过本次循环
- `stop()`函数：退出循环并以报错的形式显示指定信息

这些方法也可用于另外两种循环。

示例：在循环中增加一个用于判断的 if 语句，如果循环次数超过100，就退出循环.

```{r}
ind = 0 #定义一个指示变量记录循环次数
while(1>0){
  x = 1
  ind = ind + 1
  if (ind>=100) break
}
ind
```