advanced prob notes

def

A probability measure \(\mathbb{P}\) is called atomic if \(\mathbb{P}=\sum_{n \in \mathbb{N}} c_n \delta_{a_n}\) for some sequence \(a_n \in \mathbb{R}\) and \(c_n \geq 0\) with \(\sum_n c_n=1\)

一个概率测度 \(\mathbb{P}\) 被称为离散的（原子性的），如果它可以表示为： \[ \mathbb{P} = \sum_{n \in \mathbb{N}} c_n \delta_{a_n} \] 其中，\(\{a_n\}\) 是实数序列，\(\{c_n\}\) 是非负数序列，并且满足 \(\sum_n c_n = 1\)。

解释统计原理

离散概率测度（或原子性概率测度）的定义意味着该测度仅在特定的点（称为原子）上具有质量，而在其他点上没有质量。这种测度的所有质量都集中在一组可数点上。

具体来说：

\(\{a_n\}\) 是那些具有正概率的点。
\(\{c_n\}\) 是分配给这些点的概率质量，满足总和为1。
\(\delta_{a_n}\) 是在点 \(a_n\) 处的Dirac delta测度，其定义为在 \(a_n\) 处取值1，其他地方取值0。

这种测度可以用来描述那些只在离散点上有可能发生的随机变量。例如，掷骰子的结果，彩票的中奖号码等。每个可能的结果都有一个与之对应的正概率。

例子

假设我们有一个骰子，其每个面上的数是1到6，那么这个骰子的概率测度可以表示为： \[ \mathbb{P} = \frac{1}{6}\delta_1 + \frac{1}{6}\delta_2 + \frac{1}{6}\delta_3 + \frac{1}{6}\delta_4 + \frac{1}{6}\delta_5 + \frac{1}{6}\delta_6 \]

在这个例子中，\(\{a_n\} = \{1, 2, 3, 4, 5, 6\}\)，每个 \(c_n = \frac{1}{6}\)。这是因为每个点 \(a_n\) 处的概率质量都是 \(\frac{1}{6}\)，并且总和为1。

总结来说，离散概率测度集中在一些离散点上，且这些点的概率总和为1。这种测度的主要特点是它不在区间上分布，而是集中在个别的点上。

Independence of Random Variables

We say that a collection of random variables \(X_i:(\Omega, \mathcal{F}, \mathbb{P}) \rightarrow\left(E_i, \mathcal{B}_i\right)\), with \(i \in I\) for some index set \(I\), are{ (jointly) independent} if for any finite \(J \subset I\) and any \(B_j \in \mathcal{B}_j\), \[ \mathbb{P}\left(X_j \in B_j \text { for all } j \in J\right)=\prod_{j \in J} \mathbb{P}\left(X_j \in B_j\right) . \]

In particular, \(X_1\) and \(X_2\) are independent if for any \(B_1 \in \mathcal{B}_1\) and \(B_2 \in \mathcal{B}_2\), \[ \mathbb{P}\left(X_1 \in B_1, X_2 \in B_2\right)=\mathbb{P}\left(X_1 \in B_1\right) \cdot \mathbb{P}\left(X_2 \in B_2\right) \text {. } \]

Setting \(X_i=1_{A_i}\), the independence of random variables \(\left\{X_i\right\}_{i \in I}\) implies the independence of events \(\left\{A_i\right\}_{i \in I}\)

这段话解释了随机变量的独立性概念，并指出随机变量独立性与事件独立性之间的关系。以下是详细解释：

定义与解释

联合独立性 (Joint Independence)：
- 设 \(\{X_i\}_{i \in I}\) 是一组定义在概率空间 \((\Omega, \mathcal{F}, \mathbb{P})\) 上的随机变量，其中每个 \(X_i\) 映射到某个测度空间 \((E_i, \mathcal{B}_i)\)。
- 随机变量集合 \(\{X_i\}_{i \in I}\) 被称为联合独立的，如果对于任意有限的子集 \(J \subset I\) 和任意的集合 \(B_j \in \mathcal{B}_j\)，都有 \[ \mathbb{P}\left(X_j \in B_j \text{ for all } j \in J\right) = \prod_{j \in J} \mathbb{P}\left(X_j \in B_j\right). \] 这意味着这些随机变量的联合概率可以分解为各自边缘概率的乘积。
两两独立性 (Pairwise Independence)：
- 特别地，当 \(I\) 的大小为2时，即考虑两个随机变量 \(X_1\) 和 \(X_2\)，它们是独立的当且仅当对于任意的集合 \(B_1 \in \mathcal{B}_1\) 和 \(B_2 \in \mathcal{B}_2\)，有 \[ \mathbb{P}\left(X_1 \in B_1, X_2 \in B_2\right) = \mathbb{P}\left(X_1 \in B_1\right) \cdot \mathbb{P}\left(X_2 \in B_2\right). \] 这表示两个随机变量的联合分布可以分解为它们边缘分布的乘积。
事件独立性：
- 将每个随机变量 \(X_i\) 设置为指示函数 \(1_{A_i}\)，其中 \(A_i\) 是一个事件，指示函数 \(1_{A_i}\) 定义为 \[ 1_{A_i}(\omega) = \begin{cases} 1 & \text{如果 } \omega \in A_i, \\ 0 & \text{如果 } \omega \notin A_i. \end{cases} \]
- 若 \(\{X_i\}_{i \in I}\) 独立，则 \(\{A_i\}_{i \in I}\) 也独立。这意味着，如果对于每一个随机变量 \(X_i = 1_{A_i}\)，其联合独立性隐含着事件集合 \(\{A_i\}_{i \in I}\) 的独立性，即对于任意有限子集 \(J \subset I\)，有 \[ \mathbb{P}\left( \bigcap_{j \in J} A_j \right) = \prod_{j \in J} \mathbb{P}(A_j). \]

统计原理

联合独立性：随机变量的联合独立性表示多个随机变量之间没有任何关联，它们的联合概率可以完全分解成各自的边缘概率。这在概率论中非常重要，因为它简化了许多复杂的概率计算和推导。
两两独立性 vs 联合独立性：两两独立性只要求每一对随机变量之间独立，但这不一定意味着整个集合是联合独立的。联合独立性更强，因为它要求任意子集的随机变量之间都独立。
事件独立性：事件的独立性是通过相应的指示函数的独立性来定义的。这表明概率事件之间的独立性可以通过它们的指示函数来研究，这在处理涉及多个事件的复杂概率问题时非常有用。

总的来说，这段话详细阐述了随机变量独立性（包括两两独立性和联合独立性）的定义，并指出随机变量的独立性如何隐含其对应事件的独立性。这些概念在概率论和统计学中具有重要的理论和实际意义。

Example (Pairwise independence is weaker than joint independence!

Let \(\Omega=\{0,1\}^2\) and \(\mathbb{P}\) be the uniform distribution on \(\Omega\). Let \[ \begin{aligned} X_1(1, \cdot) & =1 \quad \text { and } \quad X_1(0, \cdot)=0 \\ X_2(\cdot, 1) & =1 \quad \text { and } \quad X_2(\cdot, 0)=0 \\ X_3(1,1)= & X_3(0,0)=1 \quad \text { and } \quad X_3(1,0)=X_3(0,1)=0 . \end{aligned} \]

Then, \(X_1, X_2\) and \(X_3\) are {pairwise independent两两独立} but not jointly independent. \[ \mathbb{P}\left(X_1=X_2=X_3=1\right)=1 / 4 \neq 1 / 8=\mathbb{P}\left(X_1=1\right) \mathbb{P}\left(X_2=1\right) \mathbb{P}\left(X_3=1\right) \]

这段话的统计原理是说明两两独立（pairwise independence）和完全独立（joint independence）之间的区别。具体来说，两个随机变量可以两两独立，但不一定是完全独立的。以下是这段话的解释：

定义与设定

样本空间与概率分布：
- 样本空间 \(\Omega = \{0, 1\}^2\)，表示所有可能的事件组合 \((0,0), (0,1), (1,0), (1,1)\)。
- \(\mathbb{P}\) 是在 \(\Omega\) 上的均匀分布，即每个事件发生的概率都相等，为 \(\frac{1}{4}\)。
随机变量：
- \(X_1\)：依赖于第一个坐标。
  - \(X_1(1, \cdot) = 1\)，表示如果第一个坐标是1，则 \(X_1 = 1\)。
  - \(X_1(0, \cdot) = 0\)，表示如果第一个坐标是0，则 \(X_1 = 0\)。
- \(X_2\)：依赖于第二个坐标。
  - \(X_2(\cdot, 1) = 1\)，表示如果第二个坐标是1，则 \(X_2 = 1\)。
  - \(X_2(\cdot, 0) = 0\)，表示如果第二个坐标是0，则 \(X_2 = 0\)。
- \(X_3\)：依赖于两个坐标的组合。
  - \(X_3(1,1) = 1\)，表示如果两个坐标都是1，则 \(X_3 = 1\)。
  - \(X_3(0,0) = 1\)，表示如果两个坐标都是0，则 \(X_3 = 1\)。
  - \(X_3(1,0) = X_3(0,1) = 0\)，表示如果两个坐标不同，则 \(X_3 = 0\)。

两两独立

我们说两个随机变量 \(X_i\) 和 \(X_j\) 两两独立，如果对于所有的 \(a\) 和 \(b\)，有 \(\mathbb{P}(X_i = a \text{ 且 } X_j = b) = \mathbb{P}(X_i = a) \mathbb{P}(X_j = b)\)。

对于给定的 \(X_1\), \(X_2\), 和 \(X_3\)，我们可以验证：

\(\mathbb{P}(X_1 = 1) = \mathbb{P}((1,0) \text{ 或 } (1,1)) = \frac{1}{4} + \frac{1}{4} = \frac{1}{2}\)
\(\mathbb{P}(X_2 = 1) = \mathbb{P}((0,1) \text{ 或 } (1,1)) = \frac{1}{4} + \frac{1}{4} = \frac{1}{2}\)
\(\mathbb{P}(X_3 = 1) = \mathbb{P}((0,0) \text{ 或 } (1,1)) = \frac{1}{4} + \frac{1}{4} = \frac{1}{2}\)

通过计算可以验证两两独立性，例如： - \(\mathbb{P}(X_1 = 1 \text{ 且 } X_2 = 1) = \mathbb{P}((1,1)) = \frac{1}{4} = \mathbb{P}(X_1 = 1) \mathbb{P}(X_2 = 1) = \frac{1}{2} \times \frac{1}{2}\)

类似地，可以验证其他两两组合都是独立的。

非完全独立

我们说三个随机变量 \(X_1\), \(X_2\), 和 \(X_3\) 完全独立，如果对于所有的 \(a\), \(b\), 和 \(c\)，有 \(\mathbb{P}(X_1 = a \text{ 且 } X_2 = b \text{ 且 } X_3 = c) = \mathbb{P}(X_1 = a) \mathbb{P}(X_2 = b) \mathbb{P}(X_3 = c)\)。

验证完全独立性： - \(\mathbb{P}(X_1 = 1 \text{ 且 } X_2 = 1 \text{ 且 } X_3 = 1) = \mathbb{P}((1,1)) = \frac{1}{4}\) - \(\mathbb{P}(X_1 = 1) \mathbb{P}(X_2 = 1) \mathbb{P}(X_3 = 1) = \frac{1}{2} \times \frac{1}{2} \times \frac{1}{2} = \frac{1}{8}\)

显然，\(\frac{1}{4} \neq \frac{1}{8}\)，因此 \(X_1\), \(X_2\), 和 \(X_3\) 不是完全独立的。

总结

这段话的统计原理在于阐明两两独立和完全独立的差异。两个随机变量可以两两独立，即任意两个随机变量之间的联合分布可以表示为它们边缘分布的乘积，但这并不意味着它们的多变量联合分布可以表示为各个变量边缘分布的乘积，从而不满足完全独立性。

\(\mathcal{F}_i:=\left\{X_i^{-1}(B): B \in \mathcal{B}\right\} \subset \mathcal{F}\) is a \(\sigma\)-algebra

Let \(\left(X_i\right)_{i \in I}\) be a collection of random variables with \(X_i:(\Omega, \mathcal{F}, \mathbb{P}) \rightarrow\left(E_i, \mathcal{B}_i\right)\). We have known that \(\mathcal{F}_i:=\left\{X_i^{-1}(B): B \in \mathcal{B}\right\} \subset \mathcal{F}\) is a \(\sigma\)-algebra. 怎么证明

为了证明 \(\mathcal{F}_i := \{ X_i^{-1}(B) : B \in \mathcal{B}_i \} \subset \mathcal{F}\) 是一个 \(\sigma\)-代数，我们需要验证以下三个条件：

\(\Omega \in \mathcal{F}_i\)。
\(\mathcal{F}_i\) 在补运算下封闭。
\(\mathcal{F}_i\) 在可数并运算下封闭。

我们逐一进行验证：

1. \(\Omega \in \mathcal{F}_i\)

设 \(E_i\) 是随机变量 \(X_i\) 的取值空间，则 \(X_i\) 的定义域是 \(\Omega\)，即 \[ X_i^{-1}(E_i) = \Omega. \] 由于 \(E_i \in \mathcal{B}_i\)，因此 \[ \Omega = X_i^{-1}(E_i) \in \mathcal{F}_i. \]

2. 在补运算下封闭

假设 \(A \in \mathcal{F}_i\)，则存在 \(B \in \mathcal{B}_i\) 使得 \(A = X_i^{-1}(B)\)。考虑 \(A\) 的补集： \[ A^c = (X_i^{-1}(B))^c = X_i^{-1}(B^c). \] 由于 \(B \in \mathcal{B}_i\) 且 \(\mathcal{B}_i\) 是 \(\sigma\)-代数，因此 \(B^c \in \mathcal{B}_i\)。所以 \[ A^c = X_i^{-1}(B^c) \in \mathcal{F}_i. \]

3. 在可数并运算下封闭

假设 \(\{A_n\}_{n=1}^{\infty} \subset \mathcal{F}_i\)，则对于每个 \(A_n\)，存在 \(B_n \in \mathcal{B}_i\) 使得 \(A_n = X_i^{-1}(B_n)\)。考虑这些集合的可数并： \[ \bigcup_{n=1}^{\infty} A_n = \bigcup_{n=1}^{\infty} X_i^{-1}(B_n) = X_i^{-1} \left( \bigcup_{n=1}^{\infty} B_n \right). \] 由于 \(\mathcal{B}_i\) 是 \(\sigma\)-代数，所以 \(\bigcup_{n=1}^{\infty} B_n \in \mathcal{B}_i\)。因此 \[ \bigcup_{n=1}^{\infty} A_n = X_i^{-1} \left( \bigcup_{n=1}^{\infty} B_n \right) \in \mathcal{F}_i. \]

综上所述，\(\mathcal{F}_i := \{ X_i^{-1}(B) : B \in \mathcal{B}_i \}\) 满足作为 \(\sigma\)-代数的三个条件，因此 \(\mathcal{F}_i\) 是 \(\sigma\)-代数。

To show that \(X + Y \sim N(\mu_1 + \mu_2, \sigma_1^2 + \sigma_2^2)\), where \(X \sim N(\mu_1, \sigma_1^2)\) and \(Y \sim N(\mu_2, \sigma_2^2)\) are independent random variables, we will use the convolution of their densities.

Step-by-Step Proof:

Density Functions of \(X\) and \(Y\):
- The density function of \(X \sim N(\mu_1, \sigma_1^2)\) is: \[ f_X(x) = \frac{1}{\sqrt{2\pi \sigma_1^2}} e^{-\frac{(x - \mu_1)^2}{2\sigma_1^2}} \]
- The density function of \(Y \sim N(\mu_2, \sigma_2^2)\) is: \[ f_Y(y) = \frac{1}{\sqrt{2\pi \sigma_2^2}} e^{-\frac{(y - \mu_2)^2}{2\sigma_2^2}} \]
Convolution of \(X\) and \(Y\):
- The sum \(Z = X + Y\) has a density given by the convolution of \(f_X(x)\) and \(f_Y(y)\): \[ f_Z(z) = \int_{-\infty}^{\infty} f_X(x) f_Y(z - x) \, dx \]
- Substitute the density functions: \[ f_Z(z) = \int_{-\infty}^{\infty} \frac{1}{\sqrt{2\pi \sigma_1^2}} e^{-\frac{(x - \mu_1)^2}{2\sigma_1^2}} \cdot \frac{1}{\sqrt{2\pi \sigma_2^2}} e^{-\frac{((z - x) - \mu_2)^2}{2\sigma_2^2}} \, dx \]
Simplify the Exponent:
- Expand and simplify the exponent in the integrand: \[ \frac{(x - \mu_1)^2}{2\sigma_1^2} + \frac{((z - x) - \mu_2)^2}{2\sigma_2^2} \]
- After expansion and simplification, the exponent will have terms involving \(z\), \(x\), \(\mu_1\), and \(\mu_2\).
Complete the Square:
- Combine like terms and complete the square to facilitate integration.
Recognize the Normal Distribution Form:
- Upon completing the integration and simplifying the resulting expression, you should recognize that the resulting density \(f_Z(z)\) corresponds to the normal distribution with mean \(\mu_1 + \mu_2\) and variance \(\sigma_1^2 + \sigma_2^2\).
Conclusion:
- Therefore, \(X + Y \sim N(\mu_1 + \mu_2, \sigma_1^2 + \sigma_2^2)\), as required.

This completes the proof using the convolution formula for the sum of independent normal random variables.

数学符号 \(\left\lfloor \rho^k \right\rfloor\) 表示对 \(\rho^k\) 取下整，即小于或等于 \(\rho^k\) 的最大整数。这个符号称为“向下取整”或“地板函数”。

例如，若 \(\rho = 1.5\) 且 \(k = 3\)，则 \(\rho^k = 1.5^3 = 3.375\)，因此 \(\left\lfloor 3.375 \right\rfloor = 3\)。

地板函数通常用于将一个实数转换为整数，并在分析中用于离散化连续增长的序列。在你的公式中，\(n_k\) 表示对 \(\rho^k\) 取整后的结果，并且随着 \(k\) 的增大，\(n_k\) 也会增大。

\(\left\lfloor \rho^k \right\rfloor\) 除以 \(\rho^k\) 并不等于1。在大多数情况下，\(\left\lfloor \rho^k \right\rfloor\) 比 \(\rho^k\) 略小，因此 \(\left\lfloor \rho^k \right\rfloor / \rho^k\) 会略小于1。然而，当 \(k\) 很大时，\(\rho^k\) 也很大，\(\left\lfloor \rho^k \right\rfloor\) 和 \(\rho^k\) 的相对差距变得越来越小。

更形式化地，当 \(k\) 越来越大时，\(\left\lfloor \rho^k \right\rfloor / \rho^k\) 的极限是1。我们可以通过以下不等式来理解这一点：

\[ \frac{\left\lfloor \rho^k \right\rfloor}{\rho^k} \leq 1 \]

由于 \(\left\lfloor \rho^k \right\rfloor\) 是最接近但不大于 \(\rho^k\) 的整数，我们有：

\[ \left\lfloor \rho^k \right\rfloor \leq \rho^k < \left\lfloor \rho^k \right\rfloor + 1 \]

将这不等式两边都除以 \(\rho^k\)，得到：

\[ \frac{\left\lfloor \rho^k \right\rfloor}{\rho^k} \leq 1 < \frac{\left\lfloor \rho^k \right\rfloor + 1}{\rho^k} \]

再简化右边的不等式：

\[ 1 < \frac{\left\lfloor \rho^k \right\rfloor}{\rho^k} + \frac{1}{\rho^k} \]

随着 \(k\) 越来越大，\(\rho^k\) 也越来越大，所以 \(\frac{1}{\rho^k}\) 趋近于0。因此，

\[ 1 \leq \frac{\left\lfloor \rho^k \right\rfloor}{\rho^k} < 1 + \frac{1}{\rho^k} \]

当 \(k \rightarrow \infty\) 时，\(\frac{1}{\rho^k} \rightarrow 0\)，所以

\[ \lim_{k \rightarrow \infty} \frac{\left\lfloor \rho^k \right\rfloor}{\rho^k} = 1 \]

这解释了为什么当 \(k\) 越来越大时，\(\left\lfloor \rho^k \right\rfloor / \rho^k\) 趋于1。

这个问题涉及独立同分布（i.i.d.）的随机变量序列，研究在时间 \(n\) 时最长的连续 1 的长度 \(L_n\) 和对数函数 \(\log_2 n\) 的关系。目标是证明 \(L_n / \log_2 n\) 几乎处处（a.s.）收敛于1，即随着 \(n\) 的增大， \(L_n\) 和 \(\log_2 n\) 之间的比例趋近于1。

具体步骤如下：

1. 问题描述

随机变量 \(X_n\)：给定一个随机变量序列 \(X_n\)，它们是独立同分布的，且 \(P(X_n=1)=P(X_n=-1)=1/2\)。
运行长度 \(\ell_n\)：在时间 \(n\)，定义运行长度 \(\ell_n\) 为在时间 \(n\) 处以1结尾的最长连续1的长度。
最长运行 \(L_n\)：在时间 \(n\)，定义 \(L_n\) 为从时间1到时间 \(n\) 的最大运行长度。

2. 计算 \(P(\ell_n = k)\)

因为 \(X_n\) 是独立同分布的，且每个位置上的 \(X_n\) 取值独立于其它位置，容易得到：

\[ P(\ell_n = k) = (1/2)^{k+1} \]

这是因为要有 \(k\) 个连续的 1 结尾，且第 \(k+1\) 个位置上是 -1 或 \(n-k\) 之前是一个界限，所以这个概率是 \((1/2)^{k+1}\)。

3. 求解 \(L_n / \log_2 n \rightarrow 1\)

我们希望证明 \(L_n / \log_2 n\) 几乎处处收敛于1。步骤如下：

(1) 期望值

首先考虑在 \(n\) 个时刻内，最长的连续1的期望值。根据概率公式，可以得到：

\[ E(\ell_n) = \sum_{k=0}^{\infty} k P(\ell_n = k) = \sum_{k=0}^{\infty} k (1/2)^{k+1} \]

计算这个期望值：

\[ E(\ell_n) = \sum_{k=1}^{\infty} k (1/2)^{k+1} = \frac{1}{2} \sum_{k=1}^{\infty} k (1/2)^k = \frac{1}{2} \cdot \frac{1}{(1 - 1/2)^2} = 1 \]

(2) 最长运行 \(L_n\)

考虑 \(n\) 个位置中的最大运行长度 \(L_n\)。利用极大值理论，在 \(n\) 次独立试验中，最长的运行长度 \(L_n\) 的分布函数近似为：

\[ P(L_n < k) = P(\text{所有} \ \ell_i < k) = \left(1 - (1/2)^k \right)^n \]

近似计算：

\[ P(L_n < k) \approx \exp \left(-n(1/2)^k \right) \]

设 \(k = \log_2 n - \epsilon_n\)，其中 \(\epsilon_n\) 是一个小的修正项。代入近似计算：

\[ P(L_n < \log_2 n - \epsilon_n) \approx \exp \left(-n/n2^{-\epsilon_n} \right) \]

当 \(\epsilon_n \to \infty\) 时， \(P(L_n < \log_2 n - \epsilon_n) \to 0\)，而当 \(\epsilon_n \to -\infty\) 时， \(P(L_n < \log_2 n - \epsilon_n) \to 1\)。

(3) 收敛结论

由此可得：

\[ \frac{L_n}{\log_2 n} \to 1 \quad \text{a.s.} \]

即随着 \(n\) 增加，\(L_n\) 和 \(\log_2 n\) 之间的比例几乎处处收敛于1。

结论

这个题目要求证明在独立同分布随机序列中，以1结尾的最长连续1的长度 \(L_n\) 和 \(\log_2 n\) 之间的比例几乎处处收敛于1。我们通过极大值理论和近似计算得出，这个结论是成立的，即