概率论基础


目录
  • 1 基本概念
    • 1.1 随机事件
    • 1.2 样本空间
    • 1.3 事件运算
    • 1.4 概率
  • 2 条件概率与统计独立性
    • 2.1 条件概率
    • 2.2 事件独立
    • 2.3 全概率公式
  • 3 随机变量与分布函数
    • 3.1 随机变量 (Random Variable)
      • 3.1.1 随机变量定义
      • 3.1.2 分布函数 (Distribution Function)
    • 3.2 离散型随机变量 (Discrete R.V.)
      • 3.2.1 离散型随机变量的分布率 (Probability Distribution)
      • 3.2.2 离散型随机变量的分布函数
      • 3.2.3 常见离散型随机变量分布函数
    • 3.3 连续型随机变量 (Continous R.V.)
      • 3.3.1 常见连续型随机变量分布函数
  • 4 随机向量,随机变量的独立性
    • 4.1 随机向量及分布函数
      • 4.1.1 随机向量
      • 4.1.2 (联合) 分布函数 (Joint C.D.F)
    • 4.2 常见的多元随机变量
      • 4.2.1 离散型
      • 4.2.2 连续型
    • 4.3 边际分布及条件分布 (Conditional Distribution)
      • 4.3.1 边际分布
      • 4.3.2 条件分布
    • 4.4 随机变量的独立性

1 基本概念

1.1 随机事件

随机试验三要素:

  1. 可在同等条件下重复;
  2. 结果是可被事先预测的多种可能;
  3. 试验前结果不确定.

1.2 样本空间

样本空间 (Sample Space) : 随机试验 \(E\) 的所有可能结果的集合, 记作 \(\Omega = \{ \omega \}\).

样本点 (Sample Point) : 一个样本空间众多的每个元素.

  • 样本空间中样本点的个数为有限个或可列个的情况为离散样本空间 (Discrete Sample Space) ;
  • 样本空间中样本点的个数为不可列无限个的情况为连续样本空间 (Continuous Sample Space) ;

1.3 事件运算

事件 (Event) : 某些基本事件构成的集合. 为样本空间的子集.

德摩根定律 (De Morgan's Laws) :

  • \(\overline{A \cup B} = \overline{A} \cap \overline{B}\);
  • \(\overline{A \cap B} = \overline{A} \cup \overline{B}\);
  • \(\overline{ \cup_{i=1}^{n} A_i} = \cap_{i=1}^{n} \overline{A_i}\);
  • \(\overline{ \cap_{i=1}^{n} A_i} = \cup_{i=1}^{n} \overline{A_i}\) (\(n \rightarrow + \infty\) 也成立) .

1.4 概率

古典概型 (Classical Probability) : 样本空间 \(S\) 中有有限个等可能的两两互不相容的基本事件, 个数记为 \(\# \{ S \}\), 事件 \(A\) 发生的概率为 \(P(A) = \frac{\# \{ A \} }{\# \{ S \} }\).

例:

  • 有重复的排列:
    • \(n\) 个不同小球有放回取出\(r\)次: \(n^r\);
    • \(n\) 个不同小球有放回放入\(r\)个格子: \(r^n\);
  • 有重复的组合:
    • \(n\) 个相同小球放入 \(r\) 个格子 (可空) : \(C_{n+r-1}^{n}\);
    • \(n\) 个相同小球放入 \(r\) 个格子 (不可空) : \(C_{n-1}^{r-1}\).

几何概型 (Geometric Probability) : \(P(Ag) = \frac{g的测度}{\Omega的测度}\).

频率 (Frequency) 的性质:

  1. \(0 \leq f_n (A) \leq 1\);
  2. \(f_n (S) = 1\);
  3. \(A_1, A_2, ..., A_k\)两两互斥, \(f(A_1 \cup A_2 \cup A_k) = f_n (A_1) + f_n (A_2) + ... + f_n (A_k)\).

例: 蒲丰投针

压线概率: \(P = \frac{1/2 \int_0^{\pi} l \sin(\phi) ~ d \phi}{1/2 a \pi} n= \frac{2l}{\pi a}\).

事件 \(\sigma\): \(\mathcal{F}\) 是由样本空间 \(\Omega\) 的子集组成的集类, 满足:

  1. \(\Omega \in \mathcal{F}\);
  2. \(A \in \mathcal{F}\), 则 \(\overline{A} \in \mathcal{F}\) ( "取补" 运算封闭) ;
  3. \(A_n \in \mathcal{F}\), \(n = 1, 2, ...\), 则 \(\cup_{n = 1}^{\infty} A_n \in \mathcal{F}\) ( "可列并" 运算封闭) .

则称 \(\mathcal{F}\)\(\sigma\) 域, \(\mathcal{F}\) 中的元素为事件.

一维Borel \(\sigma\): 在全体实数 \(\mathbb{R}^1\) 中, 由一切形为 \([a, b)\) 的有界左闭右开区间构成的集类所产生的 \(\sigma\) 域. 记之为 \(\mathcal{B}_1\). \(\mathcal{B}_1\) 中的集合为一维Borel点集.
\(\mathcal{B}_1\) 包括了实数中 (大概) 所有感兴趣的集.

概率 (Probability) : 设 \(\Omega\) 为一个样本空间, \(\mathcal{F}\) 为的某些子集组成的一个事件 \(\sigma\) 域. 如果对任一事件 \(A \in \mathcal{F}\), 定义在 \(\mathcal{F}\) 上的一个实值函数 \(P(A)\) 满足:

  1. 非负性: \(P(A) \geq 0, \forall A \in \mathcal{F}\);
  2. 规范性: \(P(\Omega) = 1\);
  3. 可列可加性: \(A_i \in \mathcal{F}\), \(i = 1, 2, ...\) 且两两互不相容, 则 \(P(A_1 + A_2 + ...) = P(A_1) + P(A_2) + ...\) ;

则称 \(P(A)\) 为事件 \(A\) 的概率, 称三元总体 \((\Omega, \mathcal{F}, \mathcal{P})\)概率空间 (Probability Space) .
所以概率\(P\)是个集合函数, 定义域为 \(\mathcal{F}\), 值域为 \([0, 1]\).

概率的性质:

  1. \(P(\emptyset) = 0\) (由可列可加性) ;
  2. 有限可加性: \(P(A_1 + A_2 + ... + A_n) = P(A_1) + P(A_2) + ... P(A_n)\) (由可列可加性及性质1) ;
  3. \(P(\overline{A}) = 1 - P(A)\);
  4. \(\forall A, B \in \mathcal{F}\), \(P(A - B) = P(A) - P(AB)\);
  5. \(A \subset B\), 则\(P(B - A) = P(B) - P(A)\);
  6. \(P(A \cup B) = P(A) + P(B) - P(A \cap B)\);
  7. 容斥原理:

\[\begin{aligned} P(\cup_{i = 1}^{n}E_i) = &\sum_{i = 1}^{n} P(E_i) - \sum_{i_1 < i_2} P(E_{i_1}E_{i_2}) \\\\ &+ ... +(-1)^n P(E_1E_2...E_n). \end{aligned} \]

推论:

  1. \(A \subset B\), 则 \(P(A) \leq P(B)\);
  2. 布尔不等式: \(P(A \cup B) \leq P(A) + P(B)\);
  3. Bonferroni不等式: \(P(AB) \geq P(A) + P(B) - 1\).

2 条件概率与统计独立性

2.1 条件概率

\((\Omega, \mathcal{F}, \mathcal{P})\) 是一个概率空间, \(B \in \mathcal{F}\), 且 \(P(B) > 0\), 则 \(\forall A \in \mathcal{F}\), 记 \(P(A|B) = \frac{P(AB)}{P(B)}\).
\(P(A|B)\) 为在事件 \(B\) 发生的条件下的事件 \(A\) 发生的条件概率.

乘法公式:

  • \(P(AB) = P(A)P(A|B)\);
  • \(P(ABC) = P(A)P(A|B)P(C|AB)\).

性质:

  1. 概率的所有性质;
  2. \(BC = \emptyset\), 则 \(P(BC) = 0\);
  3. \(P(B|B) = 1\), 若 \(C \subset B\), 则 \(P(B|C) = 1\);
  4. \(B \subset C\), 则 \(P(B|C) = \frac{P(B)}{P(C)}\);
  5. \(P(B| \Omega) = 1\), 若 \(P(C) = 1\), 则 \(P(B|C) = 1\) (利用补集来证明).

2.2 事件独立

\(A, B \in \mathcal{F}\), 若 \(P(AB) = P(A)P(B)\), 则 \(A\), \(B\) 独立.

\(A, B, C \in \mathcal{F}\), 若

  • \(P(AB) = P(A)P(B)\);
  • \(P(AC) = P(A)P(C)\);
  • \(P(BC) = P(B)P(C)\);
  • \(P(ABC) = P(A)P(B)P(C)\),

\(A\), \(B\), \(C\) 相互独立.

性质:

  1. \(A\), \(B\) 独立, \(P(B) > 0 \Leftrightarrow P(A|B) = P(A)\);
  2. \(A\), \(B\) 独立, \(P(B) > 0 \Leftrightarrow P(A|B) = P(A| \overline{B}) \Leftrightarrow P(A|B) + P(\overline{A} | \overline{B}) = 1\);
  3. \(A\), \(B\) 独立, 则 \(\{A, \overline{B} \}\), \(\{ \overline{A}, B \}\), \(\{ \overline{A}, \overline{B} \}\) 各组事件独立;
  4. \(\Omega\)\(\emptyset\) 与任何事件独立.

2.3 全概率公式

设事件 \(E_1, E_2, ...\) 是样本空间 \(\Omega\) 的一个分割 (完备事件组) , 即 \(E_i\), \(i = 1, 2, ...\) 两两互斥且 \(\cup_{i = 1}^{\infty}E_i = \Omega\), 则 \(P(A) = \sum_{i=1}^{\infty} P(A|E_i)P(E_i)\).
分解复杂问题分布考虑.

贝叶斯 (Bayesian) 公式:

\[\overbrace{P(E_i | A)}^{后验概率} = \frac{P(A|E_i)\overbrace{P(E_i)}^{先验概率}}{P(A)} = \frac{P(A|E_i)P(E_i)}{\sum_{j=1}^{\infty} P(A|E_j)P(E_j)}. \]

3 随机变量与分布函数

3.1 随机变量 (Random Variable)

3.1.1 随机变量定义

函数 \(X(e)\) 可称为随机变量, 若满足:

  1. \(X(e)\) 是定义在样本空间 \(\Omega\) 的关于 \(\mathcal{F}\) 的单值实函数;
  2. 对于每个实数 \(x\), 集合 \(\{e: X(e) \leq x \}\) 是一个事件. \(X = X(e)\) 使样本空间 \(\Omega\) 中的每个基本事件 \(e\) 在实数轴 \(\mathbb{R}^1 = (- \infty, + \infty)\) 上有一点 \(X\) 与之对应.

根据样本空间中基本事件是否有限/可数将随机变量分为连续型随机变量离散型随机变量.

3.1.2 分布函数 (Distribution Function)

\(X\) 为一个随机变量, \(x\) 为任意实数, 则函数

\[F(x) = P \{ X \leq x \}, ~~~ - \infty \leq x \leq + \infty \]

为随机变量 \(X\)分布函数.

性质:

  1. 单调性: 单调不减;
  2. 非负有界: \(F(x) \in [0, 1]\),
    ?????\(\displaystyle \lim_{x \rightarrow - \infty} F(x) = 0\),
    ?????\(\displaystyle \lim_{x \rightarrow + \infty} F(x) = 1\);
  3. 连续性: \(F(x)\) 右连续, 即 \(\displaystyle \lim_{h \rightarrow 0} F(x + h) = F(x)\).

若函数满足三条性质, 则该函数一定是某个随机变量的分布函数.

3.2 离散型随机变量 (Discrete R.V.)

3.2.1 离散型随机变量的分布率 (Probability Distribution)

设离散型随机变量 \(X\), 其可能值为 \(x_k\) (\(k = 1, 2, ...\)), 则

\[P(X = x_k) = P_k, ~~~ k = 1, 2, ... \]

称为 \(X\)分布率.

\(P_k\) 满足: \(P_k \geq 0\) (非负性);
???? \(\sum_{k = 1}^{\infty} P_k = 1\) (归一性).

3.2.2 离散型随机变量的分布函数

随机变量 \(X\) 的分布律为 \(P(X = x_k) = P_k\), (\(k = 1, 2, ...\)) , 其分布函数为

\[F(X) = P \{ X \leq x \}= \sum_{x_k < x} p_k. \]

3.2.3 常见离散型随机变量分布函数

  1. 单点分布: \(P \{ x = c \} = 1\).
  2. 两点分布: (Bernoulli Distribution) (伯努利分布)
    ?????\(P \{ x = 0 \} = 1-p\),
    ?????\(P \{ x = 1 \} =p\).
  3. 二项分布: (Binomial Distribution) \(n\) 次伯努利试验中事件发生 \(X\)
    ?????\(x \sim bin(n, p)\),
    ?????\(P \{ X = k \} = \begin{pmatrix} k \\ n \end{pmatrix} p^k q^{n - k}\), (\(k = 1, 2, ..., n\)), \(q = 1 - p.\)
    ?????最大值: \(k = (n+1)p\).
  4. 几何分布: (Geometric Distribution) \(n\) 次伯努利试验一直到第 \(X\) 次事件第一次发生
    ?????\(P \{ X = k \} = q^{k - 1}p\),
    ?????(无记忆性).
  5. 泊松分布: (Poisson Distribution)
    ?????\(X \sim Poi(\lambda)\),
    ?????\(P \{ X = k \} = \frac{\lambda^k e^{- \lambda}}{k!}\).
    二项分布当 \(n \rightarrow \infty\) 时为泊松分布, 即 \(\displaystyle \lim_{x \rightarrow \infty} \begin{pmatrix} k \\ n \end{pmatrix} p^k q^{n - k} = \frac{\lambda^k e^{- \lambda}}{k!}\), 其中 \(np = \lambda\).

无记忆性 (Memorylessness): 后面事件发生的概率与前面事件发生无关, 即 \(P \{ X = m + k | X > m \} = P \{ X = k \}\).
在离散型随机变量 \(X \in \mathbb{Z}^*\) 中即 \(P \{ X = k + 1 | X > k \} = P \{ X = 1 \}\).

例: 几何分布无记忆性的证明
证明: 令 \(a_k = P \{ X = k \}\), \(b_k = P \{ X > k \}\),
? ? \(p = P \{ X = k + 1 | X = k \} = \frac{a_{k+1}}{b_k}\), 则 \(a_{k+1} = b_k - b_{k+1}\),
? ? \(\therefore pb_k = b_k - b_{k+1}\), \(b_k = (1-p)^{k-1}b_1 = (1-p)^{k-1} (1-a_1)\),
? ? \(a_{k+1} = p(1-p)^{k-1}(1-a_1)\)
? ? 令 \(k = 0\), 有 \(a_1 = p(1-p)^{-1}(1-a_1)\),
? ? 可得 \(a_1 = p\), 即 \(P \{ X = k + 1 | X = k \} = P \{ X = 1 \}\). 得证.

3.3 连续型随机变量 (Continous R.V.)

对于随机变量 \(X\), 若 \(\forall x \in \mathbb{R}\) 存在一个非负可积的函数 \(f(x)\), 有 \(F(x) = \int_{- \infty}^{x}f(t)dt\), 则称 \(X\) 是一个连续型随机变量; \(f(x)\)\(X\) 的密度函数.

性质:

  1. 非负性: \(f(x) \geq 0\).
  2. 规范性: \(\int_{- \infty}^{+ \infty} f(x) dx = 1\).
  3. \(\forall x_1 \leq x_2\), \(P \{ x_1 < x \leq x_2 \} = F(x_2) - F(x_1) = \int_{x_1}^{x_2} f(x_1)dx\).
  4. \(f(x)\)\(x_0\) 连续, 则 \(F'(x) = f(x)\).

若函数 \(f(x)\) 满足以上四条性质, 则该函数一定是某个随机变量的密度函数.

3.3.1 常见连续型随机变量分布函数

  1. 均匀分布: (Uniform Distribution)
    ?????\(X \sim U(a, b)\),
    ?????\(f(x) = \begin{cases} \frac{1}{b - a}, ~~~ a < x < b, \\ 0, ~~~~~~~ otherwise. \end{cases}\)
    ?????\(F(x) = \begin{cases} 0, ~~~~~~~ x < a, \\ \frac{x - a}{b - a}, ~~~ a \leq x < b, \\ 1, ~~~~~~~ x \geq b. \end{cases}\)
  2. 指数分布: (Exponential Distribution)
    ?????\(X \sim Exp(\lambda)\),
    ?????\(f(x) = \begin{cases} \lambda e^{- \lambda x}, ~~~ x > 0, \\ 0, ~~~~~~~~~~~ otherwise. \end{cases}\)
    ?????\(F(x) = \begin{cases} 0, ~~~~~~~~~~~~~~~ x \leq 0, \\ 1 - e^{- \lambda x}, ~~~ x > 0. \end{cases}\)
    指数分布拥有无记忆性, 即 \(P \{ t < x < t + \triangle t | x > t \} = \lambda \triangle t + o(\triangle t)\).

例: 指数分布无记忆性的证明
\(\frac{F(t + \triangle t) - F(t)}{1 - F(t)} = \lambda \triangle t + o(\triangle t)\),
\(\frac{F(t + \triangle t) - F(t)}{\triangle t} = \lambda (1 - F(t)) + \frac{o(\triangle t)}{\triangle t} (1 - F(t))\),
\(\triangle t \rightarrow 0\), 故有 \(\frac{d F(t)}{dt} = \lambda (1 - F(t))\),
\(\frac{d F(t)}{1 - F(t)} = \lambda dt\), 同时积分, 有
\(- ln(1 - F(t)) = \lambda t + c\),
\(1 - F(t) = e^{-(\lambda t + c)} = e ^{- \lambda t} e^c\)
\(\because F(t) = 0\), \(\therefore c = 0\),
\(\therefore F(t) = 1 - e^{- \lambda t}\).

  1. 正态分布: (Gaussian Distribution)
    ?????\(X \sim N(\mu, \sigma^2)\),
    ?????\(f(x) = \frac{1}{\sqrt{2 \pi} \sigma} e^{- \frac{(x - \mu)^2}{2 \sigma^2}}\),
    ?????性质: 1. 关于 \(x = \mu\) 对称;
    ???????2. \(max f(x) = f(\mu) = \frac{1}{\sqrt{2 \pi} \sigma}\);
    ???????3. 两个拐点 \(x = \mu \pm \sigma\).
  2. 标准正态分布: 正态分布标准化 \(Z = \frac{x - \mu}{\sigma} \sim N(0, 1)\).
    ??????? \(\phi (x) = \frac{1}{\sqrt{2 \pi} } e^{- \frac{x^2}{2}}\).
    ??????? 性质: 1. \(\Phi (-x) = 1 - \Phi (x)\);
    ????????? 2. \(P \{ |X| = x \} = 1 - 2 \Phi (-x) = 2 \Phi(x) -1\);
    ????????? 3. \(x_{1 - \alpha} = x_{\alpha}\), 其中 \(x_{\alpha}\)\(\alpha\) 分位数
    ?????????? \(P \{ x > x_{\alpha} \} = \alpha\);
    ?????????? \((x_{1 - \alpha}, 0)\)为上 \(\alpha\) 分位点.

4 随机向量,随机变量的独立性

4.1 随机向量及分布函数

4.1.1 随机向量

若随机变量 \(\xi_1 ( \omega ), \xi_2 ( \omega ), ..., \xi_n( \omega )\) 定义在同一概率空间 \(( \Omega, \mathcal{F}, \mathcal{P} )\) 上, 则称

\[\vec{\xi} (\omega) = \big( \xi_1 ( \omega ), \xi_2 ( \omega ), ..., \xi_n( \omega ) \big) \]

构成一个 \(n\) 维随机向 (变) 量.

4.1.2 (联合) 分布函数 (Joint C.D.F)

\[\vec{\xi} (\omega) \sim F (x_1, x_2, ..., x_n) = P \{ \xi_1 ( \omega ) \leq x_1, ..., \xi_n ( \omega ) \leq x_n \}. \]

其中:
\(F: \mathbb{R}^n \mapsto [0, 1]\);
\(\{ \omega: \xi_i (\omega) \leq x_i, ~ i = 1, 2, ..., n \} \in \mathcal{F}\);
\(\cap_{i = 1}^n \{ \xi_n^{-1} (x_i) \} \in Borel ~ \mathbb{R}^n\).

性质:

  1. \(F(\vec{x})\) 右连续;
  2. \(\displaystyle \lim_{x_i \to - \infty} F(x_1, ..., x_n) = 0\);
    ( \(\because ~ \forall ~ i \in \{ 1, 2, ..., n \}, ~ \cap_{j = 1}^n \{ \xi_j \leq x_j \} \subset \{ \xi_i \leq x_i \}\), 且 \(\displaystyle \lim_{x_i \to - \infty} F(x_i) = 0\) )
  3. \(\displaystyle \lim_{x_i \to + \infty} F(x_1, ..., x_n) = F_{n-1} (x_1, ..., x_{i-1}, x_{i+1}, ...x_n)\).
    \((\xi_1, ..., \xi_{i-1}, \xi_{i+1}, ..., \xi_n)\) 的 C.D.F.
    特别地 \(\xi_i \sim F_i (x_i) = \displaystyle \lim_{x_j \to + \infty} F(x_1, ..., x_i, ..., x_n), ~ j \neq i\), ;称为它的边际(Marginal)分布.
  4. 单调性: 关于每个分量单调不减.
    一元: \(\forall ~ x_1 < x_2, ~ P(x_1 < \xi \leq x_2) = F(x_2) - F(x_1) > 0\);
    二元: \(\forall ~ x_1' < x_1, ~ x_2' < x_2\),
    ???\(\begin{aligned} &P(x_1' < \xi_1 \leq x_1, ~ x_2' < \xi_2 \leq x_2) = \\ &F(x_1, x_2) - F(x_1', x_2) - F(x_1, x_2') + F(x_1', x_2'); \end{aligned}\)
    \(n\) 元: \(\forall ~ x_1' < x_1, ..., ~ x_n' < x_n\),
    ???\(\begin{aligned} &P(x_1' < \xi_1 \leq x_1, ..., ~ x_n' < \xi_n \leq x_n) = \\ &F(x_1, ..., x_n) - \sum F(含有1个'的) + \sum F(含有2个'的) \\ &+ ... +(-1)^n \sum F(含有n个'的); \end{aligned}\)

满足以上四条性质的函数必是某随机变量的分布函数.

4.2 常见的多元随机变量

4.2.1 离散型

  1. 多项分布: (Multinomial Distribution)
    \(n\)次试验中\(A_i\)发生\(n_i\)次, \(i = 1, ..., r\), 即一次试验结果有 \(r\) 种情况.
    \(P(A_i) = p_i\), \(n = \sum_{i = 1}^r n_i\), \(\sum_{i = 1}^r p_i = 1\),
    \(\begin{aligned} P \{ \xi_1 = n_1, ..., ~\xi_r = n_r \} = \frac{n!}{n_1!...n_r!} p_1^{n_1}...p_r^{n_r} \end{aligned}\).
  2. 超几何分布: (Hypergeometric Distribution)
    袋中共有 \(N\) 只球, 第 \(i\) 种球有 \(N_i\) 只, 共取出 \(n\) 只球, 第 \(i\) 种球取出了 \(n_i\) 只.
    \(N = \sum_{i = 1}^r N_i\), \(n = \sum_{i = 1}^r n_i\), \(i = 1, ..., r\), 即共有 \(i\) 种球.
    \(\begin{aligned} P \{ \xi_1 = n_1, ..., ~\xi_r = n_r \} = \frac{N \choose n}{ {N_1 \choose n_1} {N_2 \choose n_2}... {N_r \choose n_r} } \end{aligned}\).

4.2.2 连续型

连续型随机变量密度函数 \(p(x_1, ..., x_n)\) 的定义: 存在非负函数 \(p(x_1, ..., x_n)\) 使得

\[F(x_1, ..., x_n) = \int_{- \infty}^{x_1} ... \int_{- \infty}^{x_n} p(y_1, ..., y_n) ~ dy_1...dy_n. \]

  1. 均匀分布: (Uniform Distribution)
    \(\vec{x} \sim N(\vec{\mu}, \Sigma)\)
    有限可测区域 \(G \in \mathbb{R}^n\), 其测度为 \(S\).
    \(p(x_1, x_2, ..., x_n) = \begin{cases} \frac{1}{S}, ~~~ (x_1, x_2, ..., x_n) \in G; \\ 0, ~~~~ (x_1, x_2, ..., x_n) \notin G. \end{cases}\)
  2. 多元正太分布: (Multivariate Normal Distribution)
    \(\begin{aligned} p(x_1, x_2, ..., x_n) = p(\vec{x}) = \frac{1}{(2 \pi)^{\frac{n}{2}} |\Sigma|^{\frac{1}{2} } } exp \{ - \frac{1}{2} (\vec{x} - \vec{\mu}) \Sigma^{-1} (\vec{x} - \vec{\mu}) \} \end{aligned}\)
    其中 \(\vec{\mu} = (\mu_1, \mu_2, ..., \mu_n)\), \(\Sigma = (\sigma_{ij})\)\(n\) 阶正定对称矩阵.
  • \(n = 1\) 时, \(\mu \in \mathbb{R}\), \(\Sigma = \sigma^2 > 0\);
  • \(n = 2\) 时, \((x, y) \sim N(\mu_1, \mu_2, \sigma_1^2, \sigma_2^2, \rho)\),
    \(\vec{\mu} = (\mu_1, \mu_2)\), \(\Sigma = \begin{pmatrix} \sigma_1^2 & \rho \sigma_1 \sigma_2 \\ \rho \sigma_1 \sigma_2 & \sigma_2^2 \end{pmatrix}\),
    \(\begin{aligned} p(x, y) = \frac{1}{2 \pi \sigma_1 \sigma_2 \sqrt{1 - \rho^2}} exp \{ -\frac{1}{2(1 - \rho)^2} \big[ \frac{(x - \mu_1)^2}{\sigma_1^2} - 2 \rho \frac{(x - \mu_1)(y - \mu_2)}{\sigma_1 \sigma_2} + \frac{(y - \mu_2)^2}{\sigma_2^2} \big] \} \end{aligned}\),
    其典型分解为
    \(\begin{aligned} p(x, y) = \frac{1}{\sqrt{2 \pi} \sigma_1} exp \{- \frac{(x - \mu_1)^2}{2 \sigma_1^2}\} \cdot \frac{1}{\sqrt{2 \pi} \sigma_2 \sqrt{1 - \rho^2}} exp \{ - \frac{ \big[ y - \big( \mu_2 + \rho \frac{\sigma_1}{\sigma_2} (x - \mu_1) \big) \big]^2 }{2 \sigma_2^2 (1 - \rho^2)} \} \end{aligned}\).

4.3 边际分布及条件分布 (Conditional Distribution)

4.3.1 边际分布

设多元随机变量 \(\vec{x} \sim F (\vec{x})\), 则 \(x_j\) 的边际分布为 \(F_j (x_j) = F (+ \infty, + \infty, ..., x_j, ...)\).

  • 离散型: \(n = 2\) 时, \(p_{ij} = P(x = x_i, y = y_j)\), \(i, j = 1, 2, ...\).
    \(x\) 的边际分布为
    \(\begin{aligned} P(x = x_i) &= P(x = x_i, \cup_{j = 1}^{\infty} \{ y = y_j \}) \\ &= \sum_{j = 1}^{\infty} P(x = x_i, y = y_j) \\ &= \sum_{j = 1}^{\infty} p_{ij} = p_{i.}.\end{aligned}\)
  • 连续型:
    \(\begin{aligned} F_t(x_t) &= F(+ \infty, + \infty, ..., x_t, ...) \\ &= \int_{- \infty}^{x_t} \bigg[ \int_{- \infty}^{+ \infty} ... \int_{- \infty}^{+ \infty} f(\vec{y}) ~ dy_1 dy_2 ... dy_{t-1} dy_{t+1} ... \bigg]~ dy_t \end{aligned}\)
  • 混合型:
    eg. \(x \sim N(0, 1)\), \(y = \begin{cases} -1, ~~~ x < -1; \\ x, ~~~ -1 \leq x < 1; \\ 1, ~~~ x \geq 1. \end{cases}\)

4.3.2 条件分布

以二元条件分布为例 \(F(x, y_0) = P(X \leq x ~ | ~ Y = y_0)\).

  • 离散型: \(\begin{aligned} P(x = x_{i} ~ | ~ y = y_{j}) = \frac{P(x = x_i, y = y_i)}{P(y = y_i)} = \frac{p_{ij}}{p_{.j}} \end{aligned}\);
  • 连续型:
    \(\begin{aligned} &P(x \leq X < x + \triangle x ~ | ~ y \leq Y < y + \triangle y) \\ = & \frac{P(x \leq X < x + \triangle x, ~ y \leq Y < y + \triangle y)}{P( y \leq Y < y + \triangle y)} \\ = & \frac{\int_x^{x + \triangle x} \int_{y}^{y + \triangle y} f(s, t) ~ dt ds}{\int_{- \infty}^{+ \infty} \int_{y}^{y + \triangle y} f(s, t) ~ dt ds}; \end{aligned}\)
    \(\begin{aligned} P(x ~ | ~ y) &= \lim_{{ \begin{gathered} \triangle x \to 0 \\ \triangle y \to 0 \end{gathered}}} \frac{1}{\triangle x} P(x \leq X < x + \triangle x ~ | ~ y \leq Y < y + \triangle y) \\ &=\lim_{{ \begin{gathered} \triangle x \to 0 \\ \triangle y \to 0 \end{gathered}}} \frac{\frac{1}{\triangle x \triangle y} \int_x^{x + \triangle x} \int_{y}^{y + \triangle y} f(s, t) ~ dt ds}{\int_{- \infty}^{+ \infty} \big[ \frac{1}{\triangle y} \int_{y}^{y + \triangle y} f(s, t) ~ dt \big] ds} \\ &= \frac{f(x, y)}{\int_{- \infty}^{+ \infty} f(s, y) ~ ds} = \frac{f(x, y)}{f_y (y)}. \end{aligned}\)
    \(f_{y}(y) = 0\), 则 \(p (x ~ | ~ y) = 0\).

例: 二元正态分布 \((x, y) \sim N(\mu_1, \mu_2, \sigma_1^2, \sigma_2^2, \rho)\)
边际分布: \(X \sim N(\mu_1, \sigma_1^2)\); \(Y \sim N(\mu_2, \sigma_2^2)\);
条件分布: \(Y ~ | ~ X = x_0 \sim N \big( \mu_2 + \rho \frac{\sigma_2}{\sigma_1} (x_0 - \mu_1), \sigma_2^2 (1 - \rho^2) \big)\).
?????当 \(\rho = 0\) (即 \(x\), \(y\) 独立) 时, 即为 \(Y\) 的边际分布.

4.4 随机变量的独立性

对于 \(\mathbb{R}\) 上的任意 Borel 集 \(A\), \(B\)...

\[P(X \in A, Y \in B, ...) = P(X \in A) P(Y \in B) ..., \]

则称 \(A\), \(B\)... 独立.
特别地, \(A = (- \infty , x]\), \(B = (- \infty , y]\)... 时,

\[P(X \leq x, Y \leq y, ...) = P(X \leq x) P(Y \leq y) .... \]

以两个变量为例, 即 \(F(x, y) = F_x (x) F_y (y)\)\(\forall ~ x, y \in \mathbb{R}\) 成立.
即定义域中任意点满足: 联合分布 = \(\prod\) 边际分布.

  1. 离散型
    \((x_1, x_2, ... x_n)^T\)\(A_1, ..., A_n\),
    \(P(x_1 \in A_1, ... , x_n \in A_n) = P(x_1 \in A_1)... P(x_n \in A_n)\).
  2. 连续型
    \(\begin{aligned} f(x_1, ..., x_n) = \frac{\partial^n F(x_1, ..., x_n)}{\partial x_1 ... \partial x_n} = f_{x_1} (x_1)... f_{x_n} (x_n) \end{aligned}.\)
    对于几乎处处 \(\vec{x} \in \mathbb{R}^n\) 成立.
    eg. \(f(s) = \begin{cases} f(s_0) + t, ~~~ s = s_0; \\ f(s), ~~~~~~~~~~~ s \neq s_0. \end{cases}\)

相关