220128_数学_概率论_参数估计与假设检验
220128_数学_概率论_参数估计与假设检验
发现概率统计的东西忘得差不多了,后面那些确实比较绕。
各种考试内容多集中于前几章,考得花里胡哨的,但跟使用完全不是一回事。
真要实际运用起来,主要还是要用考试不好考的、考得少的那些。
内容主要来源是浙大第四版的概率论与数理统计教材。
本文是参数估计与假设检验的复习记录。
目的在于备忘速查,所以内容比较简单简洁。
欢迎交流学习。
目录
- 220128_数学_概率论_参数估计与假设检验
- 大数定律与中心极限定理
- 参数估计
- 点估计
- 矩估计
- 最大似然估计
- 估计量的评选标准
- 无偏估计量
- 有效性
- 相合性
- 区间估计
- 几种分布
- 卡方分布
- t分布
- F分布
- 其他相关性质
- 运用置信区间进行估计
- 几种分布
- 点估计
- 假设检验
- z检验
- t检验
在浙大第四版的《概率论与数理统计》教材中,在谈论数理统计的时候,认为都是独立同分布 的简单随机样本。

大数定律与中心极限定理

辛钦大数定律 说明,独立同分布的随机变量的 均值 收敛于 期望。

伯努利大数定律 说明,独立重复试验的试验次数很大时,事件的频率 可以代替时间频率。

独立同分布的中心极限定理说明,独立同分布的随机变量,不论是什么分布,\(\sum_{k=1}^{n} X_{k}\)都服从正态分布,且\(E\left(X_{k}\right)=\mu, D\left(X_{k}\right)=\sigma^{2}>0\)
参数估计
点估计
总体样本分布函数形式已知,但是其分布的参数有未知的。可以借助于总体X的一个样本来对未知参数进行估计。估计该未知参数具体值得问题,称之为点估计。
矩估计
设 X 为连续型随机变量, 其概率密度为 $ f\left(x ; \theta_{1}, \theta_{2}, \cdots, \theta_{k}\right) $ ,
或 X 为离散型 随机变量, 其分布律为\(P\{X=x\}=p\left(x ; \theta_{1}, \theta_{2}, \cdots, \theta_{k}\right)\),
其中 $ \theta_{1}, \theta_{2}, \cdots, \theta_{k} $ 为待估 参数,
$ X_{1}, X_{2}, \cdots, X_{n} $ 是来自 X 的样本。可以计算出 假设总体 X 的前k阶矩 $ \mu_1\cdots\mu_k $ 为:
一般来说,他们是$ \theta_{1}, \theta_{2}, \cdots, \theta_{k} $的函数。
联立前k阶矩,构成方程组,这样就能解得 \(\hat{\theta}_{1}, \hat{\theta}_{2}, \cdots, \hat{\theta}_{k}\) ,以此作为估计结果。
这种估计量称为矩估计量,
这种估计量的矩估计值。
最大似然估计
若总体 X 属离散型, 分布律 \(P\{X=x\}=p(x ; \theta), \theta \in \Theta\) 已知,
$ \theta$ 为待估参数,$ \Theta$ 是 \(\theta\) 可能取值的范围。 设 \(X_{1}, X_{2}, \cdots, X_{n}\) 是来自 X 的样本,
则 $X_{1} , X_{2}, \cdots, X_{n} $的联合分布律为
样本$ X_{1} , X_{2}, \cdots, X_{n} $ 取到观察值 $ x_{1}, x_{2}, \cdots, x_{n} $ 的概率,
亦即事件 \(\left\{X_{1}=x_{1}, X_{2}=x_{2}, \cdots, X_{n}=x_{n}\right\}\) 发生的概率为:
称\(L(\theta)\)为 似然函数。
我们自然的额认为,取到 $ x_{1}, x_{2}, \cdots, x_{n} $ 这一样本值的概率\(L(\theta)\)比较大。
这样就挑选$\Theta $ 中可以使 \(L(\theta)\) 取最大值的 \(\theta\) 作为估计,即:
则称 \(\hat{\theta}\left(X_{1}, X_{2}, \cdots, X_{n}\right)\) 为 $ \theta$ 的最大似然估计量。
称$ \hat{\theta}\left(x_{1}, x_{2}, \cdots, x_{n}\right) $ 为 $ \theta $ 的最大似然估计值,
一般来说,可以通过取对数函数简便计算,之后求偏导求极值即可。
估计量的评选标准
无偏估计量

有效性

相合性

区间估计
几种分布
卡方分布


t分布



F分布



其他相关性质


运用置信区间进行估计

估计的参数以 \(P=1-a\) 的概率落在置信区间中。
对于正态分布,置信区间的大小可以通过查表所得。
由此,可以对某参数进行区间估计。
举例,方差\(\sigma^2\)已知,对均值\(\mu\)进行双侧估计:
\[\sum_{i=1}^{n} X_{i} \sim N\left(n \mu, n \sigma^{2}\right) \\ 即 \ \bar{X} \sim N\left(\mu, \sigma^{2} / n\right)\\ \frac{\bar{X}-\mu}{\sigma / \sqrt{n}} \sim N(0,1)\\ P\left(-z_{\alpha / 2}<\frac{\bar{X}-\mu}{\sigma / \sqrt{n}}举例,方差\(\sigma^2\)未知,对均值\(\mu\)进行双侧估计(这就要用到t分布):
\[\frac{\bar{X}-\mu}{S / \sqrt{n}} \sim t(n-1)\\ P\left(-t_{\alpha / 2}<\frac{\bar{X}-\mu}{S / \sqrt{n}}举例,均值\(\mu\)已知,方差\(\sigma^2\)未知,对$进行双侧估计(这就要用到卡方分布):
\[\frac{(n-1) S^{2}}{\sigma^{2}} \sim \chi^{2}(n-1)\\ P\left(\chi_{1-\alpha / 2}^{2}(n-1)<\frac{(n-1) S^{2}}{\sigma^{2}}<\chi_{\alpha / 2}^{2}(n-1)\right)=1-\alpha\\ \frac{(n-1) S^{2}}{\chi_{\alpha / 2}^{2}(n-1)}<\mu<\frac{(n-1) S^{2}}{\chi_{1-\alpha / 2}^{2}(n-1)} \]其他的情况可以运用已知的分布及其性质进行推导。结果如下表。
假设检验
z检验
给出一批从总体中抽取的样本,总体均值为\(\mu\),样本均值为\(\bar{x}\)。
提出一个假设:\(H_{0}: \mu=\mu_{0}\)
其对立假设为:$H_{1}: \mu \neq \mu_{0} $
那么,我们如何检验假设呢?也就是,判断能否接收\(H_0\)呢?
直觉上来说,当\(\left|\bar{x}-\mu_{0}\right|\)很大,我们就认为不能接受假设\(H_0\);当\(\left|\bar{x}-\mu_{0}\right|\)很小,我们就认为可以接受假设\(H_0\)。
由中心极限定理知,\(\frac{\left|\bar{x}-\mu_{0}\right|}{\sigma / \sqrt{n}} \sim N(0,1)\)。所以可以选取\(Z=\frac{\left|\bar{x}-\mu_{0}\right|}{\sigma / \sqrt{n}}\),以此来进行假设检验。可以给出思路,如果Z大于等于某正数,就拒绝假设\(H_0\);如果Z小于某正数,就拒绝假设\(H_0\)。

其中,α被称为显著性水平;
Z被称为 检验统计量
以上这种问题就是Z检验的双边假设检验。
单边假设检验


