参数估计方法
在统计学中一个重要的内容是根据样本信息来估计总体信息,实际情况是我们智能获取样本数据,所以必须根据样本统计量来估计总体参数,这就是参数估计。 参数估计主要有两种方式:
点估计:估计一个人的身高是170cm,这就是点估计
区间估计:估计一个人的身高在168-172cm之间,这就是参数估计
最小二乘估计
在平面上有一些点,它们看上去大致呈一种曲线的趋势。选择一个合适的曲线表达式,让这个曲线尽可能“贴近”所有的这些点。
“二乘”:其实就是平方的意思,计算距离的平方,这样可以处理距离计算的负值
“最小”:找到使得这个平方和最小的曲线的参数

上面的图像散点是我基于一条真实函数(绿色)增加了一些噪声生成的,红色是由最小二乘法拟合生成的。
对于这种点分布,假设用一条一次函数来做拟合:
\(y=ax+b\)
那么有点误差
\(e_i = y_i - (ax_i + b)\)
我们的目标是让所有点的误差平方和最小。这个平方和(我们用 S 表示)就是我们的目标函数:
\(S=\sum_{i=1}^{n}e_i^2=\sum_{i=1}^{n}[y_i - (ax_i + b)]^2\)
接下来的目标就是找到最小值,需要求解a和b.这一步可以直接让计算机来算了,并不是统计专业的所以直接列公式。计算公式如下:

在python中也有一些能够计算最小二乘法的函数:
1 | # numpy.linalg.lstsq |
下面这是一个实例,首先选择一条一次函数,添加一些噪声生成许多散点,然后用 np.linalg.lstsq 做最小二乘法:
1 | import numpy as np |
贝叶斯估计
贝叶斯估计的核心思想就是:用新的证据来更新我们原有的信念。
先验信念 + 新证据 → 更新 → 后验信念
贝叶斯公式:

P(A|B) 后验概率:在观察到B之后,A发生的概率
P(B|A) 似然度:如果A发生,观察到B的概率
P(A) 先验概率:在观察任何证据之前,A发生的概率
P(B) 证据概率:观察到B的总概率
全概率公式:

经典例子:
假设某种疾病的发病率是1%,即在随机人群中,每100人约有1人患病。
令A表示患病,B表示检测结果为阳性。那么有先验概率P(A)=1%
现在有一种检测方法:
如果确实患病,检测为阳性的概率是99%,那么有似然度P(B|A)=99%
如果健康,检测为阳性的概率是5%(有5%的误诊率)
求后验概率 P(A|B):在检测为阳性的条件下,真正患病的概率是多少?
首先用全概率公式计算P(B),及事件B发生的总概率,等于在各种可能”原因”下B发生的概率的加权和。这里就是计算检测结果为阳性的概率,那么可能是这个人病了检测阳性,也有可能是没病检测阳性:

再将上述值带入贝叶斯公式可以计算得到“检测阳性,并且患病”的概率

t检验
t检验帮助我们判断两个群体之间的差异到底是真实的,还是只是偶然巧合。
假设我们想知道一种新的学习方法是否真的能提高成绩:
A组使用传统方法,平均分75
B组使用新方法,平均分80
现在需要评估5分的差异是新方法有效,还是运气好。

通俗解释公式:t=组间差异(信号)/组内变异(噪声)
在实际的公式中,组间差异用均值差异B-bar和A-bar的差来表示; 组内噪声用标准差来表示。t 值越大,说明”信号”越强于”噪声”,差异越可能是真实的。
接下来用一组实例来表示t检验的流程
A组(传统方法)成绩:
65, 72, 68, 75, 70, 62, 69, 74, 71, 67, 73, 66, 70, 68, 72, 69, 71, 67, 74, 70, 66, 73, 68, 72, 69
B组(新方法)成绩:
72, 78, 75, 80, 77, 70, 76, 79, 78, 74, 81, 73, 77, 75, 79, 76, 78, 74, 80, 77, 73, 79, 75, 78, 76
计算得到AB两组的平均成绩:



计算AB两组的方差:


计算合并方差与标准差:

那么将上面计算出来的这些数据带入t检验公式可以得到:

自由度df=50-2=48,显著水平alpha=5%,查表可得t的临界值为2.011
也就是说t>2.011就说明差异显著。而事实情况是7.492>2.001,那么说明新方法有效。