与DeepSeek聊统计学基本概念2

参数估计方法

在统计学中一个重要的内容是根据样本信息来估计总体信息，实际情况是我们智能获取样本数据，所以必须根据样本统计量来估计总体参数，这就是参数估计。参数估计主要有两种方式：

点估计：估计一个人的身高是170cm，这就是点估计
区间估计：估计一个人的身高在168-172cm之间，这就是参数估计

最小二乘估计

在平面上有一些点，它们看上去大致呈一种曲线的趋势。选择一个合适的曲线表达式，让这个曲线尽可能“贴近”所有的这些点。

“二乘”：其实就是平方的意思，计算距离的平方，这样可以处理距离计算的负值
“最小”：找到使得这个平方和最小的曲线的参数

![](https://cdn.hashnode.com/res/hashnode/image/upload/v1760669905553/a944a8e6-c7cc-4553-ac4d-c06b40cd666a.png align=”center”)

上面的图像散点是我基于一条真实函数（绿色）增加了一些噪声生成的，红色是由最小二乘法拟合生成的。

对于这种点分布，假设用一条一次函数来做拟合：

\(y=ax+b\)

那么有点误差

\(e_i = y_i - (ax_i + b)\)

我们的目标是让所有点的误差平方和最小。这个平方和（我们用 S 表示）就是我们的目标函数:

\(S=\sum_{i=1}^{n}e_i^2=\sum_{i=1}^{n}[y_i - (ax_i + b)]^2\)

接下来的目标就是找到最小值，需要求解a和b.这一步可以直接让计算机来算了，并不是统计专业的所以直接列公式。计算公式如下：

![](https://cdn.hashnode.com/res/hashnode/image/upload/v1760674758796/ce4f7066-2a28-4028-a9e3-5353784fddda.png align=”center”)

在python中也有一些能够计算最小二乘法的函数：

# numpy.linalg.lstsq
import numpy as np
beta, residuals, rank, s = np.linalg.lstsq(X, y, rcond=None)

# scipy.linalg.lstsq
# 与 numpy 版本类似，来自 SciPy 的 LAPACK 封装，选项更丰富
from scipy.linalg import lstsq
beta, residuals, rank, s = lstsq(X, y)  # rcond 等参数可选

# scikit-learn 线性模型
# LinearRegression（普通最小二乘）
from sklearn.linear_model import LinearRegression
lr = LinearRegression().fit(X, y)
lr.coef_, lr.intercept_

下面这是一个实例，首先选择一条一次函数，添加一些噪声生成许多散点，然后用 np.linalg.lstsq 做最小二乘法：

import numpy as np
import matplotlib.pyplot as plt

# 设置字体为 LXGW WenKai
plt.rcParams['font.sans-serif'] = ['LXGW WenKai']
plt.rcParams['axes.unicode_minus'] = False

# 真实函数参数
a_true = 1.5
b_true = 2.0

# 生成自变量数据
np.random.seed(42)  # 保证可复现
x = np.linspace(0, 10, 100)

# 在真实函数基础上加高斯噪声
noise = np.random.normal(loc=0, scale=1, size=x.shape)  # 均值0，标准差1
y = a_true * x + b_true + noise

# 最小二乘法拟合 y = ax + b
A = np.vstack([x, np.ones(len(x))]).T
a_fit, b_fit = np.linalg.lstsq(A, y, rcond=None)[0]

print(f"真实函数：y = {a_true}x + {b_true}")
print(f"拟合结果：y = {a_fit:.3f}x + {b_fit:.3f}")

# 绘图
plt.figure(figsize=(8,5))
plt.scatter(x, y, color='blue', s=12, label='带噪声的样本点')
plt.plot(x, a_true*x + b_true, color='green', linewidth=2, label='真实函数')
plt.plot(x, a_fit*x + b_fit, color='red', linewidth=2, label='最小二乘拟合')
plt.title('最小二乘法线性拟合（带噪声数据）')
plt.xlabel('X')
plt.ylabel('Y')
plt.legend()
plt.grid(True)
plt.show()