本文内容摘自 Jaynes 的 “Probability Theory: The Logic of Science” 第七章。

1. 赫歇尔-麦克斯韦推导

概率和统计的许多理论和方法都起源于天文学,到今天仍然如此。

对正态分布的最有趣的推导由著名天文学家 John Herschel 于 1850 年给出。这个推导的一个特点是假设的经济性。

他考虑的是恒星位置测量误差的二维概率分布。令 \(x\) 表示位置的经度误差,\(y\) 表示纬度误差,问它们的联合分布 \(\rho(x,y)\) 是什么。赫歇尔做出了两个假定 (P1, P2),这两个假定符合直觉的几何均匀性:

P1: 关于 \(x\) 的知识不给出关于 \(y\) 的任何信息。也就是说,垂直方向上的误差分布应该是相互独立的,于是待求的分布应该满足 \[ \rho(x,y) dx dy = f(x) dx \times f(y) dy. \] 可以用极坐标表达误差的分布,于是 \[ \rho(x,y) dx dy = g(r, \theta) r dr d\theta. \]

P2: 误差分布与角度无关 (事实上,第一条关于 \(x\) 和 \(y\) 独立同分布的假设已经用到了与角度无关这一点),即 \(g(r, \theta) = g(r)\)。于是 \[ f(x) f(y) = g\left(\sqrt{x^2 + y^2}\right). \] 令 \(y = 0\),得到 \(g(x) = f(x) f(0)\),所以 \[ f(x) f(y) = f(0) f\left(\sqrt{x^2 + y^2}\right), \] 也就是 \[ \ln \frac{f(x)}{f(0)} + \ln \frac{f(y)}{f(0)} = \ln \frac{f\left(\sqrt{x^2 + y^2}\right)}{f(0)}. \] 换言之,我们需要求函数 \(h(x)\equiv \ln \frac{f\left(\sqrt{x}\right)}{f(0)}\) 满足 \[ h(x^2) + h(y^2) = h(x^2+y^2), \] 这也就相当于要求 \(h(x) + h(y) = h(x+y)\)。由这个式子可得出 \(h(nx) = n h(x)\),这里 \(n\) 是整数;进一步得出 \(h(p/q \cdot x) = p/q \cdot h(x)\),这里 \(p\) 和 \(q\) 是整数。考虑到连续性我们得到 \(h(x) = h(x \cdot 1) = x h(1)\);换言之,\(h(x) = a x\),是个线性函数。

于是 \(f(x) = f(0) e^{h(x^2)} = f(0) e^{-a x^2}\)。考虑到积分的收敛性,必须有 \(a>0\)。再加上归一化条件,就得到 \[ f(x) = \frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{x^2}{2\sigma^2}}. \]

十年后,麦克斯韦将类似的推理用于气体分子的运动速度,得到了著名的麦克斯韦分布 \[ \rho(v_x, v_y, v_z) \propto e^{-\alpha(v_x^2 + v_y^2 + v_z^2)}. \]

赫歇尔-麦克斯韦推导的美妙之处在于,对于两个一般不相容的定性条件,仅当一个特定的定量关系成立时才能相容。类似的事情也发生在爱因斯坦创立狭义相对论的过程中,在那里,两个似乎不相容的条件,光速不变原理和相对性原理,仅在洛伦兹变换下相容。

赫歇尔-麦克斯韦推导还有一个具有经济性的地方是,实际上没有用到什么概率论,而只是用到一些几何不变性,而这些性质在别的场景也能应用。

2. 高斯的推导

3. Landon 推导