前言

共轭分布是统计机器学习特别是贝叶斯学派一个非常重要的概念,以往在很多地方遇到的时候都一笔带过了,仅仅了解了一个大概,这里将二项分布与Beta分布、正太分布的共轭性质推导了一遍,记录下来加深理解。


一、贝叶斯定理与共轭分布的定义回顾

贝叶斯公式

P

(

y

x

)

=

P

(

x

y

)

P

(

y

)

P

(

x

)

(1)

P(y|x) = \frac{P(x|y) * P(y)}{ P(x)} \tag{1}

P(yx)=P(x)P(xy)P(y)(1)

其中:

  • P

    (

    y

    x

    )

    P(y|x)

    P(yx)为后验分布(posterior):给定

    x

    x

    x后,变量

    y

    y

    y的分布;

  • P

    (

    y

    )

    P(y)

    P(y)为先验分布(prior):变量

    y

    y

    y自身的分布;

  • P

    (

    x

    y

    )

    P(x|y)

    P(xy)为似然(likelihood):给定

    y

    y

    y后,变量

    x

    x

    x的分布;

  • P

    (

    x

    )

    P(x)

    P(x)为变量

    x

    x

    x的先验分布(evidence):观测到的

    x

    x

    x的分布,一般为常数。

边缘概率与联合概率

x

x

x为离散变量时:

P

(

y

)

=

x

{

1

,

2

,

.

.

.

,

}

P

(

x

,

y

)

=

x

{

1

,

2

,

.

.

.

,

}

P

(

y

x

)

P

(

x

)

(2)

P(y) = \sum_{x\in\{1,2,...,\}}P(x,y)= \sum_{x\in\{1,2,...,\}}P(y|x) * P(x) \tag{2}

P(y)=x{1,2,...,}P(x,y)=x{1,2,...,}P(yx)P(x)(2)

x

x

x为连续变量时:

P

(

y

)

=

x

P

(

x

,

y

)

d

x

=

x

P

(

y

x

)

P

(

x

)

d

x

(3)

P(y) = \int_{x}P(x,y)dx= \int_{x}P(y|x) * P(x)dx \tag{3}

P(y)=xP(x,y)dx=xP(yx)P(x)dx(3)

共轭分布

In Bayesian probability theory, if the posterior distribution

p

(

θ

x

)

p(θ | x)

p(θx) is in the same probability distribution family as the prior probability distribution

p

(

θ

)

p(θ)

p(θ), the prior and posterior are then called conjugate distributions, and the prior is called a conjugate prior for the likelihood function

p

(

x

θ

)

p(x | θ)

p(xθ).
在贝叶斯统计中,如果后验分布与先验分布属于同类(分布形式相同),则先验分布与后验分布被称为共轭分布,而先验分布被称为似然函数的共轭先验。

这是共轭分布的基本定义,需要注意里面几个点:

  • 后验分布与先验分布属于同类分布:要求后验分布与先验分布是同类分布,不要求似然函数分布相同。
  • 先验分布与后验分布被称为共轭分布:先验分布与后验分布被称为共轭分布。
  • 先验分布被称为似然函数的共轭先验:先验分布是似然函数的共轭先验。

二、二项分布与Beta分布

二项分布的共轭先验是Beta分布,即:当先验分布为Beta分布,似然为二项分布时,其后验分布也为Beta分布。

套用一下上面的定义:当先验分布为Beta分布(记为分布A),似然为二项分布(记为分布B)时,其后验分布也是Beta分布(记为分布C),则先验分布A与后验分布C为共轭先验,先验分布A是似然函数B的共轭先验,即:Beta分布是二项分布的共轭先验。

假设先验分布服从Beta分布

先验分布

P

(

y

)

P(y)

P(y)服从Beta分布

B

e

(

α

,

β

)

Be(\alpha, \beta)

Be(α,β),即:

P

(

y

)

=

Γ

(

α

+

β

)

Γ

(

α

)

Γ

(

β

)

y

α

1

(

1

y

)

β

1

(4)

P(y) = \frac{\Gamma(\alpha + \beta)}{\Gamma(\alpha)\Gamma(\beta)}y^{\alpha - 1}(1-y)^{\beta -1} \tag{4}

P(y)=Γ(α)Γ(β)Γ(α+β)yα1(1y)β1(4)
其中

Γ

(

α

)

\Gamma(\alpha)

Γ(α)为Gamma函数,当

α

\alpha

α为整数时,

Γ

(

n

)

=

(

n

1

)

!

\Gamma(n) = (n-1)!

Γ(n)=(n1)!;在实数域内,

Γ

(

z

)

=

0

t

z

1

e

t

d

t

\Gamma(z) = \int_0^\infty t^{z-1}e^{-t}dt

Γ(z)=0tz1etdt

P

(

y

)

P(y)

P(y)为概率密度函数,自然的我们有:

y

Γ

(

α

+

β

)

Γ

(

α

)

Γ

(

β

)

y

α

1

(

1

y

)

β

1

d

y

=

1

(5)

\int_{y} \frac{\Gamma(\alpha + \beta)}{\Gamma(\alpha)\Gamma(\beta)}y^{\alpha - 1}(1-y)^{\beta -1} dy = 1 \tag{5}

yΓ(α)Γ(β)Γ(α+β)yα1(1y)β1dy=1(5)

假设似然服从二项分布

似然

P

(

x

y

)

P(x|y)

P(xy)为二项分布,似然为给定变量

y

y

y的情况下,变量

x

x

x的分布,这里我们让变量

x

x

x服从

B

(

n

,

y

)

B(n, y)

B(n,y)的二项分布,即:

P

(

x

y

)

=

C

n

x

y

x

(

1

y

)

n

x

(6)

P(x|y) = C_{n}^{x} y^{x}(1-y)^{n-x} \tag{6}

P(xy)=Cnxyx(1y)nx(6)
基于上面Gamma函数的定义,

P

(

x

y

)

P(x|y)

P(xy)可以改写为:

P

(

x

y

)

=

Γ

(

n

)

Γ

(

x

)

Γ

(

n

x

)

y

x

(

1

y

)

n

x

(7)

P(x|y) = \frac{\Gamma(n)}{\Gamma(x)\Gamma(n-x)} y^{x}(1-y)^{n-x} \tag{7}

P(xy)=Γ(x)Γ(nx)Γ(n)yx(1y)nx(7)

变量

x

x

x的先验分布

P

(

x

)

=

y

P

(

x

,

y

)

d

y

=

y

P

(

x

y

)

P

(

y

)

d

y

=

y

Γ

(

n

)

Γ

(

x

)

Γ

(

n

x

)

y

x

(

1

y

)

n

x

Γ

(

α

+

β

)

Γ

(

α

)

Γ

(

β

)

y

α

1

(

1

y

)

β

1

d

y

=

y

Γ

(

n

)

Γ

(

α

+

β

)

Γ

(

x

)

Γ

(

n

x

)

Γ

(

α

)

Γ

(

β

)

y

(

x

+

α

)

1

(

1

y

)

(

n

x

+

β

)

1

d

y

=

Γ

(

n

)

Γ

(

α

+

β

)

Γ

(

x

)

Γ

(

n

x

)

Γ

(

α

)

Γ

(

β

)

y

y

(

x

+

α

)

1

(

1

y

)

(

n

x

+

β

)

1

d

y

(8)

\begin{aligned} P(x) & = \int_{y}P(x,y)dy \\ & = \int_{y}P(x|y) * P(y)dy \\ & = \int_{y}\frac{\Gamma(n)}{\Gamma(x)\Gamma(n-x)} y^{x}(1-y)^{n-x} * \frac{\Gamma(\alpha + \beta)}{\Gamma(\alpha)\Gamma(\beta)}y^{\alpha - 1}(1-y)^{\beta -1}dy \\ & = \int_{y}\frac{\Gamma(n)\Gamma(\alpha + \beta)}{\Gamma(x)\Gamma(n-x)\Gamma(\alpha)\Gamma(\beta)} y^{(x+\alpha)-1}(1-y)^{(n-x+\beta)-1}dy \\ & = \frac{\Gamma(n)\Gamma(\alpha + \beta)}{\Gamma(x)\Gamma(n-x)\Gamma(\alpha)\Gamma(\beta)} \int_{y}y^{(x+\alpha)-1}(1-y)^{(n-x+\beta)-1}dy \end{aligned} \tag{8}

P(x)=yP(x,y)dy=yP(xy)P(y)dy=yΓ(x)Γ(nx)Γ(n)yx(1y)nxΓ(α)Γ(β)Γ(α+β)yα1(1y)β1dy=yΓ(x)Γ(nx)Γ(α)Γ(β)Γ(n)Γ(α+β)y(x+α)1(1y)(nx+β)1dy=Γ(x)Γ(nx)Γ(α)Γ(β)Γ(n)Γ(α+β)yy(x+α)1(1y)(nx+β)1dy(8)
由式子5有:

y

y

(

x

+

α

)

1

(

1

y

)

(

n

x

+

β

)

1

d

y

=

Γ

(

x

+

α

)

Γ

(

n

x

+

β

)

Γ

(

n

+

α

+

β

)

\int_{y}y^{(x+\alpha)-1}(1-y)^{(n-x+\beta)-1}dy = \frac{\Gamma(x+\alpha)\Gamma(n-x+\beta)}{\Gamma(n+\alpha + \beta)}

yy(x+α)1(1y)(nx+β)1dy=Γ(n+α+β)Γ(x+α)Γ(nx+β)
于是:

P

(

x

)

=

Γ

(

n

)

Γ

(

α

+

β

)

Γ

(

x

)

Γ

(

n

x

)

Γ

(

α

)

Γ

(

β

)

Γ

(

x

+

α

)

Γ

(

n

x

+

β

)

Γ

(

n

+

α

+

β

)

(9)

P(x)=\frac{\Gamma(n)\Gamma(\alpha + \beta)}{\Gamma(x)\Gamma(n-x)\Gamma(\alpha)\Gamma(\beta)} * \frac{\Gamma(x+\alpha)\Gamma(n-x+\beta)}{\Gamma(n+\alpha + \beta)} \tag{9}

P(x)=Γ(x)Γ(nx)Γ(α)Γ(β)Γ(n)Γ(α+β)Γ(n+α+β)Γ(x+α)Γ(nx+β)(9)

后验概率分布

结合式子4、6、9,我们有:

P

(

y

x

)

=

P

(

x

y

)

P

(

y

)

P

(

x

)

=

Γ

(

n

)

Γ

(

x

)

Γ

(

n

x

)

y

x

(

1

y

)

n

x

Γ

(

α

+

β

)

Γ

(

α

)

Γ

(

β

)

y

α

1

(

1

y

)

β

1

Γ

(

x

)

Γ

(

n

x

)

Γ

(

α

)

Γ

(

β

)

Γ

(

n

)

Γ

(

α

+

β

)

Γ

(

n

+

α

+

β

)

Γ

(

x

+

α

)

Γ

(

n

x

+

β

)

=

Γ

(

n

+

α

+

β

)

Γ

(

x

+

α

)

Γ

(

n

x

+

β

)

y

(

x

+

α

)

1

(

1

y

)

(

n

x

+

β

)

1

\begin{aligned} P(y|x) & = \frac{P(x|y) * P(y)}{ P(x)} \\ & = \frac{\Gamma(n)}{\Gamma(x)\Gamma(n-x)} y^{x}(1-y)^{n-x} * \frac{\Gamma(\alpha + \beta)}{\Gamma(\alpha)\Gamma(\beta)}y^{\alpha - 1}(1-y)^{\beta -1} * \frac{\Gamma(x)\Gamma(n-x)\Gamma(\alpha)\Gamma(\beta)}{\Gamma(n)\Gamma(\alpha + \beta)} * \frac{\Gamma(n+\alpha + \beta)}{\Gamma(x+\alpha)\Gamma(n-x+\beta)} \\ & = \frac{\Gamma(n+\alpha + \beta)}{\Gamma(x+\alpha)\Gamma(n-x+\beta)}y^{(x+\alpha)-1}(1-y)^{(n-x+\beta)-1} \end{aligned}

P(yx)=P(x)P(xy)P(y)=Γ(x)Γ(nx)Γ(n)yx(1y)nxΓ(α)Γ(β)Γ(α+β)yα1(1y)β1Γ(n)Γ(α+β)Γ(x)Γ(nx)Γ(α)Γ(β)Γ(x+α)Γ(nx+β)Γ(n+α+β)=Γ(x+α)Γ(nx+β)Γ(n+α+β)y(x+α)1(1y)(nx+β)1
后验分布

P

(

y

x

)

P(y|x)

P(yx)服从Beta分布

B

e

(

x

+

α

,

n

x

+

β

)

Be(x+\alpha, n-x+\beta)

Be(x+α,nx+β),得出前面给出的结论:

当先验分布为Beta分布,似然为二项分布时,其后验分布也为Beta分布。


三、正太分布的共轭先验

正太分布的共轭先验也是正太分布,即:当先验分布为正太分布,似然也为正太分布时,其后验分布也为正太分布。

假设先验分布服从正太分布

先验分布

P

(

y

)

P(y)

P(y)服从正太

N

(

μ

,

σ

2

)

N(\mu, \sigma^2)

N(μ,σ2),即:

P

(

y

)

=

1

2

π

σ

e

x

p

(

(

y

μ

)

2

2

σ

2

)

(10)

P(y) = \frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y-\mu)^2}{2\sigma^2}) \tag{10}

P(y)=2π
σ
1
exp(2σ2(yμ)2)
(10)

对于正太分布,我们有:

y

1

2

π

σ

e

x

p

(

(

y

μ

)

2

2

σ

2

)

d

y

=

1

(11)

\int_{y}\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y-\mu)^2}{2\sigma^2})dy=1 \tag{11}

y2π
σ
1
exp(2σ2(yμ)2)dy=
1(11)

假设似然服从正太分布

似然

P

(

x

y

)

P(x|y)

P(xy)服从正太分布,这里为了不失一般性,假设似然

P

(

x

y

)

P(x|y)

P(xy)服从

N

(

a

y

+

b

,

λ

2

)

N(ay+b, \lambda^2)

N(ay+b,λ2)的正太分布,即给定变量

y

y

y,变量

x

x

x服从均值为

y

y

y的线性变换

a

y

+

b

ay+b

ay+b、方差为

λ

2

\lambda^2

λ2的正太分布:

P

(

x

y

)

=

1

2

π

λ

e

x

p

(

(

x

(

a

y

+

b

)

)

2

2

λ

2

)

(12)

P(x|y) = \frac{1}{\sqrt{2\pi}\lambda}exp(-\frac{(x-(ay+b))^2}{2\lambda^2}) \tag{12}

P(xy)=2π
λ
1
exp(2λ2(x(ay+b))2)
(12)

变量

x

x

x的先验分布

P

(

x

)

=

y

P

(

x

,

y

)

d

y

=

y

P

(

x

y

)

P

(

y

)

d

y

=

y

1

2

π

λ

e

x

p

(

(

x

(

a

y

+

b

)

)

2

2

λ

2

)

1

2

π

σ

e

x

p

(

(

y

μ

)

2

2

σ

2

)

d

y

=

1

2

π

λ

1

2

π

σ

y

e

x

p

(

(

x

(

a

y

+

b

)

)

2

2

λ

2

(

y

μ

)

2

2

σ

2

)

d

y

(13)

\begin{aligned} P(x) & = \int_{y}P(x,y)dy \\ & = \int_{y}P(x|y) * P(y)dy \\ & = \int_{y}\frac{1}{\sqrt{2\pi}\lambda}exp(-\frac{(x-(ay+b))^2}{2\lambda^2})\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y-\mu)^2}{2\sigma^2})dy \\ & = \frac{1}{\sqrt{2\pi}\lambda}\frac{1}{\sqrt{2\pi}\sigma}\int_{y}exp(-\frac{(x-(ay+b))^2}{2\lambda^2}-\frac{(y-\mu)^2}{2\sigma^2})dy \end{aligned} \tag{13}

P(x)=yP(x,y)dy=yP(xy)P(y)dy=y2π
λ
1
exp(2λ2(x(ay+b))2)2π
σ
1
exp(2σ2(yμ)2)dy
=2π
λ
1
2π
σ
1
yexp(2λ2(x(ay+b))22σ2(yμ)2)dy
(13)

式子内部对变量

y

y

y求积分,我们将其他变量移出指数函数,有:

P

(

x

)

=

1

2

π

λ

1

2

π

σ

e

x

p

(

σ

2

λ

2

μ

2

(

x

b

)

2

[

a

λ

2

(

x

b

)

+

μ

λ

2

]

2

a

2

σ

2

+

λ

2

2

σ

2

λ

2

)

y

e

x

p

(

(

y

a

σ

2

(

x

b

)

+

λ

2

μ

a

2

σ

2

+

λ

2

)

2

2

λ

2

σ

2

a

2

σ

2

+

λ

2

)

d

y

\begin{aligned} P(x) & = \frac{1}{\sqrt{2\pi}\lambda}\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{\sigma^2\lambda^2\mu^2(x-b)^2-\frac{[a\lambda^2(x-b)+\mu\lambda^2]^2}{a^2\sigma^2+\lambda^2}}{2\sigma^2\lambda^2})\int_{y}exp(-\frac{(y-\frac{a\sigma^2(x-b)+\lambda^2\mu}{a^2\sigma^2+\lambda^2})^2}{\frac{2\lambda^2\sigma^2}{a^2\sigma^2+\lambda^2}})dy \end{aligned}

P(x)=2π
λ
1
2π
σ
1
exp(2σ2λ2σ2λ2μ2(xb)2a2σ2+λ2[aλ2(xb)+μλ2]2)yexp(a2σ2+λ22λ2σ2(ya2σ2+λ2aσ2(xb)+λ2μ)2)dy

由正太分布的概率密度积分(公式11)我们有:

y

e

x

p

(

(

y

a

σ

2

(

x

b

)

+

λ

2

μ

a

2

σ

2

+

λ

2

)

2

2

λ

2

σ

2

a

2

σ

2

+

λ

2

)

d

y

=

2

π

λ

σ

1

a

2

σ

2

+

λ

2

\int_{y}exp(-\frac{(y-\frac{a\sigma^2(x-b)+\lambda^2\mu}{a^2\sigma^2+\lambda^2})^2}{\frac{2\lambda^2\sigma^2}{a^2\sigma^2+\lambda^2}})dy=\sqrt{2\pi}\lambda\sigma\frac{1}{\sqrt{a^2\sigma^2+\lambda^2}}

yexp(a2σ2+λ22λ2σ2(ya2σ2+λ2aσ2(xb)+λ2μ)2)dy=2π
λσa2σ2+λ2
1

于是有:

P

(

x

)

=

1

2

π

λ

1

2

π

σ

e

x

p

(

σ

2

λ

2

μ

2

(

x

b

)

2

[

a

λ

2

(

x

b

)

+

μ

λ

2

]

2

a

2

σ

2

+

λ

2

2

σ

2

λ

2

)

2

π

λ

σ

1

a

2

σ

2

+

λ

2

=

1

2

π

a

2

σ

2

+

λ

2

e

x

p

(

σ

2

λ

2

μ

2

(

x

b

)

2

(

a

2

σ

2

+

λ

2

)

[

a

λ

2

(

x

b

)

+

μ

λ

2

]

2

2

σ

2

λ

2

(

a

2

σ

2

+

λ

2

)

)

=

1

2

π

a

2

σ

2

+

λ

2

e

x

p

(

σ

2

λ

2

(

x

(

a

μ

+

b

)

)

2

2

σ

2

λ

2

(

a

2

σ

2

+

λ

2

)

)

=

1

2

π

a

2

σ

2

+

λ

2

e

x

p

(

(

x

(

a

μ

+

b

)

)

2

2

(

a

2

σ

2

+

λ

2

)

)

\begin{aligned} P(x) & = \frac{1}{\sqrt{2\pi}\lambda}\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{\sigma^2\lambda^2\mu^2(x-b)^2-\frac{[a\lambda^2(x-b)+\mu\lambda^2]^2}{a^2\sigma^2+\lambda^2}}{2\sigma^2\lambda^2}) * \sqrt{2\pi}\lambda\sigma\frac{1}{\sqrt{a^2\sigma^2+\lambda^2}} \\ & = \frac{1}{\sqrt{2\pi}\sqrt{a^2\sigma^2+\lambda^2}}exp(-\frac{\sigma^2\lambda^2\mu^2(x-b)^2(a^2\sigma^2+\lambda^2)-[a\lambda^2(x-b)+\mu\lambda^2]^2}{2\sigma^2\lambda^2(a^2\sigma^2+\lambda^2)}) \\ & = \frac{1}{\sqrt{2\pi}\sqrt{a^2\sigma^2+\lambda^2}}exp(-\frac{\sigma^2\lambda^2(x-(a\mu+b))^2}{2\sigma^2\lambda^2(a^2\sigma^2+\lambda^2)}) \\ & = \frac{1}{\sqrt{2\pi}\sqrt{a^2\sigma^2+\lambda^2}}exp(-\frac{(x-(a\mu+b))^2}{2(a^2\sigma^2+\lambda^2)}) \end{aligned}

P(x)=2π
λ
1
2π
σ
1
exp(2σ2λ2σ2λ2μ2(xb)2a2σ2+λ2[aλ2(xb)+μλ2]2)2π
λσa2σ2+λ2
1
=2π
a2σ2+λ2
1
exp(2σ2λ2(a2σ2+λ2)σ2λ2μ2(xb)2(a2σ2+λ2)[aλ2(xb)+μλ2]2)
=2π
a2σ2+λ2
1
exp(2σ2λ2(a2σ2+λ2)σ2λ2(x(aμ+b))2)
=2π
a2σ2+λ2
1
exp(2(a2σ2+λ2)(x(aμ+b))2)

最终可以得出结论:变量

x

x

x服从

N

(

a

μ

+

b

,

a

2

σ

2

+

λ

2

)

N(a\mu+b, a^2\sigma^2+\lambda^2)

N(aμ+b,a2σ2+λ2)的正太分布。

后验概率分布

P

(

y

x

)

=

P

(

x

y

)

P

(

y

)

P

(

x

)

=

1

2

π

λ

e

x

p

(

(

x

(

a

y

+

b

)

)

2

2

λ

2

)

1

2

π

σ

e

x

p

(

(

y

μ

)

2

2

σ

2

)

1

2

π

a

2

σ

2

+

λ

2

e

x

p

(

(

x

(

a

μ

+

b

)

)

2

2

(

a

2

σ

2

+

λ

2

)

)

=

1

2

π

σ

λ

(

a

2

σ

2

+

λ

2

)

e

x

p

(

(

x

(

a

y

+

b

)

)

2

2

λ

2

(

y

μ

)

2

2

σ

2

+

(

x

(

a

μ

+

b

)

)

2

2

(

a

2

σ

2

+

λ

2

)

)

=

1

2

π

σ

λ

(

a

2

σ

2

+

λ

2

)

e

x

p

(

(

(

a

2

σ

2

+

λ

2

)

y

(

μ

λ

2

+

a

σ

2

(

x

b

)

)

)

2

2

σ

2

λ

2

(

a

2

σ

2

+

λ

2

)

)

=

1

2

π

σ

λ

(

a

2

σ

2

+

λ

2

)

e

x

p

(

(

y

(

μ

λ

2

+

a

σ

2

(

x

b

)

)

(

a

2

σ

2

+

λ

2

)

)

2

2

σ

2

λ

2

(

a

2

σ

2

+

λ

2

)

)

\begin{aligned} P(y|x) & = \frac{P(x|y) * P(y)}{ P(x)} \\ & = \frac{\frac{1}{\sqrt{2\pi}\lambda}exp(-\frac{(x-(ay+b))^2}{2\lambda^2})\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y-\mu)^2}{2\sigma^2})}{\frac{1}{\sqrt{2\pi}\sqrt{a^2\sigma^2+\lambda^2}}exp(-\frac{(x-(a\mu+b))^2}{2(a^2\sigma^2+\lambda^2)})} \\ & = \frac{1}{\sqrt{2\pi}\frac{\sigma\lambda}{\sqrt{(a^2\sigma^2+\lambda^2)}}}exp(-\frac{(x-(ay+b))^2}{2\lambda^2}-\frac{(y-\mu)^2}{2\sigma^2}+\frac{(x-(a\mu+b))^2}{2(a^2\sigma^2+\lambda^2)}) \\ & = \frac{1}{\sqrt{2\pi}\frac{\sigma\lambda}{\sqrt{(a^2\sigma^2+\lambda^2)}}}exp(-\frac{((a^2\sigma^2+\lambda^2)y-(\mu\lambda^2+a\sigma^2(x-b)))^2}{2\sigma^2\lambda^2(a^2\sigma^2+\lambda^2)}) \\ & = \frac{1}{\sqrt{2\pi}\frac{\sigma\lambda}{\sqrt{(a^2\sigma^2+\lambda^2)}}}exp(-\frac{(y-\frac{(\mu\lambda^2+a\sigma^2(x-b))}{(a^2\sigma^2+\lambda^2)})^2}{\frac{2\sigma^2\lambda^2}{(a^2\sigma^2+\lambda^2)}}) \end{aligned}

P(yx)=P(x)P(xy)P(y)=2π
a2σ2+λ2
1
exp(2(a2σ2+λ2)(x(aμ+b))2)
2π
λ
1
exp(2λ2(x(ay+b))2)2π
σ
1
exp(2σ2(yμ)2)
=2π
(a2σ2+λ2)
σλ
1
exp(2λ2(x(ay+b))22σ2(yμ)2+2(a2σ2+λ2)(x(aμ+b))2)
=2π
(a2σ2+λ2)
σλ
1
exp(2σ2λ2(a2σ2+λ2)((a2σ2+λ2)y(μλ2+aσ2(xb)))2)
=2π
(a2σ2+λ2)
σλ
1
exp((a2σ2+λ2)2σ2λ2(y(a2σ2+λ2)(μλ2+aσ2(xb)))2)

可以看出,后验概率

P

(

y

x

)

P(y|x)

P(yx)服从

N

(

(

μ

λ

2

+

a

σ

2

(

x

b

)

)

(

a

2

σ

2

+

λ

2

)

,

σ

2

λ

2

(

a

2

σ

2

+

λ

2

)

)

N(\frac{(\mu\lambda^2+a\sigma^2(x-b))}{(a^2\sigma^2+\lambda^2)}, \frac{\sigma^2\lambda^2}{(a^2\sigma^2+\lambda^2)})

N((a2σ2+λ2)(μλ2+aσ2(xb)),(a2σ2+λ2)σ2λ2)的正太分布,得出前面给出的结论:

当先验分布为正太分布,似然也为正太分布时,其后验分布也为正太分布。

总结

本文简单推导了一下二项分布与Beta分布、正太分布的共轭性质,主要都是基于贝叶斯定理的简单推导,后续还有一些扩展到多维的内容,比如多项分布与狄利克雷分布、多维正太分布,后面有时间再推理记录。