朴素贝叶斯算法-白红宇

朴素贝叶斯算法

阅读量：4068 次

发布时间：2019-05-25

本文共 3076 字，大约阅读时间需要 10 分钟。

概率基础

概率

概率表示为0到1之间的数字，含义是某一事件或者预测行为的可信程度，1值表示“事件为真”的情形肯定发生，或表述为预测为真；而0值表示“事件为真”这一情形为假。

条件概率

条件概率是带有某些（前提条件）背景约束下的概率问题。

P (A | B) = P ( A , B ) P ( B )

$P(A|B) = \frac{P(A,B)}{P(B)}$

联合概率

联合概率是指两个事件同时发生的概率。P(A, B)是A和B事件的发生都为真的概率。

例1：投硬币，A与B独立

P (A, B) = P (A) P (B)

$P(A, B) = P(A)P(B)$

例2：事件不独立。A表示今天下雨的事件、B表示明天会下雨的事件。今天下雨，明天还有可能下雨的：

P (B | A) > P (B)

$P(B|A) > P(B)$

联合概率为：对于任何A、B事件，如果任意一天下雨的机会是0.5，连续两天就不会是0.25，而是可能更高一点。

P (A, B) = P (A) P (B | A)

$P(A, B) = P(A)P(B|A)$

The Rules of Probability

sum rule: （求离散变量X的边缘概率分布）

p (X) = \sum Y p (X, Y)

$p(X) = \sum_{Y}p(X,Y)$

product rule: （或称为条件概率的链式法则）

p (X, Y) = p (Y | X) p (X)

$p(X,Y) = p(Y|X)p(X)$

P (X, Y, Z) = P (X | Y, Z) P (Y, Z)

$P(X,Y,Z) = P(X|Y,Z)P(Y,Z)$

P (Y, Z) = P (Y | Z) P (Z)

$P(Y,Z) = P(Y|Z)P(Z)$

P (X, Y, Z) = P (X | Y, Z) P (Y | Z) P (Z)

$P(X,Y,Z) = P(X|Y,Z)P(Y|Z)P(Z)$

全概率公式

p (X) = p (X | Y 1) p (Y 1) + P (X | Y 2) p (Y 2) + . . . P (X | Y n) p (Y n)

$p(X) = p(X|Y_1)p(Y_1) + P(X|Y_2)p(Y_2) + ... P(X|Y_n)p(Y_n)$

贝叶斯定理（Bayes’ theorem）

p (Y | X) = p ( X | Y ) p ( Y ) p ( X )

$p(Y|X) = \frac{p(X|Y)p(Y)}{p(X)}$

p(Y)称为先验概率，即在得到新数据前某一假设的概率。

P(Y|X)称为后验概率，即在看到新数据后，我们要计算的该假设的概率。

P(X|Y)是该假设下得到这一数据的概率，称为似然度。

P(X)是在任何假设下得到这一数据的概率，称为标准化常量。

Naive Bayes classifier

朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集，首先基于特征条件独立假设学习输入/输出的联合概率分布；然后基于此模型，对于给定的输入x，利用贝叶斯定理求出后验概率最大的输出y。

优点：对无关特征的处理能力十分彪悍，无关特征会被自然忽略掉，朴素贝叶斯分类器学习和预测的速度都很快，并且不需要很大的存储空间。

假设：条件独立假设，所有特征需要相互独立。（实践中独立假设往往不成立，但是仍然能够达到非常好的效果）

原理：朴素贝叶斯的核心功能是跟踪哪个特征在哪个类别中出现。

P (C | F 1 F 2) = P ( C ) ∙ P ( F 1 F 2 | C ) P ( F 1 , F 2 )

$P(C|F_1F_2)=\frac{P(C)\bullet P(F_1F_2|C)}{P(F_1,F_2)}$

即：

这里写图片描述

由条件独立假设（假设每个属性独立地对分类结果产生影响）可以得：

P (C | F 1 F 2) = P ( C ) ∙ P ( F 1 F 2 | C ) P ( F 1 , F 2 ) = P ( C ) ∙ P ( F 1 | C ) ∙ P ( F 2 | C , F 1 ) P ( F 1 , F 2 ) = P ( C ) ∙ P ( F 1 | C ) ∙ P ( F 2 | C ) P ( F 1 , F 2 )

$P(C|F_1F_2)=\frac{P(C)\bullet P(F_1F_2|C)}{P(F_1,F_2)}=\frac{P(C)\bullet P(F_1|C)\bullet P(F_2|C,F_1)}{P(F_1,F_2)}=\frac{P(C)\bullet P(F_1|C)\bullet P(F_2|C)}{P(F_1,F_2)}$

朴素贝叶斯对真实概率并不感兴趣，只是注重哪个类别更有可能：

C b e s t = a r g m a x c \in C P (C = c) ∙ P (F 1 | C = c) ∙ P (F 2 | C = c)

$C_{best}=argmax_{c\in C}P(C=c)\bullet P(F_1|C=c)\bullet P(F_2|C=c)$

即最大后验估计（Maximum a posteriori， MAP）：

C b e s t = a r g m a x c \in C P (C = c) ∙ \prod 1 \leq k \leq n d P (F k | C = c)

$C_{best}=argmax_{c\in C}P(C=c)\bullet \prod_{1\le k\le n_d}{P(F_k|C=c)}$

朴素贝叶斯分类器的训练过程就是基于训练集来估计类先验概率P(C),并为每个属性估计条件概率P(F|C)

这里写图片描述

上式估计了文档d属于类别c的概率，假设文档长度为n_d，F_k是单词。

P (c) = D c D

$P(c)=\frac{D_c}{D}$

这里写图片描述

(极大似然估计)

应用：文本分类（垃圾邮件分类器、情感分类等）。

Engineering tricks

考虑零概率（未出现的词语和其他古怪情况）

计算 P(F|C) 时：加1平滑（加法平滑、拉普拉斯平滑），假装每个词语至少出现了一次。分子加1、分母加n。

P (C) = D f + 1 D + N

$P(C) = \frac{D_f + 1}{D + N}$

这里写图片描述

（先验概率的贝叶斯估计）:

P (C) = D f + λ D + K λ

$P(C) = \frac{D_f + \lambda}{D + K\lambda}$

lambda=0时就是极大似然估计，可能会出现所有估计的概率为0的情况，这时会影响到后验概率的计算结果，使分类产生偏差，解决这一问题的方法是使用贝叶斯估计。常取lambda=1，这时称为拉普拉斯平滑（Laplace smoothing）

拉普拉斯修正实际上假设了属性值和类别的均匀分布，在学习过程中额外引入了先验识。

考虑算术下溢

取对数：

l o g (x ∙ y) = l o g (x) + l o g (y)

$log(x\bullet y)=log(x)+log(y)$

概率值由 0-1 转换成负无穷到0，较高的值预示正确的类别。

所以：

C b e s t = a r g m a x c \in C (l o g P (C = c) + \sum k P (F k | C = c)

$C_{best}={\rm argmax}_{c\in C}(logP(C=c)+\sum_{k}{P(F_k|C=c)}$

实现

sklearn.naive_bayes

GaussianNB

MultinomialNB

BerboulliNB

《统计学习方法》 P47

《Think Bayes》

《Building Machine Learning Systems with Python》 P90

《Machine Learning in Action》 P53

你可能感兴趣的文章

my ReadMap subway / metro / map / ditie / gaotie / traffic / jiaotong

查看>>

OS + Linux DNS Server Bind

查看>>

web test flow

查看>>

web test LoadRunner SAP / java / Java Vuser / web_set_max_html_param_len

查看>>

OS + UNIX AIX command

查看>>

OS + UNIX AIX performance

查看>>

OS + UNIX AIX Tools

查看>>

my ReadBook_liutongjingjixue / circulation economics

查看>>

my ReadBook_wangluoyingxiaoyucehua / network marketing / wangluoyingxiao

查看>>

db base database

查看>>

不联网的情况下，CentOs下载成功卸载 virbr0

使用 AppFuse 快速构建 J2EE 应用

概率基础

概率

条件概率

联合概率

The Rules of Probability

贝叶斯定理 （Bayes’ theorem）

Naive Bayes classifier

Engineering tricks

考虑零概率（未出现的词语和其他古怪情况）

考虑算术下溢

实现

贝叶斯定理（Bayes’ theorem）