机器学习基础

一、基本问题

1. 分类[监督学习:有标签]

概念:把一个输入映射成离散的类别。(输入一组泰坦尼克数据可以预测出生还是死亡)
算法:KNN、支持向量机、决策树、朴素贝叶斯、逻辑回归、深度学习、神经网络、图像分类
评估指标:交叉熵、混淆矩阵、ROC、AUC、F1Score

2. 回归[监督学习:有标签]

概念:预测一个连续的值。(输入一个房子的地段可以预测出房价,房价是连续的数据)
算法:支持向量机、决策树、线性回归、岭回归、神经网络

3. 聚类[无监督学习:无标签]

概念:把没有标签的数据自组织的聚成一簇一簇。
算法:K-means、和密度估计、高斯混合模型

4. 降维[无监督学习:无标签]

概念:把高维数据压缩成低级维度,便于可视化

5. 强化学习

概念:训练一个智能体,能够感受到环境,接收到环境的奖励或者惩罚,根据奖惩采取下一步的动作,下一个动作又会导致新的奖励或环境的变化。[感受世界与世界交互]

监督学习 非监督学习
数值离散 分类 聚类
数值连续 回归 降维

二、分类模型评估指标

分类问题,监督学习

如果标签是离散的,则为分类;(猫狗识别、手写数字识别等)

如果标签是连续的,则为回归。(股票、房价、用电量 预测)

训练分类模型

将数据集划分为训练集和测试集

训练集 (特征 标签)

在训练时将训练集的特征和标签输入模型,模型根据每个数据的特征进行标签预测,再和真实的标签进行比较。

1. 二分类问题

标签只分为两类:是/否

评估指标

二分类混淆矩阵

真实情况/预测结果 正例 反例
正例 TP(真正例)True Positive FN(假反例)False Negative
反例 FP(假正例)False Positive TN(真反例)True Negative
True/False:表示被预测正确/错误
Positive/Negative:表示正例/反例
横轴是模型预测的结果,纵轴是真实标签
算例
真实\预测 预测为脑肿瘤 预测为健康
脑肿瘤 True Positive False Negative
健康 False Positive True Negative
n=100 预测为脑肿瘤 预测为健康
脑肿瘤 45 5
健康 15 35

TP+FN:真实脑肿瘤数据个数的总和

FP+TN:真实健康数据个数的总和

TP+TN:所有被正确分类的数据个数总和

评估指标(用 # 表示个数)

A

c

c

u

a

r

c

y

(

)

=

=

T

P

+

T

N

T

P

+

T

N

+

F

P

+

F

N

Accuarcy(准确率) = \frac{正确分类}{所有数据} = \frac{TP+TN}{TP+TN+FP+FN}

Accuarcy()==TP+TN+FP+FNTP+TN

P

r

e

c

i

s

i

o

n

(

)

=

T

P

=

T

P

F

P

+

F

N

Precision(查准率)= \frac{TP}{预测为脑肿瘤} = \frac{TP}{FP+FN}

Precision()=TP=FP+FNTP

预测为脑肿瘤的数据中有多少是真的脑肿瘤

R

e

c

a

l

l

(

)

=

T

P

=

T

P

T

P

+

F

N

Recall(查全率、敏感性、召回率)=\frac{TP}{真实为脑肿瘤}=\frac{TP}{TP+FN}

Recall()=TP=TP+FNTP
​真实为脑肿瘤的数据中有多少被预测出来了

F

1

S

c

o

r

e

=

2

1

p

r

e

c

i

s

s

i

o

n

+

1

r

e

c

a

l

l

=

2

×

p

r

e

c

i

s

i

o

n

+

r

e

c

a

l

l

p

r

e

c

i

s

s

i

o

n

+

r

e

c

a

l

l

F1-Score = \frac{2}{\frac{1}{precission}+\frac{1}{recall}}=\frac{2\times{precision}+recall}{{precission}+{recall}}

F1Score=precission1+recall12=precission+recall2×precision+recall
​ F1-Score是Precision和Recall的调和平均数,综合反映分类器的Precision和Recall

S

p

e

c

i

f

i

c

t

y

(

)

=

T

N

=

T

N

F

P

+

T

N

Specificty(特异性)=\frac{TN}{真实为健康}=\frac{TN}{FP+TN}

Specificty()=TN=FP+TNTN

2. 多分类问题

和二分类问题评估指标一致,不同点是多分类问题可以求出每一个类别的Precision和Recall,F1-Score是每一类F1-score的平均值。

参考材料
1. B站“同济子豪兄”机器学习基础
2. 多分类ROC曲线