# 基础概论

## 1.模型分类

* 概率模型：$$P(y|x)$$
* 非概率模型：$$y=f(x)$$

1）在监督学习中：

* 概率模型：生成模型
* 非概率模型：判别模型

2）包括的算法：

* 概率模型：决策树、朴素贝叶斯、隐马尔可夫、条件随机场、概率潜在语义分析、潜在狄利克雷分配、高斯混合模型
* 非概率模型：感知机、支持向量机、k-近邻、AdaBoost、k均值、潜在语义分析、神经网络
* 逻辑回归：可以看作概率、非概率模型

3）通常还能$$P(y|x)$$与$$y=f(x)$$相互转换（想想softmax），因此区分二者的主要还是在于内在结构模型，是否基于联合概率分布，还是直接输入输出的一种映射关系

4）线性来分：

* 线性模型：感知机、线性支持向量、knn、k均值、潜在语义分析
* 非线性模型：核函数支持向量、AdaBoost、神经网络

5）参数分：

* 参数化模型（参数固定）：感知机、朴素贝叶斯、逻辑回归、k均值、高斯混合模型
* 非参数化模型（参数不确定）：决策树、支持向量机、AdaBoost、knn、潜在语义分析、概率潜在语义分析、潜在狄利克雷分配

## 2.学习技巧

* 贝叶斯学习
* 核方法：把线性模型（通过引入核函数映射）扩展到非线性、核SVM、核PCA、核Kmean

  此技巧在于不显式定义映射过程$$\<x\_1,x\_2>\to \<f(x\_1),f(x\_2)>$$，其中$$f(x)$$为对x的映射，

  而是直接定义核函数$$\<x\_1,x\_2>\to k(x\_1,x\_2)$$，也就是不用寻找映射函数，

  而是跳过直接假设出映射后的结果，等价于：$$k(x\_1,x\_2)=\<f(x\_1),f(x\_2)>$$

## 风险

* 经验风险：$$R\_{emp}=\frac {1}{N}\sum\_{i=1}^N L(y\_i,f(x\_i))$$，是模型对于N个样本的平均损失，N无穷大时，经验风险趋于期望风险
* 结构风险：$$R\_{emp}=\frac {1}{N}\sum\_{i=1}^N L(y\_i,f(x\_i))+rJ(f)$$，

  r为>=0的权衡因子，权衡经验风险和结构风险；$$J(f)$$为模型结构复杂度度量，模型越复杂越大，

## 3.模型评估

1）训练误差、测试误差

2）损失函数：

* 0-1损失：$$L(Y,f(x))==\begin{cases}0, & Y\ne f(x) \1, & Y= f(x) \end{cases}$$
* 平方损失：$$L(Y,f(x))=(Y-f(x))^2$$
* 绝对值损失：$$L(Y,f(x))=|Y-f(x)|$$
* 对数损失：$$L(Y,p(Y|x))=-logP(Y|x)$$

3）过拟合、欠拟合

## 4.正则化

* L1正则化：梯度项和正则项相交概率较大，既值更有可能是0，更稀疏，因此也可以用来选择特征
* L2正则化：梯度项和正则项相交概率较小，既值更有可能是非0，可以防止过拟合
* 正则化的调节因子可以控制正则化项区域大小，越小L1、L2图形越大

## 5.交叉验证

## 6.生成模型与判别模型

给特征向量x与标签y：

* 生成模型对联合概率p(x,y)建模，可根据y生成x数据
* 判别模型对条件概率p(y|x)建模，只能根据x对y进行判断

生成式p(x,y)：贝叶斯分类器、高斯混合模型、隐马尔可夫模型、首先玻尔兹曼机、生成对抗网络等

判别式p(y|x)：决策树、KNN、人工神经网络、支持向量机、逻辑回归、AdaBoost等

## 7.评估指标

1）精度、召回率

记：

* TP(True Positive)：正样本被判定为正样本的数量
* FN(False Negative)：正样本被判定为负样本的数量
* TN(True Negative)：负样本被判定为负样本的数量
* FP(False Positive)：负样本被判定为正样本的数量

则：

* 精度：$$P=\frac{TP}{(TP+FP)}$$，被判定为正样本中，判断对的比例
* 召回率：$$R=\frac{TP}{(TP+FN)}$$，正样本中，有多少被判断为正（判断正确）的比例
* 极端思考：`分类器全部判断为正样本，则R=1，但是P就可能很低`
* 调和均值：$$F1=\frac{2PR}{(P+R)}$$

2）ROC曲线

**定义：**

真阳率：$$TPR=\frac{TP}{TP+FN}$$，正样本被分为正样本的比例

假阳率：$$FPR=\frac{FP}{FP+TN}$$，负样本被分为正样本的比例

**得到ROC曲线：**

调节分类器的灵敏度阀值$$\xi$$， $$sgn(f(x)) \to sgn(f(x)+\xi)$$，

阀值增大判为正的会增大，真阳率：TPR会提高；负样本判定为正的数量增加，假阳率：FPR也会上升。

调整$$\xi$$得到一对点，不同$$\xi$$的点连起来得到ROC曲线

**意义：**

**ROC曲线越陡峭、越高、算法性能越好**；

3）混淆矩阵

主要用于多分类，如果都分类正确，则矩阵是对角矩阵，因此对角线上值越大，分类性能越好


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://im-qianuxn.gitbook.io/pytorch/ji-suan-ji/ml/1-ji-chu-gai-niang.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
