机器学习常用术语及含义

算法术语

其实在 [人工智能与机器学习与深度学习常用算法][1] 这一部分内容中我们已经介绍了相关的理论和算法的术语。

首先我们要明白机器学习的基本的原理，就是把现实世界当中要研究的对象通过抽象其特征值将其数字化，然后让计算机通过这些已有的数据学习“经验”（学习算法模型参数），从而有了判断的能力，这时如果有了新的输入，计算机就能够根据这些经验来做出判断。

机器学习中常用两种算法模型：回归和分类。

回归模型可预测连续值。例如，回归模型做出的预测可回答如下问题：

加利福尼亚州一栋房产的价值是多少？
用户点击此广告的概率是多少？

分类模型可预测离散值。例如，分类模型做出的预测可回答如下问题：

某个指定电子邮件是垃圾邮件还是非垃圾邮件？
这是一张狗、猫还是仓鼠图片？

基础术语

为了方便理解，我们还是举例子来说明。

案例1: 西瓜分类

比如我们有四个西瓜，前三个是甜的，第四个不知道甜不甜。

西瓜就是我们的样本（sample）数据。其中三个甜西瓜是有标签样本（labeled sample）。 剩下一个不知道甜不甜的西瓜是无标签样本。

我们使用有标签样本来**训练模型。**首先我们需要构建数据模型，需要对西瓜进行特征提取，我们挑选西瓜的属性比如色泽表示为x1、根蒂表示为x2、敲声表示为x3，作为我们选取西瓜样本的特征。

那么西瓜这个样本经过特征抽取就可以表示成:

{x_1, x_2 ... x_N}

我们称为特征列，也叫特征向量。特征提取的过程也叫做特征工程 (feature engineering)。

这三个西瓜的标签样本的数据组合在一起就构成了我们的数据集（dataset）。

我们在特征抽取的时候需要将特征按照一定的标准映射成一个数值，这是一个抽象提取数据指标的过程，很显然对于西瓜的三个特征都是离散的数据。我们根据西瓜的这些特征，预测西瓜是否成熟，预测的结果也是离散的数据，适合用分类模型来解决。如果我们预测西瓜的成熟度，比如0.9、0.7这样，预测的结果就是连续的值，适合用回归模型来解决。

案例2：温度与知了叫声关系

夏天天气越热，知了叫声越大。我们可以统计下夏天温度和每分钟知了叫声的数据如下：

我们可以看到随着温度增加知了叫声越密集，我们可以用一个直线来近似表达他们之间的关系。根据我们学过的数学知识，可以用一个线性方程来表示：

y = mx + b

其中：

y 指的是温度（以摄氏度表示），即我们试图预测的值。
m 指的是直线的斜率。
x 指的是每分钟的鸣叫声次数，即输入特征的值。
b 指的是 y 轴截距。

我们在机器学习中通常用另外一种方式来表示：

y = b + w1 * x1

如果x0=1，那么还可以表示成：

y' = w0 * x0 + w1 * x1

其中：

y′ 指的是预测标签（理想输出值）。
b 指的是偏差（y 轴截距）。而在一些机器学习文档中，它称为 w0。
w1 指的是特征 x1 的权重。权重与上文中用 m 表示的“斜率”的概念相同。
x1 指的是特征（已知输入项）。

要根据新的每分钟的鸣叫声值 x1 推断（预测）温度 y′，只需将 x1 值代入此模型即可。

上面是一个特性的线性回归。如果我们有更多的特征，可以推广到多个特征的情形：

y' = b + w1 * x1 + w2 * x2 + w3 * x3

向量

先看下面这个图，A(x,y) 表示一个坐标点A，B同样表示一个坐标点，从A指向B就表示一个向量，也叫做矢量。

矢量，因此具有以下两个特征：

方向
大小，又叫做矢量的模

从A点移动到B点，只需要用A的矢量加上AB的矢量就可以，这是矢量的合成法则。

凸形

关于凸形，是个简单的概念，就是想下面这两个凸型，就是图形上任意两个点的连线都在图形内部，这个图形就是凸形。或者说凸形凸形的每个边的延长线所在直线，使得图形完全在直线的一边，这样的图形也是凸形。

请遵守《互联网环境法规》文明发言，欢迎讨论问题

机器学习常用术语及含义

算法术语

回归模型可预测连续值。例如，回归模型做出的预测可回答如下问题：

分类模型可预测离散值。例如，分类模型做出的预测可回答如下问题：

基础术语

案例1: 西瓜分类

案例2：温度与知了叫声关系

向量

凸形

人工客服

工单服务

投诉建议

机器学习常用术语及含义

算法术语 #

回归模型可预测连续值。例如，回归模型做出的预测可回答如下问题： #

分类模型可预测离散值。例如，分类模型做出的预测可回答如下问题： #

基础术语 #

案例1: 西瓜分类 #

案例2：温度与知了叫声关系 #

向量 #

凸形 #

人工客服

工单服务

投诉建议

算法术语

回归模型可预测连续值。例如，回归模型做出的预测可回答如下问题：

分类模型可预测离散值。例如，分类模型做出的预测可回答如下问题：

基础术语

案例1: 西瓜分类

案例2：温度与知了叫声关系

向量

凸形