机器学习常用术语及含义

算法术语

其实在 [人工智能与机器学习与深度学习常用算法][1] 这一部分内容中我们已经介绍了相关的理论和算法的术语。

首先我们要明白机器学习的基本的原理,就是把现实世界当中要研究的对象通过抽象其特征值将其数字化,然后让计算机通过这些已有的数据学习“经验”(学习算法模型参数),从而有了判断的能力,这时如果有了新的输入,计算机就能够根据这些经验来做出判断。

机器学习中常用两种算法模型:回归和分类。

回归模型可预测连续值。例如,回归模型做出的预测可回答如下问题:

  • 加利福尼亚州一栋房产的价值是多少?
  • 用户点击此广告的概率是多少?

分类模型可预测离散值。例如,分类模型做出的预测可回答如下问题:

  • 某个指定电子邮件是垃圾邮件还是非垃圾邮件?
  • 这是一张狗、猫还是仓鼠图片?

基础术语

为了方便理解,我们还是举例子来说明。

案例1: 西瓜分类

比如我们有四个西瓜,前三个是甜的,第四个不知道甜不甜。

西瓜就是我们样本(sample)数据。其中三个甜西瓜是有标签样本(labeled sample)。 剩下一个不知道甜不甜的西瓜是无标签样本

我们使用有标签样本来**训练模型。**首先我们需要构建数据模型,需要对西瓜进行特征提取,我们挑选西瓜的属性 比如色泽表示为x1、根蒂表示为x2、敲声表示为x3,作为我们选取西瓜样本的特征。

那么西瓜这个样本经过特征抽取就可以表示成:

{x_1, x_2 ... x_N}

我们称为特征列,也叫特征向量。特征提取的过程也叫做特征工程 (feature engineering)。

这三个西瓜的标签样本的数据组合在一起就构成了我们数据集(dataset)。

我们在特征抽取的时候需要将特征按照一定的标准映射成一个数值,这是一个抽象提取数据指标的过程,很显然对于西瓜的三个特征都是离散的数据。我们根据西瓜的这些特征,预测西瓜是否成熟,预测的结果也是离散的数据,适合用分类模型来解决。如果我们预测西瓜的成熟度,比如0.9、0.7这样,预测的结果就是连续的值,适合用回归模型来解决。

案例2:温度与知了叫声关系

夏天天气越热,知了叫声越大。我们可以统计下夏天温度和每分钟知了叫声的数据如下:

我们可以看到随着温度增加知了叫声越密集,我们可以用一个直线来近似表达他们之间的关系。根据我们学过的数学知识,可以用一个线性方程来表示:

y = mx + b

其中:

  • y 指的是温度(以摄氏度表示),即我们试图预测的值。
  • m 指的是直线的斜率
  • x 指的是每分钟的鸣叫声次数,即输入特征的值。
  • b 指的是 y 轴截距

我们在机器学习中通常用另外一种方式来表示:

y = b + w1 * x1

如果x0=1,那么还可以表示成:

y' = w0 * x0 + w1 * x1

其中:

  • y′ 指的是预测标签(理想输出值)。
  • b 指的是偏差(y 轴截距)。而在一些机器学习文档中,它称为 w0。
  • w1 指的是特征 x1 的权重。权重与上文中用 m 表示的“斜率”的概念相同。
  • x1 指的是特征(已知输入项)。

要根据新的每分钟的鸣叫声值 x1 推断(预测)温度 y′,只需将 x1 值代入此模型即可。

上面是一个特性的线性回归。如果我们有更多的特征,可以推广到多个特征的情形:

y' = b + w1 * x1 + w2 * x2 + w3 * x3

向量

先看下面这个图,A(x,y) 表示一个坐标点A,B同样表示一个坐标点,从A指向B就表示一个向量,也叫做矢量。

矢量,因此具有以下两个特征:

  • 方向
  • 大小,又叫做矢量的模

从A点移动到B点,只需要用A的矢量加上AB的矢量就可以,这是矢量的合成法则。

凸形

关于凸形,是个简单的概念,就是想下面这两个凸型,就是图形上任意两个点的连线都在图形内部,这个图形就是凸形。或者说凸形凸形的每个边的延长线所在直线,使得图形完全在直线的一边,这样的图形也是凸形。



请遵守《互联网环境法规》文明发言,欢迎讨论问题
扫码反馈

扫一扫,反馈当前页面

咨询反馈
扫码关注
返回顶部