查看: 49|回复: 0

[等待归档] 【干货】218个人工智能机器学习专业词汇解析(建议收藏)

[复制链接]

26

主题

34

帖子

104

积分

注册会员

Rank: 2

积分
104
QQ
发表于 2017-10-21 16:04:16 | 显示全部楼层 |阅读模式 | 百度 
zqy616000的评分为44--时间:2270-05-28 00:13:15,tiantidiyi的评分为93--时间:2106-06-14 16:01:25!群论张量考零蛋的评分为40--时间:2399-06-10 20:54:15.zjhkol的评分为51--时间:2319-05-11 08:53:25。Chí Tâ的评分为8--时间:2118-01-30 07:53:55。A Metzgar的评分为23--时间:2214-04-28 03:07:05,

本文整理了一些人工智能机器学习领域的专业名词及其简单释义,如有错漏之处请指正。
A

1、准确率(accuracy)
分类模型预测准确的比例。在多类别分类中,准确率定义如下:

在二分类中,准确率定义为:


2、激活函数(Activationfunction)
一种函数(例如 ReLU 或 Sigmoid),将前一层所有神经元激活值的加权和输入到一个非线性函数中,然后向下一层传递该函数的输出值(典型的非线性)。
3、AdaGrad
一种复杂的梯度下降算法,重新调节每个参数的梯度,高效地给每个参数一个单独的学习率。
4、Adadelta
一个基于梯度下降的学习算法,可以随时间调整适应每个参数的学习率。它是作为Adagrad 的改进版提出的,它比超参数(hyperparameter)更敏感而且可能会太过严重地降低学习率。Adadelta 类似于 rmsprop,而且可被用来替代 vanilla SGD。
5、Adagrad
Adagrad 是一种自适应学习率算法,能够随时间跟踪平方梯度并自动适应每个参数的学习率。它可被用来替代vanilla SGD;而且在稀疏数据上更是特别有用,在其中它可以将更高的学习率分配给更新不频繁的参数。
6、Adam
Adam 是一种类似于 rmsprop 的自适应学习率算法,但它的更新是通过使用梯度的第一和第二时刻的运行平均值(running average)直接估计的,而且还包括一个偏差校正项。
7、仿射层(AffineLayer)
神经网络中的一个全连接层。仿射(Affine)的意思是前面一层中的每一个神经元都连接到当前层中的每一个神经元。在许多方面,这是神经网络的「标准」层。仿射层通常被加在卷积神经网络或循环神经网络做出最终预测前的输出的顶层。仿射层的一般形式为 y = f(Wx + b),其中 x 是层输入,w 是参数,b 是一个偏差矢量,f 是一个非线性激活函数。
8、Alexnet
Alexnet 是一种卷积神经网络架构的名字,这种架构曾在 2012 年ILSVRC 挑战赛中以巨大优势获胜,而且它还导致了人们对用于图像识别的卷积神经网络(CNN)的兴趣的复苏。它由 5 个卷积层组成。其中一些后面跟随着最大池化(max-pooling)层和带有最终 1000 条路径的 softmax (1000-way softmax)的 3个全连接层。Alexnet 被引入到了使用深度卷积神经网络的 ImageNet 分类中。
9、注意机制(Attention Mechanism)
注意机制是由人类视觉注意所启发的,是一种关注图像中特定部分的能力。注意机制可被整合到语言处理和图像识别的架构中以帮助网络学习在做出预测时应该「关注」什么。
10、AUC(曲线下面积)
一种考虑到所有可能的分类阈值的评估标准。ROC 曲线下面积代表分类器随机预测真正类(Ture Positives)要比假正类(False Positives)概率大的确信度。
11、自编码器(Autoencoder)
自编码器是一种神经网络模型,它的目标是预测输入自身,这通常通过网络中某个地方的「瓶颈(bottleneck)」实现。通过引入瓶颈,我们迫使网络学习输入更低维度的表征,从而有效地将输入压缩成一个好的表征。自编码器和 PCA 等降维技术相关,但因为它们的非线性本质,它们可以学习更为复杂的映射。目前已有一些范围涵盖较广的自编码器存在,包括降噪自编码器(Denoising Autoencoders)、变自编码器(VariationalAutoencoders)和序列自编码器(Sequence Autoencoders)。
12、平均池化(Average-Pooling)
平均池化是一种在卷积神经网络中用于图像识别的池化(Pooling)技术。它的工作原理是在特征的局部区域上滑动窗口,比如像素,然后再取窗口中所有值的平均。它将输入表征压缩成一种更低维度的表征。
B

13、反向传播(Backpropagation)
神经网络中完成梯度下降的重要算法。首先,在前向传播的过程中计算每个节点的输出值。然后,在反向传播的过程中计算与每个参数对应的误差的偏导数。
14、通过时间的反向传播(BPTT:Backpropagation Through Time)
通过时间的反向传播是应用于循环神经网络(RNN)的反向传播算法。BPTT 可被看作是应用于 RNN 的标准反向传播算法,其中的每一个时间步骤(time step)都代表一个计算层,而且它的参数是跨计算层共享的。因为 RNN 在所有的时间步骤中都共享了同样的参数,一个时间步骤的错误必然能「通过时间」反向到之前所有的时间步骤,该算法也因而得名。当处理长序列(数百个输入)时,为降低计算成本常常使用一种删节版的 BPTT。删节的 BPTT 会在固定数量的步骤之后停止反向传播错误。
15、基线(Baseline)
被用为对比模型表现参考点的简单模型。基线帮助模型开发者量化模型在特定问题上的预期表现。
16、批量(batch)
模型训练中一个迭代(指一次梯度更新)使用的样本集。
17、分批标准化(BN:Batch Normalization)
分批标准化是一种按小批量的方式标准化层输入的技术。它能加速训练过程,允许使用更高的学习率,还可用作规范器(regularizer)。人们发现,分批标准化在卷积和前馈神经网络中应用时非常高效,但尚未被成功应用到循环神经网络上。
18、批量大小(batch size)
一个批量中样本的数量。例如,SGD 的批量大小为 1,而 mini-batch 的批量大小通常在 10-1000 之间。批量大小通常在训练与推理的过程中确定,然而 TensorFlow 不允许动态批量大小。
19、偏置(bias)
与原点的截距或偏移量。偏置(也称偏置项)被称为机器学习模型中的 b 或者 w0。例如,偏置项是以下公式中的 b:y′=b+w_1x_1+w_2x_2+…w_nx_n。
注意不要和预测偏差混淆。
20、双向循环神经网络(Bidirectional RNN)
双向循环神经网络是一类包含两个方向不同的 RNN 的神经网络。其中的前向 RNN 从起点向终点读取输入序列,而反向 RNN 则从终点向起点读取。这两个 RNN 互相彼此堆叠,它们的状态通常通过附加两个矢量的方式进行组合。双向 RNN 常被用在自然语言问题中,因为在自然语言中我们需要同时考虑话语的前后上下文以做出预测。
21、二元分类器(binaryclassification)
一类分类任务,输出两个互斥(不相交)类别中的一个。例如,一个评估邮件信息并输出「垃圾邮件」或「非垃圾邮件」的机器学习模型就是一个二元分类器。
22、binning/bucketing
根据值的范围将一个连续特征转换成多个称为 buckets 或者 bins 二元特征,称为 buckets 或者 bins。例如,将温度表示为单一的浮点特征,可以将温度范围切割为几个离散的 bins。假如给定的温度的敏感度为十分之一度,那么分布在 0.0 度和 15.0 度之间的温度可以放入一个 bin 中,15.1 度到 30.0 度放入第二个 bin,30.1 度到 45.0 度放入第三个 bin。
C

23、Caffe
Caffe 是由伯克利大学视觉和学习中心开发的一种深度学习框架。在视觉任务和卷积神经网络模型中,Caffe 格外受欢迎且性能优异。
24、标定层(calibration layer)
一种调整后期预测的结构,通常用于解释预测偏差。调整后的预期和概率必须匹配一个观察标签集的分布。
25、候选采样(candidate sampling)
一种优化训练时间的,使用Softmax 等算法计算所有正标签的概率,同时只计算一些随机取样的负标签的概率。例如,有一个样本标记为「小猎兔狗」和「狗」,候选取样将计算预测概率,和与「小猎兔狗」和「狗」类别输出(以及剩余的类别的随机子集,比如「猫」、「棒棒糖」、「栅栏」)相关的损失项。这个想法的思路是,负类别可以通过频率更低的负强化(negative reinforcement)进行学习,而正类别经常能得到适当的正强化,实际观察确实如此。候选取样的动力是计算有效性从所有负类别的非计算预测的得益。
26、分类交叉熵损失(Categorical Cross-Entropy Loss)
分类交叉熵损失也被称为负对数似然(negative loglikelihood)。这是一种用于解决分类问题的流行的损失函数,可用于测量两种概率分布(通常是真实标签和预测标签)之间的相似性。它可用 L = -sum(y * log(y_prediction)) 表示,其中 y 是真实标签的概率分布(通常是一个one-hot vector),y_prediction 是预测标签的概率分布,通常来自于一个 softmax。
27、信道(Channel)
深度学习模型的输入数据可以有多个信道。图像就是个典型的例子,它有红、绿和蓝三个颜色信道。一个图像可以被表示成一个三维的张量(Tensor),其中的维度对应于信道、高度和宽度。自然语言数据也可以有多个信道,比如在不同类型的嵌入(embedding)形式中。
28、检查点(checkpoint)
在特定的时刻标记模型的变量的状态的数据。检查点允许输出模型的权重,也允许通过多个阶段训练模型。检查点还允许跳过错误继续进行(例如,抢占作业)。注意其自身的图式并不包含于检查点内。
29、类别(class)
所有同类属性的目标值作为一个标签。例如,在一个检测垃圾邮件的二元分类模型中,这两个类别分别是垃圾邮件和非垃圾邮件。而一个多类别分类模型将区分狗的种类,其中的类别可以是贵宾狗、小猎兔狗、哈巴狗等等。
30、类别不平衡数据集(class-imbalanceddata set)
这是一个二元分类问题,其中两个类别的标签的分布频率有很大的差异。比如,一个疾病数据集中若 0.01% 的样本有正标签,而 99.99% 的样本有负标签,那么这就是一个类别不平衡数据集。但对于一个足球比赛预测器数据集,若其中 51% 的样本标记一队胜利,而 49% 的样本标记其它队伍胜利,那么这就不是一个类别不平衡数据集。
31、分类模型(classification)
机器学习模型的一种,将数据分离为两个或多个离散类别。例如,一个自然语言处理分类模型可以将一句话归类为法语、西班牙语或意大利语。分类模型与回归模型(regression model)成对比。
32、分类阈值(classificationthreshold)
应用于模型的预测分数以分离正类别和负类别的一种标量值标准。当需要将 logistic 回归的结果映射到二元分类模型中时就需要使用分类阈值。例如,考虑一个确定给定邮件为垃圾邮件的概率的 logistic 回归模型,如果分类阈值是 0.9,那么 logistic 回归值在 0.9 以上的被归为垃圾邮件,而在 0.9 以下的被归为非垃圾邮件。
33、凸函数(concex function)
一种形状大致呈字母 U 形或碗形的函数。然而,在退化情形中,凸函数的形状就像一条线。例如,以下几个函数都是凸函数:

  • L2 损失函数
  • Log 损失函数
  • L1 正则化函数
  • L2 正则化函数
凸函数是很常用的损失函数。因为当一个函数有最小值的时候(通常就是这样),梯度下降的各种变化都能保证找到接近函数最小值的点。类似的,随机梯度下降的各种变化有很大的概率(虽然无法保证)找到接近函数最小值的点。
两个凸函数相加(比如,L2 损失函数+L1 正则化函数)后仍然是凸函数。
深度模型通常是非凸的。出乎意料的是,以凸优化的形式设计的算法通常都能在深度网络上工作的很好,虽然很少能找到最小值。
34、混淆矩阵(confusion matrix)
总结分类模型的预测结果的表现水平(即,标签和模型分类的匹配程度)的 NxN 表格。混淆矩阵的一个轴列出模型预测的标签,另一个轴列出实际的标签。N 表示类别的数量。在一个二元分类模型中,N=2。例如,以下为一个二元分类问题的简单的混淆矩阵:

上述混淆矩阵展示了在 19 个确实为肿瘤的样本中,有 18 个被模型正确的归类(18 个真正),有 1 个被错误的归类为非肿瘤(1 个假负类)。类似的,在 458 个确实为非肿瘤的样本中,有 452 个被模型正确的归类(452 个真负类),有 6 个被错误的归类(6 个假正类)。
多类别分类的混淆矩阵可以帮助发现错误出现的模式。例如,一个混淆矩阵揭示了一个识别手写数字体的模型倾向于将 4 识别为 9,或者将 7 识别为 1。混淆矩阵包含了足够多的信息可以计算很多的模型表现度量,比如精度(precision)和召回(recall)率。
35、成本(cost)
loss 的同义词。
36、连续特征(continuous feature)
拥有无限个取值点的浮点特征。和离散特征(discrete feature)相反。
37、收敛(convergence)
训练过程达到的某种状态,其中训练损失和验证损失在经过了确定的迭代次数后,在每一次迭代中,改变很小或完全不变。换句话说就是,当对当前数据继续训练而无法再提升模型的表现水平的时候,就称模型已经收敛。在深度学习中,损失值下降之前,有时候经过多次迭代仍保持常量或者接近常量,会造成模型已经收敛的错觉。
38、卷积神经网络(CNN/ConvNet:Convolutional Neural Network)
CNN 使用卷积连接从输入的局部区域中提取的特征。大部分 CNN 都包含了卷积层、池化层和仿射层的组合。CNN 尤其凭借其在视觉识别任务的卓越性能表现而获得了普及,它已经在该领域保持了好几年的领先。
39、交叉熵(cross-entropy)
多类别分类问题中对 Log 损失函数的推广。交叉熵量化两个概率分布之间的区别。参见困惑度(perplexity)。
D

40、数据集(data set)
样本的集合。
41、决策边界(decision boundary)
在一个二元分类或多类别分类问题中模型学习的类别之间的分离器。例如,下图就展示了一个二元分类问题,决策边界即橙点类和蓝点类的边界。

42、深度信念网络(DBN:Deep Belief Network)
DBN 是一类以无监督的方式学习数据的分层表征的概率图形模型。DBN 由多个隐藏层组成,这些隐藏层的每一对连续层之间的神经元是相互连接的。DBN 通过彼此堆叠多个 RBN(限制波尔兹曼机)并一个接一个地训练而创建。
43、Deep Dream
这是谷歌发明的一种试图用来提炼深度卷积神经网络获取的知识的技术。这种技术可以生成新的图像或转换已有的图片从而给它们一种幻梦般的感觉,尤其是递归地应用时。
44、深度模型(deep model)
一种包含多个隐藏层的神经网络。深度模型依赖于其可训练的非线性性质。和宽度模型对照(wide model)。
45、密集特征(dense feature)
大多数取值为非零的一种特征,通常用取浮点值的张量(tensor)表示。和稀疏特征(sparse feature)相反。
46、派生特征(derived feature)
合成特征(syntheticfeature)的同义词。
47、离散特征(discrete feature)
只有有限个可能取值的一种特征。例如,一个取值只包括动物、蔬菜或矿物的特征就是离散(或类别)特征。和连续特征(continuous feature)对照。
48、dropout 正则化(dropout regularization)
训练神经网络时一种有用的正则化方法。dropout正则化的过程是在单次梯度计算中删去一层网络中随机选取的固定数量的单元。删去的单元越多,正则化越强。
49、动态模型(dynamic model)
以连续更新的方式在线训练的模型。即数据连续不断的输入模型。
E

50、早期停止法(early stopping)
一种正则化方法,在训练损失完成下降之前停止模型训练过程。当验证数据集(validation data set)的损失开始上升的时候,即泛化表现变差的时候,就该使用早期停止法了。
51、嵌入(embeddings)
一类表示为连续值特征的明确的特征。嵌入通常指将高维向量转换到低维空间中。例如,将一个英语句子中的单词以以下任何一种方式表示:
拥有百万数量级(高维)的元素的稀疏向量,其中所有的元素都是整数。向量的每一个单元表示一个单独的英语单词,单元中的数字表示该单词在一个句子中出现的次数。由于一个句子中的单词通常不会超过 50 个,向量中几乎所有的单元都是 0。少量的非零的单元将取一个小的整数值(通常为 1)表示句子中一个单词的出现次数。

  • 拥有数百个(低维)元素的密集向量,其中每一个元素取 0 到 1 之间的浮点数。
  • 在 TensorFlow 中,嵌入是通过反向传播损失训练的,正如神经网络的其它参量一样。
52、经验风险最小化(empirical riskminimization,ERM)
选择能最小化训练数据的损失的模型函数的过程。和结构风险最小化(structual risk minimization)对照。
53、集成(ensemble)
多个模型预测的综合考虑。可以通过以下一种或几种方法创建一个集成方法:

  • 设置不同的初始化;
  • 设置不同的超参量;
  • 设置不同的总体结构。
深度和广度模型是一种集成。
54、评估器(Estimator)
tf.Estimator 类的一个例子,封装 logic 以建立一个 TensorFlow 图并运行一个 TensorFlow session。你可以通过以下方式创建自己的评估器:https://www.tensorflow.org/extend/estimators
55、样本(example)
一个数据集的一行内容。一个样本包含了一个或多个特征,也可能是一个标签。参见标注样本(labeled example)和无标注样本(unlabeled example)。
56、梯度爆炸问题(Exploding Gradient Problem)
梯度爆炸问题是梯度消失问题(Vanishing GradientProblem)的对立面。在深度神经网络中,梯度可能会在反向传播过程中爆炸,导致数字溢出。解决梯度爆炸的一个常见技术是执行梯度裁剪(Gradient Clipping)。
F

57、假负类(false negative,FN)
被模型错误的预测为负类的样本。例如,模型推断一封邮件为非垃圾邮件(负类),但实际上这封邮件是垃圾邮件。
58、假正类(false positive,FP)
被模型错误的预测为正类的样本。例如,模型推断一封邮件为垃圾邮件(正类),但实际上这封邮件是非垃圾邮件。
59、假正类率(false positiverate,FP rate)
ROC 曲线(ROC curve)中的x 轴。FP 率的定义是:假正率=假正类数/(假正类数+真负类数)
60、特征(feature)
输入变量,用于做出预测。
61、特征列(featurecolumns/FeatureColumn)
具有相关性的特征的集合,比如用户可能居住的所有可能的国家的集合。一个样本的一个特征列中可能会有一个或者多个特征。
TensorFlow 中的特征列还可以压缩元数据比如下列情况:

  • 特征的数据类型;
  • 一个特征是固定长度的或应该转换为嵌入。
  • 一个特征列可以仅包含一个特征。「特征列」是谷歌专用的术语。在 VW 系统(Yahoo/Microsoft)中特征列的意义是「命名空间」(namespace),或者场(field)。
62、特征交叉(feature cross)
将特征进行交叉(乘积或者笛卡尔乘积)运算后得到的合成特征。特征交叉有助于表示非线性关系。
63、特征工程(featureengineering)
在训练模型的时候,决定哪些特征是有用的,然后将记录文件和其它来源的原始数据转换成上述特征的过程。在 TensorFlow 中特征工程通常意味着将原始记录文件输入 tf.Example 协议缓存中。参见 tf.Transform。特征工程有时候也称为特征提取。
64、特征集(feature set)
机器学习模型训练的时候使用的特征群。比如,邮政编码,面积要求和物业状况可以组成一个简单的特征集,使模型能预测房价。
65、特征定义(feature spec)
描述所需的信息从 tf.Example 协议缓存中提取特征数据。因为 tf.Example 协议缓存只是数据的容器,必须明确以下信息:

  • 需要提取的数据(即特征的关键信息)
  • 数据类型(比如,浮点数还是整数)
  • 数据长度(固定的或者变化的)
Estimator API 提供了从一群特征列中生成一个特征定义的工具。
66、微调(Fine-Tuning)
Fine-Tuning 这种技术是指使用来自另一个任务(例如一个无监督训练网络)的参数初始化网络,然后再基于当前任务更新这些参数。比如,自然语言处理架构通常使用 word2vec 这样的预训练的词向量(word embeddings),然后这些词向量会在训练过程中基于特定的任务(如情感分析)进行更新。
67、完全 softmax(full softmax)
参见 softmax。和候选采样对照。
G

68、泛化(generalization)
指模型利用新的没见过的数据而不是用于训练的数据作出正确的预测的能力。
69、广义线性模型(generalizedlinear model)
最小二乘回归模型的推广/泛化,基于高斯噪声,相对于其它类型的模型(基于其它类型的噪声,比如泊松噪声,或类别噪声)。广义线性模型的例子包括:

  • logistic 回归
  • 多分类回归
  • 最小二乘回归
广义线性模型的参数可以通过凸优化得到,它具有以下性质:

  • 最理想的最小二乘回归模型的平均预测结果等于训练数据的平均标签。
  • 最理想的 logistic 回归模型的平均概率的预测结果等于训练数据的平均标签。
广义线性模型的能力局限于其特征的性质。和深度模型不同,一个广义线性模型无法「学习新的特征」。
70、Glove
Glove 是一种为话语获取矢量表征(嵌入)的无监督学习算法。GloVe 的使用目的和 word2vec 一样,但 GloVe 具有不同的矢量表征,因为它是在共现(co-occurrence)统计数据上训练的。
71、GoogleLeNet
GoogleLeNet 是曾赢得了 2014 年 ILSVRC 挑战赛的一种卷积神经网络架构。这种网络使用 Inception 模块(Inception Module)以减少参数和提高网络中计算资源的利用率。
72、梯度(gradient)
所有变量的偏导数的向量。在机器学习中,梯度是模型函数的偏导数向量。梯度指向最陡峭的上升路线。
73、梯度截断(gradient clipping)
一种在非常深度的网络(通常是循环神经网络)中用于防止梯度爆炸(explodinggradient)的技术。执行梯度裁剪的方法有很多,但常见的一种是当参数矢量的 L2 范数(L2 norm)超过一个特定阈值时对参数矢量的梯度进行标准化,这个特定阈值根据函数:新梯度=梯度*阈值/L2范数(梯度){new_gradients = gradients * threshold / l2_norm(gradients)}确定。
74、梯度下降(gradient descent)
通过计算模型的相关参量和损失函数的梯度最小化损失函数,值取决于训练数据。梯度下降迭代地调整参量,逐渐靠近权重和偏置的最佳组合,从而最小化损失函数。
75、图(graph)
在 TensorFlow 中的一种计算过程展示。图中的节点表示操作。节点的连线是有指向性的,表示传递一个操作(一个张量)的结果(作为一个操作数)给另一个操作。使用 TensorBoard 能可视化计算图。
76、GRU
GRU(Gated Recurrent Unit:门控循环单元)是一种 LSTM 单元的简化版本,拥有更少的参数。和 LSTM 细胞(LSTM cell)一样,它使用门控机制,通过防止梯度消失问题(vanishing gradient problem)让循环神经网络可以有效学习长程依赖(long-range dependency)。GRU 包含一个复位和更新门,它们可以根据当前时间步骤的新值决定旧记忆中哪些部分需要保留或更新。
H

77、启发式(heuristic)
一个问题的实际的和非最优的解,但能从学习经验中获得足够多的进步。
78、隐藏层(hidden layer)
神经网络中位于输入层(即特征)和输出层(即预测)之间的合成层。一个神经网络包含一个或多个隐藏层。
79、Highway Layer
是使用门控机制控制通过层的信息流的一种神经网络层。堆叠多个 Highway Layer 层可让训练非常深的网络成为可能。Highway Layer的工作原理是通过学习一个选择输入的哪部分通过和哪部分通过一个变换函数(如标准的仿射层)的门控函数来进行学习。HighwayLayer 的基本公式是 T * h(x) + (1 - T) * x;其中 T 是学习过的门控函数,取值在 0 到1 之间;h(x) 是一个任意的输入变换,x 是输入。注意所有这些都必须具有相同的大小。
80、折页损失函数(Hinge loss)
损失函数的一个类型,用于分类模型以寻找距离每个样本的距离最大的决策边界,即最大化样本和边界之间的边缘。KSVMs 使用 hinge 损失函数(或相关的函数,比如平方 hinge 函数)。在二元分类中,hinge 损失函数按以下方式定义:
loss=max(0,1?(y′?y))
其中 y'是分类器模型的列输出:
y′=b+w_1x_1+w_2x_2+…w_nx_n
y 是真实的标签,-1 或+1。
因此,hinge 损失将是下图所示的样子:

81、测试数据(holdout data)
有意不用于训练的样本。验证数据集(validationdata set)和测试数据集(test data set)是测试数据(holdout data)的两个例子。测试数据帮助评估模型泛化到除了训练数据之外的数据的能力。测试集的损失比训练集的损失提供了对未知数据集的损失更好的估计。
82、超参数(hyperparameter)
连续训练模型的过程中可以拧动的「旋钮」。例如,相对于模型自动更新的参数,学习率(learning rate)是一个超参数。和参量对照。
I

83、ILSVRC

即 ImageNet 大型视觉识别挑战赛(ImageNet Large Scale Visual Recognition Challenge),该比赛用于评估大规模对象检测和图像分类的算法。它是计算机视觉领域最受欢迎的学术挑战赛。过去几年中,深度学习让错误率出现了显著下降,从 30% 降到了不到 5%,在许多分类任务中击败了人类。
84、Inception模块(InceptionModule)
Inception模块被用在卷积神经网络中,通过堆叠 1×1 卷积的降维(dimensionality reduction)带来更高效的计算和更深度的网络。
85、独立同分布(independently andidentically distributed,i.i.d)
从不会改变的分布中获取的数据,且获取的每个值不依赖于之前获取的值。i.i.d. 是机器学习的理想情况——一种有用但在现实世界中几乎找不到的数学构建。例如,网页访客的分布可能是短暂时间窗口上的 i.i.d;即分布不会在该时间窗口发生改变,每个人的访问都与其他人的访问独立。但是,如果你扩展了时间窗口,则会出现网页访客的季节性差异。
86、推断(inference)
在机器学习中,通常指将训练模型应用到无标注样本来进行预测的过程。在统计学中,推断指在观察到的数据的基础上拟合分布参数的过程。
87、输入层(input layer)
神经网络的第一层(接收输入数据)。
88、ICML
即国际机器学习大会(International Conference forMachine Learning),一个顶级的机器学习会议。
89、评分者间一致性(inter-rateragreement)
用来衡量一项任务中人类评分者意见一致的指标。如果意见不一致,则任务说明可能需要改进。有时也叫标注者间信度(inter-annotator agreement)或评分者间信度(inter-raterreliability)。
K

90、Keras
<p style="margin-top: 10px;margin-bottom: 10px;line-height: 1.75em;"><span style="font-size: 16px;line-height: 150%;font-family: 微软雅黑, sans-serif;color: rgb(0, 0, 0);">Kears 是一个基于 Python 的深度学习库,其中包括许多用于深度神经网络的高层次构建模块。它可

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x


回复
百度搜狗360奇虎

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

快速回复 返回顶部 返回列表