Supervised learning
关键词:supervised learning model,parameters
一个有监督学习模型定义了一个/多个输入到一个/多个输出的映射。举例来说,输入可能是二手丰田普锐斯的使用年限,输出可能是以美元估计的价值。
模型只是一个数学方程;当输入通过这个方程时,它计算输出,这被称为推理。模型方程还包含参数。不同的参数值会改变计算的结果;模型方程描述了输入和输出之间的一系列可能关系,参数指定了特定的关系。
当我们训练或者说学习一个模型,我们发现参数描述了输入与输出之间的关系。学习算法(比如梯度下降法)使用输入/输出对的训练集并不断改变参数,直到输入尽可能接近地预测其对应的输出。如果该模型在这些训练对上表现良好,那么我们希望它能对那些真实输出未知的新输入也做出良好的预测。
本章的目的是扩展这些想法。首先,我们更正式地描述这个框架,并引入一些符号。然后,我们通过一个简单的例子,使用一条直线来描述输入和输出之间的关系。这个线性模型既熟悉又容易可视化,但仍然说明了监督学习的所有主要思想。
2.1 Supervised learning overview
关键词:structured / tabular data,training dataset,loss,generalize
在监督学习中,我们的目标是构建一个模型,模型接收一个输入,输出一个预测值。为了简单,我们假设输入和输出都是具有预定和固定大小的向量,并且每个向量的元素总是以相同的方式排序;在上面的普锐斯例子中,输入总是包含:年限,然后是里程,这样的顺序。这被称为结构化或表格数据。
为了做出预测,我们需要一个模型来接收输入并返回输出,如:
当我们从输入计算预测时,我们称之为推理。
该模型()只是一个具有固定形式的数学方程。它代表了输入和输出之间的一系列不同关系.模型还包含参数。参数的选择决定了输入和输出之间的特定关系,所以我们应该这样写:
当我们谈论学习或训练一个模型,意味着我们尝试找到能够根据输入做出合理输出预测的参数,我们使用训练集来学习这些参数,训练集形式为输入输出对。我们的目标是选择将每个训练输入尽可能紧密地映射到其相关输出的参数。我们用损失来量化这个映射中的不适配程度。这是一个标量值,它量化了模型根据现有参数预测的输出有多差(以训练集中的输出作为标准)。
我们可以把损失看作一个参数的函数,当我们训练模型,我们是在寻找能最小化损失函数的参数:
如果在这种最小化之后损失很小,则我们已经找到了能够从训练输入准确预测训练输出的模型参数。
在训练模型之后,我们现在必须评估它的性能;我们在单独的测试数据上运行模型,以查看它对训练期间没有见的示例的泛化能力如何。如果性能足够,那么我们就可以部署模型了。
2.2 线性回归示例
现在让我们用一个简单的例子来具体说明刚才的内容。我们考虑一个模型,它根据一个输入预测一个输出。然后我们定义一个损失函数,最终,我们讨论模型训练。
2.2.1 一维线性回归模型
关键词:regression,slope
一个一维线性回归模型用一条直线描述输入与输出之间的关系:
这个模型有两个参数,其中是直线的y轴截距,是斜率。不同的y轴截距与斜率决定着输入与输出间不同的关系(如图 2.1)。因此,方程2.4定义了一族可能的输入-输出关系族(也就是所有可能的直线),参数决定了选择该族的哪一个成员(也就是具体的一条线)。