![机器学习:从公理到算法](https://wfqqreader-1252317822.image.myqcloud.com/cover/786/920786/b_920786.jpg)
4.1 线性回归
回归函数可以选择的表示很多。但是根据奥卡姆剃刀准则,应该选择简单而又可行的回归函数。显然,如果可行,线性函数是最简单的回归函数。当回归函数F采用线性模型表示时,我们称该类模型为线性回归(linear regression)。如图4.1所示的简单一元线性回归模型,图中圆圈表示数据点,一元线性回归就是求图中的直线,这条直线能够较好地表示输入数据和输出数据的关系。一元线性方程有如下形式:
![](https://epubservercos.yuewen.com/589E71/10150113804150701/epubprivate/OEBPS/Images/image-00036.jpg?sign=1739543316-e4So65s9hPqfSdwHqZnCq8jkGYhv2ZqL-0-92a7a7b0476c02aa4ce5aba3ffce2349)
其中,系数w,b∈ℝ称为回归系数(regression coefficient),根据类一致性准则,为了最小化D(f(X),F(X)),最常用的方法是采用最小二乘的形式,所以,一元线性回归函数的损失函数为:
![](https://epubservercos.yuewen.com/589E71/10150113804150701/epubprivate/OEBPS/Images/image-00037.jpg?sign=1739543316-fNRmIe0anIvoSWt41E8v1xtffIRhHPAU-0-9d23aa83f72a668d75b1636f786f0237)
其中为
对应的观测值,此时,求解一元线性回归函数的问题转化为一个优化问题,即求解:
![](https://epubservercos.yuewen.com/589E71/10150113804150701/epubprivate/OEBPS/Images/image-00033.jpg?sign=1739543316-9LQ7kJlaavDxWjPYNXxvrtdQxlKsNwQy-0-de423124d377e10cb83d1df87d29e454)
![](https://epubservercos.yuewen.com/589E71/10150113804150701/epubprivate/OEBPS/Images/image-00038.jpg?sign=1739543316-yDuxGhXtZxpfqQiNmgpGTLgGUzuBoyLf-0-fd0c98161a0965f8a9c6f5d10de26a06)
图4.1 一元线性回归示意图
为了最优化目标函数(4.4),对b和w求偏导,令导数为零,即:
![](https://epubservercos.yuewen.com/589E71/10150113804150701/epubprivate/OEBPS/Images/image-00034.jpg?sign=1739543316-X4xWL5s3qOvu3l6S5cizn0ODKfEP8W8L-0-41837a57011015f3888debaa7142cce5)
可求得:
![](https://epubservercos.yuewen.com/589E71/10150113804150701/epubprivate/OEBPS/Images/image-00035.jpg?sign=1739543316-WlfZ8eVzS3UevrBZvs1dNneobUQaMBpX-0-b1379578255e8dfc58931d2d55f1fecc)
其中。
下面举例说明该回归模型的使用方法。
例4.1 假设我们试图对某一社区中个人的受教育程度(用表示)对年平均收入(用
表示)的影响进行研究。我们从该社区中随机收集到11名个体的受教育年限(单位:年)和年平均收入(单位:千元)数据(见表4.1)。请利用该数据判断最佳线性回归模型。(精确到小数点后两位)
表4.1 某小区11名个人的年平均收入与受教育年限
![](https://epubservercos.yuewen.com/589E71/10150113804150701/epubprivate/OEBPS/Images/image-00042.jpg?sign=1739543316-6ilDmF98evHyaaNE1dUn846KvTpVD1L4-0-04ac5613818c614b8128b7d7a99018e7)
解 因为已知数据只有一个输入特征,所以设回归函数为y=wx+b,利用式(4.6),计算各分量。由表4.1可得:
![](https://epubservercos.yuewen.com/589E71/10150113804150701/epubprivate/OEBPS/Images/image-00039.jpg?sign=1739543316-6EcTr3G2qAbozN3f5YxWKDx16N0p2h2b-0-968c3e079f9fb4be6563d01ffe93e044)
所以,
![](https://epubservercos.yuewen.com/589E71/10150113804150701/epubprivate/OEBPS/Images/image-00040.jpg?sign=1739543316-rrEFN6nIdamNAC7Xhlw10CSmJDX3cmkA-0-6c61f19657292adbdaf91f23e75b7f79)
故所求的线性回归方程为:
![](https://epubservercos.yuewen.com/589E71/10150113804150701/epubprivate/OEBPS/Images/image-00041.jpg?sign=1739543316-RGEsFpwhWZ0sW1re7TzemxAGLDZ9pkId-0-80ec94ca822c4ee22c29a099d2d78a3c)
当输入数据有p个特征时,给定如下方程进行数据拟合
![](https://epubservercos.yuewen.com/589E71/10150113804150701/epubprivate/OEBPS/Images/image-00048.jpg?sign=1739543316-wlBUzn4V96gpOVu37WUBibFlDmdnZUii-0-ea1630ffac183c31a44dfcb098f76267)
其中为输入的p维列向量,w∈ℝp为方程系数,b为截距。为了最小化D(f(X),F(X)),最常用的方法是采用最小二乘的形式。对于N个样本,则给定误差平方为
![](https://epubservercos.yuewen.com/589E71/10150113804150701/epubprivate/OEBPS/Images/image-00049.jpg?sign=1739543316-Tr0TqpS4HKqliOOJdQrxBVaZbr5N9gzd-0-b9f2eeb92781b973ffdbd9b9c7c6b71a)
为了表示方便,令A为(p+1)×N的矩阵且第一行为全1的向量,A的第二行至p+1行数据对应于训练数据的输入,B∈ℝN为N个训练数据的输出,w*=(b,wT)T∈ℝp+1,则式(4.11)可写成如下形式
![](https://epubservercos.yuewen.com/589E71/10150113804150701/epubprivate/OEBPS/Images/image-00043.jpg?sign=1739543316-ERZFJs6LjTnUtNc8GYkw9xDwYhaPRbhq-0-1d0adafa1524286fa459f035114acf44)
最小化上式求解w*就是对w求偏导数,有
![](https://epubservercos.yuewen.com/589E71/10150113804150701/epubprivate/OEBPS/Images/image-00044.jpg?sign=1739543316-EP0vz0sOR9mYa71iIxDMAjoeYuV32kE1-0-9f2f4b39d180b1a63b89920ecf02d904)
若A为行满秩矩阵,则AAT为正定矩阵,因此可求得w*的闭式解为:
![](https://epubservercos.yuewen.com/589E71/10150113804150701/epubprivate/OEBPS/Images/image-00045.jpg?sign=1739543316-r4lNvWZNTD71ADJZl5bTxKkXH6SVmBDF-0-e88d4a32fe71cecd0252bff9ad9bee60)
以上介绍的回归模型输出只有一个一元变量。当输出本身就是多个(d个)一元变量,会获得如下的线性模型
![](https://epubservercos.yuewen.com/589E71/10150113804150701/epubprivate/OEBPS/Images/image-00046.jpg?sign=1739543316-gOualxbBTxA9Pc6LSazGDADTE3AYJrhp-0-d867251f99b7d4c126e035a8beaddd97)
其中B∈ℝd×N为输出矩阵,A∈ℝ(p+1)×N为输入矩阵,并且其第一行为全1,W∈ℝ(p+1)×d为系数矩阵。为了最小化D(f(X),F(X)),与式(4.11)的形式类似,有
![](https://epubservercos.yuewen.com/589E71/10150113804150701/epubprivate/OEBPS/Images/image-00047.jpg?sign=1739543316-4Lk5sZrqJPvVbKTTtbKzS8pEgEXEQvZQ-0-bf7f90e42447d2e1e5ec9869152fe5e0)
通过对W求导,可以获得其闭式解为
![](https://epubservercos.yuewen.com/589E71/10150113804150701/epubprivate/OEBPS/Images/image-00050.jpg?sign=1739543316-PvQ81d9tBSSRKF7DgsHa82km4vYa8Hfw-0-ecf4e1a74a77fa36a66a30573b5f7b99)
线性回归模型是最简单的回归模型,可以很简单地扩充成广义线性模型,如,g是一个可逆的单调函数。比较常用的是对数线性回归,此时,