一文读懂线性回归、岭回归和Lasso回归

时间:2024-07-13 14:13:11 阅读:1

一文读懂线性回归、岭回归和Lasso回归

本文先容线性回归模子,从梯度下降和最小二乘的角度来求解线性回归成绩,以概率的办法表明了线性回归为什么接纳平方丧失,然后先容了线性回归中常用的两种范数来处理过拟合和矩阵不成逆的情况,分散对应岭回归和Lasso回归,最初思索到线性回归的范围性,先容了一种局部加权线性回归,增长其非线性表现才能。

作者 | 文杰

线性回归

A、线性回归

假定多数据有:

此中

,

。此中m为练习集样本数,n为样本维度,y是样本的真实值。线性回归接纳一个高维的线性函数来尽约莫的拟合一切的数据点,最简便的想法就是最小化函数值与真实值偏差的平方(概率表明-高斯分布加最大似然估测)。即有如下目标函数:

此中线性函数如下:

构建好线性回归模子的目标函数之后,接下去就是求解目标函数的最优解,即一个优化成绩。常用的梯度优化办法都可以拿来用,这里以梯度下降法来求解目标函数。

别的,线性回归也可以从最小二乘法的角度来看,底下先将样本表现向量化,,,构成如下数据矩阵。

那么目标函数向量化情势如下:

可以看出目标函数是一个凸二次方案成绩,其最优解在导数为0处取到。

值得注意的上式中存在盘算矩阵的逆,寻常来讲当样本数大于数据维度时,矩阵可逆,可以接纳最小二乘法求得目标函数的闭式解。当数据维度大于样本数时,矩战线性干系,不成逆。此时最小化目标函数解不唯一,且十分多,出于如此一种情况,我们可以思索奥卡姆剃刀准则来简化模子繁复度,使其不必要的特性对应的w为0。以是引入正则项使得模子中w非0个数最少。固然,岭回归,lasso回归的最基本的目标不是处理不成逆成绩,而是避免过拟合。

B、概率表明

丧失函数与最小二乘法接纳最小化平方和的概率表明。假定模子猜测值与真实值的偏差为,那么猜测值

与真实值

之间有如下干系:

依据中央极限定理,当一个事变与很多独立随机变量有关,该事变听从正态分布 。寻常来说,一连值我们都倾向于假定听从正态分布。假定每个样本的偏差独立同分布均值为0,方差为σ的高斯分布

,以是有:

即表现满意以均值为,方差为的高斯分布。

由最大似然估测有:

岭回归和Lasso回归

岭回归的目标函数在寻常的线性回归的基本上到场了正则项,在确保最佳拟合偏差的同时,使得参数尽约莫的“简便”,使得模子的泛化才能强(即不外分信赖从练习数据中学到的知识)。正则项寻常接纳一,二范数,使得模子更具有泛化性,同时可以处理线性回归中不成逆情况。

其迭代优化函数如下:

别的从最小二乘的角度来看,经过引入二范正则项,使其主对角线元从来欺压矩阵可逆。

Lasso回归接纳一范数来束缚,使参数非零个数最少。而Lasso和岭回归的区别很好了解,在优化历程中,最优解为函数等值线与束缚空间的交集,正则项可以看作是束缚空间。可以看出二范的束缚空间是一个球形,而一范的束缚空间是一个方形,这也就是二范会取得很多参数接近0的值,而一范则尽约岂非零参数最少。

值得注意的是线性模子的表现才能仅限,但是并不一定表现线性模子只能处理线性分布的数据。这里有两种常用的线性模子非线性化。关于外表的线性函数的布局,我们可以看出模子在以

的坐标上是线性的,但是并不表现线性的模子就一定只能用于线性分布成绩上。假定我们仅有一个特性

,而实践上回归值是

等,我们相反可以接纳线性模子,由于我们完全可以把输入空间映射到高维空间

,但是这也是查究法以及PCA空间变动的一种头脑,但凡对输入空间举行线性,非线性的变动,都是把输入空间映射到特性空间的头脑,以是只必要把非线性成绩转化为线性成绩即可。别的一种是局部线性头脑,即对每一个样本构建一个加权的线性模子。

局部加权线性回归

思索到线性回归的表现才能仅限,约莫显现欠拟合征象。局部加权线性回归为每一个待猜测的点构建一个加权的线性模子。其加权的办法是依据猜测点与数据会合点的距离来为数据会合的点赋权重,当某点距离猜测点较远时,其权重较小,反之较大。由于这种权重的机制引入使得局部加权线性回归产生了一种局部分段拟合的后果。由于该办法关于每一个猜测点构建一个加权线性模子,都要重新盘算与数据会合一切点的距离来确定权重值,进而确定针对该猜测点的线性模子,盘算本钱高,同时为了完成无参估测来盘算权重,必要存储整个数据集。

局部加权线性回归,在线性回归基本上引入权重,其目标函数(底下的目标函数是针对一个猜测样本的)如下:

寻常选择底下的权重函数,权重函数选择并非由于其相似于高斯函数,而是依据数据分布的特性,但权重函数的拔取并不一定依托于数据特性。

此中是待猜测的一个数据点。

关于外表的目标函数,我们的目标相反是求解使得丧失函数最小化,相反局部加权线性回归可以接纳梯度的办法,也可以从最小二乘法的角度给出闭式解。

此中是对角矩阵,

线性回归中心头脑最小化平方偏差,可以从最小化丧失函数和最小二乘角度来看,优化历程可以接纳梯度办法和闭式解。在闭式解成绩中必要注意矩阵可逆成绩。思索到过拟合和欠拟合成绩,有岭回归和lasso回归来回头避免过拟合,局部加权线性回归经过加权完成非线性表现。

代码实战

A、线性回归

/**
线性回归函数的完成,思索寻常的线性回归,最小平方和作为丧失函数,则目标函数是一个无束缚的凸二次方案成绩,
由凸二次方案成绩的极小值在导数为0处取到,且极小值为全局最小值,且有闭式解。依据数学表达式完成矩阵之间的运算求得参数w。
**/
intregression(Matrix x,Matrix y)
{
Matrix xT=x.transposeMatrix;
Matrix xTx=xTx.multsMatrix(xT,x);
Matrix xTx_1=xTx.niMatrix;
Matrix xTx_1xT=xTx_1xT.multsMatrix(xTx_1,xT);
Matrix ws;
ws=ws.multsMatrix(xTx_1xT,y);
cout<<"ws"<<endl;
ws.print;
return 0;
}

B、岭回归和Lasso回归

/**
底下的岭回归函数只是在寻常的线性回归函数的基本上在对角线上引入了岭的看法,不仅有处理矩阵不成逆的线性,相反也有正则项的目标,
接纳常用的二范数就取得了直接引入lam的情势。
**/

intridgeRegres(Matrix x,Matrix y,double lam)
{
Matrix xT=x.transposeMatrix;
Matrix xTx=xTx.multsMatrix(xT,x);
Matrix denom(xTx.row,xTx.col,lam,"diag");
xTx=xTx.addMatrix(xTx,denom);
Matrix xTx_1=xTx.niMatrix;
Matrix xTx_1xT=xTx_1xT.multsMatrix(xTx_1,xT);
Matrix ws=ws.multsMatrix(xTx_1xT,y);
cout<<"ws"<<endl;
ws.print;
return 0;
}

C、局部加权线性回归

/**
局部加权线性回归是在线性回归的基本上对每一个测试样本(练习的时分就是每一个练习样本)在其已有的样本举行一个加权拟合,
权重的确定可以经过一个核来盘算,常用的有高斯核(离测试样本越近,权重越大,反之越小),如此对每一个测试样本就取得了不一样的
权重向量,以是最初得出的拟合曲线不再是线性的了,如此就增长的模子的繁复度来更好的拟合非线性数据。
**/
//必要注意的是局部加权线性回归是对每一个样本举行权重盘算,以是关于每一个样本都有一个权重w,以是底下的函数只是局部线性回归的一个主要帮助函数
Matrix locWeightLineReg(Matrix test,Matrix x,Matrix y,const double &k)
{
Matrix w(x.row,x.row,0,"T");
double temp=0;
int i,j;

/**
依据测试样本点与整个样本的距离以前选择的核确定局部加权矩阵,接纳对角线上为局部加权值
**/
for(i=0;i<x.row;i++)
{
temp=0;
for(j=0;j<x.col;j++)
{
temp+=(test.data[0][j]-x.data[i][j])*(test.data[0][j]-x.data[i][j]);
}
w.data[i][i]=exp(temp/-2.0*k*k);
}
Matrix xT=x.transposeMatrix;
Matrix wx=wx.multsMatrix(w,x);
Matrix xTwx;
xTwx=xTwx.multsMatrix(xT,wx);
Matrix xTwx_1;
xTwx_1=xTwx.niMatrix;
Matrix xTwx_1xT;
xTwx_1xT=xTwx_1xT.multsMatrix(xTwx_1,xT);
Matrix xTwx_1xTw;
xTwx_1xTw=xTwx_1xTw.multsMatrix(xTwx_1xT,w);
Matrix ws = xTwx_1xTw * y;
return ws;
}

具体代码:https://github.com
/myazi/myLearn/blob/master/LineReg.cpp

声明:本文为群众号「 AI小白入门」投稿,版权归作者一切。

【END】

版权声明:本文来自互联网整理发布,如有侵权,联系删除

原文链接:https://www.yigezhs.comhttps://www.yigezhs.com/wangluozixun/49921.html


Copyright © 2021-2022 All Rights Reserved 备案编号:闽ICP备2023009674号 网站地图 联系:dhh0407@outlook.com