本文将普通易懂的先容逻辑回归的基本看法、优缺陷和实践使用的案例。同时会跟线性回归做一些比力,让各位可以好效的区分 2 种不同的算法。
线性回归的地点如上图所示,它属于机器学习 – 监督学习 – 分类 – 逻辑回归。
扩展阅读:
《「65页PDF」让 PM 全盘了解深度学习》
《什么是监督学习?怎样了解分类和回归?》
逻辑回归(Logistic Regression)主要处理二分类成绩,用来表现某件事变产生的约莫性。
好比:
优点:
缺陷:
线性回归和逻辑回归是 2 种经典的算法。常常被拿来做比力,底下整理了一些两者的区别:
注:
自变量:主动利用的变量,可以看做「因变量」的缘故
因变量:由于「自变量」的厘革而厘革,可以看做「自变量」的后果。也是我们想要猜测的后果。
美团会把逻辑回归使用到业务中处理一些实践成绩。这里以猜测用户对品类的置办偏好为例,该成绩可以转换为猜测用户在将来某个时间段对否会置办某个品类,假如把会置办标志为1,不会置办标志为0,就转换为一个二分类成绩。我们用到的特性包含用户在美团的欣赏,置办等汗青信息,见下表:
此中提取的特性的时间跨度为30天,标签为2天。天生的练习数据约莫在7000万量级(美团一个月有过举动的用户),我们人工把相似的小品类聚合起来,最初有18个较为典范的品类聚集。假如用户在给定的时间内置办某一品类聚集,就作为正例。有了练习数据后,使用Spark版的LR算法对每个品类练习一个二分类模子,迭代次数设为100次的话模子练习必要40分钟支配,均匀每个模子2分钟,测试集上的AUC也大多在0.8以上。练习好的模子会保存下去,用于猜测在各个品类上的置办概率。猜测的后果则会用于保举等场景。
由于不同品类之间正负例分布不同,有些品类正负例分布很不均衡,我们还实验了不同的采样办法,终极目标是提上下单率等线上目标。颠末一些参数调优,品类偏好特性为保举和排序带来了凌驾1%的下单率提升。
别的,由于LR模子的简便高效,易于完成,可以为后续模子优化提供一个不错的baseline,我们在排序等办事中也使用了LR模子。
版权声明:本文来自互联网整理发布,如有侵权,联系删除
原文链接:https://www.yigezhs.comhttps://www.yigezhs.com/wangluozixun/43612.html