什么是逻辑回归?优缺点是什么?美团是如何应用它的?

时间:2024-03-01 17:16:35 阅读:8

什么是逻辑回归?优缺陷是什么?美团是怎样使用它的?

本文将普通易懂的先容逻辑回归的基本看法、优缺陷和实践使用的案例。同时会跟线性回归做一些比力,让各位可以好效的区分 2 种不同的算法。

什么是逻辑回归?

线性回归的地点如上图所示,它属于机器学习 – 监督学习 – 分类 – 逻辑回归。

扩展阅读:

《「65页PDF」让 PM 全盘了解深度学习》

《什么是监督学习?怎样了解分类和回归?》

逻辑回归(Logistic Regression)主要处理二分类成绩,用来表现某件事变产生的约莫性

好比:

  • 一封邮件是渣滓邮件的肯能性(是、不是)
  • 你置办一件商品的约莫性(买、不买)
  • 倾销被点击的约莫性(点、不点)

逻辑回归的优缺陷

优点:

  • 完成简便,广泛的使用于产业成绩上;
  • 分类时盘算量十分小,速率很快,存储资源低;
  • 便宜的观察样本概率分数;
  • 对逻辑回归而言,多重共线性并不是成绩,它可以团结L2正则化来处理该成绩;
  • 盘算代价不高,易于了解和完成;

缺陷:

  • 当特性空间很大时,逻辑回归的功能不是很好;
  • 容易欠拟合,寻常准确度不太高
  • 不克不及很好地处理多量多类特性或变量;
  • 只能处理两分类成绩(在此基本上衍生出来的softmax可以用于多分类),且必需线性可分
  • 关于非线性特性,必要举行转换;

逻辑回归 VS 线性回归

线性回归和逻辑回归是 2 种经典的算法。常常被拿来做比力,底下整理了一些两者的区别:

  1. 线性回归只能用于回归成绩,逻辑回归固然名字叫回归,但是更多用于分类成绩(关于回归和分类的区别可以看看这篇文章《一文看懂监督学习(基本看法+4步流程+9个典范算法)》)
  2. 线性回归要求因变量是一连性数值变量,而逻辑回归要求因变量是散伙的变量
  3. 线性回归要求自变量和因变量呈线性干系,而逻辑回归不要求自变量和因变量呈线性干系
  4. 线性回归可以直观的表达自变量和因变量之间的干系,逻辑回归则无法表达变量之间的干系

注:

自变量:主动利用的变量,可以看做「因变量」的缘故

因变量:由于「自变量」的厘革而厘革,可以看做「自变量」的后果。也是我们想要猜测的后果。

美团的使用案例

美团会把逻辑回归使用到业务中处理一些实践成绩。这里以猜测用户对品类的置办偏好为例,该成绩可以转换为猜测用户在将来某个时间段对否会置办某个品类,假如把会置办标志为1,不会置办标志为0,就转换为一个二分类成绩。我们用到的特性包含用户在美团的欣赏,置办等汗青信息,见下表:

此中提取的特性的时间跨度为30天,标签为2天。天生的练习数据约莫在7000万量级(美团一个月有过举动的用户),我们人工把相似的小品类聚合起来,最初有18个较为典范的品类聚集。假如用户在给定的时间内置办某一品类聚集,就作为正例。有了练习数据后,使用Spark版的LR算法对每个品类练习一个二分类模子,迭代次数设为100次的话模子练习必要40分钟支配,均匀每个模子2分钟,测试集上的AUC也大多在0.8以上。练习好的模子会保存下去,用于猜测在各个品类上的置办概率。猜测的后果则会用于保举等场景。

由于不同品类之间正负例分布不同,有些品类正负例分布很不均衡,我们还实验了不同的采样办法,终极目标是提上下单率等线上目标。颠末一些参数调优,品类偏好特性为保举和排序带来了凌驾1%的下单率提升。

别的,由于LR模子的简便高效,易于完成,可以为后续模子优化提供一个不错的baseline,我们在排序等办事中也使用了LR模子。

版权声明:本文来自互联网整理发布,如有侵权,联系删除

原文链接:https://www.yigezhs.comhttps://www.yigezhs.com/wangluozixun/43612.html


Copyright © 2021-2022 All Rights Reserved 备案编号:闽ICP备2023009674号 网站地图 联系:dhh0407@outlook.com