
在线学习(Online Learning)是工业界比较常用的机器学习模型训练方法,它不是一种模型,而是一种模型的训练方法,Online Learning能够根据线上反馈数据,实时快速地进行模型调整,使得模型及时反映线上的变化,提高线上预测的准确率。Online Learning的流程包括:将模型的预测结果展现给用户,然后收集用户的反馈数据,再用来训练模型,形成闭环的系统。目前在线学习已经在电子商务等热门的互联网应用场景中引起了广泛的关注。
根据AMiner-NeurIPS 2020词云图和论文可以看出,与Online Learning是在本次会议中的热点,下面我们一起看看Online Learning主题的相关论文。

论文链接:https://www.aminer.cn/pub/5e5794b791e0115453751180?conf=neurips2020
简介:
我们介绍了一种新的且完全在线的上下文强盗算法,称为门控线性上下文强盗(GLCB)。该算法基于门控线性网络(GLN),这是一种最近推出的深度学习体系结构,具有非常适合在线设置的属性。利用GLN的数据相关门控属性,我们能够以有效的零算法开销估计预测不确定性。在离散和连续上下文强盗问题的标准基准套件上,我们与9种利用深度神经网络的先进算法相比,对GLCB进行了经验评估。尽管GLCB是唯一的在线方法,但它仍获得了中位数第一名,我们通过对其收敛性进行理论研究进一步支持了这些结果。

论文链接:https://www.aminer.cn/pub/5e4672c93a55ac14f595d7ca?conf=neurips2020
简介:
我们研究一个受个体公平约束的在线学习问题,这要求对相似的个体进行相似的对待。与先前关于个人公平的工作不同,我们不假定个体之间的相似性度量是已知的,也不假定此类度量采用某种参数形式。取而代之的是,我们利用了一名审核员的存在,该审核员在未阐明量化措施的情况下检测到违反公平性的情况。在每个回合中,审核员都会检查学习者的决定,并尝试找出一对被学习者不公平对待的个人。我们提供了一个通用的归约框架,该框架将模型中的在线分类简化为标准的在线分类,这使我们能够利用现有的在线学习算法来实现次线性遗憾和违反公平性的次数。在随机情况下,数据是从分布中独立提取的,我们还为统一政策建立了PAC风格的公平性和准确性泛化保证,随着时间的推移,定性地匹配了Yona和Rothblum的界限,同时删除了一些假设。我们的结果解决了Gillen等人的公开问题。通过证明即使不假设潜在相似性度量的强大参数形式,也可以在未知的个人公平性约束下进行在线学习

论文链接:https://www.aminer.cn/pub/5e3be3c33a55ac29c4ae7e34?conf=neurips2020
简介:
在线算法的主要优势之一是它们能够适应任意数据序列。这在非参数设置中尤其重要,在非参数设置中,可以根据适合复杂环境的丰富比较器函数类来衡量遗憾。尽管这样的硬比较器和复杂的环境可能会表现出局部规律性,但鲜为人知的是其性能可证明利用这些局部模式的高效算法。我们填补了这一空白,引入了有效的在线算法(基于单个通用主算法),这些算法适用于:(1)竞争者函数的局部Lipschitzness,(2)实例序列的局部度量维度,(3)预测变量的局部性能跨实例空间的不同区域。在扩展以前的方法的同时,我们设计了可以动态增长实例空间的分层打包的算法,并且其修剪方式对应于眼前问题的不同“局部性概况”。使用基于树木专家的技术,我们可以同时有效地对抗所有此类修剪,并证明遗憾的范围随着与所有三种类型的局部规律相关联的数量而扩大。当与“简单”的本地配置文件竞争时,我们的技术提供的后悔界限比使用先前方法证明的界限要好得多。另一方面,我们边界的时间依赖性并不比忽略任何局部规律性所获得的时间依赖性更差。

论文链接:https://www.aminer.cn/pub/5f7fdd328de39f0828398066?conf=neurips2020
简介:
我们研究动态在线学习的问题,其中学习者在多个回合中与有状态环境进行交互。在每一轮交互中,学习者都会选择要部署的策略,并且所产生的成本取决于所选择的策略和当前的世界状况。状态演化的动态性和成本以可能的对抗性方式随时间变化。在这种情况下,我们研究最小化政策遗憾的问题,并为该问题的最小最大利率提供非建设性的上限。我们的主要结果为相应设置的在线学习提供了充分的条件。这些速率的特征是:1)在状态变化的动态下捕获基础策略类别的表达的复杂性项,以及2)测量瞬时损失与某些反事实损失之间的偏差的动态稳定性项。此外,我们提供了匹配的下界,这表明两个复杂度项的确是必需的。我们的方法提供了一个统一的分析方法,可以恢复一些经过充分研究的问题的遗憾界限,包括记忆在线学习,线性二次调节器的在线控制,在线马尔可夫决策过程以及跟踪对抗目标。此外,我们展示了我们的工具如何帮助为新问题(具有非线性动力学和非凸损失)获得严格的后悔界限,而这些问题在我们工作之前是未知的
论文链接:https://www.aminer.cn/pub/5f7fdd328de39f0828397df9?conf=neurips2020
简介:
我们提供在线凸优化算法,以确保改进的全矩阵后悔界限。这些算法以多种方式扩展了现有工作。首先,我们无缝地纳入约束,而无需对任何学习速率参数进行未知的Oracle调整。其次,我们通过建议一个更好的学习率值并展示如何动态地将学习率调整到该值来改进对全矩阵AdaGrad算法的遗憾分析。第三,我们的所有界限都是通过一个通用框架来获得的,该框架用于构建依赖于任意规范序列的后悔界限


阅读原文,直达“AMiner-NeurIPS2020”会议系统,了解更多会议论文!

