MSRA 鸭脖棋牌娱乐亚洲研究院 Fri, 13 May 2022 02:41:25 +0000 zh-CN hourly 1 https://wordpress.org/?v=4.7.5 /wp-content/uploads/2017/07/cropped-favicon2-1-32x32.png MSRA 32 32 非自回归生成研究最新综述,近200篇文献揭示挑战和未来方向 /zh-cn/news/features/a-survey-on-non-autoregressive-generation Fri, 13 May 2022 02:38:28 +0000 /?p=41138 编者按:近年来,由于并行的快速推理能力,非自回归生成在自然语言处理、语音处理等领域展示出了其特有的优势,并日益成为生成模型的研究热点。为了促进非自回归生成模型的发展,鸭脖棋牌娱乐亚洲研究院与苏州大学的研究员们共同撰写了综述论文“A Survey on Non-Autoregressive Generation for Neural Machine Translation and Beyond”,回顾了非自回归生成在神经机器翻译以及其他任务中的发展,并对非自回归生成的未来提出了展望。


在如机器翻译、对话生成、语音合成等自然语言、语音等生成任务中,自回归(auto-regressive,AR)生成是一种最常采用的生成方法。简单来说,AR 生成指的是用迭代循环的方式来依次生成一句语音或文本。比如,为了生成一句长度为5的句子,AR 生成首先会生成第一个词语,然后基于第一个词语生成第二个词语,再基于前二个词语生成第三个词语,以此类推。由于每次新的词语生成都依赖于之前生成的词语,因此自回归的生成方式能够保证生成的准确度。

但显然,这样循环的生成方式效率非常低,尤其是对生成长句子来说则更为明显。为了加速生成过程,非自回归(non-autoregressive,NAR)生成被提出,通过一次性并行地生成句子中所有词语的方式,NAR 生成方法极大地提升了生成效率。然而,NAR 生成的准确率并没有得到保证,其性能与自回归生成相比仍有一定差距。因此,如何平衡好 AR 生成与 NAR 生成的优劣,是当下生成任务的研究重点。

 

综述概览

NAR 生成在神经机器翻译 (neural machine translation,NMT) 中首次被提出,此后 NAR 生成便引起了机器学习和自然语言处理领域的广泛关注。如前文所述,虽然 NAR 生成可以显著提升机器翻译的推理生成速度,但与 AR 生成相比,其加速是在牺牲翻译准确性的代价上实现的。近年来,为了弥补 NAR 生成和 AR 生成之间的准确性差距,许多新的模型和算法陆续被提出。

为了促进 NAR 生成模型的发展,鸭脖棋牌娱乐亚洲研究院与苏州大学的研究员们共同撰写了综述论文“A Survey on Non-Autoregressive Generation for Neural Machine Translation and Beyond”(点击阅读原文,查看论文详情 )。

在文章中,研究员们给出了一个系统、全面的综述。首先,研究员们从不同方面比较和讨论了各种非自回归翻译(non-autoregressive translation,NAT)模型,具体来说就是对 NAT 的工作进行了几组不同的分类,包括数据操作(data manipulation)、建模方法(modeling methods)、训练准则(training criteria)、解码算法(decoding ways)以及利用预训练模型(benefit from pre-training)。此外,研究员们还简要总结回顾了 NAR 生成在机器翻译之外的其他应用,例如对话生成、文本摘要、语法纠错、语义解析、语音合成和自动语音识别等等。最后,研究员们讨论了 NAR 未来值得继续探索的潜在方向,包括减少对知识蒸馏(knowledge distillation,KD)的依赖性、动态解码长度预测、NAR 生成的预训练,以及更广泛的应用。图1展示了本篇综述论文的整体结构。

研究员们希望该综述文章可以帮助研究人员更好地了解 NAR 生成的最新进展,启发更先进的 NAR 模型和算法的设计,使行业从业者能够根据其所在领域选择合适的解决方案。

图1:非自回归(NAR)生成研究综述概览架构图

 

NAT 模型面临的主要挑战与解决方案

传统的自回归机器翻译(autoregressive translation,AT)模型由编码器和解码器构成,编码器对源语句进行编码后输至解码器,然后解码器根据源语句和上一步预测的目标端语言单词来预测下一个单词,这种逐字的生成方式限制了 AT 模型的解码速度。而为了实现在训练和推理时并行的解码方式, NAT 仅仅依赖源语句信息来生成所有目标单词,摒弃了目标端单词之间的条件依赖。这种方式极大地加速了模型的解码,但也增加了 NAR 模型的训练难度,造成模型“难以建模目标语言单词之间的条件信息”。

针对该挑战,现有的工作提出了多种解决方案。综述文章对现有工作进行了分类,从数据、模型、损失函数、解码算法、利用预训练模型五个角度对相关方法进行了介绍和比较。其中,数据、模型和损失函数是自回归文本生成模型的三个基本组成部分,这方面的工作旨在研究上述三个方面的传统方法在 NAR 模型上的不足,并进行相应的改进;解码算法和利用预训练模型则是非自回归文本生成模型中区别于 AR 生成的特殊模块,包括目标语句长度预测、非自回归预训练等,这方面的工作旨在设计合理、有效的算法来最大化地提升 NAR 生成模型的效果。这几方面的联系如图2所示。

图2:非自回归机器翻译模型的主要框架。其中涉及数据处理、模型改进、训练准则、解码方式、预训练模型的利用等。

具体来说,上述五个方面的改进如下:

1. 数据层面进行的改进,包括利用知识蒸馏来生成数据、设计数据学习算法等。利用预训练 NAR 模型,基于知识蒸馏的方法将训练集中的源语句进行翻译,并将源语句和翻译结果作为 NAR 模型的训练集。这种方式可以减少训练数据的多样性,减轻 NAR 模型的训练难度。请注意数据层面的方法是通用的方法,例如,基于知识蒸馏的方法被广泛应用在文中介绍的大部分 NAR 生成模型中。

2. 模型层面进行的改进,包括设计迭代式模型、基于隐变量的模型以及增强解码器模型结构等。其中,迭代式模型将原始一次解码的 NAR 模型扩展成为多次迭代解码的模型,这样在进行每轮迭代时,上一轮迭代的结果可以作为目标语言端的依赖信息,将一次解码的难度分摊到多次迭代中,从而提升 NAR 模型的效果。与一次解码的 NAR 模型相比,迭代式的模型翻译效果更好,但也牺牲了一部分翻译速度,是属于 AR 模型和 NAR 模型的中间态。

3. 损失函数层面进行的改进,主要针对传统交叉熵损失函数的问题,提出一系列改进方法,包括基于 CTC、n-gram、以及引入顺序信息的损失函数。其中,由于 n-gram 的方法针对传统的交叉熵损失函数只能提供单词级别的监督信息而无法提供全局信息,研究员们提出了优化预测和目标之间 Bag of N-gram 差异的损失函数,以补充交叉熵损失函数中缺失的全局信息,以更好地对 NAR 模型进行优化。

4. 解码算法层面进行的改进,包括对 NAR 模型的长度预测模块进行改进,以及对传统解码算法的改进。由于 NAR 模型无法像 AR 模型一样隐式地在解码过程中决定目标语句的长度,因此需要在解码过程开始前就对目标语句的长度进行显式预测。这个步骤十分重要,因为目标语句的长度是否匹配直接影响模型最终的翻译效果。因此,类似自回归解码中的 Beam Search,有模型提出了提升长度预测准确率的方法,如多个长度并行解码等。这些方法也被广泛应用在 NAR 模型中。

5. 利用预训练模型的方法,包括利用自回归教师翻译模型的方法,和利用单语大规模预训练语言模型的方法。其中,由于 NAR 模型和 AR 模型结构相似,并且 AR 模型的翻译准确度更高,因此很多方法提出利用预训练的 AR 模型来额外监督 NAR 模型的训练,包括在隐变量层面引入额外监督信息,和基于课程学习的迁移学习方法等。

研究员们将文中讨论的相关论文按照类别列在了表1中,供大家查阅。

表1:针对 NAT 模型5个方面的研究总结以及具体的相关工作

 

关于探索 NAR 的开放性问题和未来方向

NAR 除了在 NMT 中的应用之外,还在其它许多的任务中也得到了扩展应用,其中包括文本生成任务,如文本补全、摘要生成、语法纠正、对话、风格变化,语义解析任务,文本语音转化任务,语音翻译任务等等。研究员们在综述文章中给出了一些具体实例的介绍,同时也给出了这些相关工作的实现与资源列表。

为了促进未来 NAR 的发展,研究员们对当前 NAR 产生的问题进行了总结,并对未来可能的方向进行了展望,具体包括:(1)如何能够摆脱当下 NAR 严重依赖 AR 进行知识蒸馏的技术方案;(2)如何能够降低迭代式 NAR 模型的计算复杂度以更好地关注纯 NAR 模型;(3)动态的预测目标端文本的生成长度值得深入探索;(4)如何像 AR 模型一般将 NAR 模型扩展到多语言多任务的环境中是需要进一步关注的;(5)如何对 NAR 模型进行更好的预训练。以上这些都是具有研究前景的研究问题。

希望通过本篇综述,在不同领域进行生成任务研究的学者们能够对 NAR 生成有更全面的认识,并且激发创造更加先进的 NAR 模型,以促进 NAR 未来的发展,影响更广阔的生成场景。

相关链接:

论文:https://arxiv.org/pdf/2204.09269.pdf

GitHub:https://github.com/LitterBrother-Xiao/Overview-of-Non-autoregressive-Applications

]]>
ICLR 2022 | 鸭脖棋牌娱乐亚洲研究院深度学习领域最新研究成果一览 /zh-cn/news/features/iclr-2022 Tue, 26 Apr 2022 10:22:33 +0000 /?p=41041 编者按:ICLR(International Conference on Learning Representations)是国际公认的深度学习领域顶级会议之一,众多在人工智能、统计和数据科学领域以及计算机视觉、语音识别、文本理解等重要应用领域极其有影响力的论文都发表在该大会上。今年的 ICLR 大会于4月25日至29日在线上举办。本届大会共接收论文1095篇,论文接收率32.3%。今天,我们精选了其中的六篇来为大家进行简要介绍,其中研究主题的关键词包括时间序列、策略优化、解耦表示学习、采样方法、强化学习等。欢迎感兴趣的读者阅读论文原文,一起了解深度学习领域的前沿进展!

周期性时间序列的深度展开学习

论文链接:https://www.microsoft.com/en-us/research/publication/depts-deep-expansion-learning-for-periodic-time-series-forecasting/

周期性时间序列在电力、交通、环境、医疗等领域中普遍存在,但是准确地捕捉这些时序信号的演化规律却很困难。一方面是因为观测到的时序信号往往对隐式的周期规律有着各种各样复杂的依赖关系,另一方面是由于这些隐式的周期规律通常也由不同频率、幅度的周期模式复合而成。然而,现有的深度时间序列预测模型要么忽视了对周期性的建模,要么依赖一些简单的假设(加性周期、乘性周期等),从而导致在相应预测任务中的表现不如人意。

在深入思考这些研究难点后,鸭脖棋牌娱乐亚洲研究院的研究员们为周期性时间序列的预测问题提出了一套新型的深度展开学习框架 DEPTS。该框架既可以刻画多样化的周期性成分,也能捕捉复杂的周期性依赖关系。

图1:DEPTS 框架图

如图1所示,DEPTS 主要包含两大模块:周期模块(The Periodicity Module)和展开模块(The Expansion Module)。首先,周期模块负责对整条时间序列的全局周期进行建模,接受全局时间作为输入,推断隐式的周期状态作为输出。为了有效刻画多种不同模式的复合周期,这里使用了一组参数化的周期函数(如余弦级数)来构建周期模块并使用相应变换(如离散余弦变换)来进行高效的参数初始化。

然后,基于一段观测的时间序列信号及其相应的隐式周期状态,展开模块负责捕捉观测信号与隐式周期之间复杂的依赖关系并做出预测。在这里,研究员们拓展了经典的深度残差学习思想开发了一种深度展开学习架构。在这个架构中,研究员们会对输入的时间序列及其隐式周期做逐层的依赖关系展开并得出相应预测分量。在每一层中,由参数化的周期神经网络来决定本层聚焦的周期分量,并展开观测信号的回看和预测分量。在进入下一层前,研究员们会减去本层中产生的周期分量和回看分量,从而鼓励后续的神经网络层聚焦于尚未展开的周期性依赖。按照这样的模式堆叠 N 层就构成了(深度)展开模块。

研究员们在生成数据和广泛的真实数据上都进行了实验验证,明确地揭示了现有方法在周期性时间序列预测方面的短板,并有力地证实了 DEPTS 框架的优越性。值得注意的是,在一些周期模式很强的数据上,DEPTS 相对已有最佳方案的提升可达20%。

此外,由于对周期性进行了明确的建模并提供了预测值在全局周期和局部波动两方面的分量展开,DEPTS 天生带有一定可解释性。

 

在基于模型的策略优化算法中,模型的梯度信息是重要的

论文链接:https://www.microsoft.com/en-us/research/publication/gradient-information-matters-in-policy-optimization-by-back-propagating-through-model/

基于模型的强化学习方法提供了一种通过与学到的环境进行交互从而获得最优策略的高效机制。在这篇论文中,研究员们研究了其中模型学习与模型使用不匹配的问题。具体来说,为了获得当前策略的更新方向,一个有效的方法就是利用模型的可微性去计算模型的导数。 然而,现在常用的方法都只是简单地将模型的学习看成是一个监督学习的任务,利用模型的预测误差去指导模型的学习,但是忽略了模型的梯度误差。简而言之,基于模型的强化学习算法往往需要准确的模型梯度,但是在学习阶段只减小了预测误差,因此就存在目标不一致的问题。

本篇论文中,研究员们首先在理论上证明了模型的梯度误差对于策略优化是至关重要的。由于策略梯度的偏差不仅受到模型预测误差的影响而且也受到模型梯度误差的影响,因此这些误差会最终影响到策略优化过程的收敛速率。

接下来,论文提出了一个双模型的方法去同时控制模型的预测和梯度误差。研究员们设计了两个不同的模型,并且在模型的学习和使用阶段分别让这两个模型承担了不同的角色。在模型学习阶段,研究员们设计了一个可行的方法去计算梯度误差并且用其去指导梯度模型的学习。在模型使用阶段,研究员们先利用预测模型去获得预测轨迹,再利用梯度模型去计算模型梯度。结合上述方法,本篇论文提出了基于方向导数投影的策略优化算法(DDPPO)。 最后,在一系列连续控制基准任务上的实验结果证明了论文中提出的算法确实有着更高的样本效率。

图2: (a)模型学习和使用中的不一致。 (b)DDPPO 算法的示意图。DDPPO 算法分别构造了预测模型和梯度模型。DDPPO 算法使用不同的损失函数去分别训练这两个模型,并且在策略优化中分别恰当地使用他们。

 

RecurD递归解耦网络

论文链接:https://www.microsoft.com/en-us/research/publication/recursive-disentanglement-network/

机器学习的最新进展表明,解耦表示的学习能力有利于模型实现高效的数据利用。其中 BETA-VAE 及其变体是解耦表示学习中应用最为广泛的一类方法。这类工作引入了多种不同的归纳偏差作为正则化项,并将它们直接应用于隐变量空间,旨在平衡解耦表示的信息量及其独立性约束之间的关系。然而,深度模型的特征空间具有天然的组合结构,即每个复杂特征都是原始特征的组合。仅将解耦正则化项应用于隐变量空间无法有效地在组合特征空间中传播解耦表示的约束。

本篇论文旨在结合组合特征空间的特点来解决解耦表示学习问题。首先,论文从信息论的角度定义了解耦表示的属性,从而引入了一个新的学习目标,包括三个基本属性:充分性、最小充分性和解耦性。从理论分析表明,本篇论文所提出的学习目标是 BETA-VAE 及其几个变种的一般形式。接下来,研究员们将所提出的学习目标扩展到了组合特征空间,以涵盖组合特征空间中的解缠结表示学习问题,包括组合最小充分性和组合解耦性。

基于组合解耦学习目标,本篇论文提出了对应的递归解缠结网络(Recursive disentanglement network, RecurD),在模型网络中的组合特征空间内,递归地传播解耦归纳偏置来指导解缠结学习过程。通过前馈网络,递归的传播强归纳偏差是解耦表示学习的充分条件。实验表明,相较于 BETA-VAE 及其变种模型,RecurD 实现了更好的解耦表示学习。并且,在下游分类任务中,RecurD 也表现出了一定的有效利用数据的能力。

图3:RecurD 网络结构

 

基于镜像斯坦因算符的采样方法

论文链接:https://www.microsoft.com/en-us/research/publication/sampling-with-mirrored-stein-operators/

贝叶斯推理(Bayesian inference)等一些机器学习及科学计算问题都可归结为用一组样本来代表一个只知道未归一化密度函数的分布。不同于经典的马尔可夫链蒙特卡罗(Markov chain Monte Carlo)方法,近年来发展起来的斯坦因变分梯度下降方法(Stein variational gradient descent,简记为 SVGD)具有更好的样本高效性,但对在受限空间(图中Θ)上分布的采样或对形状扭曲的分布的采样仍显吃力。

图4:原样本空间\Theta及其镜像空间示意

本篇论文中,研究员们借鉴优化领域中镜像下降方法(mirrored descent)的思想,推导设计出了一系列镜像斯坦因算符(mirrored Stein operators)及其对应的镜像 SVGD 方法。原空间经镜像映射(图中∇ψ)所得的镜像空间是不受限的并可体现分布的几何信息,因而这些方法系统性地解决了上述问题。

具体来说,SVGD 的原理是使用能最大化样本分布与目标分布之间 KL 散度减小率的更新方向来更新样本,从而使样本分布不断逼近目标分布,而这个减小率和更新方向都是由斯坦因算符给出的。因而论文首先推导出了镜像空间中的斯坦因算符(图中 M_(p,ψ))和样本的更新方向(图中 E_(θ∼q_t ) [M_(p,ψ) K(θ_t,θ)])。

研究员们进而设计了三种计算更新方向所需的核函数(kernel function,图中 K),分别可在单样本情况下划归为针对镜像空间及原空间上目标分布峰值的梯度下降,以及原空间上的自然梯度下降。该论文还推导了所提方法的收敛性保证。实验发现所提方法比原本的 SVGD 有更好的收敛速度和精度。

 

部署高效的强化学习:理论下界与最优算法

论文链接:https://www.microsoft.com/en-us/research/publication/towards-deployment-efficient-reinforcement-learning-lower-bound-and-optimality/

传统的(在线)强化学习(RL)的学习过程可以概括为两部分的循环:其一是根据收集的数据学习一个策略(policy);其二是将策略部署到环境中进行交互,获得新的数据用于接下来的学习。强化学习的目标就是在这样的循环中完成对环境的探索,提升策略直至最优。

然而在一些实际应用中,部署策略的过程会十分繁琐,而相对来讲,当部署完新的策略之后,数据的收集过程是很快的。比如在推荐系统中,策略就是推荐方案,好的策略可以精准地推送用户所需要的内容。考虑到用户体验,通常一家公司在上线新的推荐策略之前会进行很长时间的内部测试来检验性能,由于庞大的用户基数,往往部署之后短时间内就可以收集到海量的用户反馈数据来进行后续的策略学习。在这样的应用中,研究员们更倾向于选择只需要很少部署次数(deployment complexity)就能学到好策略的算法。

但是现有的强化学习算法以及理论和上述真实需求之间还有距离。在这篇论文中,研究员们尝试去填补这个空白。研究员们首先从理论的角度上,对 deployment-efficient RL 这个问题提供了一个比较严谨的定义。之后以 episodic linear MDP 作为一个具体的设定,研究员们分别研究了最优的算法能表现的怎样(lower bound),以及提出了可以达到最优的部署复杂度的算法设计方案(optimality)。

其中,在 lower bound 部分,研究员们贡献了理论下界的构造与相关证明;在 upper bound 部分,研究员们提出了“逐层推进”的探索策略(如图5所示),并贡献了基于协方差矩阵估计的新的算法框架,以及一些技术层面的创新。研究员们的结论也揭示了部署带有随机性的策略对于降低部署复杂度的显著作用,这一点在之前的工作当中往往被忽略了。

图5:“逐层推进”的探索策略(以3层的离散马尔科夫决策过程为例)

 

强化学习中的变分先知引导

论文链接:https://www.microsoft.com/en-us/research/publication/variational-oracle-guiding-for-reinforcement-learning/

GitHub链接:https://github.com/Agony5757/mahjong

深度强化学习(DRL)最近在各种决策问题上都取得了成功,然而有一个重要的方面还没有被充分探索——如何利用 oracle observation(决策时不可见,但事后可知的信息)来帮助训练。例如,人类扑克高手会在赛后查看比赛的回放,在回放中,他们可以分析对手的手牌,从而帮助他们更好地反思比赛中自己根据可见信息(executor observation)来做的决策是否可以改进。这样的问题被称为 oracle guiding。

在这项工作中,研究员们基于贝叶斯理论对 oracle guiding 的问题进行了研究。本篇论文提出了一种新的基于变分贝叶斯方法(variational Bayes)的强化学习的目标函数,来利用 oracle observation 帮助训练。这项工作的主要贡献是提出了一个通用的强化学习框架,称为 Variational Latent Oracle Guiding (VLOG)。VLOG 具有许多优异的性质,比如在各种任务上都有着良好且鲁棒的表现,而且 VLOG 可以与任何 value-based 的 DRL 算法相结合使用。

图6:VLOG 在训练时和使用时的模型图表(以 Q-learning 为例)。左:训练时(知道 oracle observation),分别用 executor observation 和 oracle observation 来估计一个贝叶斯隐变量z的先验(prior)和后验(posterior)分布。通过优化 VLOG 变分下界(variational lower bound,后验模型的强化学习目标函数减去z的后验和先验分布之间的KL散度)来训练整个模型。右:使用时,基于可见信息来做出决策。

研究员们对 VLOG 进行了各种任务的实验,包括一个迷宫,简明版的 Atari Games,以及麻将。实验涵盖了在线以及离线强化学习的不同情况,均验证了 VLOG 的良好表现。 此外,研究员们还开源了文中使用的麻将强化学习环境和对应的离线强化学习数据集,来作为未来 oracle guiding 问题和复杂决策环境研究的标准化测试环境 。

]]>
WWW 2022 | 一文解读互联网技术国际顶会最新方向 /zh-cn/news/features/www-2022 Tue, 19 Apr 2022 09:31:16 +0000 /?p=40980 编者按:国际万维网会议(Proceedings of the ACM Web Conference,简称 WWW)是互联网技术领域最重要的国际会议之一。今年的 WWW 将于4月25-29日在法国里昂以线上会议的形式召开。本届会议共收到了1822篇长文投稿,论文录用率为17.7%,鸭脖棋牌娱乐亚洲研究院也有多篇论文入选。今天我们为大家精选了其中的六篇进行简要介绍,研究主题关键词包括个性化新闻推荐、图异配性建模、多层推荐推理、日志解析、基于因果学习的可解释推荐、增量推荐算法等,欢迎感兴趣的读者阅读论文原文,一起了解互联网技术领域的前沿进展!


基于多元用户反馈的鸭脖棋牌娱乐新闻流推荐

论文链接:https://arxiv.org/abs/2102.04903

用户兴趣的准确建模是个性化新闻推荐的核心。大部分已有的新闻推荐方法都依赖于用户点击等隐式反馈来推断用户的兴趣和训练推荐模型。然而用户的点击行为往往十分嘈杂,并且难以反映用户对新闻内容的真实喜好。同时,仅仅优化点击率的推荐模型也难以有效优化用户黏性等指标。

图1:在新闻平台上不同类型的用户反馈示例

其实,在新闻平台上通常存在多样化的用户反馈,如图1所示。除了用户的点击与跳过等较弱的隐式反馈以外,还存在如分享和不喜欢等显式反馈与完成阅读或快速关闭等较强的隐式反馈。这些多样的用户反馈可以为推测用户兴趣提供更为全面的信息。

为了准确、有效地利用新闻平台上丰富的用户反馈,鸭脖棋牌娱乐亚洲研究院的研究员们提出了一种基于多用户反馈的新闻推荐方法 FeedRec。图2展示了 FeedRec 中基于异构用户反馈的兴趣建模框架。研究员们分别利用同构和异构的 Transformer 来建模同类型与跨类型用户反馈之间的联系,并且提出了一种从强到弱的注意力机制,利用强反馈指导弱反馈的选择,从嘈杂的用户反馈中蒸馏出准确的正负反馈信号。对于得到的弱正反馈与弱负反馈,研究员们还利用了一个正则损失使得二者能被更好地区分。

图2:FeedRec 的用户兴趣建模框架

而为了实现更为全面充分的模型优化,研究员们还提出了一种基于多用户反馈的多目标训练方法,如图3所示。研究员们通过联合预测点击率、阅读完成率与停留时间,让模型不仅优化点击率,还能同时优化多种用户黏性指标。

图3:FeedRec 的多任务模型训练框架

研究员们在一个从新闻 App 中收集的数据集上开展了实验。表1的结果显示 FeedRec 可以有效地提升多种点击率指标。表2进一步显示 FeedRec 可以提升多方面的用户黏性,更可能为用户推荐喜爱的新闻内容,改善用户的新闻阅读体验。

表1:不同方法的点击预测性能比较

表2:不同方法的用户黏性比较。“↑”代表数值越高性能越好,“↓”代表数值越低性能越好

 

针对图同配性和异配性同时建模的双核图网络模型

论文链接:https://arxiv.org/abs/2110.15777

图神经网络 (GNN) 由于其强大的图表征能力,被广泛应用于基于图数据的机器学习问题中。对于节点级别的任务,GNN 已被广泛证明有着很强的建模同配(Homophily)图的能力,然而它们建模图异配性(Heterophily)的能力则相对较弱。这一定程度上是因为对同一阶邻居的向量表征,使用了相同的核做变换所致,即使使用类似于图注意力网络(GAT)这样的注意力机制,但由于注意力计算的权重总是一个正值,一个核也无法同时对节点表征之间的相似性和相异性(如正负相关性)进行建模。

针对这个问题,鸭脖棋牌娱乐亚洲研究院的研究员们通过实证分析发现,无论是在被普遍认为是同配图的数据集还是异配图的数据集上,都存在着相当数量的异配子图,且子图的异配度参差不齐,而传统模型如 GCN 在同配子图上往往表现优异,但在异配子图上发挥较差,这充分说明了能同时建模同配和异配性模型的必要性。研究员们通过理论分析了 GCN 不能有效建模混合了同配和异配性的图的原因,并进一步提出了一种基于双核特征转换和门(Gate)机制的新型 GNN 模型: GBK-GNN。GBK-GNN 的结构如图4所示,其通过两个不同的核分别捕获同质和异质信息,并引入门来进行核的选择。这种方式能避免特征变换后的聚合操作将可区分的特征平滑化,从而能够提高模型对同质性及异质性的建模能力。

图4:GBK-GNN 模型结构图

研究员们在具有不同同质异质特性的七个真实数据集上进行了广泛的实验。实验结果表明,与其他 SOTA 方法相比,GBK-GNN 有稳定且显著的提升。表3显示了不同模型在各个数据集上的分类准确率。

表3:不同数据集上节点分类问题的准确度对比

 

基于知识图谱的多层推荐推理——从碎片化推荐到高屋建瓴的人类推理

论文链接:https://www.microsoft.com/en-us/research/uploads/prod/2022/03/WWW2022_Multi_level_Reasoning_submission_camera_ready.pdf

知识图谱被广泛应用在推荐、问答等各个领域。一方面,知识图谱中补充的额外信息可以帮助模型更好地做出决策,提高准确性,另一方面,知识图谱上的路径可以提供模型的全部推理步骤,极具解释性。比如推荐模型的一个推理过程可以表示成如下的路径:

这条路径指出,用户 Alice 购买了由 Armani 生产的 Luminous Silk Foundation,因此模型推荐了同为 Armani 生产的 Mania Fragrance 给这位用户。

这种推理过程往往是在实体层知识图谱上进行的(instance-view KG)。如图5所示,实体层知识图谱只含有具体的实体及它们之间的关系(例如 Armani 生产了 Mania Fragrance),并不知道实体之间的高层关联(例如 Armani 和 Prada 都是意大利奢侈品牌)。因此在实体层的推理往往是碎片化的,不能综合用户的多种行为高屋建瓴地分析、推理。这就与分析时陷入细节、抓不住重点很类似。人类更智慧的推理过程往往是高屋建瓴,自顶而下,逐步考虑更多细节的。比如判断一个用户兴趣时,会先总结出 Alice 更喜欢化妆品,而不是球鞋,进而分析 Alice 可能喜欢的具体是属于意大利奢侈品牌的化妆品,从而进行一系列准确推荐。如果模型能借鉴这种高屋建瓴的能力,不仅可以让模型更快收敛到更好的结果,还可以提供令人信服的、概括用户更多行为的解释。

图5:现有方法进行的是底层推理(红线),这种碎片化的推理方式往往只考虑了一个线索(比如 Alice 购买过 Prada Makeup Bags),很容易陷入细节、抓不住重点。与此相比,多层推理(紫线)可以综合用户的多个行为进行高屋建瓴的推理(比如 Alice 购买过、提过的物品往往是意大利奢侈品牌或它们生产的化妆品),不仅可以让模型收敛到更好的结果,还为表示用户的真实兴趣(意大利奢侈品牌)提供了可能,往往能给出更令人信服的解释。

基于这种发现,鸭脖棋牌娱乐亚洲研究院的研究员们提出了将实体层知识图谱和概念知识图谱(ontology-view KG)相结合的方法,从而进行多层推理。如图5所示,推理路径上的一个点可以是在任何一个层级,而不是只在底层。因此可以给出更好概括用户所有行为的一个推理路径:

研究员们认为,推理的过程天然就是多层级的,不管在推荐上,还是其他任务(比如问答)上,所以多层级的推理极具研究和应用价值。为此,研究员们提出了一个基于 Abstract MDP 的强化学习框架,并且证明了该方法可以显著提升推荐效果及可解释性。

 

针对异构日志数据的统一日志解析

论文链接:https://arxiv.org/abs/2202.06569

在大规模的线上服务系统中,程序日志为工程师提供了故障诊断的第一手资料。日志解析(log parsing)技术将半结构化的原始日志转化成结构化数据,为后续的日志自动诊断步骤提供了结构化的日志输入。已有的日志解析器都将日志中公共(common)的部分识别为模板(template), 变化(dynamic)的部分识别为参数(parameter)。然而,这些日志解析器通常忽略了日志中包含的语义信息。另一方面,不同日志源(log source)之间日志结构差异较大,使得现有的日志解析器很难同时精确解析来自不同系统的日志。

在本篇论文中,鸭脖棋牌娱乐亚洲研究院的研究员们提出了 UniParser,用于捕获异构日志间的相似部分。Uniparser 利用 Token Encoder module 和 Context Encoder module 来学习日志单词(token)及单词上下文(context)的范式。Context Similarity module 用来表征日志范式的相似之处。研究员们在16个公开的日志数据集上进行了对比实验,UniParser 的精度大幅度超越了其他日志解析器。

UniParser 的结构如图6所示:

图6:UniParser 结构图,包含 Token Encoder Module,Context Encoder Module,Context Similarity Module

实验结果,如表4所示:

表4:UniParser 和其他日志解析器的比较

 

基于评论合理化的准确与可解释推荐算法

论文链接:http://recmind.cn/papers/r3_www22.pdf

为了提升推荐算法的精度和解释能力,推荐系统引入了诸如评论或图片等额外数据进行信息补充,通过自然语言处理、计算机视觉等技术对评论文本、商品图片进行多模态学习,还设计了相应的协同过滤算法给出基于相关关系的推荐和解释。然而,基于相关性建模设计的算法存在建模假性相关关系的隐患,建模了假性相关的模型在泛化能力以及解释能力上相对而言难以赢得用户的信任。

本文所提出的 R3(Recommendation via Review Rationalization)是一个期望从评论中剔除假性相关特征的模型,由因果特征挖掘模块、因果特征预测模块以及关联特征预测模块三个模块组成。其中,因果特征挖掘模块用以从评论特征全集中挖掘因果特征以减小假性关联特征的干扰;因果特征预测模块仅基于因果特征挖掘模块挖掘到的因果特征进行推荐预测;关联特征预测模块则同时基于因果特征和其余关联特征进行预测来验证原因特征挖掘模块挖掘到的因果特征是否能使其余关联特征与预测结果条件独立。通过在不同分布的数据集上的大量实验表明,R3 挖掘到的因果特征在保持高准确性推荐结果的同时也具有较高的泛化能力和解释能力。

图7:R3 模型示意图

 

基于图信号处理的快速增量推荐算法

论文链接:http://recmind.cn/papers/fire_www22.pdf

在推荐系统中,随着新用户、新物品以及用户和物品新交互数据的不断产生,推荐算法不能仅靠重新训练模型来应对新数据出现的问题,而是应该基于最近训练好的的模型以增量更新的形式来处理新数据。现阶段,图神经网络已成为捕捉用户特征进而提高推荐准确性的强有力工具之一。然而,目前基于图神经网络的增量推荐算法普遍存在两大问题:首先,大量可训练参数的引入导致训练时间过长,在一定程度上影响了推荐的效率;其次,由于这些算法都是基于用户交互数据来捕捉用户特征的,因此无法处理新用户或新物品出现时的冷启动问题。

本文提出的 FIRE 是一个无参数的模型,不需要非常耗时的训练过程,因此在模型更新阶段具有非常高的效率。此外,借助图信号处理技术,研究员们还为 FIRE 设计了两个低通滤波器:时间信息滤波器和辅助信息滤波器,用于提升推荐结果的准确性。时间信息滤波器通过对用户交互数据进行指数衰减,用来捕捉用户随时间变化的偏好,而辅助信息滤波器则将辅助信息(如用户特征、物品属性)建模为用户或物品间的相似度信息,用于剔除存在于推荐结果的异常信息。这两个滤波器都实现了过滤用户交互信号中的高频分量保留低频分量的效果,使得用户交互信号更加平滑,从而保证推荐内容的准确和可靠。实验证明,FIRE 在保持高准确性推荐结果的同时,有着非常高的训练效率。

图8:FIRE 模型示意图

]]>
如何亿点点降低语音识别跨领域、跨语种迁移难度? /zh-cn/news/features/cmatch-adapter Thu, 31 Mar 2022 09:59:14 +0000 /?p=40817 编者按:随着深度学习的不断发展,语音识别技术得到了极大的提升,同时为人们的日常生活提供了许多便利。然而,一个语音模型的训练并非易事,因为语音数据天然存在着获取难、数据标注耗时昂贵的问题,而且还会面临模型漂移、标注数据不足等难题。因此,迁移学习技术对于语音数据非常重要。为了解决语音识别的跨领域和跨语言问题,鸭脖棋牌娱乐亚洲研究院机器学习组和鸭脖棋牌娱乐(亚洲)互联网工程院提出了跨领域和跨语言语音识别的 CMatch 和 Adapter 方法。这两项技术是如何提升模型迁移学习性能的?他们又利用了哪些创新技术?让我们从今天的文章中来获得答案吧。


语音识别就是将人的声音转化为对应的文字,在如今的日常生活中有着重要的应用,例如手机中的语音助手、语音输入;智能家居中的声控照明、智能电视交互;还有影视字幕生成、听录速记等等,以语音识别为核心技术的应用已经屡见不鲜。但是,语音数据天然存在着获取难、数据标注耗时昂贵的问题。不同人的方言、口音、说话方式也有所不同。受限于此,采集到的语音数据绝大多数会面临模型漂移、标注数据不足等问题。

尤其是语音识别中的跨领域和跨语言场景更是十分具有挑战性。跨领域指的是在领域 A(如普通麦克风)训练的模型如何迁移到领域 B(如专用麦克风)。而跨语种则指的是在语言 A(如俄语)上训练的模型如何迁移到语言 B(如捷克语)。特别是对于一些标注数据稀缺的小语种更是如此。因此,研究低资源跨语种迁移至关重要。

为了解决上述难题,鸭脖棋牌娱乐亚洲研究院提出了用于语音识别的无监督字符级分布适配迁移学习方法 CMatch 和基于适配器架构的参数高效跨语言迁移方法 Adapter。相关论文已分别被语音领域顶会和顶刊 Interspeech 2021 及 IEEE/ACM TASLP 2022 所接收。(论文链接,请见文末)

迁移学习方法 CMatch:实现字符级跨领域适配

众所周知,基于深度学习的端到端 ASR(自动语音识别)已经可以通过大规模的训练数据和强大的模型得到很好的性能。但是,训练和测试数据之间可能会因录音设备、环境的不同有着相似却不匹配的分布,导致 ASR 模型测试时的识别精度下降。而这种领域或分布不匹配的情况非常多样且常见,以至于很难对每个领域的语音数据进行大量收集并标记。这种情况下模型往往需要借助无监督领域适配来提升其在目标域的表现。

现有的无监督领域适配方法通常将每个领域视为一个分布,然后进行领域适配,例如领域对抗训练或是特征匹配。这些方法可能会忽略一些不同领域内细粒度更高的分布知识,例如字符、音素或单词,这在一定程度上会影响适配的效果。这点在此前的研究《Deep subdomain adaptation network for image classification》[1] 中得到了验证,与在整个域中对齐的传统方法相比,在子域中对齐的图像(即按类标签划分的域)通常可以实现更好的自适应性能。

鸭脖棋牌娱乐亚洲研究院提出了一种用于 ASR 的无监督字符级分布匹配方法—— CMatch,以实现在两个不同领域中的每个字符之间执行细粒度的自适应。在 Libri-Adapt 数据集上进行的实验表明,CMatch 在跨设备和跨环境的适配上相对单词错误率(WER)分别降低了14.39%和16.50%。同时,研究员们还全面分析了帧级标签分配和基于 Transformer 的领域适配的不同策略。

以图1为例,通过执行 CMatch 算法,两个领域相同的字符在特征分布中被拉近了:

图1:执行 CMatch 前后效果对比

CMatch 方法由两个步骤组成:帧级标签分配和字符级别的分布匹配。

其中,帧级别标签分配可以为语音信号获得更加准确的“特征-标签”对应关系,为下一步实现基于标签(即字符)的分布适配提供依据,即需要获得帧级别的标签以取得更细粒度的特征分布。要想进行帧级标签分配,首先需要获得较为准确的标签对齐。如图2所示的三种方法:CTC 强制对齐、动态帧平均、以及伪 CTC 标签。可以看出,CTC 强制对齐是通过预训练的 CTC 模块,在计算每条文本对应的最可能的 CTC 路径(插入重复和 Blank 符号)后分配到每个语音帧上,这个方法相对准确但是计算代价较高;动态帧平均则是将语音帧平均分配到每个字符上,这个方法需要基于源域和目标域语速均匀的假设;而伪 CTC 标签的方法,通过利用已经在源域上学习较好的 CTC 模块外加基于置信度的过滤(如图2中的 t、e、p 等),兼顾了高效和准确性。

图2:三种帧级标签分配策略

需要说明的是,在源域上使用真实文本进行标签分配时,由于目标域没有文本,所以需要借助源域模型先对目标域的语音数据进行伪标注,然后再使用模型标注的文本进行标签分配。

得到帧级别的标签后,就需要进行字符级别的分布匹配。研究员们选择采用了 Maximum Mean Discrepancy(MMD)度量进行特征匹配。MMD 用于评估两个分布之间的差异,是迁移学习中常见的一种分布度量方法。它的公式为:

实际操作中,给定源域和目标域样本 X_S, X_T,计算 MMD 的有偏差的经验估计:

通过计算所有字符之间的平均 MMD,可以得到字符级别的分布匹配损失函数:

最终,鸭脖棋牌娱乐亚洲研究院采用 CTC-Attention 混合模型作为基础 ASR 模型,以及同时混合学习 CTC 模块(用于帧级标签分配)和基于 Transformer Decoder 的 Seq2Seq Loss,于是语音识别的损失函数可以表示为:

将分布匹配损失函数和语音识别损失函数相结合,就得到了最终的损失函数:

最终算法流程如表1:

表1:CMatch 学习算法

领域内、跨设备、跨环境语音识别,CMatch均取得最佳效果

表2是跨设备语音识别时的结果,值得注意到的是,Source-only 的模型在其他设备录制语音上的识别效果相比领域内模型都会有一定程度的下降。而基于全局 MMD 和领域对抗训练的方法均有所提升,CMatch 则在各个情况下均取得了最佳的效果。

表2:跨设备语音识别结果

表3的结果表明,CMatch 在跨环境(抗噪声)语音识别情况下也取得了很好的效果。

表3:跨环境(抗噪声)语音识别结果

表4为消融实验,可以看到结合了自训练和细粒度的分布匹配能够使 CMatch 达到最好的效果。

表4:CMatch 消融实验结果

此外,研究员们还分析比较了三种字符分配方法。在表5中可以看出 CTC 强制对齐取得了最好的效果,但是其计算开销也最大;而 FrameAverage 也取得了较好的效果,但它的假设前提是领域和目标域具有均匀的说话速度;而使用 CTC 伪标签的方法取得了与 CTC 强制对齐相近的结果,同时计算起来也更加高效。

表5:三种字符分配方法的实验结果

最后,对于是否需要在解码器端使用 CMatch Loss,实验结果如表6。由于解码器在实验中本来就没有功能上的差别,目标文本都是标准的英文,因此减小其分布的差异并没有什么效果,甚至会损害性能。

表6:解码器端使用 CMatch Loss 的测试结果

Adapter 再进化:更少的训练数据,更高的准确率

在一代代科学家和工程师的努力下,语音识别系统在各种主流语言上都已经达到了非常好的效果,比如英语、中文、法语、俄语、西班牙语等……让人们在日常生活中就能享受其带来的便利。然而,世界上有大约7,000种语言,其中绝大部分语言的使用者并不多,而且不同人的方言、口音、说话方式也有所不同,这就使得这些语言的语音数据十分稀缺,即低资源(low-resource)语言。标注数据的稀缺导致近年来端到端语音识别的诸多成果迟迟不能应用到这些语言上。

为此,鸭脖棋牌娱乐亚洲研究院的研究员们开始思考如何利用迁移学习,将主流语言(如英语、中文等)的知识用于帮助低资源语言的学习,在多种语言之间共享,起到“四两拨千斤”的效果,从而提升小语种语音识别的表现。如图3所示,给定罗马尼亚语作为目标语言,如何利用数据相对丰富的意大利语、威尔士语和俄语来训练出更好的罗马尼亚语语音识别模型?

图3:给定若干源语言,如何将知识迁移到目标语言上?

幸运的是,近年来,如 wav2vec2.0 [2] 等预训练模型都已经推出了多语言版本,鸭脖棋牌娱乐亚洲研究院之前的研究也证明了仅需要简单的微调,一个大规模的多语言模型就能被适配到一个低资源语言上,并能显著改善识别性能。

但与此同时,研究员们也发现了两个新问题:

  1. 大规模的多语言模型往往含有大量的参数,导致在一些数据量非常少的情况下,模型极易过拟合。
  2. 如果对于世界上的每一个小语种都维护一个微调后的大模型,成本将会十分巨大。

不过,之前 Houlsby 等人发现[3],对于一个预训练好的 BERT,只需要在 Transformer 的每一层插入一个如图4所示的 Adapter,就能在不改变模型主干参数的情况下将模型适配到各种下游任务,甚至能够取得接近整个模型微调的表现。Adapter 主要包含一个 LayerNorm 层,用于重新调节原始特征的尺度,接着分别是一个降采样层和一个升采样层对特征进行压缩和还原,最后由一个残差连接保证原始特征依然能通过,从而提升 Adapter 训练时的稳定性。

图4:Adapter 结构示意图

受到 Adapter 的启发,鸭脖棋牌娱乐亚洲研究院的研究员们尝试使用 Adapter 来解决模型过拟合问题,对如何利用 Adapter 进行高参数效率(parameter-efficient)的预训练多语言 ASR 模型的迁移展开了研究,并提出了 MetaAdapter 和 SimAdapter 来对 Adapter 进一步优化,在仅使用2.5%和15.5%的可训练参数的情况下,使得识别词错误率(WER)相对全模型微调分别降低了2.98%和2.55%。

鸭脖棋牌娱乐亚洲研究院使用了自己预训练的多语言模型进行实验,该方法也可以用于 wav2vec2.0 等模型上。具体来说,模型的主干基于 Transformer 的结构,主要包含12层 Encoder 以及6层 Decoder 模型,结合了11种语料(包含42种语言,总时长约5,000小时)对模型进行预训练。同时,模型采用了 CTC-Attention 混合损失函数来提升训练的稳定性和加速训练,即在 Encoder 的输出特征上增加 CTC 层,使用 CTC 损失进行约束。研究员们还将 Adapter 放在前馈层(Feed-Forward Networks)后面,从而对每一层的输出特征进行调节。

图5:主干模型示意图

MetaAdapter:MetaAdapter 在结构上与 Adapter 完全一致,唯一不同的是,使用了 MAML (Model-Agnostic Meta-Learning) [4] 元学习算法来学习一个 Adapter 更优的初始化。MetaAdapter 需要通过学习如何学习多种源语言,从而在各种语言中收集隐含的共享信息,以帮助学习一个新的语言。实验发现,MetaAdapter 对于过拟合和极少数据量的鲁棒性,以及最终迁移效果均显著强于原始 Adapter 。

图6:MetaAdapter

SimAdapter:如果说 MetaAdapter 需要通过收集隐含的共享信息来学习新的语言,那么 SimAdapter 则是显式地要求模型去建模各种语言的相似度关系,从而更好的学习目标语言,其结构如图7所示。在研究员们看来,多语言模型的原始特征是相对语言无关的,那么如果使用这些特征作为 Query,将各语言 Adapter(包括目标语言)输出的语言强相关特征作为 Key 和 Value,那么就能通过构造注意力机制,从目标语言和源语言中分别提取一些有效信息,作为更好的目标语言特征。

图7:SimAdapter 结构示意图

SimAdapter+ 达到最优结果,MetaAdapter 擅长数据量极少的场景

通过将模型在 Common Voice 的五种低资源语言上进行实验,结果如表7所示。根据迁移与否以及迁移方式的不同,可以将各种方法分为三类:

  1. 不迁移(左边栏):包括了传统的 DNN/HMM 混合模型,从头训练的 Transformer(B. 和本文用的主干模型大小结构均一致;S. 指为了抑制过拟合,而将参数量调小的版本),以及将预训练好的模型当作特征提取器,去学习目标语言的输出层。
  2. 基于微调的迁移(中间栏):包括了完整模型的微调,以及对于抑制过拟合的尝试(完整模型微调 +L2 正则化、仅微调模型最后几层参数)
  3. 基于 Adapter 的迁移(右边栏):即本文介绍的各种方法,其中 SimAdapter+ 是结合了 SimAdapter 和 MetaAdapter 的升级版。

表7:MetaAdapter 和 SimAdapter 在 Common Voice 五种低资源语言上的实验结果

这里采用了两种平均方式来反应模型的不同能力:1. 直接平均:没有考虑不同语言内的数据量,对于尤其擅长极少数据的算法会更有优势;2. 加权平均:考虑了不同语言本身的数据量,更适合用来衡量模型在各种情况下的综合表现。

由结果可以看出:

  1. 使用迁移学习的方法均明显好于不使用迁移学习的方法,印证了迁移学习的重要性。
  2. 全模型微调有着非常强大的效果,对其施加传统的 L2 正则,或是仅微调模型最后几层参数效果都不理想。
  3. 原始的 Adapter 在合适的训练方法下基本可以达到和全模型微调相同的水平,说明了 Adapter 在 ASR 任务上的有效性。
  4. 本文提出的 SimAdapter 和 MetaAdapter 均进一步提高了 Adapter 的表现,将它们结合后的 SimAdapter+ 更是达到了文中最优的结果。
  5. 值得注意的是,MetaAdapter 更擅长数据量极少的情况,而在 SimAdapter 则有着更均衡的表现。

创新训练方法和实验方法:进一步验证 Adapter 和 SimAdapter 的性能

鸭脖棋牌娱乐亚洲研究院提出了两阶段训练方法以提高 Adapter 在语音识别任务上的表现:模型迁移过程中需要学习一份新语言的词表,如果将该词表和 Adapter 一起训练,由于词嵌入的不断更新,可能会导致 Adapter 学习目标的混乱。同时学习 Adapter 和词表也可能会词嵌入从而承担一部分 Adapter 的功能,导致 Adapter 无法学习到足够的语言相关特征,造成后续 SimAdapter 的表现下降。因此,先将主干模型固定住,将新语言的词表映射到模型相同的隐空间(latent space)中,再将词表固定住学习 Adapter,可以达到更好的效果,如表8所示。

表8:二阶段训练法

另外,为了证明 SimAdapter 的确能够从其他语言学习到有用的知识,研究员们设计了两个实验:

其一,尝试去除目标语言本身的 Adapter ,以要求 SimAdapter 仅通过源语言来学习一个对目标语言有用的特征,结果如表9所示:即使没有使用目标语言 Adapter,SimAdapter 依然能够在多数语言上取得较为明显的提升。

表9:SimAdapter 消融实验

其二,在乌克兰语上训练两个不同的 SimAdapter 模型,以分析不同源语言(意大利语和俄语)的贡献。由于俄语和乌克兰语更相似,使用俄语 Adapter 共同训练的 SimAdapter 应当获得更多收益。结果显示,使用意大利语 Adapter 的 SimAdapter 的词错误率为48.70,而使用俄语 Adapter 的词错误率仅为47.73,这表明相比意大利语,SimAdapter 的确可以从俄语中学习更多的有用知识来建模乌克兰语。

鸭脖棋牌娱乐亚洲研究院已将 CMatch 和 Adapter 代码开源,地址如下:

https://github.com/microsoft/NeuralSpeech/tree/master/CMatchASR

https://github.com/microsoft/NeuralSpeech/tree/master/AdapterASR

 

相关论文链接:

[1] Deep Subdomain Adaptation Network for Image Classification

https://arxiv.org/abs/2106.09388

[2] wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations
https://arxiv.org/abs/2006.11477

[3] Parameter-Efficient Transfer Learning for NLP

https://arxiv.org/abs/1902.00751

[4] Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks

https://arxiv.org/abs/1703.03400

]]>
如何将学术经历整合为求职简历?CS求职必备的5个小技巧 /zh-cn/news/features/five-ways-your-academic-research-skills-transfer-to-industry Thu, 31 Mar 2022 00:03:05 +0000 /?p=32650 编者按:走出校园初次求职,表述简洁的职位要求或许会让你一头雾水,不知从何下手。如何将你的学术经历“翻译”为适用于产业界招聘的语言?这篇鸭脖棋牌娱乐研究员 Alaina Talboy 博士的手记将手把手教你读懂招聘潜台词,并将自己的经历进行精确匹配。本文编译自鸭脖棋牌娱乐研究院博客文章“Five ways your academic research skills transfer to industry”

许多博士和硕士希望在高校找到一份教职,但现实情况是,空缺的终身教职数量远少于申请者的数量。根据美国国家科学基金会(National Science Foundation)2018年出具的一份报告,在高级科学、工程、健康学科分类中,仅有14%的毕业生在毕业后三年内在学术界找到了职位。而包括我本人在内,绝大多数拥有博士学位的人,会在各行各业、政府和私营部门中广泛求职。

我怎样从学术界转向产业界

就我的经历来说,尽管拿到了终身教职的工作,我还是选择投身产业界,因为对于我所喜爱的研究方向,我在产业界看到了更多机会。从学术界转到产业界,走上这条路并非易事,但是作为一名研究者,我相信自己能够成功完成这一转变。

在筹划这次职业转变时,我也找了很多资料,我发现有许多建议教你如何拓宽人脉,寻找和申请学术界以外的职位,也有很多准备面试的相关资源。但很少有资料会告诉求职者如何将学术经历转化为适用于产业界求职的信息。

我修读的是认知科学、神经科学和社会心理学博士,除了设计和开展独立研究,我还学会了从头到尾把控研究的细节,申请经费以及调配资源。这些经验都是在长期的教学、练习和指导过程中积累的,是硕博学生在高强度学术训练中都经历过的相似经历。

一般而言,学者的知识技能会全面展现在他们的学术简历中。一份学术简历通常长达几页,大篇幅介绍他们所做的研究,包括研究的主题、成果以及科学价值。但是,对于业界招聘者而言,他们浏览一份简历可能仅花费6秒钟,不会逐字逐句地阅读来弄清楚求职者的技能。

于是我立刻就意识到,我需要将一份事无巨细的学术简历缩减到一张纸上,将大量文字拆分成简洁有力、吸引雇主的小块文字。不过和学术界的丰富信息相比,业界对职位需求的描述要模糊得多,一开始可能会让你心生困惑。但是别担心,我总结了下面的几个小技巧,能够帮助你将适合这份工作的一切信息都精炼有效地呈现在简历中。

5个小技巧优化求职简历

写简历的时候,我把各个待投职位中经常出现的职位要求标了出来,并和自己简历里的经历做了对照。这样做帮我明确了职位的真正需求,从而能优化自己的简历。尽管职位需求和我简历里对应的部分好像在各说各话,但其实二者是共通的:

01

职位需求描述

丰富的项目管理经验

它的含义

你能同时细致地管理多个项目吗?

如何体现在我的简历中?

可以在研究项目部分中体现,列出你做过的独立研究项目并简要概述项目中你所完成的任务。

02

职位需求描述

较强的时间管理能力

它的含义

你能同时处理多个不同的问题吗?

如何体现在我的简历中?

列出你所有经历的日期,日期有重叠的部分将是你时间管理能力的佐证,例如同时进行的研究项目和助教任务。

03

职位需求描述

在工作中进行观点碰撞的能力

它的含义

你能把相关研究联系起来吗?

如何体现在我的简历中?

仍然是研究项目部分,将大量的文献综述工作以及与其他研究者和合作伙伴的合作经历呈现出来。

04

职位需求描述

优秀的沟通能力(包括书面和口头表述),对细节的关注

它的含义

你能把专业工作用白话讲述,从而让不熟悉它的人也能理解和应用吗?

如何体现在我的简历中?

列出你发表的作品,进行过的公开演讲和文章,以及从事教学活动的经历。

05

职位需求描述

通过跨学科(如设计、工程、数据科学)合作来改进产品的经历

它的含义

你能和不同专业背景的人一起工作吗?

如何体现在我的简历中?

列出你跨学科合作的证据,例如,已发表作品中有与你专业背景不同的合作者。小组团队项目也可以算是合作的经历!

将职位需求和个人经历一一对应后,我从原来的文字介绍中挑出了能展现个人技能的关键点。一份有重点的包含所有成就的简历,是向公司展现个人能力和创造力的重要素材。这个化繁为简的过程有点痛苦。过去的研究经历里有一些我特别引以为傲的事,即使我很想在简历里分享我最酷的研究成果,但为了让这份简历更适合在产业界求职,我不得不拿掉它们。

保持耐心!

总而言之,仔细打磨这样一份帮我找到工作的简历花了两个多月。在这段时间里,我几次求助于学术界以外的朋友,让他们对我的简历提出反馈,帮我修改、修改、再修改。因此,如果修改简历的时间比预期的要长,不要担心或沮丧。我们要从新的视角出发,去看待过去的研究工作和技能。

上面的这些简历小技巧只是求职的起点。随着求职过程的不断推进,我们要对职位需求加深理解和解释,而不仅仅是做出具备与否的回答。下一步,我们要更深入地解读职位需求,去体现我们是如何运用这些专业技能进行工作的。

最后,希望这些经历能给你一些启发,帮你打磨出一份满意的简历,自信满满地找到自己的理想工作。祝你好运!

Alaina Talboy 博士是鸭脖棋牌娱乐客户洞察研究组的设计研究员。在加入鸭脖棋牌娱乐之前,Talboy 是一名博士研究员,研究方向为推理、判断和决策,实验设计和分析以及混合方法。

]]>
语音识别的快速纠错模型FastCorrect系列来了! /zh-cn/news/features/fastcorrect Tue, 22 Mar 2022 08:57:03 +0000 /?p=40778 编者按:语音识别支持着许多生活中的常见服务,比如手机端的语音转文字功能、视频网站的字幕自动生成等等。但语音识别模型往往并不完美,需要纠错模型来纠正语音识别中的错误。目前,大部分纠错模型采用了基于注意力机制的自回归模型结构,虽然能够提升语音识别的准确率,但是延迟较高,这也成为了纠错模型在实际应用中的瓶颈。一个直接的做法是利用非自回归模型来提升速度,但是简单利用当前的非自回归模型不能降低错误率。为此,鸭脖棋牌娱乐亚洲研究院机器学习组与鸭脖棋牌娱乐 Azure 语音团队合作,推出了 FastCorrect 系列工作,提出了低延迟的纠错模型,相关研究论文已被 NeurIPS 2021 和 EMNLP 2021 收录。


纠错是语音识别中的一个重要后处理方法,旨在检测并纠正语音识别结果中存在的错误,从而进一步提升语音识别的准确率。许多纠错模型采用的是延迟较高的自回归解码模型,但是语音识别服务对模型的延迟有着严格的要求,在一些实时语音识别场景中(如会议同步语音识别),纠错模型无法上线应用。为了加速语音识别中的纠错模型,鸭脖棋牌娱乐亚洲研究院的研究员们提出了一种基于编辑对齐(Edit Alignment)的非自回归纠错模型——FastCorrect,FastCorrect 在几乎不损失纠错能力的情况下,将自回归模型加速了6-9倍。考虑到语音识别模型往往可以给出多个备选识别结果,研究员们还进一步提出了 FastCorrect 2 来利用这些识别结果相互印证,从而得到了更好的性能。FastCorrect 1和2的相关研究论文已被 NeurIPS 2021 和 EMNLP 2021 收录。当前,研究员们还在研发 FastCorrect 3,在保证低延迟的情况下,进一步降低语音识别的错误率。

FastCorrect :快速纠错模型

语音识别的纠错实际上是一个文本到文本的任务,模型训练的输入为语音识别结果文本,输出为真实文本。在自然语言处理领域(如机器翻译和文本编辑),已经有一些非自回归的快速模型被提出。但初步实验结果(如图一)显示,简单地将这些模型应用到语音识别的纠错任务中,并不能取得令人满意的结果。经过对语音识别的分析,研究员们发现语音识别中的错误比较稀疏,通常错误的单词数不到总单词数的10%,而模型必须精准地找到并修改这些错误,同时还要避免修改正确的单词,这是语音识别的纠错任务中最大的挑战。而机器翻译中非自回归模型的主要问题是修改了太多原本是正确的单词,模型修改了原有错误的同时又引入了较多新的错误,因此无法提升语音识别的精度。

图一:FastCorrect 和基线方法的错误检测率和错误改正率对比

考虑到语音识别的纠错输入输出的对应关系是单调的,所以如果可以在词的级别对齐输入和输出,就可以得到细粒度的错误信息:哪些词是错误的,这些错误的单词应该怎样修改。基于两个文本序列的编辑距离,研究员们设计了编辑对齐(Edit Alignment)算法(如图二)。给定输入(语音识别结果)和输出(真实文本),第一步是计算两个文本的编辑距离,然后可以得到数条编辑路径(Edit Path),路径中的元素为增加/删除/替换/不变四种操作之一。为了避免修改正确单词,包含“不变”操作最多的编辑路径会被选择。最终,基于编辑路径可以得到:对于每个输入的单词,哪些输出的单词与之对应。如果对应的输入输出单词不同,那么就表明输入单词是错误单词。

图二:编辑对齐(Edit Alignment)算法

基于细粒度的输入输出对应关系,研究员们针对性地设计了快速纠错模型 FastCorrect。模型包含了三个主要部分——编码器、长度预测器和解码器(如图三):

1. 编码器可以学习输入文本的特征,这些特征会被长度预测器和解码器利用。

2. 长度预测器基于编码器的输出,预测每个输入单词有多少个输出单词与之对应,即 Duration。如果输入单词 Duration 为0,那么没有输出单词与之对应,它也将被删除,如果 Duration 大于1,那么有多个输出单词与之对应,意味着解码器需要插入数个单词。

3. 解码器除了利用编码器的输出之外,还会基于长度预测器的结果,调整输入文本的长度,使之和输出文本长度一致。将长度调整一致后,解码器可以并行地同时解码出所有单词。