MSRA 鸭脖棋牌娱乐亚洲研究院 Wed, 11 May 2022 03:29:33 +0000 zh-CN hourly 1 https://wordpress.org/?v=4.7.5 /wp-content/uploads/2017/07/cropped-favicon2-1-32x32.png MSRA 32 32 ICLR 2022 | 鸭脖棋牌娱乐亚洲研究院深度学习领域最新研究成果一览 /zh-cn/news/features/iclr-2022 Tue, 26 Apr 2022 10:22:33 +0000 /?p=41041 编者按:ICLR(International Conference on Learning Representations)是国际公认的深度学习领域顶级会议之一,众多在人工智能、统计和数据科学领域以及计算机视觉、语音识别、文本理解等重要应用领域极其有影响力的论文都发表在该大会上。今年的 ICLR 大会于4月25日至29日在线上举办。本届大会共接收论文1095篇,论文接收率32.3%。今天,我们精选了其中的六篇来为大家进行简要介绍,其中研究主题的关键词包括时间序列、策略优化、解耦表示学习、采样方法、强化学习等。欢迎感兴趣的读者阅读论文原文,一起了解深度学习领域的前沿进展!

周期性时间序列的深度展开学习

论文链接:https://www.microsoft.com/en-us/research/publication/depts-deep-expansion-learning-for-periodic-time-series-forecasting/

周期性时间序列在电力、交通、环境、医疗等领域中普遍存在,但是准确地捕捉这些时序信号的演化规律却很困难。一方面是因为观测到的时序信号往往对隐式的周期规律有着各种各样复杂的依赖关系,另一方面是由于这些隐式的周期规律通常也由不同频率、幅度的周期模式复合而成。然而,现有的深度时间序列预测模型要么忽视了对周期性的建模,要么依赖一些简单的假设(加性周期、乘性周期等),从而导致在相应预测任务中的表现不如人意。

在深入思考这些研究难点后,鸭脖棋牌娱乐亚洲研究院的研究员们为周期性时间序列的预测问题提出了一套新型的深度展开学习框架 DEPTS。该框架既可以刻画多样化的周期性成分,也能捕捉复杂的周期性依赖关系。

图1:DEPTS 框架图

如图1所示,DEPTS 主要包含两大模块:周期模块(The Periodicity Module)和展开模块(The Expansion Module)。首先,周期模块负责对整条时间序列的全局周期进行建模,接受全局时间作为输入,推断隐式的周期状态作为输出。为了有效刻画多种不同模式的复合周期,这里使用了一组参数化的周期函数(如余弦级数)来构建周期模块并使用相应变换(如离散余弦变换)来进行高效的参数初始化。

然后,基于一段观测的时间序列信号及其相应的隐式周期状态,展开模块负责捕捉观测信号与隐式周期之间复杂的依赖关系并做出预测。在这里,研究员们拓展了经典的深度残差学习思想开发了一种深度展开学习架构。在这个架构中,研究员们会对输入的时间序列及其隐式周期做逐层的依赖关系展开并得出相应预测分量。在每一层中,由参数化的周期神经网络来决定本层聚焦的周期分量,并展开观测信号的回看和预测分量。在进入下一层前,研究员们会减去本层中产生的周期分量和回看分量,从而鼓励后续的神经网络层聚焦于尚未展开的周期性依赖。按照这样的模式堆叠 N 层就构成了(深度)展开模块。

研究员们在生成数据和广泛的真实数据上都进行了实验验证,明确地揭示了现有方法在周期性时间序列预测方面的短板,并有力地证实了 DEPTS 框架的优越性。值得注意的是,在一些周期模式很强的数据上,DEPTS 相对已有最佳方案的提升可达20%。

此外,由于对周期性进行了明确的建模并提供了预测值在全局周期和局部波动两方面的分量展开,DEPTS 天生带有一定可解释性。

 

在基于模型的策略优化算法中,模型的梯度信息是重要的

论文链接:https://www.microsoft.com/en-us/research/publication/gradient-information-matters-in-policy-optimization-by-back-propagating-through-model/

基于模型的强化学习方法提供了一种通过与学到的环境进行交互从而获得最优策略的高效机制。在这篇论文中,研究员们研究了其中模型学习与模型使用不匹配的问题。具体来说,为了获得当前策略的更新方向,一个有效的方法就是利用模型的可微性去计算模型的导数。 然而,现在常用的方法都只是简单地将模型的学习看成是一个监督学习的任务,利用模型的预测误差去指导模型的学习,但是忽略了模型的梯度误差。简而言之,基于模型的强化学习算法往往需要准确的模型梯度,但是在学习阶段只减小了预测误差,因此就存在目标不一致的问题。

本篇论文中,研究员们首先在理论上证明了模型的梯度误差对于策略优化是至关重要的。由于策略梯度的偏差不仅受到模型预测误差的影响而且也受到模型梯度误差的影响,因此这些误差会最终影响到策略优化过程的收敛速率。

接下来,论文提出了一个双模型的方法去同时控制模型的预测和梯度误差。研究员们设计了两个不同的模型,并且在模型的学习和使用阶段分别让这两个模型承担了不同的角色。在模型学习阶段,研究员们设计了一个可行的方法去计算梯度误差并且用其去指导梯度模型的学习。在模型使用阶段,研究员们先利用预测模型去获得预测轨迹,再利用梯度模型去计算模型梯度。结合上述方法,本篇论文提出了基于方向导数投影的策略优化算法(DDPPO)。 最后,在一系列连续控制基准任务上的实验结果证明了论文中提出的算法确实有着更高的样本效率。

图2: (a)模型学习和使用中的不一致。 (b)DDPPO 算法的示意图。DDPPO 算法分别构造了预测模型和梯度模型。DDPPO 算法使用不同的损失函数去分别训练这两个模型,并且在策略优化中分别恰当地使用他们。

 

RecurD递归解耦网络

论文链接:https://www.microsoft.com/en-us/research/publication/recursive-disentanglement-network/

机器学习的最新进展表明,解耦表示的学习能力有利于模型实现高效的数据利用。其中 BETA-VAE 及其变体是解耦表示学习中应用最为广泛的一类方法。这类工作引入了多种不同的归纳偏差作为正则化项,并将它们直接应用于隐变量空间,旨在平衡解耦表示的信息量及其独立性约束之间的关系。然而,深度模型的特征空间具有天然的组合结构,即每个复杂特征都是原始特征的组合。仅将解耦正则化项应用于隐变量空间无法有效地在组合特征空间中传播解耦表示的约束。

本篇论文旨在结合组合特征空间的特点来解决解耦表示学习问题。首先,论文从信息论的角度定义了解耦表示的属性,从而引入了一个新的学习目标,包括三个基本属性:充分性、最小充分性和解耦性。从理论分析表明,本篇论文所提出的学习目标是 BETA-VAE 及其几个变种的一般形式。接下来,研究员们将所提出的学习目标扩展到了组合特征空间,以涵盖组合特征空间中的解缠结表示学习问题,包括组合最小充分性和组合解耦性。

基于组合解耦学习目标,本篇论文提出了对应的递归解缠结网络(Recursive disentanglement network, RecurD),在模型网络中的组合特征空间内,递归地传播解耦归纳偏置来指导解缠结学习过程。通过前馈网络,递归的传播强归纳偏差是解耦表示学习的充分条件。实验表明,相较于 BETA-VAE 及其变种模型,RecurD 实现了更好的解耦表示学习。并且,在下游分类任务中,RecurD 也表现出了一定的有效利用数据的能力。

图3:RecurD 网络结构

 

基于镜像斯坦因算符的采样方法

论文链接:https://www.microsoft.com/en-us/research/publication/sampling-with-mirrored-stein-operators/

贝叶斯推理(Bayesian inference)等一些机器学习及科学计算问题都可归结为用一组样本来代表一个只知道未归一化密度函数的分布。不同于经典的马尔可夫链蒙特卡罗(Markov chain Monte Carlo)方法,近年来发展起来的斯坦因变分梯度下降方法(Stein variational gradient descent,简记为 SVGD)具有更好的样本高效性,但对在受限空间(图中Θ)上分布的采样或对形状扭曲的分布的采样仍显吃力。

图4:原样本空间\Theta及其镜像空间示意

本篇论文中,研究员们借鉴优化领域中镜像下降方法(mirrored descent)的思想,推导设计出了一系列镜像斯坦因算符(mirrored Stein operators)及其对应的镜像 SVGD 方法。原空间经镜像映射(图中∇ψ)所得的镜像空间是不受限的并可体现分布的几何信息,因而这些方法系统性地解决了上述问题。

具体来说,SVGD 的原理是使用能最大化样本分布与目标分布之间 KL 散度减小率的更新方向来更新样本,从而使样本分布不断逼近目标分布,而这个减小率和更新方向都是由斯坦因算符给出的。因而论文首先推导出了镜像空间中的斯坦因算符(图中 M_(p,ψ))和样本的更新方向(图中 E_(θ∼q_t ) [M_(p,ψ) K(θ_t,θ)])。

研究员们进而设计了三种计算更新方向所需的核函数(kernel function,图中 K),分别可在单样本情况下划归为针对镜像空间及原空间上目标分布峰值的梯度下降,以及原空间上的自然梯度下降。该论文还推导了所提方法的收敛性保证。实验发现所提方法比原本的 SVGD 有更好的收敛速度和精度。

 

部署高效的强化学习:理论下界与最优算法

论文链接:https://www.microsoft.com/en-us/research/publication/towards-deployment-efficient-reinforcement-learning-lower-bound-and-optimality/

传统的(在线)强化学习(RL)的学习过程可以概括为两部分的循环:其一是根据收集的数据学习一个策略(policy);其二是将策略部署到环境中进行交互,获得新的数据用于接下来的学习。强化学习的目标就是在这样的循环中完成对环境的探索,提升策略直至最优。

然而在一些实际应用中,部署策略的过程会十分繁琐,而相对来讲,当部署完新的策略之后,数据的收集过程是很快的。比如在推荐系统中,策略就是推荐方案,好的策略可以精准地推送用户所需要的内容。考虑到用户体验,通常一家公司在上线新的推荐策略之前会进行很长时间的内部测试来检验性能,由于庞大的用户基数,往往部署之后短时间内就可以收集到海量的用户反馈数据来进行后续的策略学习。在这样的应用中,研究员们更倾向于选择只需要很少部署次数(deployment complexity)就能学到好策略的算法。

但是现有的强化学习算法以及理论和上述真实需求之间还有距离。在这篇论文中,研究员们尝试去填补这个空白。研究员们首先从理论的角度上,对 deployment-efficient RL 这个问题提供了一个比较严谨的定义。之后以 episodic linear MDP 作为一个具体的设定,研究员们分别研究了最优的算法能表现的怎样(lower bound),以及提出了可以达到最优的部署复杂度的算法设计方案(optimality)。

其中,在 lower bound 部分,研究员们贡献了理论下界的构造与相关证明;在 upper bound 部分,研究员们提出了“逐层推进”的探索策略(如图5所示),并贡献了基于协方差矩阵估计的新的算法框架,以及一些技术层面的创新。研究员们的结论也揭示了部署带有随机性的策略对于降低部署复杂度的显著作用,这一点在之前的工作当中往往被忽略了。

图5:“逐层推进”的探索策略(以3层的离散马尔科夫决策过程为例)

 

强化学习中的变分先知引导

论文链接:https://www.microsoft.com/en-us/research/publication/variational-oracle-guiding-for-reinforcement-learning/

GitHub链接:https://github.com/Agony5757/mahjong

深度强化学习(DRL)最近在各种决策问题上都取得了成功,然而有一个重要的方面还没有被充分探索——如何利用 oracle observation(决策时不可见,但事后可知的信息)来帮助训练。例如,人类扑克高手会在赛后查看比赛的回放,在回放中,他们可以分析对手的手牌,从而帮助他们更好地反思比赛中自己根据可见信息(executor observation)来做的决策是否可以改进。这样的问题被称为 oracle guiding。

在这项工作中,研究员们基于贝叶斯理论对 oracle guiding 的问题进行了研究。本篇论文提出了一种新的基于变分贝叶斯方法(variational Bayes)的强化学习的目标函数,来利用 oracle observation 帮助训练。这项工作的主要贡献是提出了一个通用的强化学习框架,称为 Variational Latent Oracle Guiding (VLOG)。VLOG 具有许多优异的性质,比如在各种任务上都有着良好且鲁棒的表现,而且 VLOG 可以与任何 value-based 的 DRL 算法相结合使用。

图6:VLOG 在训练时和使用时的模型图表(以 Q-learning 为例)。左:训练时(知道 oracle observation),分别用 executor observation 和 oracle observation 来估计一个贝叶斯隐变量z的先验(prior)和后验(posterior)分布。通过优化 VLOG 变分下界(variational lower bound,后验模型的强化学习目标函数减去z的后验和先验分布之间的KL散度)来训练整个模型。右:使用时,基于可见信息来做出决策。

研究员们对 VLOG 进行了各种任务的实验,包括一个迷宫,简明版的 Atari Games,以及麻将。实验涵盖了在线以及离线强化学习的不同情况,均验证了 VLOG 的良好表现。 此外,研究员们还开源了文中使用的麻将强化学习环境和对应的离线强化学习数据集,来作为未来 oracle guiding 问题和复杂决策环境研究的标准化测试环境 。

]]>
WWW 2022 | 一文解读互联网技术国际顶会最新方向 /zh-cn/news/features/www-2022 Tue, 19 Apr 2022 09:31:16 +0000 /?p=40980 编者按:国际万维网会议(Proceedings of the ACM Web Conference,简称 WWW)是互联网技术领域最重要的国际会议之一。今年的 WWW 将于4月25-29日在法国里昂以线上会议的形式召开。本届会议共收到了1822篇长文投稿,论文录用率为17.7%,鸭脖棋牌娱乐亚洲研究院也有多篇论文入选。今天我们为大家精选了其中的六篇进行简要介绍,研究主题关键词包括个性化新闻推荐、图异配性建模、多层推荐推理、日志解析、基于因果学习的可解释推荐、增量推荐算法等,欢迎感兴趣的读者阅读论文原文,一起了解互联网技术领域的前沿进展!


基于多元用户反馈的鸭脖棋牌娱乐新闻流推荐

论文链接:https://arxiv.org/abs/2102.04903

用户兴趣的准确建模是个性化新闻推荐的核心。大部分已有的新闻推荐方法都依赖于用户点击等隐式反馈来推断用户的兴趣和训练推荐模型。然而用户的点击行为往往十分嘈杂,并且难以反映用户对新闻内容的真实喜好。同时,仅仅优化点击率的推荐模型也难以有效优化用户黏性等指标。

图1:在新闻平台上不同类型的用户反馈示例

其实,在新闻平台上通常存在多样化的用户反馈,如图1所示。除了用户的点击与跳过等较弱的隐式反馈以外,还存在如分享和不喜欢等显式反馈与完成阅读或快速关闭等较强的隐式反馈。这些多样的用户反馈可以为推测用户兴趣提供更为全面的信息。

为了准确、有效地利用新闻平台上丰富的用户反馈,鸭脖棋牌娱乐亚洲研究院的研究员们提出了一种基于多用户反馈的新闻推荐方法 FeedRec。图2展示了 FeedRec 中基于异构用户反馈的兴趣建模框架。研究员们分别利用同构和异构的 Transformer 来建模同类型与跨类型用户反馈之间的联系,并且提出了一种从强到弱的注意力机制,利用强反馈指导弱反馈的选择,从嘈杂的用户反馈中蒸馏出准确的正负反馈信号。对于得到的弱正反馈与弱负反馈,研究员们还利用了一个正则损失使得二者能被更好地区分。

图2:FeedRec 的用户兴趣建模框架

而为了实现更为全面充分的模型优化,研究员们还提出了一种基于多用户反馈的多目标训练方法,如图3所示。研究员们通过联合预测点击率、阅读完成率与停留时间,让模型不仅优化点击率,还能同时优化多种用户黏性指标。

图3:FeedRec 的多任务模型训练框架

研究员们在一个从新闻 App 中收集的数据集上开展了实验。表1的结果显示 FeedRec 可以有效地提升多种点击率指标。表2进一步显示 FeedRec 可以提升多方面的用户黏性,更可能为用户推荐喜爱的新闻内容,改善用户的新闻阅读体验。

表1:不同方法的点击预测性能比较

表2:不同方法的用户黏性比较。“↑”代表数值越高性能越好,“↓”代表数值越低性能越好

 

针对图同配性和异配性同时建模的双核图网络模型

论文链接:https://arxiv.org/abs/2110.15777

图神经网络 (GNN) 由于其强大的图表征能力,被广泛应用于基于图数据的机器学习问题中。对于节点级别的任务,GNN 已被广泛证明有着很强的建模同配(Homophily)图的能力,然而它们建模图异配性(Heterophily)的能力则相对较弱。这一定程度上是因为对同一阶邻居的向量表征,使用了相同的核做变换所致,即使使用类似于图注意力网络(GAT)这样的注意力机制,但由于注意力计算的权重总是一个正值,一个核也无法同时对节点表征之间的相似性和相异性(如正负相关性)进行建模。

针对这个问题,鸭脖棋牌娱乐亚洲研究院的研究员们通过实证分析发现,无论是在被普遍认为是同配图的数据集还是异配图的数据集上,都存在着相当数量的异配子图,且子图的异配度参差不齐,而传统模型如 GCN 在同配子图上往往表现优异,但在异配子图上发挥较差,这充分说明了能同时建模同配和异配性模型的必要性。研究员们通过理论分析了 GCN 不能有效建模混合了同配和异配性的图的原因,并进一步提出了一种基于双核特征转换和门(Gate)机制的新型 GNN 模型: GBK-GNN。GBK-GNN 的结构如图4所示,其通过两个不同的核分别捕获同质和异质信息,并引入门来进行核的选择。这种方式能避免特征变换后的聚合操作将可区分的特征平滑化,从而能够提高模型对同质性及异质性的建模能力。

图4:GBK-GNN 模型结构图

研究员们在具有不同同质异质特性的七个真实数据集上进行了广泛的实验。实验结果表明,与其他 SOTA 方法相比,GBK-GNN 有稳定且显著的提升。表3显示了不同模型在各个数据集上的分类准确率。

表3:不同数据集上节点分类问题的准确度对比

 

基于知识图谱的多层推荐推理——从碎片化推荐到高屋建瓴的人类推理

论文链接:https://www.microsoft.com/en-us/research/uploads/prod/2022/03/WWW2022_Multi_level_Reasoning_submission_camera_ready.pdf

知识图谱被广泛应用在推荐、问答等各个领域。一方面,知识图谱中补充的额外信息可以帮助模型更好地做出决策,提高准确性,另一方面,知识图谱上的路径可以提供模型的全部推理步骤,极具解释性。比如推荐模型的一个推理过程可以表示成如下的路径:

这条路径指出,用户 Alice 购买了由 Armani 生产的 Luminous Silk Foundation,因此模型推荐了同为 Armani 生产的 Mania Fragrance 给这位用户。

这种推理过程往往是在实体层知识图谱上进行的(instance-view KG)。如图5所示,实体层知识图谱只含有具体的实体及它们之间的关系(例如 Armani 生产了 Mania Fragrance),并不知道实体之间的高层关联(例如 Armani 和 Prada 都是意大利奢侈品牌)。因此在实体层的推理往往是碎片化的,不能综合用户的多种行为高屋建瓴地分析、推理。这就与分析时陷入细节、抓不住重点很类似。人类更智慧的推理过程往往是高屋建瓴,自顶而下,逐步考虑更多细节的。比如判断一个用户兴趣时,会先总结出 Alice 更喜欢化妆品,而不是球鞋,进而分析 Alice 可能喜欢的具体是属于意大利奢侈品牌的化妆品,从而进行一系列准确推荐。如果模型能借鉴这种高屋建瓴的能力,不仅可以让模型更快收敛到更好的结果,还可以提供令人信服的、概括用户更多行为的解释。

图5:现有方法进行的是底层推理(红线),这种碎片化的推理方式往往只考虑了一个线索(比如 Alice 购买过 Prada Makeup Bags),很容易陷入细节、抓不住重点。与此相比,多层推理(紫线)可以综合用户的多个行为进行高屋建瓴的推理(比如 Alice 购买过、提过的物品往往是意大利奢侈品牌或它们生产的化妆品),不仅可以让模型收敛到更好的结果,还为表示用户的真实兴趣(意大利奢侈品牌)提供了可能,往往能给出更令人信服的解释。

基于这种发现,鸭脖棋牌娱乐亚洲研究院的研究员们提出了将实体层知识图谱和概念知识图谱(ontology-view KG)相结合的方法,从而进行多层推理。如图5所示,推理路径上的一个点可以是在任何一个层级,而不是只在底层。因此可以给出更好概括用户所有行为的一个推理路径:

研究员们认为,推理的过程天然就是多层级的,不管在推荐上,还是其他任务(比如问答)上,所以多层级的推理极具研究和应用价值。为此,研究员们提出了一个基于 Abstract MDP 的强化学习框架,并且证明了该方法可以显著提升推荐效果及可解释性。

 

针对异构日志数据的统一日志解析

论文链接:https://arxiv.org/abs/2202.06569

在大规模的线上服务系统中,程序日志为工程师提供了故障诊断的第一手资料。日志解析(log parsing)技术将半结构化的原始日志转化成结构化数据,为后续的日志自动诊断步骤提供了结构化的日志输入。已有的日志解析器都将日志中公共(common)的部分识别为模板(template), 变化(dynamic)的部分识别为参数(parameter)。然而,这些日志解析器通常忽略了日志中包含的语义信息。另一方面,不同日志源(log source)之间日志结构差异较大,使得现有的日志解析器很难同时精确解析来自不同系统的日志。

在本篇论文中,鸭脖棋牌娱乐亚洲研究院的研究员们提出了 UniParser,用于捕获异构日志间的相似部分。Uniparser 利用 Token Encoder module 和 Context Encoder module 来学习日志单词(token)及单词上下文(context)的范式。Context Similarity module 用来表征日志范式的相似之处。研究员们在16个公开的日志数据集上进行了对比实验,UniParser 的精度大幅度超越了其他日志解析器。

UniParser 的结构如图6所示:

图6:UniParser 结构图,包含 Token Encoder Module,Context Encoder Module,Context Similarity Module

实验结果,如表4所示:

表4:UniParser 和其他日志解析器的比较

 

基于评论合理化的准确与可解释推荐算法

论文链接:http://recmind.cn/papers/r3_www22.pdf

为了提升推荐算法的精度和解释能力,推荐系统引入了诸如评论或图片等额外数据进行信息补充,通过自然语言处理、计算机视觉等技术对评论文本、商品图片进行多模态学习,还设计了相应的协同过滤算法给出基于相关关系的推荐和解释。然而,基于相关性建模设计的算法存在建模假性相关关系的隐患,建模了假性相关的模型在泛化能力以及解释能力上相对而言难以赢得用户的信任。

本文所提出的 R3(Recommendation via Review Rationalization)是一个期望从评论中剔除假性相关特征的模型,由因果特征挖掘模块、因果特征预测模块以及关联特征预测模块三个模块组成。其中,因果特征挖掘模块用以从评论特征全集中挖掘因果特征以减小假性关联特征的干扰;因果特征预测模块仅基于因果特征挖掘模块挖掘到的因果特征进行推荐预测;关联特征预测模块则同时基于因果特征和其余关联特征进行预测来验证原因特征挖掘模块挖掘到的因果特征是否能使其余关联特征与预测结果条件独立。通过在不同分布的数据集上的大量实验表明,R3 挖掘到的因果特征在保持高准确性推荐结果的同时也具有较高的泛化能力和解释能力。

图7:R3 模型示意图

 

基于图信号处理的快速增量推荐算法

论文链接:http://recmind.cn/papers/fire_www22.pdf

在推荐系统中,随着新用户、新物品以及用户和物品新交互数据的不断产生,推荐算法不能仅靠重新训练模型来应对新数据出现的问题,而是应该基于最近训练好的的模型以增量更新的形式来处理新数据。现阶段,图神经网络已成为捕捉用户特征进而提高推荐准确性的强有力工具之一。然而,目前基于图神经网络的增量推荐算法普遍存在两大问题:首先,大量可训练参数的引入导致训练时间过长,在一定程度上影响了推荐的效率;其次,由于这些算法都是基于用户交互数据来捕捉用户特征的,因此无法处理新用户或新物品出现时的冷启动问题。

本文提出的 FIRE 是一个无参数的模型,不需要非常耗时的训练过程,因此在模型更新阶段具有非常高的效率。此外,借助图信号处理技术,研究员们还为 FIRE 设计了两个低通滤波器:时间信息滤波器和辅助信息滤波器,用于提升推荐结果的准确性。时间信息滤波器通过对用户交互数据进行指数衰减,用来捕捉用户随时间变化的偏好,而辅助信息滤波器则将辅助信息(如用户特征、物品属性)建模为用户或物品间的相似度信息,用于剔除存在于推荐结果的异常信息。这两个滤波器都实现了过滤用户交互信号中的高频分量保留低频分量的效果,使得用户交互信号更加平滑,从而保证推荐内容的准确和可靠。实验证明,FIRE 在保持高准确性推荐结果的同时,有着非常高的训练效率。

图8:FIRE 模型示意图

]]>
如何亿点点降低语音识别跨领域、跨语种迁移难度? /zh-cn/news/features/cmatch-adapter Thu, 31 Mar 2022 09:59:14 +0000 /?p=40817 编者按:随着深度学习的不断发展,语音识别技术得到了极大的提升,同时为人们的日常生活提供了许多便利。然而,一个语音模型的训练并非易事,因为语音数据天然存在着获取难、数据标注耗时昂贵的问题,而且还会面临模型漂移、标注数据不足等难题。因此,迁移学习技术对于语音数据非常重要。为了解决语音识别的跨领域和跨语言问题,鸭脖棋牌娱乐亚洲研究院机器学习组和鸭脖棋牌娱乐(亚洲)互联网工程院提出了跨领域和跨语言语音识别的 CMatch 和 Adapter 方法。这两项技术是如何提升模型迁移学习性能的?他们又利用了哪些创新技术?让我们从今天的文章中来获得答案吧。


语音识别就是将人的声音转化为对应的文字,在如今的日常生活中有着重要的应用,例如手机中的语音助手、语音输入;智能家居中的声控照明、智能电视交互;还有影视字幕生成、听录速记等等,以语音识别为核心技术的应用已经屡见不鲜。但是,语音数据天然存在着获取难、数据标注耗时昂贵的问题。不同人的方言、口音、说话方式也有所不同。受限于此,采集到的语音数据绝大多数会面临模型漂移、标注数据不足等问题。

尤其是语音识别中的跨领域和跨语言场景更是十分具有挑战性。跨领域指的是在领域 A(如普通麦克风)训练的模型如何迁移到领域 B(如专用麦克风)。而跨语种则指的是在语言 A(如俄语)上训练的模型如何迁移到语言 B(如捷克语)。特别是对于一些标注数据稀缺的小语种更是如此。因此,研究低资源跨语种迁移至关重要。

为了解决上述难题,鸭脖棋牌娱乐亚洲研究院提出了用于语音识别的无监督字符级分布适配迁移学习方法 CMatch 和基于适配器架构的参数高效跨语言迁移方法 Adapter。相关论文已分别被语音领域顶会和顶刊 Interspeech 2021 及 IEEE/ACM TASLP 2022 所接收。(论文链接,请见文末)

迁移学习方法 CMatch:实现字符级跨领域适配

众所周知,基于深度学习的端到端 ASR(自动语音识别)已经可以通过大规模的训练数据和强大的模型得到很好的性能。但是,训练和测试数据之间可能会因录音设备、环境的不同有着相似却不匹配的分布,导致 ASR 模型测试时的识别精度下降。而这种领域或分布不匹配的情况非常多样且常见,以至于很难对每个领域的语音数据进行大量收集并标记。这种情况下模型往往需要借助无监督领域适配来提升其在目标域的表现。

现有的无监督领域适配方法通常将每个领域视为一个分布,然后进行领域适配,例如领域对抗训练或是特征匹配。这些方法可能会忽略一些不同领域内细粒度更高的分布知识,例如字符、音素或单词,这在一定程度上会影响适配的效果。这点在此前的研究《Deep subdomain adaptation network for image classification》[1] 中得到了验证,与在整个域中对齐的传统方法相比,在子域中对齐的图像(即按类标签划分的域)通常可以实现更好的自适应性能。

鸭脖棋牌娱乐亚洲研究院提出了一种用于 ASR 的无监督字符级分布匹配方法—— CMatch,以实现在两个不同领域中的每个字符之间执行细粒度的自适应。在 Libri-Adapt 数据集上进行的实验表明,CMatch 在跨设备和跨环境的适配上相对单词错误率(WER)分别降低了14.39%和16.50%。同时,研究员们还全面分析了帧级标签分配和基于 Transformer 的领域适配的不同策略。

以图1为例,通过执行 CMatch 算法,两个领域相同的字符在特征分布中被拉近了:

图1:执行 CMatch 前后效果对比

CMatch 方法由两个步骤组成:帧级标签分配和字符级别的分布匹配。

其中,帧级别标签分配可以为语音信号获得更加准确的“特征-标签”对应关系,为下一步实现基于标签(即字符)的分布适配提供依据,即需要获得帧级别的标签以取得更细粒度的特征分布。要想进行帧级标签分配,首先需要获得较为准确的标签对齐。如图2所示的三种方法:CTC 强制对齐、动态帧平均、以及伪 CTC 标签。可以看出,CTC 强制对齐是通过预训练的 CTC 模块,在计算每条文本对应的最可能的 CTC 路径(插入重复和 Blank 符号)后分配到每个语音帧上,这个方法相对准确但是计算代价较高;动态帧平均则是将语音帧平均分配到每个字符上,这个方法需要基于源域和目标域语速均匀的假设;而伪 CTC 标签的方法,通过利用已经在源域上学习较好的 CTC 模块外加基于置信度的过滤(如图2中的 t、e、p 等),兼顾了高效和准确性。

图2:三种帧级标签分配策略

需要说明的是,在源域上使用真实文本进行标签分配时,由于目标域没有文本,所以需要借助源域模型先对目标域的语音数据进行伪标注,然后再使用模型标注的文本进行标签分配。

得到帧级别的标签后,就需要进行字符级别的分布匹配。研究员们选择采用了 Maximum Mean Discrepancy(MMD)度量进行特征匹配。MMD 用于评估两个分布之间的差异,是迁移学习中常见的一种分布度量方法。它的公式为:

实际操作中,给定源域和目标域样本 X_S, X_T,计算 MMD 的有偏差的经验估计:

通过计算所有字符之间的平均 MMD,可以得到字符级别的分布匹配损失函数:

最终,鸭脖棋牌娱乐亚洲研究院采用 CTC-Attention 混合模型作为基础 ASR 模型,以及同时混合学习 CTC 模块(用于帧级标签分配)和基于 Transformer Decoder 的 Seq2Seq Loss,于是语音识别的损失函数可以表示为:

将分布匹配损失函数和语音识别损失函数相结合,就得到了最终的损失函数:

最终算法流程如表1:

表1:CMatch 学习算法

领域内、跨设备、跨环境语音识别,CMatch均取得最佳效果

表2是跨设备语音识别时的结果,值得注意到的是,Source-only 的模型在其他设备录制语音上的识别效果相比领域内模型都会有一定程度的下降。而基于全局 MMD 和领域对抗训练的方法均有所提升,CMatch 则在各个情况下均取得了最佳的效果。

表2:跨设备语音识别结果

表3的结果表明,CMatch 在跨环境(抗噪声)语音识别情况下也取得了很好的效果。

表3:跨环境(抗噪声)语音识别结果

表4为消融实验,可以看到结合了自训练和细粒度的分布匹配能够使 CMatch 达到最好的效果。

表4:CMatch 消融实验结果

此外,研究员们还分析比较了三种字符分配方法。在表5中可以看出 CTC 强制对齐取得了最好的效果,但是其计算开销也最大;而 FrameAverage 也取得了较好的效果,但它的假设前提是领域和目标域具有均匀的说话速度;而使用 CTC 伪标签的方法取得了与 CTC 强制对齐相近的结果,同时计算起来也更加高效。

表5:三种字符分配方法的实验结果

最后,对于是否需要在解码器端使用 CMatch Loss,实验结果如表6。由于解码器在实验中本来就没有功能上的差别,目标文本都是标准的英文,因此减小其分布的差异并没有什么效果,甚至会损害性能。

表6:解码器端使用 CMatch Loss 的测试结果

Adapter 再进化:更少的训练数据,更高的准确率

在一代代科学家和工程师的努力下,语音识别系统在各种主流语言上都已经达到了非常好的效果,比如英语、中文、法语、俄语、西班牙语等……让人们在日常生活中就能享受其带来的便利。然而,世界上有大约7,000种语言,其中绝大部分语言的使用者并不多,而且不同人的方言、口音、说话方式也有所不同,这就使得这些语言的语音数据十分稀缺,即低资源(low-resource)语言。标注数据的稀缺导致近年来端到端语音识别的诸多成果迟迟不能应用到这些语言上。

为此,鸭脖棋牌娱乐亚洲研究院的研究员们开始思考如何利用迁移学习,将主流语言(如英语、中文等)的知识用于帮助低资源语言的学习,在多种语言之间共享,起到“四两拨千斤”的效果,从而提升小语种语音识别的表现。如图3所示,给定罗马尼亚语作为目标语言,如何利用数据相对丰富的意大利语、威尔士语和俄语来训练出更好的罗马尼亚语语音识别模型?

图3:给定若干源语言,如何将知识迁移到目标语言上?

幸运的是,近年来,如 wav2vec2.0 [2] 等预训练模型都已经推出了多语言版本,鸭脖棋牌娱乐亚洲研究院之前的研究也证明了仅需要简单的微调,一个大规模的多语言模型就能被适配到一个低资源语言上,并能显著改善识别性能。

但与此同时,研究员们也发现了两个新问题:

  1. 大规模的多语言模型往往含有大量的参数,导致在一些数据量非常少的情况下,模型极易过拟合。
  2. 如果对于世界上的每一个小语种都维护一个微调后的大模型,成本将会十分巨大。

不过,之前 Houlsby 等人发现[3],对于一个预训练好的 BERT,只需要在 Transformer 的每一层插入一个如图4所示的 Adapter,就能在不改变模型主干参数的情况下将模型适配到各种下游任务,甚至能够取得接近整个模型微调的表现。Adapter 主要包含一个 LayerNorm 层,用于重新调节原始特征的尺度,接着分别是一个降采样层和一个升采样层对特征进行压缩和还原,最后由一个残差连接保证原始特征依然能通过,从而提升 Adapter 训练时的稳定性。

图4:Adapter 结构示意图

受到 Adapter 的启发,鸭脖棋牌娱乐亚洲研究院的研究员们尝试使用 Adapter 来解决模型过拟合问题,对如何利用 Adapter 进行高参数效率(parameter-efficient)的预训练多语言 ASR 模型的迁移展开了研究,并提出了 MetaAdapter 和 SimAdapter 来对 Adapter 进一步优化,在仅使用2.5%和15.5%的可训练参数的情况下,使得识别词错误率(WER)相对全模型微调分别降低了2.98%和2.55%。

鸭脖棋牌娱乐亚洲研究院使用了自己预训练的多语言模型进行实验,该方法也可以用于 wav2vec2.0 等模型上。具体来说,模型的主干基于 Transformer 的结构,主要包含12层 Encoder 以及6层 Decoder 模型,结合了11种语料(包含42种语言,总时长约5,000小时)对模型进行预训练。同时,模型采用了 CTC-Attention 混合损失函数来提升训练的稳定性和加速训练,即在 Encoder 的输出特征上增加 CTC 层,使用 CTC 损失进行约束。研究员们还将 Adapter 放在前馈层(Feed-Forward Networks)后面,从而对每一层的输出特征进行调节。

图5:主干模型示意图

MetaAdapter:MetaAdapter 在结构上与 Adapter 完全一致,唯一不同的是,使用了 MAML (Model-Agnostic Meta-Learning) [4] 元学习算法来学习一个 Adapter 更优的初始化。MetaAdapter 需要通过学习如何学习多种源语言,从而在各种语言中收集隐含的共享信息,以帮助学习一个新的语言。实验发现,MetaAdapter 对于过拟合和极少数据量的鲁棒性,以及最终迁移效果均显著强于原始 Adapter 。

图6:MetaAdapter

SimAdapter:如果说 MetaAdapter 需要通过收集隐含的共享信息来学习新的语言,那么 SimAdapter 则是显式地要求模型去建模各种语言的相似度关系,从而更好的学习目标语言,其结构如图7所示。在研究员们看来,多语言模型的原始特征是相对语言无关的,那么如果使用这些特征作为 Query,将各语言 Adapter(包括目标语言)输出的语言强相关特征作为 Key 和 Value,那么就能通过构造注意力机制,从目标语言和源语言中分别提取一些有效信息,作为更好的目标语言特征。

图7:SimAdapter 结构示意图

SimAdapter+ 达到最优结果,MetaAdapter 擅长数据量极少的场景

通过将模型在 Common Voice 的五种低资源语言上进行实验,结果如表7所示。根据迁移与否以及迁移方式的不同,可以将各种方法分为三类:

  1. 不迁移(左边栏):包括了传统的 DNN/HMM 混合模型,从头训练的 Transformer(B. 和本文用的主干模型大小结构均一致;S. 指为了抑制过拟合,而将参数量调小的版本),以及将预训练好的模型当作特征提取器,去学习目标语言的输出层。
  2. 基于微调的迁移(中间栏):包括了完整模型的微调,以及对于抑制过拟合的尝试(完整模型微调 +L2 正则化、仅微调模型最后几层参数)
  3. 基于 Adapter 的迁移(右边栏):即本文介绍的各种方法,其中 SimAdapter+ 是结合了 SimAdapter 和 MetaAdapter 的升级版。

表7:MetaAdapter 和 SimAdapter 在 Common Voice 五种低资源语言上的实验结果

这里采用了两种平均方式来反应模型的不同能力:1. 直接平均:没有考虑不同语言内的数据量,对于尤其擅长极少数据的算法会更有优势;2. 加权平均:考虑了不同语言本身的数据量,更适合用来衡量模型在各种情况下的综合表现。

由结果可以看出:

  1. 使用迁移学习的方法均明显好于不使用迁移学习的方法,印证了迁移学习的重要性。
  2. 全模型微调有着非常强大的效果,对其施加传统的 L2 正则,或是仅微调模型最后几层参数效果都不理想。
  3. 原始的 Adapter 在合适的训练方法下基本可以达到和全模型微调相同的水平,说明了 Adapter 在 ASR 任务上的有效性。
  4. 本文提出的 SimAdapter 和 MetaAdapter 均进一步提高了 Adapter 的表现,将它们结合后的 SimAdapter+ 更是达到了文中最优的结果。
  5. 值得注意的是,MetaAdapter 更擅长数据量极少的情况,而在 SimAdapter 则有着更均衡的表现。

创新训练方法和实验方法:进一步验证 Adapter 和 SimAdapter 的性能

鸭脖棋牌娱乐亚洲研究院提出了两阶段训练方法以提高 Adapter 在语音识别任务上的表现:模型迁移过程中需要学习一份新语言的词表,如果将该词表和 Adapter 一起训练,由于词嵌入的不断更新,可能会导致 Adapter 学习目标的混乱。同时学习 Adapter 和词表也可能会词嵌入从而承担一部分 Adapter 的功能,导致 Adapter 无法学习到足够的语言相关特征,造成后续 SimAdapter 的表现下降。因此,先将主干模型固定住,将新语言的词表映射到模型相同的隐空间(latent space)中,再将词表固定住学习 Adapter,可以达到更好的效果,如表8所示。

表8:二阶段训练法

另外,为了证明 SimAdapter 的确能够从其他语言学习到有用的知识,研究员们设计了两个实验:

其一,尝试去除目标语言本身的 Adapter ,以要求 SimAdapter 仅通过源语言来学习一个对目标语言有用的特征,结果如表9所示:即使没有使用目标语言 Adapter,SimAdapter 依然能够在多数语言上取得较为明显的提升。

表9:SimAdapter 消融实验

其二,在乌克兰语上训练两个不同的 SimAdapter 模型,以分析不同源语言(意大利语和俄语)的贡献。由于俄语和乌克兰语更相似,使用俄语 Adapter 共同训练的 SimAdapter 应当获得更多收益。结果显示,使用意大利语 Adapter 的 SimAdapter 的词错误率为48.70,而使用俄语 Adapter 的词错误率仅为47.73,这表明相比意大利语,SimAdapter 的确可以从俄语中学习更多的有用知识来建模乌克兰语。

鸭脖棋牌娱乐亚洲研究院已将 CMatch 和 Adapter 代码开源,地址如下:

https://github.com/microsoft/NeuralSpeech/tree/master/CMatchASR

https://github.com/microsoft/NeuralSpeech/tree/master/AdapterASR

 

相关论文链接:

[1] Deep Subdomain Adaptation Network for Image Classification

https://arxiv.org/abs/2106.09388

[2] wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations
https://arxiv.org/abs/2006.11477

[3] Parameter-Efficient Transfer Learning for NLP

https://arxiv.org/abs/1902.00751

[4] Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks

https://arxiv.org/abs/1703.03400

]]>
如何将学术经历整合为求职简历?CS求职必备的5个小技巧 /zh-cn/news/features/five-ways-your-academic-research-skills-transfer-to-industry Thu, 31 Mar 2022 00:03:05 +0000 /?p=32650 编者按:走出校园初次求职,表述简洁的职位要求或许会让你一头雾水,不知从何下手。如何将你的学术经历“翻译”为适用于产业界招聘的语言?这篇鸭脖棋牌娱乐研究员 Alaina Talboy 博士的手记将手把手教你读懂招聘潜台词,并将自己的经历进行精确匹配。本文编译自鸭脖棋牌娱乐研究院博客文章“Five ways your academic research skills transfer to industry”

许多博士和硕士希望在高校找到一份教职,但现实情况是,空缺的终身教职数量远少于申请者的数量。根据美国国家科学基金会(National Science Foundation)2018年出具的一份报告,在高级科学、工程、健康学科分类中,仅有14%的毕业生在毕业后三年内在学术界找到了职位。而包括我本人在内,绝大多数拥有博士学位的人,会在各行各业、政府和私营部门中广泛求职。

我怎样从学术界转向产业界

就我的经历来说,尽管拿到了终身教职的工作,我还是选择投身产业界,因为对于我所喜爱的研究方向,我在产业界看到了更多机会。从学术界转到产业界,走上这条路并非易事,但是作为一名研究者,我相信自己能够成功完成这一转变。

在筹划这次职业转变时,我也找了很多资料,我发现有许多建议教你如何拓宽人脉,寻找和申请学术界以外的职位,也有很多准备面试的相关资源。但很少有资料会告诉求职者如何将学术经历转化为适用于产业界求职的信息。

我修读的是认知科学、神经科学和社会心理学博士,除了设计和开展独立研究,我还学会了从头到尾把控研究的细节,申请经费以及调配资源。这些经验都是在长期的教学、练习和指导过程中积累的,是硕博学生在高强度学术训练中都经历过的相似经历。

一般而言,学者的知识技能会全面展现在他们的学术简历中。一份学术简历通常长达几页,大篇幅介绍他们所做的研究,包括研究的主题、成果以及科学价值。但是,对于业界招聘者而言,他们浏览一份简历可能仅花费6秒钟,不会逐字逐句地阅读来弄清楚求职者的技能。

于是我立刻就意识到,我需要将一份事无巨细的学术简历缩减到一张纸上,将大量文字拆分成简洁有力、吸引雇主的小块文字。不过和学术界的丰富信息相比,业界对职位需求的描述要模糊得多,一开始可能会让你心生困惑。但是别担心,我总结了下面的几个小技巧,能够帮助你将适合这份工作的一切信息都精炼有效地呈现在简历中。

5个小技巧优化求职简历

写简历的时候,我把各个待投职位中经常出现的职位要求标了出来,并和自己简历里的经历做了对照。这样做帮我明确了职位的真正需求,从而能优化自己的简历。尽管职位需求和我简历里对应的部分好像在各说各话,但其实二者是共通的:

01

职位需求描述

丰富的项目管理经验

它的含义

你能同时细致地管理多个项目吗?

如何体现在我的简历中?

可以在研究项目部分中体现,列出你做过的独立研究项目并简要概述项目中你所完成的任务。

02

职位需求描述

较强的时间管理能力

它的含义

你能同时处理多个不同的问题吗?

如何体现在我的简历中?

列出你所有经历的日期,日期有重叠的部分将是你时间管理能力的佐证,例如同时进行的研究项目和助教任务。

03

职位需求描述

在工作中进行观点碰撞的能力

它的含义

你能把相关研究联系起来吗?

如何体现在我的简历中?

仍然是研究项目部分,将大量的文献综述工作以及与其他研究者和合作伙伴的合作经历呈现出来。

04

职位需求描述

优秀的沟通能力(包括书面和口头表述),对细节的关注

它的含义

你能把专业工作用白话讲述,从而让不熟悉它的人也能理解和应用吗?

如何体现在我的简历中?

列出你发表的作品,进行过的公开演讲和文章,以及从事教学活动的经历。

05

职位需求描述

通过跨学科(如设计、工程、数据科学)合作来改进产品的经历

它的含义

你能和不同专业背景的人一起工作吗?

如何体现在我的简历中?

列出你跨学科合作的证据,例如,已发表作品中有与你专业背景不同的合作者。小组团队项目也可以算是合作的经历!

将职位需求和个人经历一一对应后,我从原来的文字介绍中挑出了能展现个人技能的关键点。一份有重点的包含所有成就的简历,是向公司展现个人能力和创造力的重要素材。这个化繁为简的过程有点痛苦。过去的研究经历里有一些我特别引以为傲的事,即使我很想在简历里分享我最酷的研究成果,但为了让这份简历更适合在产业界求职,我不得不拿掉它们。

保持耐心!

总而言之,仔细打磨这样一份帮我找到工作的简历花了两个多月。在这段时间里,我几次求助于学术界以外的朋友,让他们对我的简历提出反馈,帮我修改、修改、再修改。因此,如果修改简历的时间比预期的要长,不要担心或沮丧。我们要从新的视角出发,去看待过去的研究工作和技能。

上面的这些简历小技巧只是求职的起点。随着求职过程的不断推进,我们要对职位需求加深理解和解释,而不仅仅是做出具备与否的回答。下一步,我们要更深入地解读职位需求,去体现我们是如何运用这些专业技能进行工作的。

最后,希望这些经历能给你一些启发,帮你打磨出一份满意的简历,自信满满地找到自己的理想工作。祝你好运!

Alaina Talboy 博士是鸭脖棋牌娱乐客户洞察研究组的设计研究员。在加入鸭脖棋牌娱乐之前,Talboy 是一名博士研究员,研究方向为推理、判断和决策,实验设计和分析以及混合方法。

]]>
语音识别的快速纠错模型FastCorrect系列来了! /zh-cn/news/features/fastcorrect Tue, 22 Mar 2022 08:57:03 +0000 /?p=40778 编者按:语音识别支持着许多生活中的常见服务,比如手机端的语音转文字功能、视频网站的字幕自动生成等等。但语音识别模型往往并不完美,需要纠错模型来纠正语音识别中的错误。目前,大部分纠错模型采用了基于注意力机制的自回归模型结构,虽然能够提升语音识别的准确率,但是延迟较高,这也成为了纠错模型在实际应用中的瓶颈。一个直接的做法是利用非自回归模型来提升速度,但是简单利用当前的非自回归模型不能降低错误率。为此,鸭脖棋牌娱乐亚洲研究院机器学习组与鸭脖棋牌娱乐 Azure 语音团队合作,推出了 FastCorrect 系列工作,提出了低延迟的纠错模型,相关研究论文已被 NeurIPS 2021 和 EMNLP 2021 收录。


纠错是语音识别中的一个重要后处理方法,旨在检测并纠正语音识别结果中存在的错误,从而进一步提升语音识别的准确率。许多纠错模型采用的是延迟较高的自回归解码模型,但是语音识别服务对模型的延迟有着严格的要求,在一些实时语音识别场景中(如会议同步语音识别),纠错模型无法上线应用。为了加速语音识别中的纠错模型,鸭脖棋牌娱乐亚洲研究院的研究员们提出了一种基于编辑对齐(Edit Alignment)的非自回归纠错模型——FastCorrect,FastCorrect 在几乎不损失纠错能力的情况下,将自回归模型加速了6-9倍。考虑到语音识别模型往往可以给出多个备选识别结果,研究员们还进一步提出了 FastCorrect 2 来利用这些识别结果相互印证,从而得到了更好的性能。FastCorrect 1和2的相关研究论文已被 NeurIPS 2021 和 EMNLP 2021 收录。当前,研究员们还在研发 FastCorrect 3,在保证低延迟的情况下,进一步降低语音识别的错误率。

FastCorrect :快速纠错模型

语音识别的纠错实际上是一个文本到文本的任务,模型训练的输入为语音识别结果文本,输出为真实文本。在自然语言处理领域(如机器翻译和文本编辑),已经有一些非自回归的快速模型被提出。但初步实验结果(如图一)显示,简单地将这些模型应用到语音识别的纠错任务中,并不能取得令人满意的结果。经过对语音识别的分析,研究员们发现语音识别中的错误比较稀疏,通常错误的单词数不到总单词数的10%,而模型必须精准地找到并修改这些错误,同时还要避免修改正确的单词,这是语音识别的纠错任务中最大的挑战。而机器翻译中非自回归模型的主要问题是修改了太多原本是正确的单词,模型修改了原有错误的同时又引入了较多新的错误,因此无法提升语音识别的精度。

图一:FastCorrect 和基线方法的错误检测率和错误改正率对比

考虑到语音识别的纠错输入输出的对应关系是单调的,所以如果可以在词的级别对齐输入和输出,就可以得到细粒度的错误信息:哪些词是错误的,这些错误的单词应该怎样修改。基于两个文本序列的编辑距离,研究员们设计了编辑对齐(Edit Alignment)算法(如图二)。给定输入(语音识别结果)和输出(真实文本),第一步是计算两个文本的编辑距离,然后可以得到数条编辑路径(Edit Path),路径中的元素为增加/删除/替换/不变四种操作之一。为了避免修改正确单词,包含“不变”操作最多的编辑路径会被选择。最终,基于编辑路径可以得到:对于每个输入的单词,哪些输出的单词与之对应。如果对应的输入输出单词不同,那么就表明输入单词是错误单词。

图二:编辑对齐(Edit Alignment)算法

基于细粒度的输入输出对应关系,研究员们针对性地设计了快速纠错模型 FastCorrect。模型包含了三个主要部分——编码器、长度预测器和解码器(如图三):

1. 编码器可以学习输入文本的特征,这些特征会被长度预测器和解码器利用。

2. 长度预测器基于编码器的输出,预测每个输入单词有多少个输出单词与之对应,即 Duration。如果输入单词 Duration 为0,那么没有输出单词与之对应,它也将被删除,如果 Duration 大于1,那么有多个输出单词与之对应,意味着解码器需要插入数个单词。

3. 解码器除了利用编码器的输出之外,还会基于长度预测器的结果,调整输入文本的长度,使之和输出文本长度一致。将长度调整一致后,解码器可以并行地同时解码出所有单词。

图三:非自回归语音纠错模型结构

实验表明(如图四),在开源学术数据集 AISHELL-1 和鸭脖棋牌娱乐内部的产品数据集上,FastCorrect 都取得了跟自回归模型几乎相同的纠错能力。模型的衡量准则为纠错后的词错误率(Word Error Rate,WER)和相对错误率下降(WER Reduction)。相比于自回归的模型,FastCorrect 的解码速度可以提升7-8倍。相比于其它非自回归的基线模型,FastCorrect 取得了更好的纠错精度。从实验结果可以看出,FastCorrect 很好地解决了语音识别模型中纠错模型的高延迟问题。

图四:在 AISHELL-1 和鸭脖棋牌娱乐内部的数据集上,FastCorrect 和基线方法在词错误率和解码延迟上的对比。

FastCorrect 2 :基于多输入的快速纠错模型

FastCorrect 已经取得了不错的性能和较大的加速比,那么还有没有进一步的提升空间呢?由于语音识别模型往往会在语音模糊不清或者存在同(近)音字的情况下出错,所以如果纠错模型能够得到这方面的信息,那么就可以在很大程度上帮助纠错模型进行错误检测。

通过分析语音识别模型的输出,研究员们发现语音识别模型在进行 BeamSearch 解码的时候,会得到多个相似的结果,这些结果的大部分文本相同,只在有限的几个位置不同,而这些位置正是语音识别模型不确定的位置,也往往是模型比较容易出错的位置。通过多个识别结果的相互印证不仅能够得到语音识别错误位置的信息,还能得到正确单词的读音信息(例如,从不同的词 cat、hat、mat 可以推断出纠错后的词大概率会以 /æt/ 这个音结尾)。

为了能够让纠错模型更好地利用多输入(多个语音识别结果)信息,研究员们对 FastCorrect 的对齐算法和模型结构进行了一系列调整。

首先是对齐算法。考虑到语音模型的多个输出可能长短不一,如果简单地通过补零来让这些输出拥有同样的长度,那么会导致每一个对齐的位置,单词不相同(如图五),读音也不相同。这样的话,模型将很难从“错位”的输入中得到错误位置和正确单词读音的信息。为了解决上述问题,FastCorrect 2 在计算编辑对齐的时候考虑了输入输出的读音相似度,在选择“不变”操作最多的编辑路径的基础上,选择读音相似度最高的编辑路径,并根据读音相似度来插入“空”单词。这样得到的对齐结果在每个位置上的单词相似度和读音相似度都很高,可以很大程度上帮助模型进行错误检测(如果一个位置上包含不同的单词)和估计正确单词的读音(如果一个位置上的不同单词读音相同)。

图五:简单补零和读音相似度对齐的对比,

可以看出 FastCorrect 2 在每个位置上的单词一致性更高。

对于模型结构,研究员们也进行了改动,并引入了一个新模块:选择器(如图六)。

1. 在编码器之前,新引入了一个 PreNet,用来融合每个位置上不同单词的信息。

2. 长度预测器需要对每个位置上的每一个单词,预测 Duration。

3. 选择器则用来选择一个输入,这个输入会被调整(基于 Duration)并被送进解码器,选择器的训练目标是预测解码器的损失,因此选择器选择的是解码器损失最小的,也就是最容易被解码器修改的输入。

图六:FastCorrect 2 模型结构

实验表明,在开源学术数据集 AISHELL-1 和鸭脖棋牌娱乐内部的产品数据集上,FastCorrect 2 相对于 FastCorrect 都取得了较大的提升(如图七),而且模型的提升会随着输入的增多而不断增大。

图七:在 AISHELL-1 和鸭脖棋牌娱乐内部的数据集上,FastCorrect 2 和基线方法在词错误率和解码延迟上的对比。

FastCorrect 系列工作的代码已经开源,开源链接:

https://github.com/microsoft/NeuralSpeech

https://github.com/microsoft/NeuralSpeech/tree/master/FastCorrect

https://github.com/microsoft/NeuralSpeech/tree/master/FastCorrect2

目前,研究员们正在研发 FastCorrect 3,在保证低延迟的情况下,进一步降低语音识别的错误率。同时,FastCorrect 系列工作也将被应用于鸭脖棋牌娱乐 Azure 的语音识别技术中,为用户构建更好的语音识别服务。

论文链接:

FastCorrect:Fast Error Correction with Edit Alignment for Automatic Speech Recognition

https://arxiv.org/abs/2105.03842

FastCorrect 2:Fast Error Correction on Multiple Candidates for Automatic Speech Recognition

https://arxiv.org/abs/2109.14420

]]>
鸭脖棋牌娱乐发布量子计算最新成果,证实拓扑量子比特的物理机理 /zh-cn/news/features/azure-quantum Fri, 18 Mar 2022 05:57:40 +0000 /?p=40751 编者按:量子计算有望帮助我们解决人类所面临的一些最严峻的挑战。然而,在这个新生领域,我们仍处于发展的早期阶段。目前,在量子计算机的帮助下,研究人员已经能够开展一些有趣的研究项目,但他们仍然受制于系统规模的不足,无法开展更多研究。现有的量子计算机所依赖的量子比特有很多类型,但迄今为止还没有哪一类能够扩展到足够多的量子比特,以充分发挥量子计算的潜力。

鸭脖棋牌娱乐正在采用一种更具挑战性但最终更有前景的方法来扩展量子计算的规模——拓扑量子比特。在理论上,它比现有方法产生的量子比特更加稳定,而且不会牺牲大小或速度。我们已经可以生成拓扑超导相及其伴随的马约拉纳零模态(Majorana zero modes),为构建可扩展的量子计算机扫清了一个重大障碍。

本文是对我们的研究工作和方法的阐述,其表明了拓扑量子比特背后的基础物理机理是成立的——这项研究首次观测到了 30μeV 拓扑间隙,为拓扑量子计算的潜在未来奠定了基础。尽管在工程上依然存在挑战,但这一发现为我们实现规模化量子计算机的方法提供了基石,使鸭脖棋牌娱乐向着在 Azure 上创建量子机器的目标迈出了关键一步。点击am8亚美官网app访问 Azure Quantum,开始使用量子计算。


鸭脖棋牌娱乐量子团队观察到在砷化铟铝异质结构中存在的30μeV拓扑间隙

拓扑量子计算是实现硬件级容错的途径之一,有望实现具有高保真量子比特、快速门操作和单模块架构的量子计算系统。拓扑量子比特的保真度、速度和大小由一种被称为拓扑间隙(topological gap)的特征能量来控制。只有当人们能够可靠地产生物质的拓扑相,并通过实验验证一个拓扑相内确实存在量子比特的子组件(并准备好进行量子信息处理)时,这条路径才能行得通。这实现起来并不容易,因为拓扑相的特征在于其基态的长距离纠缠,而传统实验无法轻易探测。

我们团队在一年前提出了 “拓扑间隙协议” TGP(topological gap protocol),并将其作为量子传输测量中拓扑相位的识别标准,解决了这一难题。拓扑超导线的末端具有马约拉纳零模态,导线的两端都有一个实费米子算符,类似于 Ettore Majorana 在1937年构建的实费米子波动方程。

因此,存在两个相反的费米子宇称量子态,只能通过耦合到两端的相位相干性探针来测量。在电测量中,马约拉纳零模态(参见图1)会导致局部电导出现零偏压峰(ZBPs: zero-bias peaks)。然而,局部 Andreev 束缚态(Andreev bound states)和无序性也可能出现零偏压峰。因此,TGP 仅专注于高度稳定的 ZBPs。最重要的是,它使用非局部电导来检测体相变(bulk phase transition)。这种相变必须存在于普通的超导相和拓扑相的边界上,因为它们是物质的两个不同相,就像水和冰。

图1:拓扑超导纳米线的局部态密度与能量和位置的关系。

我们使用包含材料堆叠、几何形状和缺陷等细节的模型对我们的设备进行模拟。仿真实验表明,TGP 是一个检测设备拓扑相位的严格标准。更为重要的是,传递协议的条件是在测量任何设备之前就已经设定好的,即在非局部电导建立具有无间隙边界的间隙区域上,设备两端都存在稳定的 ZBPs。考虑到拓扑相识别所涉及的微妙差异(这源于缺失局部有序参数),TGP 的设计原则之一就是避免确认偏差(confirmation bias)。特别是,在整个操作范围内扫描设备,而不仅是“搜索”某个人们希望出现的特征,例如单个 ZBP。

位于美国加利福尼亚州圣巴巴拉的鸭脖棋牌娱乐 Station Q 是鸭脖棋牌娱乐量子项目的发源地。在过去16年间,它一直是一个拓扑相和量子计算半年度会议的东道主。由于新冠大流行而被迫中断了两年之后,Station Q 线下会议于3月初恢复举办。在这场工业界和学术界的量子计算领导者出席的会议上,鸭脖棋牌娱乐宣布,已开发了多个能够通过 TGP 的设备。

我们的团队测量到了超过 30μeV 的拓扑间隙。这是实验中噪音水平的三倍多,并且温度上也高出了类似的量级。这是一个里程碑式的科学进步,也是拓扑量子计算之旅中的关键一步。拓扑量子计算依赖于任意子(拓扑准粒子上的两个原始操作)的融合和编织。拓扑间隙决定了物质底层状态,为这些操作提供容错性。能够实现这些操作的更为复杂的设备需要多个拓扑线段,并依赖 TGP 作为其初始化过程的一部分。我们的成功取决于模拟、增长、制造、测量和数据分析等各个团队之间的密切合作。每个设备设计都经过了模拟,以便在设备制造之前对其超过23个不同的参数进行优化。这使我们能够在设计阶段就确定设备的调试程序。

我们的结果得到了详尽的测量和严格的数据验证程序的支持。我们从局部和非局部电导的组合中获得了多个设备的大规模相位图。我们用迷惑 TGP 的模拟数据对分析程序进行了验证,这使我们能够以较高的置信度排除各种虚假设(null hypotheses)。此外,数据分析由与数据获取团队不同的团队主导,这是我们在团队内部不同组别之间进行校验和制衡的一部分。此外,独立顾问专家委员会正在审核我们的结果,截至目前,我们得到了非常积极的反馈。

随着基础物理学机理的论证,下一步就是建立拓扑量子比特。我们设想,与其他量子比特相比,拓扑量子比特将兼具速度、大小和稳定性。我们相信,未来它终将能够为完全规模化的量子计算机提供动力,这也将帮我们实现量子计算的全部潜力,以解决当今社会面临的最复杂和最紧迫的挑战。

想要了解更多内容?快来观看马里兰大学物理学杰出教授 Sankar Das Sarma 博士与鸭脖棋牌娱乐杰出量子工程师 Chetan Nayak 博士关于鸭脖棋牌娱乐构建完全可扩展量子计算机的独特方法的讨论吧。

]]>
Swin Transformer迎来30亿参数的v2.0,我们应该拥抱视觉大模型吗? /zh-cn/news/features/swin-transformer-v2 Thu, 17 Mar 2022 10:53:09 +0000 /?p=40737 编者按:2021年,获得 ICCV 最佳论文奖的 Swin Transformer,通过在广泛的视觉问题上证明 Transformer 架构的有效性,加速了计算机视觉领域基本模型架构的变革。2021年末,鸭脖棋牌娱乐亚洲研究院的研究员们又进一步提出了 Swin Transformer v2.0 版本,新版本训练了迄今为止最大的稠密视觉模型,并在多个主流视觉任务上大大刷新了记录,相关论文也已被 CVPR 2022 接收。研究员们希望借助 Swin Transformer v2.0 展现视觉大模型的“强悍”能力,呼吁整个领域加大对视觉大模型的投入,并为之提供相应的训练“配方”,从而为视觉领域的科研人员做进一步探索提供便利。那么,Swin Transformer v2.0 有哪些不同?今天就让我们来一探究竟吧!


人脑是大模型的一个典范。人的大脑拥有着千亿量级的神经元数目,和百万亿量级的连接数(参数)。而这样超大规模的模型为人脑成为目前唯一的通用智能“机器”提供了坚实的基础。在大容量下,人脑不仅在通常的智能任务中表现卓越,还具备极强的零样本和少样本迁移能力,从而可以快速适应新的环境和技能。

最近几年,自然语言处理(NLP)领域令人难以置信的成功就主要得益于对模型容量的大幅度扩展。短短几年时间,其模型容量扩大了几千倍,从3.4亿参数的 BERT 模型,进化到了拥有5300亿参数的 Megatron-Turing 模型,这些大型语言模型在语言理解和语言生成任务上都取得了长足的进步。同时,语言大模型还被证明具有极强的小样本甚至零样本学习能力。

与人脑和 NLP 的模型相比,计算机视觉领域的模型规模仍相对较小。视觉 Transformer 的出现为视觉模型的扩大提供了重要的基础,此前最大的稠密视觉模型是18亿参数的 ViT-G 模型和24亿参数的 CoAtNet 模型,它们都曾在 ImageNet-1K 图像分类任务上刷新了新的记录。但在更广泛的视觉任务中,大模型的效果仍然未知。

因此,探索如何进一步扩大视觉模型的规模,以及如何将其应用在更广泛的视觉任务上,是探索视觉大模型的重要问题。基于此目的,鸭脖棋牌娱乐亚洲研究院的研究员们在 Swin Transformer 的基础上设计了 Swin Transformer v2.0,它具有30亿参数,是迄今为止最大的稠密视觉模型,可以有效地迁移到需要更高分辨率图像的各种视觉任务中。通过扩展模型容量和分辨率,Swin Transformer v2.0 已在四个具有代表性的基准上刷新了纪录,证明了视觉大模型在广泛视觉任务中的优势。

Swin Transformer打破视觉研究由CNN“统治”的局面

Swin Transformer 是一个通用的视觉 Transformer 骨干网络,它在物体检测和语义分割任务中大幅刷新了此前的纪录,并被广泛应用于众多视觉任务中,如图像生成、视频动作识别、视觉自监督学习、图像复原、医疗图像分割等。Swin Transformer 打破了计算机视觉领域被 CNN(卷积神经网络)长期“统治”的局面,加速了计算机视觉领域基本模型架构的变革,这一工作也因此获得了2021年 ICCV 最佳论文奖——马尔奖。

Swin Transformer 的核心思想在于将具有很强建模能力的 Transformer 结构与重要的视觉信号先验结合起来。这些先验包括层次性、局部性以及平移不变性等等。Swin Transformer 的一个重要设计是 shifted windows(移位的不重叠窗口),它可以大幅降低计算复杂度,让计算复杂度随着输入图像的大小呈线性增长;同时不同于传统的滑动窗,不重叠窗口的设计对硬件实现更加友好,从而具有更快的实际运行速度。

图1:Sliding windows(滑动窗口)vs. Shifted windows(移位窗口)

事实上,Swin Transformer 不是一个一蹴而就的工作,而是研究团队四年多在相关方向上不断坚持的结晶。“人脑成功的一个关键密码就是其拥有大量的新皮质,新皮质中的神经结构是统一和通用的,这就使得人类不用通过生物进化就可以实现和适应各种新的智能或者环境。在这方面,我们一直看好 Transformer 或者其中的注意力模块,三年前我们首次尝试将 Transformer 应用于视觉骨干网络的设计,并提出了局部关系网络 LR-Net,但当时的实用性还不足。Swin Transformer 通过引入移位窗口,终于达成了一个实用的视觉 Transformer 骨干网络,” 鸭脖棋牌娱乐亚洲研究院视觉计算组高级研究员胡瀚说。

Swin Transformer 的目标是希望证明视觉 Transformer 能在广泛的视觉问题中超越此前占据主导地位的 CNN。如今该目标已达成,那么下一步做什么?胡瀚认为,“过去几年 NLP 领域最重要的发现之一就是扩大模型容量可以持续帮助各种 NLP 任务,并且模型越大,零样本和少样本学习的能力越强。所以我们希望探索计算机视觉中能否拥有同样的性质。”于是,Swin Transformer v2.0 诞生了。

在探索过程中,研究员们发现如下三个问题对于视觉大模型格外重要:

1. 如何解决大模型训练稳定性的问题

2. 如何将大模型应用于拥有更高分辨率的下游视觉任务的问题

3. 如何减少大模型对标注数据的要求

针对上述三个问题,Swin Transformer v2.0 给出了自己的回答。下面就让我们来详细了解一下。

30亿参数的Swin Transformer v2.0,稳定性与准确性双提升

在进一步扩大模型容量的过程中,鸭脖棋牌娱乐亚洲研究院的研究员们发现训练过程存在严重的不稳定性问题。如图2所示,随着原始 Swin Transformer 模型从小变大,网络深层的激活值会急剧增加,拥有2亿参数的 Swin-L 模型,其幅值最高和最低层之间的差异可以达到10^4。当进一步将模型容量扩大到6.58亿参数,它会在训练过程中崩溃。

图2:各种大小模型的各层激活值。H大小的模型是在自监督学习阶段训练的,而其他规模的模型则是由分类任务训练的。*表示使用了模型崩溃前第40轮的模型权重。

仔细观察原始 Swin Transformer 的架构,研究员们发现这是由于残差分支的输出直接加回主分支而导致的。原始的 Swin Transformer(以及绝大多数视觉 Transformer)在每个残差分支的开始都使用了预归一化(pre-normalization),它可以归一化输入的幅值,但对输出没有限制。在预归一化下,每个残差分支的输出激活值会直接合并回主分支,并被逐层累加,因而主分支的幅值会随着深度的增加而越来越大。这种不同层的幅值差异很大程度上导致了训练的不稳定性。

为了缓解这一问题,研究员们提出了一种新的归一化方式,称为残差后归一化(residual-post-normalization)。如图3所示,该方法将归一化层从每个残差分支的开始移到末尾,这样每个残差分支的输出在合并回主分支之前都会被归一化,当层数加深时,主分支的幅度将不会被累加。实验发现,这种新的归一化方式使得网络各层的激活值变得更加温和。

图3:Swin Transformer v1.0 vs. v2.0

除此之外,研究员们还发现,随着模型变大,在原始的自注意力计算中,某些层的注意力权重往往会被几个特定的点所支配,特别是在使用后注意力的情况下。为了缓解这一问题,研究员们还提出了缩放的余弦注意力机制(scaled cosine attention),它可以取代之前的点乘注意力机制。在缩放的余弦注意力机制中,自注意力的计算与输入的幅值无关,从而可以产生更温和的注意力权重。

实验证明,以上两种技术不仅使大模型的训练过程更加稳定,而且还提高了准确性。

从低分辨率向高分辨率迁移,看Swin Transformer v2.0如何克服不良反应

视觉大模型的另一难题在于许多下游视觉任务需要高分辨率的输入图像或注意力窗口。由于预训练往往在低分辨率下进行,所以在高分辨率的下游任务上进行微调的窗口大小会产生显著变化。目前常见的做法是对位置偏置(position bias)进行双立方插值,这是一种随意的简单处理方式,其效果并不是最佳的。

为了解决这一问题,研究员们提出了对数空间的连续位置偏置(Log-spaced continuous position bias, Log-spaced CPB)。通过对对数空间的位置坐标应用一个小的元网络,Log-spaced CPB 可以产生任意坐标范围的位置偏置。由于元网络可以接受任意坐标,因此通过共享其权重,一个预训练好的模型可以在不同的窗口大小之间自由迁移。另一方面,通过将坐标转化到对数空间,在不同的窗口分辨率之间迁移所需的外推率要比使用原始线性空间坐标的外推率小得多,如图4所示。

图4:Log-spaced CPB vs. Linear spaced CPB

借助 Log-spaced CPB,Swin Transformer v2.0 实现了模型在不同分辨率之间的平滑迁移。当把预训练分辨率从224像素缩小到192像素时,其结果也不会受到影响,并且计算速度还提升了50%,显著降低了训练类似体量的模型的成本。

模型容量和分辨率的扩大也导致了现有视觉模型的 GPU 显存消耗过高。为了解决显存问题,研究员们结合了几个重要的技术,包括零冗余优化器(zero-redundancy optimizer)、后向重计算(activation check-pointing)以及新提出的顺序自我注意计算力机制(sequential self-attention computation)。有了这些技术,大模型和大分辨率下的 GPU 显存消耗明显减少,而其对训练速度的影响却很小。

自监督学习SimMIM,解决视觉大模型的数据饥饿问题

训练越大的模型往往需要越多的数据,而相比 NLP,计算机视觉领域缺乏蕴含人类监督信息的数据来支撑大模型的训练。这就要求视觉领域在训练大模型时,要减少对标注数据的依赖,需要在更少量数据的情况下探索大模型。对此,研究员们通过引入自监督学习的掩码模型 SimMIM 来缓解这一问题。如图5所示,SimMIM 通过掩码图像建模(masked image modeling)来学习更好的图像表征。它采用随机掩码策略,用适度大的掩码块对输入图像做掩码;同时,通过直接回归来预测原始像素的 RGB 值;由于该模型的预测头很轻,所以只需要一层线性层即可。

图5:SimMIM 自监督学习方法示意图

SimMIM 非常简单且高效,借助 SimMIM,Swin Transformer v2.0 降低了对标注数据的需求,最终只用了7000万张带有噪声标签的图像就训练了30亿参数的模型。

有图有真相:v2.0性能“强悍”,在四大基准上均创新纪录

通过扩展模型容量和分辨率,Swin Transformer v2.0 在四个具有代表性的基准上均刷新了纪录,证明了视觉大模型在广泛视觉任务中的优势:在 ImageNet-V2 图像分类任务上 top-1 准确率为84.0%;在 COCO 物体检测任务上为63.1/54.4 box/mask mAP;在 ADE20K 语义分割上为59.9 mIoU;在 Kinetics-400 视频动作分类的 top-1 准确率为86.8%。

表1:ImageNet 图像分类的性能

表2:COCO 物体检测的性能

表3:ADE20K 语义分割的性能

表4:Kinetics-400 视频动作分类的性能

视觉大模型发展的三道坎:数据匮乏、学习方法和通用性

Swin Transformer v2.0 在众多视觉任务中的“强悍”性能证明了视觉大模型的潜力,同时,为视觉大模型提供了一个可行的训练“配方”。鸭脖棋牌娱乐亚洲研究院的研究员们期望 Swin Transformer v2.0 可以为视觉领域的科研人员们做进一步前沿探索提供便利,并借此激励整个领域加大对视觉大模型的投入。

“我还是比较看好视觉大模型的”,胡瀚表示,“大模型已经证明通过增加模型容量可以持续提升性能的能力,其小样本甚至零样本能力也十分惊艳,而小样本能力对于实现通用智能非常关键”。

当然,胡瀚也认为视觉大模型仍旧面临一些挑战,“一是数据问题,视觉领域可用于训练的有效数据相比 NLP 领域还是有不小的差距。自监督是一个潜在的解决方法,但目前的自监督方法包括 SimMIM/BEiT/MAE/PeCo 等等都还不能利用好更大的数据,也就是证明更多的图像数据能帮助训练更好的模型。”

“二是,学习方法上还需要突破。现在在训练大模型方面,学界和业界对于自监督、图像分类和多模态方法均有所尝试,也取得了一些效果,但这些离我们真正解决问题还差的很远”。

“三是,如何建立视觉通用模型的问题还未知。现如今的视觉大模型大多还是依赖于预训练和微调的方式,不同的视觉应用仍需要依赖于不同的模型,如何能真正建立视觉的通用模型,用一个模型解决大部分问题,这还需要科研人员做大量的探索。”

视觉大模型的未来很光明,但也充满了挑战。鸭脖棋牌娱乐亚洲研究院的研究员们期待更多同仁一起努力,推进视觉大模型的更多进展。

 

相关论文:

相关 GitHub 链接:

]]>
鸭脖棋牌娱乐亚洲研究院多模态模型NÜWA:以自然语言创造视觉内容 /zh-cn/news/features/nuwa Thu, 03 Mar 2022 11:00:45 +0000 /?p=40665 编者按:此前我们曾提出了一个问题:从文字脚本生成创意视频一共分几步?/wp-content/uploads/2022/03/A-discussion-with-Sankar-Das-Sarma-and-Chetan-Nayak.mp4。现在,我们追问:除了文字生成视频之外,还有哪些途径可以生成视频?我们能否使用自然语言对视觉内容进行编辑?鸭脖棋牌娱乐亚洲研究院最新推出的多模态模型 NÜWA,不仅让视觉内容创造多了一条路,甚至还让 Windows 经典桌面有了更多的打开方式。


人类对于信息的感知有五种途径,包括视觉、听觉、嗅觉、触觉和味觉,其中视觉是接受信息的最主要渠道,也是创造力的源泉。在推动人工智能发展的道路上,计算机视觉已经成为一个重要的研究领域,尤其是近几年视觉创作类应用的频繁涌现,让创作变得越来越便捷,越来越多的用户可以用这些工具制作和分享身边的美好生活。与此同时,视觉类应用的广泛使用也促进了计算机视觉领域的研究。

然而,尽管这些工具功能强大,但仍有不足之处:其一,它们需要创作者手动收集和处理视觉素材,导致现有的大规模视觉数据中所包含的视觉知识无法自动地有效利用。其二,这些工具往往是通过图形界面与创作者交互,并非自然语言指令,因此对于一些用户来说,具有一定的技术门槛,他们需要拥有丰富的使用经验。在鸭脖棋牌娱乐亚洲研究院看来,下一代可视化内容创建工具应该能够利用大数据、AI 模型帮助用户更便捷地进行内容创作,并使用自然语言作为更加友好的交互界面。

在这样的理念下,鸭脖棋牌娱乐亚洲研究院在鸭脖棋牌娱乐亚洲研究院的开放领域视频生成预训练模型给出了答案:只需一步进行再创新,开发了多模态的 NÜWA(Neural visUal World creAtion)模型。通过自然语言指令,NÜWA 可以实现文本、图像、视频之间的生成、转换和编辑,帮助视觉内容创作者降低技术门槛,提高创造力。同时,开发者也可以利用 NÜWA 构建基于 AI 的视觉内容创造平台。(点击阅读原文,查看 NÜWA 论文原文)

支持八大视觉生成与编辑任务

NÜWA 目前支持八大视觉生成和编辑任务。其中,支持图像的四类任务包括:文本到图像,草图到图像,图像补全,图像编辑;支持视频的四类任务包括:文本到视频,视频草图到视频,视频预测,视频编辑。

下面,让我们以 Windows 经典桌面为例,试一下 NÜWA 的几个功能。(更多 NÜWA 在八大任务中的效果,请见文末。)

给定一张原始图片:

让 NÜWA 将图片补全为256x256(图像补全):

让 NÜWA 在图片的红框位置处添加“一匹在草地上行走的马”(图像编辑):

让 NÜWA 将这张图片生成为一个能“动”起来的视频(视频预测):

凭“一己之力”完成多项视觉内容创造任务

NÜWA 模型提出了一种全新的 3D 编码器-解码器框架。编码器可以支持包括文本、图像、视频,或者草图等多种不同的输入条件,甚至是部分图片或部分视频,让模型补全后续的视频帧;解码器则将这些输入条件转换为离散的视觉标记,根据训练数据输出图像、视频内容。

在预训练阶段,研究员使用了自回归模型作为预训练任务来训练 NÜWA,其中 VQ-GAN 编码器将图像和视频转换为相应的视觉标记,作为预训练数据的一部分。在推理阶段,VQ-GAN 解码器会基于预测的离散视觉标记重建图像或视频。

NÜWA 还引入了三维稀疏注意力(3D Nearby Attention,3DNA)机制来应对 3D 数据的特性,可同时支持编码器和解码器的稀疏关注。也就是说,在生成特定图像的一部分或者一个视频帧时,NÜWA 不仅会看到已经生成的历史信息,还会关注与其条件所对应位置的信息,比如,在由视频草图生成视频的过程中,生成第二帧时,模型就会考虑第二帧草图对应的位置是什么,然后按照草图的变化生成满足草图变化的视频,这就是编码器和解码器的同时稀疏。而此前的工作通常只是一维或二维的稀疏关注,而且只在编码器稀疏,或只在解码器稀疏。通过使用 3DNA 机制,NÜWA 的计算复杂度得到了简化,提升了计算效率。

图1:NÜWA 基于 3D 编码-解码架构

为了支持文本、图片、视频这些多模态任务的创建,跨越不同领域数据的鸿沟,研究员采用了逐步训练的方式,在预训练中使用不同类型的训练数据。首先训练文本-图片任务和图片-视频任务,待任务稳定后,再加入文本-视频的数据进行联合训练,而且研究员们还使用了视频完成任务,根据给定的部分视频作为输入生成后续视频,使得 NÜWA 拥有强大的零样本视觉内容生成与编辑能力,实现图像、视频内容的增、删、改操作,甚至可以对视频的未来帧进行可控调整。

鸭脖棋牌娱乐亚洲研究院高级研究员段楠表示,“NÜWA 是第一个多模态预训练模型。我们希望 NÜWA 可以实现真实世界的视频生成,但在训练过程中模型会产生大量的‘中间变量’,消耗巨大的显存、计算等资源。因此,NÜWA 团队与系统组的同事们联手协作,为 NÜWA 在系统架构上设置了多种并行机制,如张量并行、管道并行和数据并行,使得我们的跨模态训练成为可能。”

NÜWA 覆盖了11个数据集和11种评估指标。在文本到图像生成的弗雷切特起始距离(Frechet Inception Distance, FID)指标上,NÜWA 的表现超过了 DALL-E 和 CogView,在视频生成的 FVD 指标上超越了 CCVS,均取得了当前 SOTA 结果。其中,测试结果如下(更多 NÜWA 在不同数据集和评估指标中的测试结果,请点击阅读原文,查看论文细节):

表1:文本到图像任务测试结果

NÜWA-LIP:让视觉编辑更精细

NÜWA 模型已基本包含了视觉创作的核心流程,可在一定程度上辅助创作者提升效率,但在实际创作中,创作者还有很多多样且高质量的需求。为此,鸭脖棋牌娱乐亚洲研究院的研究员们在 NÜWA 的基础之上更新迭代,于近日提出了NÜWA-LIP 模型,并且在视觉领域的典型任务——缺陷图像修复中取得了新突破。

尽管此前也有方法完成了类似的图像修复,但是模型的创作却比较随意,无法符合创作者的意愿,而NÜWA LIP 几乎可以按照给定的自然语言指令修复、补全成人们肉眼可接受的图像。下面,让我们直观感受一下 NÜWA-LIP 神奇的图像修复效果。

图2:在图像编辑任务上,NÜWA-LIP 展现出优秀的性能

图2给出了两个例子。第一个例子是希望模型可以按照“Racers riding four wheelers while a crowd watches”(一群人在看摩托车手骑四轮车)来补全黑色区域。已有工作 GLIDE 虽然可以补全,但是可以看到边界处有明显的白线,并且补全的区域比较模糊。NÜWA 模型使用自回归的方式从左到右依次扫描生成,边界处相比于 GLIDE 更加自然。但是由于在补全黑色区域时看不到右侧的车轮,因此标准的 NÜWA 模型存在补全边界衔接不对的问题。NÜWA-LIP 修复了 NÜWA 这一不足,它会提前预看整个图像,并创新地使用无损编码技术,然后再自回归地生成,因此可以做到黑色区域边界处衔接自然,并且补全区域也很清晰。

在 FID 指标测试中,通过将修复图与原始图对比,NÜWA-LIP 在自然语言指示图像修复的任务上取得了最好分数。(注:FID 分数越低表示修复图像的质量越高。)

表2:NÜWA-LIP 在图像编辑任务中的 FID 指标达到10.5

NÜWA-Infinity:让视觉创作趋于 “无限流”

除了图像修复之外,鸭脖棋牌娱乐亚洲研究院在高分辨率、大图像的横向延展方面也进行了持续研究,提出了 NÜWA Infinity 模型。顾名思义,NÜWA Infinity 可以根据给定的图像生成无限连续的高清“大片”。“一开始 NÜWA 能够生成、编辑的图像和视频的分辨率相对较低,一般是256×256分辨率的小图。我们希望通过模型可以生成更高清的大图,形成更大的视觉冲击,满足不同创作者的实际需求。简单来说,NÜWA Infinity 会根据图像的不同层次内容扫描每一帧窗口,不断渲染形成高像素、连续的大图,”鸭脖棋牌娱乐亚洲研究院研究员吴晨飞介绍说。

想知道 Windows 经典桌面的右侧是什么样么?NÜWA-Infinity 为你“揭开”神秘面纱。

段楠补充说,“表面看 NÜWA Infinity 解决了之前 NÜWA 生成图片不高清,以及视频帧数有限的问题。但其实 NÜWA Infinity 从底层形成了一套生成机制,不仅可以对图片进行延展式的生成,也可以应用于视频预测创作,而这也是我们接下来要攻克的研究课题。”

自此,NÜWA-LIP 让机器接受语言指令自动修图成为了可能,而 NÜWA-Infinity 则使得图像生成质量向高清、无限的真实世界迈进了一大步。按照这样的迭代创新步伐,未来创作者拥有一套趋于“无限流”的视觉创作辅助工具,指日可待。

NÜWA 多模态模型连锁反应:或将带来更多“杀手级”应用

未来,随着人工智能技术的发展,增强现实、虚拟现实等沉浸式的人机交互界面将会得到更广泛的应用,数字世界和物理世界的结合也将越来越紧密。而不同类型的多模态内容则是拉近虚拟空间与现实世界的强力胶,因此,虚拟内容的创建、编辑和交互将至关重要。NÜWA 提供的视觉内容生成和编辑技术,为这些应用提供了无限的想象空间。当多模态技术成为未来人工智能应用发展的方向时,多模态模型将会为学习、广告、新闻、会议、娱乐、社交网络、数字人、脑机交互等领域带来更多的下一代“杀手级”应用。

相关论文链接:

NÜWA:https://arxiv.org/abs/2111.12417

NÜWA-LIP:https://arxiv.org/abs/2202.05009

 

附录:

NÜWA 在八大任务中的效果。

图3:文本到图像任务。例如,给定文本“A wooden house sitting in a field”(一个小木屋坐落在田野间)。NÜWA 创作了4种不同拍摄角度的小木屋,这些小木屋不仅朝向风格多样、而且真实性很好。

图4:草图到图像任务。例如,给定一张公共汽车的草图(第一行第一列),NÜWA 创作了3种满足草图形状和位置的图像,包括窗户的反光也清晰可见。

图5:图像补全任务。例如第1行,输入上方的塔尖(50%的原图),NÜWA 可以补全出塔下方的样子,圆柱甚至屋顶。对于第2行,当仅仅给5%的图像区域时,NÜWA 依然可以做到图像补全。

图6:图像编辑。例如第1幅图,给定待编辑的图像、需要编辑的图像区域(红框)以及图像上方的文本“Beach and sky”(海滩和天空),第2幅图则给出了编辑后的结果。

图7:图像到视频任务。NÜWA 不仅可以依据常见的文本 “Play golf on grass”(在草地上玩高尔夫球)来生成视频,而且可以生成现实中不可能的视频,例如“Play golf on the swimming pool”(在泳池玩高尔夫球)。

图8:视频草图到视频。输入视频草图,NÜWA 可以生成帧和帧连续的视频。

图9:视频预测。输入静止图像,NÜWA 可以输出将其“动”起来的视频。

图10:视频编辑。输入编辑文本、视频,NÜWA 可以输出编辑之后的视频。例如,原视频潜水员在水平游动,经过第二幅图“The diver is swimming to the surface”(潜水员在向水面游去)的控制,生成的视频潜水员在向上游。

]]>
你真的了解计算生物学和AI for Science吗? /zh-cn/news/features/qbitai-ai-for-science Tue, 22 Feb 2022 10:39:59 +0000 /?p=39606 编者按:近年来,计算生物学无疑是人工智能领域的一大热门话题。但,计算生物学究竟是什么?目前进展如何?未来又蕴藏了怎样的机遇?

近期,在量子位对撞派推出的“计算生物学”专题直播中,鸭脖棋牌娱乐亚洲研究院副院长刘铁岩、首席研究员邵斌和主管研究员王童介绍了鸭脖棋牌娱乐亚洲研究院计算生物学领域的最新研究,并对未来 AI for Science 的发展和融合进行了分享。

回放视频以及精华版文字内容如下,赶快一键收藏吧!

视频链接:https://www.bilibili.com/video/BV1r44y1s77i/

Q1:AlphaFold2的最大意义是什么?

A1:这个看似突破性的进展,其实是技术演进的必然结果。

此外,如果我们换个视角来看待这个问题,蛋白质结构预测仅仅是计算生物学这个大门类里面一个相对来说定义得比较清晰(well-defined)的问题。还有很多比蛋白质结构预测更加复杂也更有挑战性的问题,等着我们用人工智能的手段去推进。

Q2:我们认为应该如何去定义计算生物学这一个学科,它里面又会有哪些细分的领域和维度呢?

A2:从研究对象的角度,有宏观的,也有微观的。从微观的角度,可以小到一个蛋白、DNA 或者是一个单细胞。从宏观的角度,可以大到人类或者说生物体的组织、器官、个体甚至是群体。

从研究手段来讲,既有传统的生物实验,也有包括计算手段在内的数学建模、数值仿真、数据分析或者是机器学习。

从应用门类来讲,几乎和我们平时生活或者科学发展的方方面面都有关系,它既有在基础科学方面的潜力,也在制药诊疗方面有着巨大价值。

Q3:2021年,鸭脖棋牌娱乐亚洲研究院首次针对新冠病毒中的 NTD 提出了对应的楔型模型,并鉴定了潜在的药物靶点。能否介绍一下这项工作是怎么基于计算生物学完成的呢?

A3:之前科学家们发现,新冠感染人体的物质叫 S 蛋白。我们可以把它想象成一个英文字母 Y,有两个枝杈,还有一个中轴。S 蛋白的中轴会固定在病毒的表面,而伸出的这两个枝杈(RBD 和 NTD),其中的 RBD 会和我们的受体蛋白发生识别,然后进入人体。

我们的研究主要围绕着机理还未明确的 NTD 展开。我们和清华大学计算生物学的老师通力合作,利用分子动力学模拟技术对整个 S 蛋白,全构象是百万级原子的巨大体系,进行了数十亿步的动力学平衡模拟。通过分子动力学,我们发现 NTD 就像一个开关,可以去控制另一个枝杈 RBD 是否能和人体的蛋白发生识别、结合。而 NTD 和 RBD 两者结合的界面,就自然形成了药物和疫苗设计的一个潜在靶点。

Q4:计算生物学算是一门交叉性非常强的学科,一方面是生物知识和人工智能的交叉,也就是所谓的 BT+IT。另一方面,也是干实验和湿实验的一种交叉。那请问几位老师是如何看待这两种强的交叉关系的?

A4:计算生物学是一个非常典型的交叉学科。这个交叉二字其实有几个不同的层次。

首先是知识层面上,有生物学、医学、药学、计算机科学,包括人工智能这些不同的知识门类的交叉。

还有一个研究方法的交叉,比如说传统生物学的生物实验,就是“湿实验”。计算机的模拟或者人工智能的手段,我们通常称为“干实验”。

更重要的其实是人才的交叉。因为在这个过程中会涉及到计算机的人才、生物学的人才。而最有趣的是,每个人其实都是有自己的个性的,甚至是有一些偏见的。当我们面对着一个新的课题或者一个新的事物的时候,通常会带入我们固有的一些思维。所以想要让交叉学科发展得非常好,我们就需要一个开放、包容、多元化的环境,让不同的知识做交融,让不同类型的人才去做碰撞,让不同的研究手段去进行互补或者形成某种闭环。

对谈嘉宾: 鸭脖棋牌娱乐亚洲研究院副院长刘铁岩(左二),鸭脖棋牌娱乐亚洲研究院首席研究员邵斌(右二),鸭脖棋牌娱乐亚洲研究院主管研究员王童(右一)

Q5: 是否存在哪些明显的瓶颈?

A5:高质量数据。尽管过去我们在生物学领域积累了大量的数据,但是高质量的数据仍然十分短缺。

从技术上来说,在做计算生物学的过程中,我们还是碰到了非常多的挑战。比如说,真正的蛋白质其实是处在一个非常复杂的细胞环境中的,这种微环境使得计算机的建模难度非常大。比如说在 NTD 的分子动力模拟中,就需要考虑到这个蛋白在人体内真正的环境是什么样的?是不是处在一个水溶液的环境里?是不是会有一些离子?在计算生物学的研究中,我们也要尽量地去仿照人体中真实的微环境,这可能是一个比较大的挑战。

那还有一个挑战是什么呢?在做计算免疫学的时候,其实每个人内在的免疫环境都是千差万别的。我们做一个 AI 模型,如果想在每个人身上都适用,取得很好的效果,也是很大的一个挑战。这也就是为什么我们要对每个人有一个更个性化的建模过程和解决方案。

还有动态变化的问题。

生命科学很特别的一点,就是它的研究对象是活的。比如说,人体每天应对着我们所在的环境,包括各种病源的侵扰,我们是不断地在进化、在变化中去抵抗它们的。所以当我们使用传统的机器学习或人工智能的手段去做了分析建模,很可能这个模型未来要使用的对象已经发生了变化。

所以当我们用人工智能的手段去解决这些生物问题的时候,怎么能够做更好的泛化外推,能够去解决和应对生物体本身的变化,这是一个非常有趣的问题,它不仅仅是对计算生物学有意义,对人工智能、对机器学习都是一个新的挑战。

Q6:那我们是如何看待 AI for Science 这种形式的?

A6:当我们用人工智能跟自然科学进行交叉的时候,其实有两个视角。

一个是我们已经知道了自然科学的规律,也产生了很多的数据,我们怎么用人工智能从里面学到某种模型去加速这个过程。

另一分支就是当我们能够有那么多的观测数据,这些数据可能是科学家们用肉眼分析不过来的。如果我们有很好的人工智能技术,我们能不能去通过大量的高通量数据分析,总结出一些现有的科学家还没有发现的科学规律,这个科学发现的价值可能比加速的价值更高。

Q7:在 AI for Science,这个具体的融合过程中,有没有什么经验和大家分享?

A7:人工智能带来了科学研究范式的转型。因为从计算机科学的视角看,现在很多的问题求解不再单纯依赖于人工的算法设计,而更多的是转成以数据驱动的模型构建。

此外,从基础科学研究的视角去看,传统基础科学研究更多是一种提出科学假设,然后验证科学假设的研究范式。随着大数据和人工智能的发展、普及和成熟,我们观察到越来越多的科学研究从假设推动的范式,走向了利用大数据和计算机技术挖掘科学洞见的这种数据驱动的科学研究范式。

从生物科学的角度出发,我们之前更多是基于专业领域知识(domain knowledge)的触发来做研究。通俗来讲,AI 其实只是作为一种计算手段扮演了配角的作用。更多是在有大量的生物学数据和生物领域知识的前提下,用一种非常简单的统计模型或者是机器学习来做简单的拟合。

但伴随着 AI 技术的发展和深化,AI 在 AI for Science 里逐渐变成了主角。它并不是只去对生物数据做简单的拟合,而是从 AI 入手去认识科学问题,即为科学问题量身定制一套 AI 的算法与开发。

但从另一方面来说,传统计算生物学的研究,更多是为了提升性能,也就是追求更高的数字。现在的 AI for Science 并不是这样。以 AI+药物设计研发为例,我们并不像之前一样只关注准确率,而更关注可解释性。比如说在药物虚拟筛选里,是潜在药物的哪些原子和我们的受体蛋白的哪一些残基、哪一些原子能发生相互作用,这个模型能否提供更好的解释性等等。

传统的自然科学领域有一个研究范式,就是科学家们受到实验数据的启发,然后大胆假说提出一套科学理论,再通过设计实验去进一步地验证这些理论或者推论。人工智能其实就是使传统科学家做研究的这种过程变得自动化、规模化、并行化。所以,如果我们说传统的自然科学的发展严重依赖于少数顶级科学家的智慧的话,在未来,有了人工智能技术的加持,我们相信有更多的科学工作者可以以更高的通量去做更了不起的研究。

]]>
气候变化、流行病、发展鸿沟…… 应对这些挑战我们还要做些什么? /zh-cn/news/features/pursuing-a-resilient-and-sustainable-global-society Thu, 17 Feb 2022 10:20:04 +0000 /?p=39547 编者按:可持续发展关乎着人类社会的现在及长远未来,一直是全社会热议的话题。对此,鸭脖棋牌娱乐也做出了多项承诺,包括到2030年实现公司的碳负排放、零废弃、水资源正效益,到2050年消除公司自1975年成立以来直接排放及因供应链而排放的所有碳。我们该如何看待可持续发展?科技创新在可持续发展中扮演了怎样的角色?什么是具有复原力的社会?下次社会危机到来前我们能做好准备吗?鸭脖棋牌娱乐的科学家们对2051年又有怎样的期许?

在庆祝鸭脖棋牌娱乐研究院成立30周年的“Generations of inspirational and impactful research(一代又一代鼓舞人心和影响深远的研究)”系列专家论坛的第二期上,来自世界各地的鸭脖棋牌娱乐科学家们就“打造具有复原力和可持续发展的全球社会”进行了探讨。我们精编整理了论坛内容,希望与大家共同分享这期精彩的思想盛宴。


本期论坛,由鸭脖棋牌娱乐首席科学官 Eric Horvitz 与西北大学副教授 Jessica Holman 共同主持,他们与来自世界各地的专家们就“打造具有复原力和可持续发展的全球社会”这一话题展开了深入探讨。

参与此次论坛的专家包括:鸭脖棋牌娱乐印度研究院首席研究员 Kalika Bali、鸭脖棋牌娱乐剑桥研究院院长 Christopher Bishop、鸭脖棋牌娱乐首席环境官 Lucas Joppa、鸭脖棋牌娱乐亚洲研究院副院长刘铁岩,以及鸭脖棋牌娱乐剑桥研究院高级研究员 Daniela Massiceti。

下面是论坛的精彩内容整理:

Eric Horvitz:作为一位在信息可视化、统计推断、认知科学、行为经济学等方面有着卓越贡献的科学家,当听到“为打造一个具有复原力和可持续发展的全球社会而进行研究”这一表述时,你会想到哪些振奋人心的发展方向?

Jessica Holman:我经常思考在不确定性下要如何推理,以及作为科学家要如何面对不确定性,这让我想到了研究人员如何发展新技术来培养信任的问题。在解决社会问题的过程中,通常会有很多未知因素,无论是流行病、气候变化,还是潜在的网络攻击。所以,让我兴奋的一个领域是如何设计有效的人工代理(human agent)或是人机协作,比如,让我们可以继续使用复杂的预测建模技术进行威胁检测,并且能够信任这些算法。这样,在应对挑战时,才能找到人类知识与机器智能的最佳组合。

另一个问题是不确定性下的沟通,广义上讲是如何从战略高度上让科学家就可持续发展问题的见解以及潜在的解决方案更好地与大众沟通。实现可持续发展和复原力目标的一个重大挑战是,科学家们在试图改变人们的看法时失去了他们的信任。因为不是所有人都能意识到,技术或政策建议应该随着新信息的出现而不断调整,这一点在对2020年的新冠病毒预测和政策制定的反馈中得到了验证。对此,我们还有很多工作要做。有一些观念我们需要避免,比如,当以科学家的身份展示研究工作时,就好像我们已经有了全部的答案。我们应该避免这种盲目的自信,直面客观存在的不确定性,并强调集体行动的重要性。

此外,在了解大众的过程中,如何为关键数据分析提供支持也很重要。例如,当发布关键数据时,人们意识到个人隐私保护越来越困难,比如帮助我们了解人口数量和资源分配而进行的人口普查或其他大规模调查等。

Jessica Holman:所以,我更想听听专家们对复原力和可持续发展的看法,以及对于未来发展方向、研究领域的预期。

Daniela Massiceti:复原力实际上是一种面对变化的适应能力,因为未来肯定会发生变化。以我自己从事的研究为例,就是从极少量数据中学习新概念的机器学习模型,这些研究主要和机器学习模型有关,试图从极少量的数据中学习新概念。这些机器学习模型现在还不具备快速适应的能力,通常需要成千上万的数据去训练,要花费大量的时间收集和标注,这与快速应对和适应环境变化的需求相悖。因此我的研究方向是用更少的样本数据让深度神经网络学会新任务,并且找到一种自然的数据友好的建模方式来更好地适应未来的变化。

我们目前还不知道那个最佳解决方案是什么,所以不应该把所有鸡蛋放在一个篮子里,应该允许研究人员沿着多条平行路线自下而上地推动新思想,百花齐放,然后其中的一朵或几朵会逐渐发展成为那个最佳的解决方案。过去有许多例子说明了这种分布式方法的好处。

以我所在的剑桥大学为例,它是英语世界中最古老的大学之一。它屹立不倒的一个主要原因是“学院联邦制”——各学院相对独立运作,这样任何一所办学失败或无法获得资助时,其他学院仍然能够继续存在,并维持剑桥大学这个整体。由此可见分布式方法至关重要,这也会让科学研究变得更有活力。

Kalika Bali:复原力不仅意味着在逆境中生存,还要能够灵活地适应环境并茁壮成长。新冠疫情让全人类成为了命运共同体,需要一起评估形势携手前进,同时也让我们看到了社会的复原力有多强。

就研究而言,我最感兴趣的是如何让技术更加公平。在“低资源语言”的研究中,目前最让我兴奋的是,将大型的多语言模型适用于各种语言,不落下任何一个人。另外我们还要了解社区群体要如何使用这些技术,例如我们不仅要为印度小部落社区建立语音合成、语音识别系统,也要切实地考虑他们可以如何有效地利用这些技术,提高自身的复原力。

Eric Horvitz:在格拉斯哥举行的《联合国气候变化框架公约》第26次缔约方大会(COP26)刚刚结束。在气候变化的可持续发展问题上,我们面临着巨大的挑战。那么,我们是否可以通过技术创新在不同领域取得突破?是否应该在研发上加大筹码?请从格拉斯哥回来的 Lucas 给我们谈谈你的看法。

Lucas Joppa:你刚才问能否实现突破?从 COP26 大会回来后,我想说我们必须实现技术突破。当考虑气候的可持续发展时,最需要解决的问题是我们需要弄清如何让经济增长与环境退化脱钩,如何让经济和经济活动与温室气体排放,尤其是碳排放脱钩。

作为一名环境科学家,我选择在科技公司工作,原因之一就在于我认为要实现环境与经济的脱钩,只能通过数字化手段,这也是将人类的生产负荷从对环境的索取中解放出来的最终方式。然而,要做到这一点,我们仍然需要电来为数字系统提供动力,进而创造现代化的经济活动工作流程。但突破点在于我们如何寻找或创造新的能源,如何将能源分配系统数字化,如何尽可能高效地使用这些电,降低每单位的耗电量,从而知道如何使用这些计算资源。

不过,我认为如果将这些关键点归结到一个具体的方向,那么就是它们都会围绕着化学研究而展开。因为当我们思考做这些事情的效率时,我们通常谈论的是更有效的化学反应,无论是低碳混凝土、绿色钢铁还是为我们所有数字服务供电的任何其他类型的能源。

Eric Horvitz:谢谢 Lucas。你的回答让我想到了铁岩的研究兴趣。请问铁岩,你认为我们在相关研发上下的最大赌注是什么?

刘铁岩:我认为至少有两件事值得我们努力探索,一是找到一种供应充足的绿色能源,支持人类社会的快速发展;二是去除空气中现存的二氧化碳和其他污染物。我认为,在未来几十年中,这两个方向都会有所突破,不过为了确保它们能够变为现实,我们一定要增加对这些重要领域的研究投资。

例如,很多人认为可控核聚变是目前可以预期的终极能源。然而,这方面的技术还不是很成熟,它面临着许多挑战,如聚变中的等离子体具有复杂的空间和时间尺度,却又紧密耦合。今天,研究人员引入了许多简化方法来进行模拟,但这种简化势必降低模拟结果的准确性。如果我们可以用 AI 技术来高效和准确地求解约束等离子体的物理方程,将极大程度上推进聚变相关的研究。

再比如,去除空气中的碳,我们需要找到高效的催化剂材料。为此,我们需要非常精细的分子模拟,然而这是非常耗时的,直到今天仍然无法扩大模拟规模和大幅降低催化剂发现的成本。最近,来自剑桥、北京、阿姆斯特丹等地的鸭脖棋牌娱乐研究院的研究员们在 AI 分子模拟的课题上紧密合作,有望对这个领域产生本质的推动作用。例如,鸭脖棋牌娱乐亚洲研究院发明的 Graphormer 模型在 KDD Cup 2021 分子模拟竞赛和 OC20 公开催化剂挑战赛等多个分子模拟任务中取得了最佳性能。

Eric Horvitz:Graphormer 方面的研究工作真的非常令人兴奋。谈到气候问题,Lucas 作为鸭脖棋牌娱乐首席环境官,以前也是鸭脖棋牌娱乐研究院的一员。你能否回顾一下鸭脖棋牌娱乐这些年令人印象深刻的在可持续发展方面的承诺,以及在通往成功的路上我们还需要做哪些改进?

Lucas Joppa:我先简要地说一些关键信息:到2030年,鸭脖棋牌娱乐将实现碳负排放、水资源正效益、零废弃;保护的土地面积超过使用面积;建立行星计算机(planetary computer),用于监测、建模和管理自然生态多样性。

在碳负排放问题上,我们将把碳的排放量减少一半甚至更多,然后去除大气中其余的排放量,包括到2030年及此后实现零碳排放。到2050年,我们将消除鸭脖棋牌娱乐自1975年成立以来产生的所有碳排放。

虽然每个人都需要尽其所能减少排放,但对于大气中温室气体积累的历史遗留问题,我们必须找出清除的方法。这样做的复杂性和成本都极其巨大。在可预见的未来,我们需要大幅降低相关成本,或许要从每公吨几千美元减少到100美元以下,并确保推动这一过程的能源要来自低碳或零碳的能源解决方案。我们如何在这样的承诺下继续保持增长?如何在构建数据中心和计算基础设施时尽可能地减少碳排放并接近零排放?此外,我们也要通过创新突破来清除大气中那些无法避免的排放。

Jessica Holman:谈论环境可持续发展时,会涉及许多部门和行为主体,从政府到科技机构,它们的能力和责任各不相同。那么,在解决气候问题方面,政府、公司和学术机构各自需要发挥怎样的作用?

Christopher Bishop:我的看法受到了比尔·盖茨的强烈影响,任何对气候变化话题感兴趣的人,甚至每个人都应该读一读盖茨这本关于如何避免气候灾难的书——《气候经济与人类未来》。

对于科学家和从事研究的人来说,这本书非常有说服力,其中的内容有理有据。他提出了所有挑战,又列举了各种可能发挥作用的技术和方法。特别在谈到不同行为主体在这一领域的角色时,他提出了需要做出贡献的主体之间的三角关系,其中就包括学术界和鸭脖棋牌娱乐研究院等组织在内的研究机构需要创造新技术。

我们面对的是一个非常棘手的问题,将能源消耗降到零不太可能,因为我们离不开能源,还有许多国家和地区需要能源去实现增长和发展。这就需要我们寻找新的能源或新的绿色、可持续发展的方式来保证日常生活,所以我们需要新的技术。但只开发新技术还不够,首先,这可能太过昂贵,无法投入应用。其次还需要扩大规模,因为这本身就是一个规模化的问题。每年有5,100亿吨二氧化碳当量进入大气层,那么我们就需要5,100亿吨级别的解决方案。而有效地扩大规模,需要私营企业的参与。

即便具备了这两个要素也是不够的,我们还需要政府来催化整个反应。例如在光伏发电中,新技术虽然昂贵,但提供了一个新的机会,工业界可以通过扩大规模,使其变得便宜和高效。如何克服能源壁垒?政府在这方面可以发挥巨大的作用,通过补贴硬件采购,在长达十年的时间内提供担保,用优惠的价格购买电力等等。这些行为将给私营机构传递一个信号,即这种新能源是有市场的,且值得投资。

我们看到光伏发电的成本下降了两个数量级,还催生了一个可持续、快速发展的新产业。政府现在甚至可以从成功的企业那里获得税收,纳税人可以拿回他们的投资,而政府也可以继续投资下一代技术。我非常同意盖茨的观点,这三类主体需要以更协调的方式工作,才能获得成功。

Lucas Joppa:12年前我开始在鸭脖棋牌娱乐研究院任职,很高兴看到盖茨、Chris、Eric等同事和我有共同的想法。鸭脖棋牌娱乐很早就从研究的角度看待这个问题,并达到了世界领先水平。十年前下的大赌注,今天带来了回报,这是一个好现象,也是我经常提到未来几年应该加大赌注和投入的原因。

要清除5,100亿吨二氧化碳,这是相当大体量的污染物,公共部门、私营部门和研究机构都提供了简单的工具,但这些工具却不能为他们自己所用。政策需要创造工具来激励私营部门;学术界需要产生技术突破,帮助私营部门扩大规模等。但现在三方仍然独立行事,研究领域只追求技术突破,政策领域也只制定更多政策。我认为三方的合作力度越大,收益就会越大,三方发挥各自独特的优势,并融合在一起,才能应对气候变化的挑战。

Eric Horvitz:我们面临着技术、行为、组织方面的挑战和机遇。面对世界级的严峻挑战时,如何利用计算机技术的进步来增强应对危机的复原力?尤其是我们从2019年底就在与新冠病毒作斗争,而且未来流行病也会不时发生。

Kalika Bali:这方面我们已经做了很多研究来应对未来的疾病大流行,不过我认为有两件事需要我们格外注意。

一是错误信息。现在仍有很多错误信息,例如关于疾病大流行、疫苗,谁应该接种,谁不适合接种,我觉得科学依据有时候看起来像个黑盒子,一般人难以理解。如何让科学依据更容易为外行人所接受,这是我们要努力的一个方向。

另一个是获得对策略制定有帮助的数据。我们在印度研究院所做的一项研究是如何优化封锁政策。例如以数据为基础,寻求在不影响经济的情况下实施封闭管理,或在公共卫生收益和经济影响之间取得平衡。我们善于对数据进行建模,并加以理解和可视化,然后将所获得的知识注入到能够在疫情期间产生深远影响的政策中。其中的重点就是数据收集,并对数据建模,以及我们如何将从模型中获得的经验注入到政策中。

Eric Horvitz:关于如何应对流行病,铁岩有何想法?

刘铁岩:我们一直在与新冠疫情进行斗争,过去的两年里我们和各界同仁一起不断努力并开发了很多新技术,来应对这次以及未来类似的灾难。举几个例子:

首先,关于新冠疫情趋势的预测。鸭脖棋牌娱乐亚洲研究院开发了一个先进的时空预测模型,并将其对新冠疫情的趋势预测结果提交给了美国疾病控制与预防中心(CDC)。在相当长的一段时间内,该模型的预测结果都是疾控中心50几个模型中最准确的一个。

其次,关于新冠肺炎的诊断。鸭脖棋牌娱乐研究院的多个实验室都与外部合作伙伴展开了深入研究,例如 Adaptive Biotechnologies 公司和鸭脖棋牌娱乐联合推出了 FDA 批准的首款基于人体免疫细胞的新冠检测工具——T-Detect COVID,可以提供比核酸检测更准确的诊断信号。

因为包括 T-Detect 在内的创新技术,鸭脖棋牌娱乐在2021年被 Fast Company 快公司评选为“年度改变世界的公司”

另外,关于疫苗和药物的设计。我想很多人都看到了这条重磅新闻:临床试验表明,辉瑞公司的新药可以大幅度降低新冠患者的住院率或死亡风险。而在这个药物的研发过程中,计算技术发挥了很大的作用,比如针对先导化合物的过滤、生成和优化等。鸭脖棋牌娱乐亚洲研究院也正致力于药物发现相关的研究,比如2021年初,我们通过大规模分子动力学模拟,发现 SARS-CoV-2 的 S 蛋白的 NTD 部分具有神奇的楔子效应(wedge effect),会影响该蛋白质的构象变化,从而影响病毒的传染性。因此, NTD 有潜力成为治疗新冠肺炎的有效靶点。

所有这些研究都将为我们应对未来人类社会面临的疾病威胁打下扎实的技术基础。

Jessica Holman:关于流行病的讨论,某种程度上把我们引到了建模的问题上,比如预测因果模型等。我认为,随着世界的变化,包括公共卫生和环境变化、粮食安全、社会福利、生活质量等方面,技术模型都会为这些领域提供强大的工具。具体到可持续发展、复原力上,铁岩对建模、模拟或信息可视化方面,有哪些特别感兴趣的内容?

刘铁岩:当用 AI 模型解决公共卫生或环境保护问题时,我们要非常谨慎。我们要确保模型是可解释的、可执行的,因为它最终是要在现实中真正发挥作用的,马虎不得。

为了实现这一点,构建模型时我们需要将领域知识适当地作为模型的归纳偏置,我们不希望建立一个完全不受控制的黑盒模型。比如,在我们设计新冠疫情趋势预测模型时,除了深度学习分支以外,我们还引入了基于 SEIR 的正则项(regularizer)。通过这种方式,我们有效地将流行病学的知识融入最终的模型之中,不仅能够准确地预测疫情走势,还能为人们的干预措施提供强有力的参考。

另外,对因果关系的建模也非常重要。构建模型时,我们要有一个有效的机制来区分因果特征和非因果特征,这样模型才能从数据中捕捉真实洞察。这种真实洞察可以从一种场景迁移到另一种场景,例如,从新冠疫情上学到的知识,未来可能在应对其它流行性疾病时发挥作用。

Jessica Holman:我补充提一个关于不同模型之间迁移的问题。这是否也需要面对不同团队之间协作的挑战?或者只提取信息,就像阅读文献一样?

刘铁岩:将模型从一个场景迁移到另一个场景,我认为,需要了解不同场景之间的基本差异,并且确保训练模型时所关注的最基本层面,而不是被误导到某种数据过拟合的情况上。

Jessica Holman:Chris,关于应对可持续发展、复原力的挑战,在建模、模拟或者信息可视化方面,你有哪些特别感兴趣的内容?

Christopher Bishop:这是一张令人兴奋的宏大蓝图,我们看到各领域之间正在融合。我的研究从麻省理工的物理学开始,我花了七年时间研究核聚变项目,试图找出绿色、可持续发展的能源形式。30年前,鸭脖棋牌娱乐研究院刚成立时,我被机器学习吸引并转至这一领域,直至今天依旧乐此不疲。

现在这些领域开始融合,机器学习对自然科学,包括物理、化学、生物学都有了颠覆性的影响。未来十年,机器学习将进一步提升我们的能力,从原子到分子再到宏观层面,增强对各种物质进行分级建模和理解的能力。我们将能够设计更好的核聚变反应堆、新药,甚至个性化药品、新材料、氢能源经济所需的催化剂、燃料电池、碳捕获等等。应用的场景众多,其中有不少都与可持续发展的关键问题直接相关。

Eric Horvitz:听了你们的话,我都忍不住激动起来了。不过,大部分人可能会因为自己居住在北半球,而无法为整个地球考虑。但我们知道,气候变化和其他可持续发展的挑战会对所有地区造成影响,比如居住在南半球欠发达国家的人们。为了更好地理解和解决这些地区的发展问题,我们可以进行哪些投资?

Daniela Massiceti:我们一定会受到环境变化的冲击,因为许多国家的生态系统都很脆弱,更糟的是,当生态系统受到影响时,他们却没有应对的能力。我在南非长大,几年前开普敦遭遇了严重的干旱,几个月过去了市议会还是无法保证普通家庭的自来水供应。人们不得不去周边的水站排队打水。最严重时,每个人每天的供水限额只有25升,即便是非常环保的马桶,冲一次也要6升的水。

有什么办法可以解决发展中国家的问题?我认为,作为发达国家的研究人员,我们不可能完全了解发展中国家的本地问题。所以解决问题的最佳人选,应该是实际生活在那里的人,从投资角度来看,我们能做的最好的事情是真正专注于发展中国家技术能力的建设。

举个例子,过去四年我参与了一个名为“Deep Learning Indaba”的项目,其目的是为非洲培养高端人才,包括机器学习和 AI 方面的人才。作为一名南非人,这个项目非常贴近我内心深处的想法。

但通过我的参与,我看到,其实很多发展中国家的许多地方都已经在进行类似的了不起的工作了,只是可能暂时还没有被外界所发现或不容易被发现。因此,我认为我们能做的最好的事情就是把这些地方在地图上标记出来,帮助他们不断发展,而这也会让我们在未来有更多收获,而不是像以前一样,仅仅是在分配研究拨款时拿出那个熟悉的候选列表。这样做我们不仅扩大了全球知识体系,还可以建立多样化、多学科的团队,进而从不同视角对解决气候变化和可持续发展等复杂问题起到重要作用。

Kalika Bali:我完全同意 Daniela 的观点,但我认为南半球面临的问题与世界其他地区没有太大的差异,只是它们的难度要高出几个数量级。比如全世界共同面临的空气污染问题,据估计每年约有400万至1,000万人死于与空气污染有关的疾病,其中有200万来自印度。

我们想要解决这个问题但却没有数据,难道就只坐在家中思考空气污染是如何造成的么?空气污染与地理因素息息相关,例如附近有哪些工业,周围有怎样的居住人口等等,而我们没有与当地环境相关的细粒度数据。所以,如何有效收集具有地方意义的数据,这绝对是我们应该投资的领域,这将有助于后续提出干预措施,同时,政策的制定也必须要参考本地所采集到的数据。另一件事就是成本效益,尤其在南半球,这些干预措施的成本效益将显得更为重要。

Eric Horvitz:最后,我想听听你们对30年以后的展望。如果时间跨越到2051年,围绕复原力和可持续发展的创新成果,你们能预见什么?

Lucas Joppa:30年后回顾今天时,我希望我们已经做到了两件事:一是围绕着低碳和零碳能源以及广泛的数字化问题,创造出了解决方案。

二是,加深对某些基础科学的理解。提到气候挑战时,我想的不是在这些领域还需要走多远。我总是说化学很简单,物理有点难,生物学真的很难,而生态学几乎是不可能的。所有这些复杂的反馈机制结合在一起,才创造了人类所在的气候环境。再看看我们对基础科学的理解,无论是化学、物理,还是正在取得进展的生物学,以及探究万事万物怎样结合的生态学,都极端的不成熟。如果我们希望稳定气候,就必须将对基础科学的理解从初级水平提升到成熟水平。

Christopher Bishop:30年之后,我希望看到不同领域的真正融合。未来当分子、材料的数量和种类有了“寒武纪”式的大爆发并能为我们所用时,我们也许能真正看到它们在应对气候变化、流行疾病挑战中的应用,以及产生其他造福人类的应用。

刘铁岩:现在不仅是鸭脖棋牌娱乐在探讨复原力和可持续发展的问题,整个社会都在讨论。这表明,人类对所面临的挑战有着越来越清晰的认识,也意识到这其中的一些挑战是由我们自己造成的。过去我们创造了许多技术加速了人类社会的发展,同时也带来了诸多的麻烦。因此,我们应该学会未雨绸缪,确保目前的选择是对未来而言正确的方向前进。这样,30年后再回首,我们才不会再次为自己当年的短视而遗憾。

我们鸭脖棋牌娱乐的科学家们所发明的新技术不仅是为了提高精准度和效率,其自身也将是可持续发展的、绿色的。我们不仅要减少鸭脖棋牌娱乐自身的碳排放,还致力于消除历史上的碳足迹。为了实现这一目标,正如 Chris 和 Lucas 所说,我们要对物理、化学等微观层面的基础研究进行大量的投入,借此推动整个社会的可持续发展。

Daniela Massiceti:我希望看到非洲和其他发展中国家或地区真正出现在“地图”上,积极参与全球的研究事业。在我们应对可持续发展和气候变化的努力中,如果不能让所有国家站在同一起跑线上共同参与,那么我们提出的解决方案可能无法惠及每个人,也不会产生大规模的影响。

Kalika Bali:我希望看到的绝对是技术的普惠性。我认为应该把人类重新放到技术发展的前沿和中心,我们并不是在谈论技术干预,而是技术将成为人、组织和社会结构之间无缝联系的一部分,是整个人类网络的一部分。

Jessica Holman:我关注的主题是,在解决问题时如何克服高资源需求的范式,如何应对低资源环境并从中学习,如何公平使用技术,以及如何在低资源领域使用技术。这让我意识到,随着科学家们在这些领域开展工作,我们必须在一定程度上改变我们的想法。

另一件事是协作性,我们如何从潜在而重要的不同利益相关者那里获取知识,并以系统的方法将它们结合起来。大家也提到,设计适当的激励机制可以促进协作,而要确保私营部门获得适当的奖励,就需要政府设定合适的规则。我们都已经明白了让所有利益相关者参与其中的重要性。

Eric Horvitz:感谢今天参加我们论坛的各位专家成员。我个人对未来的发展非常乐观,计算机科学、化学、物理、材料科学、行为科学、信息可视化等领域的创造性和深思熟虑的努力将引领我们走向一个更加可持续发展的世界。

]]>