知名AI芯片公司Graphcore公布2020最新研究方向

2020年无疑将是AI研究的重要一年。各家AI芯片公司摩拳擦掌,大家都非常期待探索可加速创新并在机器智能方面实现重要突破的工作领域。

Graphcore Research Directions in 2020.jpg

Graphcore研究在2019年

2019年11月,Graphcore发布了新的IPU基准测试,重点介绍了当今许多最先进的框架(包括BERT和ResNext)上的最新性能。利用概率模型的研究,在IPU上与MCMC算法和变量推理相结合,取得了显著进展,并且为我们的金融客户了26倍的性能提升。同时,随着Microsoft Azure和IPU服务器与Dell EMC一起推出IPU预览版,Graphcore现在处于幸运的位置,能够利用在2020年的学习成果来服务于利用IPU一起工作的AI创新者。

2020-02-27T15:01:40.png

备注:从名字我们可以看出,MCMC算法由两个MC组成,即蒙特卡罗方法(Monte Carlo Simulation,简称MC)和马尔科夫链(Markov Chain ,也简称MC),是一种结合两者的采样算法。

2020年研究方向

正如在12月在NeurIPS上介绍的那样,到2020年,我们将关注6个关键研究领域:

  • 运算效率
  • 高效记忆训练
  • 大型机器中的分布式学习
  • 训练过度参数化模型的稀疏结构
  • 神经架构搜索和进化计算
  • 自我监督学习和概率模型

运算效率

使用低精度数值格式是提高计算效率和加快机器智能计算的有效手段。在过去的几年中,较低精度的浮点格式已成为减少内存需求并加快模型训练的宝贵工具。直到最近,最先进的技术还是将精确度训练与16位浮点混合在一起。

在Graphcore Research,一直在使用更积极的数值格式(例如float-16和float-8)进行混合精度训练,在提高培训期间的学习和效率方面,该领域的进展至关重要。

高效记忆训练

还有其他方法可以减少内存消耗并进一步加快培训速度。Graphcore 一直在进行激活重计算,以减少训练深度神经网络时的内存需求。这涉及在正向传递期间存储层激活的子集,然后使用可逆块重新计算在反向传播期间尚未存储的层激活。

Graphcore 还在研究用于随机学习的基本优化算法,涉及许多主题,包括归一化技术以及小批量训练的训练稳定性和泛化。

大型机器中的分布式学习

Graphcore Research在该领域正在研究多种策略,包括模型/数据并行分布式优化。为了加快培训速度,将处理过程分配给一定数量的并行工作人员。

传统上,这意味着使用基于模型和数据并行性的方法,采用越来越多的并行处理器以减少训练时间。这种方法的问题在于,增加工人数量需要使用逐渐增大的批量,从而降低了SGD的效率和类似的优化算法。

尽管模型并行训练非常有效,但大型模型可能有效,但最终达到了一个点,在该点上增加并行工作者的数量就不能再带来训练的加速。Graphcore 致力于解决这一挑战的方法之一是通过多模型训练。与训练大型的超参数化模型不同,Graphcore 采用并行训练多个较小的模型的策略。这些模型实际上是独立训练的,而不是交换权重,参数或梯度。已经证明这提供了显着的性能优势。

基于进化计算的神经架构搜索

Graphcore 正在使用进化计算技术来实现黑盒优化和神经体系结构搜索的分布式实现。进化计算是黑匣子优化的重要工具,它使我们能够以减少沟通的方式自然地扩展和并行化大量工人的培训。这使得可以在高维空间上高效地搜索元学习。

训练过度参数化模型的稀疏结构

最近越来越多的趋势是使用越来越大的,超参数化的网络,这些网络更容易训练并产生更好的结果。这样做的主要问题是模型越大,训练所需的时间就越长。一种有吸引力的解决方案是训练大型超参数化模型的稀疏子网络。Graphcore 正在通过实施一种在训练过程中稀疏连通性模式演变的机制来进一步发展这一点。

自我监督学习和概率模型

Graphcore 研究中最具创新性的方向之一是使用自我监督学习。正在采用无监督的预培训,更具体地说,是采用自我监督的学习。无监督培训使研究人员能够利用许多组织为各种应用程序保存的大量未标记数据。在自我监督学习的情况下,可以训练概率模型来理解数据的结构,例如在基于模型的强化学习中,其中可以使用这种方法来学习环境的结构和动态。

在概率建模领域,Graphcore 目前专注于使用基于能量的模型作为可以执行隐式采样的非常有效的生成模型。这为使用高级MCMC模型进行基于模型的强化学习提供了新的机会。特别是,已经证明使用基于能量的模型可以最大程度地规划熵,从而可以对轨迹上的多峰分布进行采样和学习。

期待

当展望AI研究的未来12个月发展时,很高兴看到世界各地许多行业的创新者都打开了机遇。毫无疑问,今年Graphcore 将在自然语言处理,图像识别和预测建模等2019年突出的领域中取得进一步的进步。

长期以来,传统的处理方法效率低下,无法满足当今领先的AI研究人员的需求,这些研究人员正越来越多地处理庞大的数据批处理大小和复杂的算法。IPU之类的处理器可以通过提供小批量的运算效率并快速处理快速训练技术通常需要的稀疏数据结构来促进这些高级模型的实现。

随着采用新的硬件可以显着加速新的机器学习模型并促进更广泛的创新,变革的步伐将在2020年加快。

原创文章,作者:xgl,如若转载,请注明出处:https://edgeaitech.com/p/105

发表评论

登录后才能评论