机器学习方法创建可学习的化学语法，构建可合成的单体和聚合物 - IT思维

公众号/ ScienceAI（ID：Philosophyai）

编辑/凯霞

机器学习方法的兴起正在加快材料和药物发现过程，然而，当前的技术，主要是深度学习，需要大量数据集来训练模型，并且许多特定类别的化学数据集包含少数示例化合物，限制了它们泛化和生成可以在现实世界中创建的物理分子的能力。

现在，MIT 和 IBM 研究院的研究人员提出了一种数据高效的生成模型，该模型可以从比普通基准小几个数量级的数据集中学习。这种方法的核心是一种可学习的图形语法，它从一系列生产规则中生成分子。该模型不仅可以对其示例进行逆向工程，还可以以系统和数据高效的方式创建新化合物。

MIT 电气工程和计算机科学教授 Wojciech Matusik 说：「我们基本上建立了一种用于创建分子的语言，这种语法本质上是生成模型。」

该研究以「Data-Efficient Graph Grammar Learning for Molecular Generation」为题，发表在深度学习顶级学术会议 ICLR 2022 上。

「我们希望将这种语法表示用于单体和聚合物的生成，因为这种语法是可解释和富有表现力的，」该论文的第一作者 Minghao Guo 说。「只需少量的生产规则，我们就可以生成多种结构。」

分子结构可以被认为是图形中的符号表示——通过化学键（边）连接在一起的一串原子（节点）。在这种方法中，研究人员允许模型采用化学结构并将分子的子结构折叠到一个节点；这可能是通过键连接的两个原子，键合原子的短序列或原子环。重复执行此操作，创建生产规则，直到剩下一个节点。然后可以以相反的顺序应用规则和语法，从头开始重新创建训练集，或以不同的组合组合以产生相同化学类别的新分子。

「现有的图形生成方法会一次按顺序生成一个节点或一条边，但我们正在研究更高层次的结构，特别是利用化学知识，这样我们就不会将单个原子和键视为一个单元。这简化了生成过程，同时也提高了学习的数据效率，」IBM 研究院的 Jie Chen 说。

图 1 概述了研究人员所提的方法。给定要优化的分子和特定领域的指标，研究人员迭代地构建和评估图文法作为其生成模型。将构建视为最小生成森林问题，并将其与相结合，通过一个可学习的函数 Fθ 确定构建哪些规则。

图 1：方法概述。

此外，研究人员优化了这项技术，使自下而上的语法相对简单明了，从而制造出可以制造的分子。

虽然研究人员专注于三个训练集，每个样本少于 33 个样本——丙烯酸酯、扩链剂和异氰酸酯——但他们注意到该过程可以应用于任何化学类别。

为了了解他们的方法是如何执行的，研究人员将该论文所提方法 DEG（Data-Efficient Graph Grammar 的缩写）与其他最先进的模型和技术（GraphNVP、JT-VAE、HierVAE、MHG 和 STONED）进行了对比，观察了化学有效和独特分子的百分比、产生的分子的多样性，逆合成的成功率，以及属于训练数据的单体类分子的百分比。

小型、特定类别聚合物数据的结果：表 1 显示了异氰酸酯数据的结果。观察到 GraphNVP 的性能相当差。VAE 和现有的基于语法的系统在某些指标上表现相当不错，但在 RS（Retro∗ Score）和 Membership 指标上得分较低。相比之下，DEG 在所有三个数据集上的 Memb. 和 RS 方面都明显优于其他方法。它还在所有其他指标上实现了最佳或可比的性能。

表 1：异氰酸酯的数据结果。

总体结果表明：（1）DEG 学习的、基于子结构的语法成功地捕捉到了类细节，这是一个迄今为止被忽略的关键评估标准。（2）其他关键的、特定领域的指标，如 RS 可以在语法学习期间成功优化。DEG 的分数比其他人高 5 分。更重要的是，优化是在语法构建期间就地完成的，因此它避免了后处理。（3）DEG 方法是唯一一种不断实现稳定性能的方法。总而言之，这些结果清楚地将 DEG 与其他结果区分开来。

Guo 说：「我们算法的惊人之处在于，与在数万个样本上训练的最先进方法相比，我们只需要大约 0.15% 的原始数据集即可获得非常相似的结果。我们的算法可以专门处理数据稀疏的问题。」

大型聚合物数据集的结果：研究人员还研究了 DEG 与现有方法相比如何在大型单体数据集上执行。由于 DEG 方法相对复杂，但数据效率更高，将其应用于 0.15% 的子集。

表 2：大型聚合物数据集的结果。

研究得出，一些 SOTA 系统，如 SMILESVAE 和 GraphNVP 无法捕获任何分布细节，并且大多会生成无效分子。JT-VAE 和基于语法的基线（MHG、STONED）相对于前者表现不佳，但它们的样本质量是合理的。HierVAE 在除倒角距离之外的所有指标上都表现出色。DEG 通常可以与后者竞争（仅在 0.15% 的数据上训练）并获得更好的样本质量，尤其是 Chamfer 距离是两倍高。

在不久的将来，该团队计划解决扩大这个语法学习过程的问题，以便能够生成大图，以及生产和识别具有所需特性的化学品。

研究小组指出，在未来，研究人员看到了 DEG 方法的许多应用，因为它除了产生新的化学结构之外还具有适应性。图形是一种非常灵活的表示形式，许多实体都可以用这种形式进行符号化——例如，机器人、车辆、建筑物和电子电路。「本质上，我们的目标是建立我们的语法，以便我们的图形表示可以在许多不同的领域广泛使用，」Guo 说。

代码地址：https://github.com/gmh14/data_efficient_grammar

论文链接：https://openreview.net/forum?id=l4IHywGq6a

参考内容：https://phys.org/news/2022-04-machine-learning-method-learnable-chemical-grammar.html

关键词：聚合物it思维机器学习方法最新消息科技资讯挖掘