医学咨询热线:400-887-5001 | 真伪查询 | 包装变更查询 | 
环球体育app官网_环球体育娱乐app最新版下载
方法1:查找“环球体育app官网”
方法2:用微信扫描二维码:
官方微信
 |  廉洁举报 |  English | 

环球体育app官网:药物范畴中深度学习的运用

来源:环球体育app最新版下载 作者:环球体育娱乐APP发布:2022-09-26 01:27:21 | 浏览: 14

  深度学习算法在许多范畴现已能够成功落地,而且效果很好,例如以卷积神经网络为例,该算法以及衍生的系列算法在图画处理范畴效果甚佳,例如图画分类,方针检测等,而以循环神经网络为代表的算法在序列处理范畴有十分好的效果,例如在机器翻译,语音辨认,以及文本生成,音乐生成方面都取得了很大的前进。

  关于药物发现这个范畴而言,许多时分关于药物开发是一个十分耗时以及繁琐的进程,而且中心充满着各种不确定性,试错本钱和价值也很大,假如能够经过深度学习的相关技能去操作分子数据并从中发现见地,或许进行药物研制环节中的各种模仿,将很大程度上减缩时刻周期以及试错本钱。例如分子数据最常见的表明办法,一种是以类似分子式的序列表明办法,能够很好的对其进行序列建模,而深度学习中的经典的RNN模型就能够处理类似的问题,包括近年来的seq2seq或许transformer架构都给这项使命供给了丰厚的操作空间。而另一种,以图形办法表明的分子数据,则能够借用CNN系的算法去相同处理类似的问题。

  本人在药物研讨所的作业经历,以及国内外近年来深度学习在各个范畴的运用,让我信任,药物研制凭借于AI去助力是必经之路, 这也是我开这个博客的初衷之一。 别的大学时期在医学工程学院的药物研制常识以及结业后从事医药与数据发掘穿插范畴的作业,使我逐步认识到算法的美好和医药关于其时社会的重要性。因而我想经过这个博客,去记载我个人关于这两个范畴交融的所见所想,以及共享相关该范畴的最前沿的发展,一方面,首要是个人作业的汇总,另一方面也会经过系统的教程去协助到其他对该范畴感兴趣的人。

  关于这篇总述,我会从三个中心方面去进行介绍,后期,我会对每一块内容进行更具体的介绍。那么关于深度学习在药物发现范畴的运用我以为首要包括以下三个部分。

  机器学习问题大体上分为三类,监督学习,半监督学习,强化学习。例如以药物性质猜测使命来讲,咱们能够把它区分一个二分类的监督学习使命。

  那么此刻关于模型的输出,只要两种成果(0,1),也即是否该药物具有某种性质。有则为1,无则为0。

  而关于模型的输入,则有多种表明办法。关于机器学习算法而言,假如该特征自身是数值变量那么能够运用它自身作为输入,关于类别变量而言,最直接的办法便是经过one-hot encoding的办法进行表明,那么相同的,关于一个化合物分子,不管是大分子仍是小分子,其均有相应的结构与之依靠,那么对这些结构的不同表明办法,也就决议了模型的特征表明办法。整体首要包括如下四个分类。

  其间表明药物的一种办法是分子指纹。 指纹的最遍及类型是一系列二进制数字(位),代表分子中是否存在特定的子结构。 因而,药物(小化合物)被描绘为0和1的向量(数组)。如下图所示:

  这种表明办法的长处是简略快速,而且也在文献中被广泛运用1。 可是,很明显,将分子编码为二进制向量不是一个可逆的进程(这是有损的转化)。 即,咱们能够将一个能够表明结构信息的分子式编码成分子指纹,可是却不能够从分子指纹中推断出该分子有怎样的结构。

  表明一个小分子能够有许多不同的指纹。 能够依照RDKit官方文档[2]进一步了解它们。

  将图结构数据转化为文本内容,并在机器学习输入管道中运用文本(编码字符串)作为输入。 Simplified Molecular-Input Line-Entry System(SMILES)是规范和最受欢迎的表明之一。 转化后,咱们能够运用自然语言处理(NLP)的相关算法来处理药物,例如,猜测其性质,副效果乃至化合物之间的相互效果 [3]。

  虽然SMILES在化学家和机器学习研讨人员中十分受欢迎,但它并不是仅有可用于表明药物的依据文本的表明办法。 InChIKey是您能够在文献中找到的另一种盛行的表明办法。InChI世界化合物标识是(世界化合物标识)International Chemical Identifier的缩写. InChI编码是一串由斜杠(/)离隔的有层级联系的数字组成的。每个InChI编码都是由InChI版本号开端,接着一个主层号。主层下包括含化学分子式层、原子联系层和固定氢原子子层。依据分子结构的主层后往往接着一个附加的层,如电荷层、立体化学层(和/或)同位素信息层。

  深度学习盛行于图结构化数据,例如图卷积网络[6]使直接运用图数据作为深度学习管道的输入成为可能。

  例如,能够将化合物视为图,其间极点是原子,原子之间的化学键是边。 图神经网络范畴中,有专门用于此作业的库,如Deep Graph LibraryPyTorch-GeometricPyTorch-BigGraph

  蛋白质在生物中起着中心效果。即,蛋白质是生物细胞内部和外部大部分功用的要害参与者。例如,有些蛋白质担任细胞凋亡,细胞分解和其他要害功用。一起,蛋白质的功用直接取决于其三维结构。即,改动蛋白质的结构能够明显改动蛋白质的功用,这是药物发现的重要依据之一。许多药物(小分子)被规划与特定蛋白质结合,改动其结构,然后改动其功用。此外,至关重要的一点是,仅改动一种蛋白质的功用就能够对细胞功用发生巨大影响。蛋白质直接互相相互效果,而且某些蛋白质还充任转录因子,这意味着它们能够按捺或激活细胞中其他基因的表达。因而,改动一种蛋白质的功用能够对细胞发生巨大的影响,并能够改动不同的细胞通路。

  那么,药物发现中的一个重要问题是猜测特定药物是否能够结合特定蛋白质。而药物-靶标相互效果(DTI)猜测使命,近年来受到了极大的重视。

  描绘:猜测化合物与蛋白质结合亲和力的二元分类(能够办法化为回归使命或二元分类)

  Qingyuan Feng[7]提出了一种依据深度学习的药物-靶标相互效果猜测结构。 用于DTI猜测的大多数深度学习结构都将化合物和蛋白质信息作为输入,可是不同之处在于它们用于输入神经网络的输入表明办法的不同。 正如我在上一节中说到的,化合物能够多种办法表明(分子指纹,SMILES,从图卷积网络提取的特征),蛋白质也能够具有不同的表明。 依据不同的表明,能够运用各种网络架构来处理DTI猜测。

  例如,假如咱们要对化合物和蛋白质都运用依据文本的表明办法(化合物和氨基酸的SMILES代码或蛋白质的其他依据序列的描绘符),那么依据RNN的系统结构便是我想到的榜首件事。

  Matthew Ragoza等。 提出了一种用卷积神经网络进行蛋白质配体评分的办法[8]。 他们没有运用依据文本的表明,而是利用了蛋白质配体的三维(3D)表明。 因而,运用能够效果于此3D结构的卷积神经网络,并提取有意义和恰当的特征以猜测蛋白质配体结合亲和力。

  虽然提出深度学习算法用于DTI猜测已成为一种大趋势,而且在某些情况下现已取得了令人形象深入的成果,但论文十分类似,而我发现的仅有立异便是挑选了输入表明的不同。 因而,关于该项使命总结如下:

  查找包括有关化合物和方针物以及它们是否相互效果的信息的数据库(例如STITCH数据库)

  依据挑选的表明办法,挑选适宜的神经网络模型来处理输入。 依据经历,关于输入, 假如是依据文本的表明,能够运用依据RNN的系统结构(GRU,LSTM等)和transformer,关于图画或3D结构,能够运用卷积神经网络。

  该问题能够看作是二元分类(化合物是否结合到靶标)或回归(猜测化合物与蛋白质之间的亲和力强度)。

  以上是DTI猜测的大致内容。 起先,或许这似乎是一项艰巨的使命,可是凭借deep learning算法能够以十分简略的技能和战略来处理这一问题。

  到目前为止,咱们仅触及到了判别式算法。 即,给定一种药物,该算法能够猜测其副效果和其他相关特性,或许给定化合物-蛋白质对,则能够猜测它们是否能够结合。

  可是,假如咱们对规划具有某些特性的化合物感兴趣呢? 例如,咱们要规划一种化合物,该化合物能够与特定蛋白质结合,润饰某些通路,而且不与其他通路相互效果,而且还具有某些物理性质,例如特定的溶解度规模。

  上一部分介绍的东西链是无法处理这个问题的。 这个问题最好在生成模型的范畴中完结。自回归算法(Autoregressive),变分自编码器(VAE)和生成对立网络(GAN)等生成模型现已在机器学习社区中得到了广泛遍及。 可是,在新药物规划使命中的运用还不是良久。

  清楚明了,发生具有某些所需特性的化合物比上一节中谈论的其他两个问题难。可供查找的化学分子的空间十分大,在该空间中进行查找以找到适宜的药物十分耗时且几乎是不可能的使命。 虽然有些文献中有一些不错的成果,但该范畴尚处于起步阶段,需求更老练的办法。 在这里,我将回忆我在该范畴阅览的一些最佳论文。

  许多论文中提及, 生成SMILES作为输出,最终将SMILES转化到化学空间,获取其分子结构。例如,

  Rafael Gomez-Bombarelli等, 提出了一种运用数据驱动的分子接连表明进行主动化学规划的办法[9]。

  他们运用VAE算法生成分子。 输入表明和输出表明都是SMILES。本文的一个不错的技巧是在潜在空间(它是一个接连空间)中运用高斯进程到达具有所需化学性质的点。然后,运用解码器将潜在空间中的此点转化(解码)为SMILES代码。 该论文写得很好,肯定是引荐读物。可是,问题在于SMILES代码与分子之间没有一一对应的联系。 也便是说,并非一切发生的代码都能够转化回原始(化学)空间,因而,发生的SMILES代码一般与有用分子符。

  SMILES是十分盛行的表明办法,但它们也具有一个很大的缺陷:SMILES并不是牢靠的表明办法。 即,更改SMILES中的一个字符(字符骤变)能够将分子从有用更改为无效。

  他们没有将SMILES字符串直接输入到网络并生成SMILES代码,而是将SMILES代码转化为解析树(经过运用SMILES上下文无关的语法)。 运用语法,它们能够生成语法上更有用的分子。 此外,作者指出:

  最近,Mario Krenn等人。 提出了另一种依据VAE和SELFIES表明的分子生成办法[5]。 SELFIES的首要长处是巩固性。

  下图首要涵盖了运用不同的分子表明办法,以及不同的生成算法的相关论文研讨。

  在这篇总述中,回忆了深度学习在药物发现中的一些运用。 明显,这篇谈论还没有完结,我会在后续持续弥补更多的内容。我期望这篇文章能鼓舞你为该范畴做出奉献,以使药物发现的作业多一点便利,少一点庸俗。

  高通量机制驱动表型化合物挑选的深度学习结构及其在COVID-19药物再利用中的运用

  A deep learning framework for high-throughput mechanism-d...

  总述 集成多组学数据的机器学习在生物学和医学中的运用:准则、实践与时机

  最近几天在搞一篇拖了良久的总述(和华科同济医院协作),机器学习在卵巢癌确诊和预后中的运用,其时剖析完文献后发现大部...

  今日感恩节哎,感谢一直在我身边的亲朋好友。感恩相遇!感恩不离不弃。 正午开了榜首次的党会,身份的改变要...

  哈里·基恩想和新教练何塞·穆里尼奥树立一种“结实的联系”,这将有助于托特纳姆更上一层楼。 凯恩在4-2打败奥林匹亚...

上一篇:天瑞仪器:公司的仪器仪表应用领域很广 包含电子、电器、珠宝、玩具、食物、建材、冶金、地矿、塑料、石油、化工、医药等很多职业
下一篇:未来 10 年我国在立异药物发现范畴会有哪些从 0 到 1 的打破?

环球体育app官网_环球体育娱乐app最新版下载