本站使用了 Pjax 等基于 JavaScript 的开发技术,但您的浏览器已禁用 JavaScript,请开启 JavaScript 以保证网站正常显示!

人工智能应用于药物开发(如冠状病毒疫苗)的关键挑战和解决思路

从提高平均预期寿命到控制艾滋病和肺结核等传染病,我们在人类医疗保健方面已走了很长一段路。尽管多年来在药理学和技术上的进步促进了这一成功,但SARS等病毒的入侵以及最近的冠状病毒(COVID-19)的出现提醒人们,该领域需要超越其现有状态而发展。当前这一代技术的领先者-人工智能(AI)如何打破现状并解决这一领域的缺点?理想情况下,它可以帮助发现可行的疗法并以更快的速度开发药物。

2020-03-13T15:42:38.png

关键挑战

人工智能在过去几年中呈指数级增长,在最近四年中,其在不同企业中的实现量增长了270%以上。它展示了各个领域的广泛用例,并且具有无限的潜力来重新构想解决问题的可能性。从娱乐,航空航天,电子,零售和农业来看,其日益普及的影响力将逐渐增强,预计为每个领域的带来约500至6000亿美元市场机会。在医疗保健和医疗领域,麦肯锡全球估计,人工智能的价值将达到200美元,到2020年代将达到3000亿美元。但是即使有这样的希望,由于其独特的挑战,人工智能在医疗保健和制药领域的渗透还没有那么快。

医疗保健和制药需要AI模型预测具有很高的准确性,同时还要保持不同人群之间的通用性。这两个因素都是必不可少的,因为确保患者安全至关重要,并且每个患者本质上都是不同的。这些AI模型的预测很大程度上取决于用于训练模型的数据类型。在药物开发过程中,实验的变异性和从动物到人的易翻译性非常普遍。小而稀疏的数据集在药物开发领域尤其普遍,这使得AI模型更难获得足够的知识。在有限的数据集上训练的模型可能会有偏斜的学习,过度拟合和较低的优化问题,这些问题直接影响其准确性和通用性。简单来说 由于可供AI学习的历史数据有限,因此模型无法正确地区分来自不同人群的细微差别,并且对似然相关具有重要意义。因此,小型而稀疏的数据集已成为AI在医疗领域应用的主要障碍之一。

多年来,人工智能和机器学习已经日趋成熟,并且已经开发出了几种处理此类数据的方法。可以用来应对医疗数据挑战的一些方法:

  1. 通过使用替代指标评估AI模型的性能来处理不期望的可变性。
  2. 通过向上采样或向下采样到合适的大小来减少歪斜的学习,以达到平衡。
  3. 通过使用正则化避免过度拟合-选择适当级别的训练复杂度,以使模型更好地泛化。
  4. 处理因低优化而产生的错误:
    -交叉验证-重新采样数据集以评估模型性能
    -迁移学习-从更大的数据源中获取知识并应用于相关问题
    -集成学习技术-结合多种模型算法以提高准确性

尽管迁移学习和集成学习在具有较小数据集的领域中已经产生了显着影响,但几年来,它们似乎并未像上述其他技术那样被广泛采用。这两种技术已开始获得关注,例如在医学图像分析领域的大量采用就是例证。

迁移学习

迁移学习模型是一个简单的两阶段范例,例如,首先训练AI模型,以学习互联网上的所有图像,然后教该模型如何解释胸部X射线图像以检测II期肺癌。这样,大型数据源可以提供一个培训基础,将其知识“转移”到胸部X光解释的特殊用例中。这种类型的模型是Google最近开发的,其性能优于具有8年平均医疗经验的六位放射线医生。

迁移学习指先在样本源领域 (source domain)训练,再把整合的知识迁移到目标领域(target domain),从而将已知的样本信息与小样本目标信息进行联系。研究者往往将迁移学习和深度学习结合,形成深度迁移学习(deep tranfer learning)。 美国芝加哥大学先从小样本乳腺癌图像数据库中找到每个图像中病灶的感兴趣区域,并进行截图标记(良性或恶性)作为目标集,再通过非医学任务预训练的卷积神经网络,从该小样本医学图像集中提取肿瘤信息,再借助支持向量机分类器进行特征分类,之后利用接收器操作特征分析和交叉验证进行模型评估,最终很好地完成了对乳腺癌的准确诊断,并发现潜在的药物作用靶点。 此外,迁移学习还可用于阿尔茨海默病、前列腺癌等的准确诊断。 所以,迁移学习有利于小样本信息分析,能够推动精准医学中 AI技术的应用和发展

集成学习

集成学习是一种将不同的ML算法模型结合在一起以实现更高准确度的方法。集成学习的核心思路就是「人多力量大」,它并没有创造出新的算法,而是把已有的算法进行结合,从而得到更好的效果。有几种方法:

  • Bagging (Bootstrap AGGregatING的缩写,也称“套袋法”)-组合在随机绘制的数据集子集上训练的模型(例如,Random Forests)。
  • Boosting(增强)-从一般的弱模型预测(例如Adaboost)逐步建立模型。
  • Stacking(堆叠)-将来自一种模型算法的预测用作不同学习算法的输入。这些堆叠模型有多种形式,例如广义模型,加权模型,混合模型和科学怪人模型。可以根据数据的类型和数量使用这些变体。
Bagging 的核心思路是——民主。

Bagging 的思路是所有基础模型都一致对待,每个基础模型手里都只有一票。然后使用民主投票的方式得到最终的结果。大部分情况下,经过 bagging 得到的结果方差(variance)更小。

2020-03-13T23:59:01.png

Boosting 的核心思路是——挑选精英。

Boosting 和 bagging 最本质的差别在于他对基础模型不是一致对待的,而是经过不停的考验和筛选来挑选出「精英」,然后给精英更多的投票权,表现不好的基础模型则给较少的投票权,然后综合所有人的投票得到最终结果。
大部分情况下,经过 boosting 得到的结果偏差(bias)更小。

2020-03-14T00:02:31.png

stacking是一种分层模型集成框架。以两层为例,第一层由多个基学习器组成,其输入为原始训练集,第二层的模型则是以第一层基学习器的输出作为训练集进行再训练,从而得到完整的stacking模型。

2020-03-14T00:15:54.png

迄今为止最先进的机器学习系统之一是Google的 DeepMind。在技术方面,它使用卷积神经网络上的深度学习和一种无模型强化学习的形式。实际上,这意味着没有提供预定义的环境/数据模型。该算法教会自己面对数据以及如何使用它。谷歌最强大的AI,AlphaGo Zero,可以用来学习如何预测蛋白质折叠。

医药领域值得关注的AI公司

有一些医疗领域创新者将上述技术应用于涉及小数据集的ML挑战方面有很多第一手经验,可模拟和预测人体和动物体内的药物处置。通过将上述方法和更多方法整合到AI模型中,已经观察到BIOiSIM的预测准确性有了显着提高。更准确的预测意味着在药物开发的早期阶段识别更多的药物失败,这对于我们大幅降低制药公司药物消耗的使命至关重要。通过使用复杂设计的ML工具,可以以更快的速度和更高的准确性创建从COVID-19到癌症的治疗方法。我们现在正处于一个关键时刻,像AI这样的技术可以帮助我们超越当前在生物学知识上的局限性,从而真正改变人类的医疗保健。

越来越多的AI公司为药物开发提供特定的解决方案。此列表概述了最值得注意的内容:

  • Atomwise
    What:预测小分子的生物活性
    How:卷积神经网络(AtomNetTM)进行分子建模
    Partners:AbbVie,默克
  • BenevolentAI
    What:产生更好的靶标选择,设计新分子和优化化合物
    How:深度学习从临床试验数据到学术论文挖掘和分析生物医学信息
    Partners:强生公司
  • Berg
    What:患者特异性的精确医学解决方案,以预测药物疗效和毒性
    How:深度学习评估患者适应性 - 生物学数据
    Partners:AstraZeneca,Sanofi
  • Exscientia
    What:小分子药物设计和效力,选择性和ADME的预评估
    How:机器学习使用各种实验、结构和临床数据库
    Partners:GlaxoSmithKline(针对10种疾病相关目标的小分子),Sanofi(代谢性疾病的小分子),Sumitomo Dainippon Pharma(针对两种GPCR受体的小分子),Evotec合作伙伴关系,包括拜耳,赛诺菲,罗氏/基因泰克,强生公司和UCB(用于免疫肿瘤治疗的小分子)
  • Insilico Medicine
    What:药物发现和再利用、生物标志物鉴定和临床试验设计
    How:生成对抗网络来评估大量的多组学数据
    Partners:GlaxoSmithKline(生物目标和途径)。
  • Numerate
    What:小分子药物的发现和优化,包括活性和毒性预测
    How:可以同时使用小型和大型数据库的机器学习(商业秘密)
    Partners:Boehringer Ingelheim(传染病的主要负责人),Merck(心血管疾病的主要负责人),Servier(心血管疾病的小分子调节剂设计目标),Takeda(肿瘤学,胃肠病学和中枢神经系统疾病的主要负责人)
  • Recursion Pharmaceuticals
    What:用于靶标发现和活性/毒性预测的细胞疾病模型
    How:深深度学习来分析内部实验生物学数据
    Partners:武田,赛诺菲
  • twoXAR
    What:发现、筛选和优先考虑候选药物
    How:机器学习与基因表达测量,蛋白质相互作用网络和临床记录
    Partners:斯坦福大学亚洲肝脏中心,Santen

其他有价值的包括(1)Roche / Genentech和GNS Healthcare(癌症药物靶标),(2)加速GlaxoSmithKline医学机会治疗(ATOM)联盟(从药物目标到患者就绪治疗不到一年), (3)Deep Genomics,Johnson&Johnson Innovation的创业公司(用于操纵细胞生物学和治疗疾病的反义寡核苷酸),以及(4)Turbine,Bayer Open Innovation的初创公司(癌症生物学的分子模型,用于更好的生物标记)。


 继续浏览关于 人工智能药物开发迁移学习集成学习稀疏小样本 的文章

 本文最后更新于 2020/03/14 08:22:09,可能因经年累月而与现状有所差异

 引用转载请注明:EdgeAITech > 资讯 > 人工智能应用于药物开发(如冠状病毒疫苗)的关键挑战和解决思路

您当前正通过 IPv4 网络访问本站
您直接访问了本站,莫非记住了域名?