近期,一份深度聚焦人工智能在生命科学领域应用的报告——《2024中国人工智能系列白皮书:人工智能驱动的生命科学》正式发布。该报告详尽地阐述了177页的内容,探讨了多个前沿领域。
在单细胞转录组研究的范畴内,报告揭示了如何利用大规模单细胞数据构建预训练基础模型。这一模型借助Transformer架构,通过数据编码和预训练任务建模,能够应用于基因和细胞嵌入表示、细胞类型注释等多元化任务。未来,随着技术的不断进步,该模型有望结合多模态数据,进一步拓展其应用边界。
细胞异质性的刻画方面,报告详细描述了无监督学习、弱监督学习和有监督学习在单细胞数据处理中的应用。无监督学习通过降维和聚类等方法,有效处理单细胞数据;弱监督学习则利用外部参考信息提升精度;而有监督学习则依据细胞标注信息,结合细胞相似度、机器学习及深度学习等视角,借助多种模型精准区分细胞类型。这些方法为深入理解细胞特性提供了全新的视角。
在疾病诊疗领域,人工智能同样展现出了巨大的潜力。机器学习与深度学习技术被广泛应用于疾病预测和个性化治疗方案的制定;自然语言处理技术则用于挖掘医疗文本中的关键信息;医疗图像分析技术借助深度学习算法,对医学影像进行精准分析,辅助医生进行诊断;知识图谱则能够整合多源医学知识,优化诊疗决策。生命科学基础模型与多组学数据及迁移学习的结合,为疾病研究带来了新的希望,尽管仍面临数据和模型方面的挑战。
RNA结构预测是另一个充满挑战的领域。由于RNA结构复杂且数据有限,其预测难度极大。当前,已有多种方法被应用于RNA结构预测,包括基于知识和物理的算法,以及机器学习与深度学习的卷积神经网络、三维卷积神经网络及基于ResNet的模型等。尽管这些方法已取得一定进展,但仍有许多问题亟待解决。
在组学生物标志物识别方面,报告探讨了单组学和多组学方法的应用。单组学方法包括过滤式、包裹式、嵌入式特征选择等,而网络分析则可用于挖掘生物标志物。多组学研究则通过整合不同组学数据,采用前、中、后融合等策略,为精准医疗的发展提供了有力支持。