东北大学考研(东北大学考研分数线)

东北大学考研,东北大学考研分数线

编辑 | 萝卜皮

关键生物标志物的发现对于临床诊断、药物研发具有重要意义。研究人员通常从微阵列数据中获取生物标志物,这些数据存在维度挑战。机器学习中的特征选择通常用于解决这个问题。然而,大多数方法都没有充分考虑特征依赖,尤其是基因的真实通路关系。

东北大学的研究团队提出了一种基于图神经网络的特征选择方法。该方法使用特征之间的实际依赖关系和皮尔逊相关系数来构建图结构数据。应用基于图神经网络的信息传播和聚合操作,将节点信息融合到图结构化数据上。通过谱聚类方法对冗余特征进行聚类。

该方法可以有效地去除冗余特征。该算法的输出具有较高的稳定性和分类精度,可以潜在地选择潜在的生物标志物。

该研究以「A novel biomarker selection method combining graph neural network and gene relationships applied to microarray data」为题,于 2022 年 7 月 26 日发布在《BMC Bioinformatics》。

随着微阵列技术的发展和成熟,研究人员可以通过DNA微阵列技术一次获得大量的基因表达值,这些数据可用于分析疾病诊断、药物开发等任务中的关键基因。微阵列数据分析的难点在于特征维度大、样本量小。基于机器学习的特征选择方法可用于从高维数据中选择基本特征来解决这个问题。

在特征选择任务中,目的是找到原始特征的一组特征子集,这些子集与原始特征高度冗余,与标签信息显著相关。特征选择不同于特征提取,特征提取是从高维空间中获取一组低维空间的表示信息。特征提取不能解释低维空间表示的含义,不能很好地与下游任务连接。传统的特征选择任务可以分为过滤器、包装器和嵌入方法。

过滤方法不依赖机器学习模型,通过统计计算方式解决最佳特征排序。它速度快但精度低。常用的过滤方法主要有t检验、卡方检验、最大信息效率(MIC)、Fisher score。包装器方法依赖于特定的特征评估器或机器学习模型。它通过启发式搜索算法不断寻找最佳的特征组合。根据评估器的返回值作为适应度函数,可以找到特征分类器下的最优特征子集。

然而,局部优化和高时间复杂度是包装方法的缺点。常见的包装方法包括稳定性选择、递归特征消除(RFE)、遗传算法(GA)、人工蜂群(ABC)、蚁群优化(ACO)和粒子群优化(PSO)。嵌入式方法巧妙地将特征选择过程与机器学习模型相结合,通过模型的权重参数输出特征子集。这种方法的效果取决于机器学习模型,并不是所有的模型都支持权重参数的输出。常见的嵌入式方法包括决策树(DT)、随机森林算法(RF)和线性回归(LR)。

混合特征选择算法结合了上述三种算法的优点,是特征选择任务的主流算法。例如,研究人员可以将过滤方法和打包方法结合起来,在过滤方法中实现对无效特征的快速过滤,降低打包方法的时间复杂度,设计一种高效的打包方法,进一步对特征进行选择和优化。

这些方法已被广泛使用和报道,并在主流微阵列数据集上取得了优异的成绩。Salem 团队提出了一种特征选择方法,将遗传算法和信息增益相结合进行特征选择,以达到较高的分类准确率。Jain 团队提出了一种两阶段混合特征选择方法,首先使用基于相关性的方法过滤冗余特征,然后使用改进的二元粒子群优化算法进行进一步的特征选择。Moradi 团队提出了一种用于微阵列数据分类的混合特征选择方法,将局部搜索策略与粒子群优化算法相结合,选择低冗余的特征子集。

然而,当前大多数混合特征选择方法都假设样本是独立同分布的,或者基于数据模型推断样本之间的关系。DNA 微阵列数据不同于常见的自然数据。它最大的特点是特征(基因)不是相互独立的,而是具有丰富的依赖关系。这些关系已被大量文献报道,并在 GeneMANIA 中进行了整理。大量研究报道了基因间的依赖关系,如基因通路、物理相互作用等信息。

然而,大多数算法都忽略了这种先验知识信息。现有研究已经强调并证明了在特征选择任务中考虑特征交互的重要性。例如,基于概率图模型的方法使用信息熵和条件概率来推断特征之间的相互作用,而基因之间的相互作用不遵循概率分布。

在这些方法中,途径和共表达关系的实际存在没有得到充分利用。虽然基于互信息、最大相关性和最小冗余的方法强调特征交互,但简单的数学模型无法推断出复杂的基因交互关系。

图模型采用节点和边的形式,能够很好地表示非独立同分布数据之间的交互关系,很好地应用于非欧式结构数据。分析基因或蛋白质相互作用的主流平台,如 GeneMANIA 和 STRING,都是用图结构来表示的。以图结构数据为基础,利用正则化技术实现图结构中的特征选择。然而,这些方法没有捕捉到图结构数据的高阶连通性,也没有应用现有数据库中的先验知识。

图已在数学上应用于社会科学、蛋白质相互作用网络、知识图谱等研究领域。图神经网络通过节点间的信息传播和聚合,使每个节点具有全局信息表示,充分挖掘特征交互关系和高阶连通性信息。然而,该方法尚未应用于微阵列数据特征选择任务。

微阵列数据分析的任务与其他数据分析的不同之处在于微阵列数据中已经存在大量已证实的特征依赖性。为了更好地利用这些关系并细化一些未知关系,东北大学的研究团队考虑使用图结构对数据进行建模,并使用图神经网络技术来预测特征之间的未知关系。

此外,考虑到特征之间可能存在高度冗余,研究人员使用聚类技术对基于图结构的特征进行聚类。最后,考虑到单个特征评估方法可能无法全面有效地评估特征重要性,该团队应用多种评估方法评估每个子图中的这些特征,并使用排序聚合生成统一的排序列表,最终目标是获得低冗余、高鲁棒性的特征子集,具有重要的现实意义。

这项工作中,研究人员提出了一种创新的微阵列数据生物标志物选择方法。该团队之前的研究表明,图神经网络可以很好地指导生物标志物的选择。在新提出的方法中,图结构用于建立基因之间的交互信息,每个节点代表一个特征。基因的数值相关性和先验知识中存在的相关性被认为是图中节点之间的边。该方法利用图神经网络技术传播和聚合每个节点的信息,并通过连接预测技术预测可能的特征交互。

然后,为了删除冗余特征,将谱聚类技术应用于图。每个聚类子图被视为具有高自冗余和低外部冗余的特征子集。每个特征子集是一个候选特征子集,用于选择最终的标记基因。为了保证结果的可靠性,研究人员使用八种不同的特征评估器对候选特征子集进行评估,将结果输入到可靠的排序融合算法中,最后输出特征子集。

图 1:特征数(簇数)与 Acc 和 Auc 的关系。(来源:论文)

在上图的结果中,研究人员分析了在选择不同数量的特征时与所提出的方法相对应的 Acc 和 Auc 指标的变化。从结果中可以看出,微阵列数据特征选择任务中特征数量的增加并不能有效提高模型的分类精度,包含过多的特征可能会由于引入冗余特征而导致模型的分类精度降低。这说明了特征选择任务对于为微阵列数据构建疾病分类模型的重要性,并且太多的特征会增加临床验证和测试的成本。

表 2:将所提出的方法与经典方法进行比较。(来源:论文)

表 2 结果表明,由于特征选择的特征依赖关系,所提出的方法可以通过更少的特征实现更高的分类精度,从而有效地优于传统的特征选择方法。这证明了引入实际特征依赖关系并使用图形神经网络进行分析方向的正确性和前瞻性。

表 3:提出的方法与先进方法的比较。(来源:论文)

此外,在表 3 中,研究人员将所提出的方法与一些先进的混合特征选择方法进行了比较,同样可以证明所提出方法的先进性。因此,他们认为必须为特征选择引入真实的特征依赖关系。目前,所提出的方法并未应用 GeneMANIA 提供的所有特征依赖项。研究人员相信未来的研究可以进一步探索这些特征依赖关系,以实现更准确和有效的特征选择。

研究人员还分析了该方法选择的特征的生物学意义。与目前主流的经典特征选择方法和混合特征选择方法不同,该方法并不完全依赖分类精度作为特征选择的适应度函数。然而,它引入了实际的特征依赖关系,研究人员相信引入这种依赖关系可以使所提出的方法选择的特征更具生物学意义。实验结果也证明了这一点。所提方法选取的特征在 p 值、正负样本分布、热图等方面都非常显着,可以有效区分正负样本。

通过分析 DLBCL 数据集中的文献,进一步证明了该方法选择的特征的生物学意义。所提出的方法选择的所有特征都被报道与疾病相关,因此他们有理由相信引入特征依赖的特征选择方法可以有效地选择具有真正生物学意义的特征。

因此,研究人员认为基于引入真实特征依赖关系和使用高级图形神经网络进行分析的特征选择具有超越传统特征选择方法和流行的混合特征方法的潜力。相信这项工作对生物标志物的选择具有重要意义。

论文链接:https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-022-04848-y

东北大学考研(东北大学考研分数线)