崔颖 1,2 , 徐泽龙 2 , 李建中 1,3
  • 1. 黑龙江大学 电子工程学院(哈尔滨 150080);
  • 2. 哈尔滨医科大学 生物信息科学与技术学院(哈尔滨 150081);
  • 3. 哈尔滨工业大学 计算机科学与技术学院(哈尔滨 150001);
导出 下载 收藏 扫码 引用

本文基于 Z 曲线(z-curve)理论和位置权重矩阵(PWM)提出一种构建核小体 DNA 序列的模型。该模型将核小体 DNA 序列集转换成三维空间坐标,计算该序列集的位置权重矩阵,将两者整合得到综合序列特征模型(CSeqFM),并分别计算候选核小体序列和连接序列到模型 CSeqFM 的欧氏距离作为特征集,投入到支持向量机(SVM)中训练和检验,通过十折交叉验证进行性能评估。结果显示,酵母核小体定位的敏感性、特异性、准确率和 Matthews 相关系数(MCC)分别为 97.1%、96.9%、94.2% 和 0.89,受试者操作特征(receiver operating characteristic,ROC)曲线下面积(area under curve,AUC)达到 0.980 1。与其他相关 Z 曲线方法比较,CSeqFM 方法在各项评估指标中均表现出优势,具有更好的识别效果。同时,将 CSeqFM 方法推广到线虫、人类和果蝇的核小体定位识别中,AUC 均高于 0.90,与 iNuc-STNC 和 iNuc-PseKNC 方法比较,CSeqFM 方法也表现出较好的稳定性和有效性,进一步表明该方法具有较好的可靠性和识别效能。