稀疏线性模型通过输入变量的稀疏线性组合来逼近目标变量。这种稀疏性是通过正则化项实现的。由于它们简单快速,能够选择特征,在分类和回归中广泛应用。本质上,线性模型是浅层前馈神经网络,具有三个限制:(1)不能适用于特征非线性的模型,(2)无法学习高级特征,并且(3)在多类情况下选择特征的扩展不自然。
深度神经网络是由多个隐藏层结构化的模型,并带有非线性激活函数。与线性模型相比,它们具有两个显著优势:能够(1)建立具有非线性结构的复杂系统,(2)学习高级特征表示。深度学习已经应用于许多大而复杂的系统,在这些系统中深度模型明显优于浅层模型。但是,在输入水平上进行特征选择仍然没有得到很好地研究。
在基因组研究中,非编码DNA序列中的顺式调控元件起着基因表达关键作用。由于调控元件活动涉及高度交互因素,因此强烈需要深度工具来发现信息特征。
为了解决浅层和深层模型选择复杂系统特征的上述限制,我们提出了一种深度特征选择模型,它(1)利用深度结构来建立非线性模型,并且(2)方便地在多类数据的输入水平上选择一个特征子集。我们将这个模型应用于整合多源基因组信息以识别活性增强子和启动子。结果表明,我们的模型在判别特征子集大小和分类准确率方面优于弹性网络。