非常感谢审稿人提出的问题。针对这个问题,我们使用了一些标准的数据处理和归一化方法来合并两个数据集,并进行新转录本的注释。在数据预处理方面,我们采用了基于QC的质量控制流程来去除低质量序列,并过滤掉低表达基因。同时,在样本间差异较大时,我们还进行了批次效应校正以消除不同实验之间可能存在的生物样品变异性带来的影响。
为了进行新转录本的注释,我们首先将RNA-seq和小RNA-seq数据分别进行拼接、去冗余和过滤等操作,然后利用软件如Cufflinks、StringTie或Transcriptome Assembly by RNA-Seq(Trinity)等对每个单独数据集进行转录本组装。接下来,我们使用工具如Scripture或Class2Fly来比较RNA-seq和小RNA-seq之间的转录本差异,并筛选出高可信度的新转录本。
针对审稿人所提出关于转录本注释标准化方法的问题,我们可以考虑以下几种可能:
基于已知参考基因组:如果有一个已知参考基因组可用,则可以使用软件如Cufflinks或StringTie等工具将reads映射到该参考基因组上,并通过比对注释信息来确定新转录本。
基于组装的参考转录组:利用RNA-seq和小RNA-seq数据集进行转录本组装,得到一组初步的参考转录本集合,并使用软件如Cuffcompare或gffcompare等将其与已知参考基因组进行比较。然后,使用工具如FEELnc或Coding Potential Calculator(CPC)等对每个转录本进行分类和筛选,以确保只选择高可靠性的新转录本。
结合其他生物学信息:结合公开数据库如RefSeq、Ensembl或NCBI Gene,以及其他类型的数据如保守性序列、启动子区域和保守外显子等来进一步过滤和验证新的转录本。
总之,在这项研究中,我们采用了多种方法来标准化和整合两个不同来源的数据,并且结合多种技术手段进行新转录本注释。虽然这些方法并不是完美的,但已经成为RNA-seq和小RNA-seq数据融合及新转录本注释的常用策略。在未来工作中,我们将继续改进和完善这些分析方法以确保最终结果的准确性和可靠性。