搜库计算机的配置——硬件、系统与软件
随着近年来质谱仪器通量越来越高,随之而来的如何采购合适的搜库硬件的问题也被越来越多的提到。总的来说,现在计算机硬件提升及成本降低的速度比质谱数据产生量的速度还是快一些的,因此在合适的硬件环境下,我们的搜库速度应该比数据产生的速度能快上不少。但是质谱公司在推荐新的高性能质谱的同时,并不一定能够给出最合理的计算机硬件采购方案,本文在解释计算机硬件性能与搜库速度的相关性的同时,也给出计算机市场采购的一些推荐方案。
首先,我们需要评估我们的软件环境,有的软件支持64位系统而有的不支持,有的软件支持并行多处理器而有的只能单核,有的需要在线提交数据而有的可以单机运行,所以首先需要收集以下信息来评估采用何种软硬件环境。
表1 软件环境
其他类型的软件,如绘图软件、统计软件等,不在这里特别提及,根据自己需要安装。
用户往往会纠结于应该购买服务器还是工作站,预算有限的情况下,选择哪种配置更为合适等问题。我们下面从硬件的不同部分详细讲解,其性能与搜库、数据分析软件的关系。
CPU:主要影响搜库性能的硬件,在同平台下,基本上多一个CPU即大致提高搜库速度一倍。同时处理的任务少,主要考虑CPU的主频(clockspeed),主频越高,速度越快,但要注意的是不同构架模式下不能直接比较,例如AMD处理器与Intel处理器。同样主频下,核心数目越多,则多线程处理速度越快。因此,首先我们需要确定我们最常使用的分析软件是否支持多CPU,我们购买的软件授权支持多少个CPU。CPU的核心数是重要的考量标准,单个CPU包含n个处理核心,通常我们称之为物理核,对于超线程技术而言,是将单个核心虚拟为多个线程,也称之为逻辑核,例如2核心4线程,但是并没有实际提升CPU的运算能力。 对于是应该选用单路工作站还是双路工作站,根据预算和任务量决定。
内存:计算缓存部件。数据库的搜索,检索任务的加载均需要大量的内存支持,因此内存越大,搜库任务可以加载进内存的信息越多,相当于提升了搜库的速度。而目前NCBInr数据库的库容量本身就达到了20GB左右,普通台式机内存远小于该数据库,进行搜库时需要不停的从硬盘中读取数据库信息,从而减缓搜库效率。另外如果需要进行大量的SILAC,LFQ分析定量的话,也需要大量的谱图匹配分析操作,对内存需求也较大。因此,如果平时搜索任务较少,规模较小,不需要经常搜索NCBInr库的情况下,建议至少16GB内存;如果分析任务较多,大量的定量需求和结果优化计算时,建议32-128GB内存。
硬盘:硬盘是主要的程序存储和质谱、搜库文件存储介质,其容量和速度是主要的考虑因素。在一次搜库操作中,CPU和内存在搜索过程中起了主要的作用,但准备读入数据库、结果文件写入硬盘、拷贝庞大的原始文件时,硬盘速度是主要瓶颈。部分搜索软件会产生大量的临时文件,对硬盘的产生的负荷也非常高。
在预算充足、且经常需要进行大规模数据分析的情况下,SSD RAID0成为提升效果的最佳方案,大大提高了分析的速度。将分析完毕的数据定时转移到存储用的普通硬盘即可充分确保SSD发挥搜索性能。磁盘阵列方案:高性能兼顾大容量,SSD RAID0 512GB/1TB*2组合,并配备3TB蓝盘/黑盘*n作为存储盘。如搜索需求不是非常大或预算有限的情况下,建议采用普通硬盘方案(500G SSD+6TB HDD),可以选择企业级金盘作为性能上的弥补。
高速SSD 三星840EVO,PRO,WD企业级金盘、黑盘、蓝盘。
网络传输:1000Mb高速局域网+2Mb以上宽带
大多数情况下我们需要数据分析平台与质谱仪器连接以传输数据文件,因此千兆级别的局域网是必要的,有些软件支持实时文件产生实时搜库,也需要高速局域网支持;数据库的更新、blast、蛋白信息查询等操作也需要高速互联网支持,而目前杀毒软件基本上也能有效防护常见病毒的传播,所以在搜索平台上接入高速互联网是有必要且安全性有保证的方案。目前最常见的病毒传播介质依然是U盘传播,因此不安装杀毒软件或计算机不接入网络也就无法更新杀毒软件是计算机中毒的最大来源,而非网络连接。
三种搜库方法界面大多数参数是共通的,其中sequence query的界面和另外两个搜库界面的主要区别是,它没有数据上传的选项,而需要输入文本形式的查询信息。搜库界面的每一项参数的名称都包含帮助文档的链接,点击后可以直接查看具体的说明。
针对常用的Mascot搜库流程,我们简单的阐述下其搜索流程、参数和硬件的相关性
Fasta数据库,在database配置界面中有一项参数memory map和memory lock,设为-1时表明该数据库在第一次使用时映射入内存进行加速和永久锁定在内存中加速。在大内存系统中,常用数据库如果设置为locked,则可保证搜库时无须再读取硬盘中的fasta文件。但如果fasta数据库非常大而内存不足时,则会报错无法继续搜库。对于128GB内存的系统,将NCBInr锁定于内存可以有效提升搜库速度,而16GB的系统则无法实现这项加速。NCBnr数据库的更新非常快,因此需要对最新序列进行及时跟进的话,建议在Mascot的database configuration中将NCBInr设定为monthly update,稳定而快速的互联网连接能够保证更新效率。
数据提取转换:mascot与多种质谱软件联用或者单独可以使用Distiller来提取原始谱图,因此处理速度取决于上游软件的运行效率。对于Mascot Distiller软件,在16G内存条件下可以运行,但是速度慢只能执行单任务,建议使用32G以上内存。
搜库:搜库的主要时间耗费在数据准备和数据搜索上,因此和CPU速度及数量、内存大小、硬盘速度均密切相关。因此在预算充足的情况下,授权的CPU及硬件中的CPU数量越多,相应的搜库速度也越快。当预算有限只有单个CPU时,单个CPU的内核的速度越快,则搜库速度也越快,如i7-7740K是目前单核最快的CPU。
Mascot的授权是针对CPU 内核数量的,1个CPU的license做搜库运算时调用4个core。那么相应地,2个CPU的license需要8个core,3个CPU的license可以使用双路6核CPU。
搜库结果临时文件及最终结果生成:搜库过程中会产生大量临时文件,如果安装了实时扫描的杀毒软件以及最终结果生成时也需要进行蛋白组装和文件生成,此时的硬盘速度起了比较重要的作用,SSD Raid系统能够大大提升此时的处理速度;
Mascot支持多用户管理和登录,以及自动发送结果完成信息到用户邮箱,因此填写这些信息能够使您的搜库结果更容易查找和管理。
定量、潜在翻译后修饰寻找:SILAC,LFQ等定量方法需要访问大量的原始谱图进行母离子拟合及定量,翻译后修饰分析error tolerant则需要大量比对谱图与可能修饰的信息,此阶段需要大量的硬盘读写和大容量内存,CPU的计算也处于高负荷状态。
结果评估与大规模数据组装:如果通过局域网访问搜库结果,则最好使用千兆局域网;如果大数据集结果需要使用诸如Scaffold、PD、Perseus之类的评估软件,那么内存容量尽可能需要大,硬盘速度也比较重要。
以上的配置,可以根据预算和使用需求酌情调整,内存至少16G,硬盘虽然对速度有一定的影响,SSD的大小对速度提升没有明显差异,所以可以不做硬性要求,并且由于价格也不占主要的预算比例,所以预算的主要变化还是对CPU的选择上的差异。