Biogrid Full data to table

https://downloads.thebiogrid.org/Download/BioGRID/Release-Archive/BIOGRID-4.4.214/BIOGRID-ALL-4.4.214.mitab.zip

读取完整的Biogrid数据,2455821条记录,使用Interactor A or B物种为taxid:2697049,筛选包括SARS-CoV-2的相互作用数据,27625条记录,然后标准化

Intact

完整数据 1194447条记录

https://ftp.ebi.ac.uk/pub/databases/intact/current/psimitab taxonomy ID: 2697049 是 Severe acute respiratory syndrome coronavirus 2 https://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi 从完整的Intact PSIMITAB中提取SARS-CoV-2的子集, 7074条记录

Merge 整合两个数据,并标记来源

因为对于单个数据集,Interactor A B完全相同,有可能有多个实验证据支持,因此对这样的数据我们进行合并成一个记录,并将证据合并。 Biogrid: 19715条记录, IntAct: 3654条记录

因为Interactor A B有可能互换,因此我们针对两个数据集合,生成排序的Interactor A’— Interactor B’作为Index,以合并两个数据集合

因为两个数据集中的相互作用有个别Interactor没有UniProt ID,可能是 ChEBI 或者 EBI ID,因为我们排除了这部分数据,BioGrid:18758, IntAct:3631 否则的话数据合并不能处理。

对于某一数据集 相同的相互作用,如ACE2—S与S—ACE2我们认为相同, 我们设计的Index也是相同的,我们仅取第一条记录,以便仅数据合并。BioGrid:14798 IntAct: 3526

合并数据条目:15650

Result

表格见sarscov2_merged_subcol_vxxx.xlsx

注:相互作用物种现在不局限于人,所以有多个S-ACE2相互作用的数据,因为ACE2是来自不同物种的,其UniProt ID不同。

## png 
##   2
## [1] 15650    15

PSI-MI Ontology 简化提取

对于Interaction detection method和Interaction type, 使用PSI-MI Ontology进行简化,规则如下:相同分支,取子节点(信息更特异),不同分支则保留多个 https://ontobee.org/ontology/MI https://github.com/HUPO-PSI/psi-mi-CV

使用Uniprot的缩记词作为物种的名称,以生成Interaciton ID, taxonomy https://www.uniprot.org/taxonomy/9365 Mnemonic助记词 https://www.uniprot.org/taxonomy?query=*

Uniprot ID to gene Symbol 使用Uniprot数据库映射,保证Gene Symbol标准化,而不是像原来直接从相互作用表格中提取Gene Symbol, 因为有多个uniport ID 映射到相同GeneSymbol的情况,如HLA … …

个别的记录仅有Uniprot ID而没有Gene symbol, 则使用Uniprot代替, 以生成Interaction name

To generate Ontology Interaction with high level term

sarscov2_ppi_species_highlevel_vxxx.csv sarscov2_ppi_species_highlevel_vxxx.xlxs

Manual update Uniprot ID P0DTC1: ORF1ab, P0DTF1: ORF3b

and merge higher level term ID

Drugbank target

仅分析了以上的SARS-CoV-2相互作用的所有蛋白的药物信息。

结果见drug_target_sub.xlsx