读取完整的Biogrid数据,2455821条记录,使用Interactor A or B物种为taxid:2697049,筛选包括SARS-CoV-2的相互作用数据,27625条记录,然后标准化
完整数据 1194447条记录
https://ftp.ebi.ac.uk/pub/databases/intact/current/psimitab taxonomy ID: 2697049 是 Severe acute respiratory syndrome coronavirus 2 https://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi 从完整的Intact PSIMITAB中提取SARS-CoV-2的子集, 7074条记录
因为对于单个数据集,Interactor A B完全相同,有可能有多个实验证据支持,因此对这样的数据我们进行合并成一个记录,并将证据合并。 Biogrid: 19715条记录, IntAct: 3654条记录
因为Interactor A B有可能互换,因此我们针对两个数据集合,生成排序的Interactor A’— Interactor B’作为Index,以合并两个数据集合
因为两个数据集中的相互作用有个别Interactor没有UniProt ID,可能是 ChEBI 或者 EBI ID,因为我们排除了这部分数据,BioGrid:18758, IntAct:3631 否则的话数据合并不能处理。
对于某一数据集 相同的相互作用,如ACE2—S与S—ACE2我们认为相同, 我们设计的Index也是相同的,我们仅取第一条记录,以便仅数据合并。BioGrid:14798 IntAct: 3526
合并数据条目:15650
表格见sarscov2_merged_subcol_vxxx.xlsx
注:相互作用物种现在不局限于人,所以有多个S-ACE2相互作用的数据,因为ACE2是来自不同物种的,其UniProt ID不同。
## png
## 2
## [1] 15650 15
对于Interaction detection method和Interaction type, 使用PSI-MI Ontology进行简化,规则如下:相同分支,取子节点(信息更特异),不同分支则保留多个 https://ontobee.org/ontology/MI https://github.com/HUPO-PSI/psi-mi-CV
使用Uniprot的缩记词作为物种的名称,以生成Interaciton ID, taxonomy https://www.uniprot.org/taxonomy/9365 Mnemonic助记词 https://www.uniprot.org/taxonomy?query=*
Uniprot ID to gene Symbol 使用Uniprot数据库映射,保证Gene Symbol标准化,而不是像原来直接从相互作用表格中提取Gene Symbol, 因为有多个uniport ID 映射到相同GeneSymbol的情况,如HLA … …
个别的记录仅有Uniprot ID而没有Gene symbol, 则使用Uniprot代替, 以生成Interaction name
sarscov2_ppi_species_highlevel_vxxx.csv sarscov2_ppi_species_highlevel_vxxx.xlxs
仅分析了以上的SARS-CoV-2相互作用的所有蛋白的药物信息。
结果见drug_target_sub.xlsx