scRNA-seq genomic anlysis pipline

Document Author

2018-12-13

数据下载

这次用到的单细胞数据来自于文献 Multiclonal Invasion in Breast Tumors Identified by Topographic Single Cell Sequencing. 作者并没有公布处理完的数据,只把原始测序数据上传到了 NCBISRA 数据库, 一共 10synchronous ductal carcinoma.
为了方便处理,我们将数据按照样本来源分别下载存储,在下载时遵循以下顺序:
1. 确认样本来源以及基础信息

  1. 进入样本主页,浏览数据信息

  2. 确认每个细胞数据来源,下载 SraRunInfo 文件

由于样本数据过多, wgetaxel 在下载速度上都有所缺陷,需要用迅雷批量下载,这就需要首先产生所有需要下载样本的 URL 地址: 例如样本 SRR6238488 存储的 URL 为 : ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR623/SRR6238488/SRR6238488.sra

下载完一个样本的所有细胞 sra 数据后,就可以用 fastq-dump处理得到对应的 fasta 文件了.

进行基因组分析

得到了每个细胞对应的 bam 文件以后,利用 varscan工具进行 germline variants calling 以及 Copy Number Alteration (CNA) Calling.
由于前面的tophat结果还没跑完,所以只有两个示例:

  1. germline variants calling
  1. CNA calling

以上就是关于单细胞测序数据的完整基因组分析数据处理流程,完结撒花.