SRA: sequence read archive

Posted Jul 28, 2021

By Subin Cho 2 min read

Intro

SRA는 NIH의 high-throughput sequencing data 아카이브로 International Nucleotide Sequence Database Collaboration(INSDC)¹ 의 일환이다.

high-throughput sequencing platform으로 만든 raw sequencing data와 alignment info를 저장한다.
이렇게 모은 sequence data를 research community에 제공하므로서, reproducibility를 높이고 dataset들 간에 비교를 통해 새로운 발견을 도모한다.

SRA metadata에는 실험에 관련된 technical aspects들이 담겨 있다: sequencing libraries, tecniques, data files.

대부분의 정보들은 SRA EXPERIMENT 레벨에서 한눈에 확인할 수 있다.

SRA data는 Study, Sample, Experiment, run으로 구성된다. 위의 그림이 이 컨셉을 잘 표현해주고 있다. SRA에서의 Study는 BioProject DB에서의 PROJECT, Sample은 BioSample DB의 SAMPLE에 해당한다.

SRA publicly accessioned object들은

STUDY: SRP#, SAMPLE: SRS#, EXPERIMENT: SRX#, RUN: SRR# 의 형식을 갖는다.

non-public accession의 경우 SRA#의 형식으로 표기된다.

하나의 STUDY에 속한 SRA data는 하나 이상의 SUBMISSION에 포함될 수 있다. 하나의 SAMPLE 또한 여러 STUDIES와 SUBMISSIONS에 포함될 수 있다.

각각의 SRA EXPERIMENT는 (SRA accession SRX#) 하나의 specific sample에 대한 unique seuqeuncing result를 말한다.

An SRA EXPERIMENT is the main publishable unit in the SRA database.

예를 들면, 데이터를 생산할때 결정되는 조건들의 모든 조합이 하나의 EXPERIMENT를 보여준다.

library + sequencing strategy(single-end/paired-end) + Instrument model + replicate number + etc. 의 조합

SRA RUN은 EXPERIMENT에서 언급했던 library를 시퀀싱한 데이터에 대한 메니페스트이다.

하나의 RUN에 해당하는 data files는 하나의 .sra archive file로 합쳐지는데, 따라서 다른 SAMPLE이나 EXPERIMENT에 해당하는 files는 같은 RUN으로 묶일 수 없다.

https://datacarpentry.org/organization-genomics/03-ncbi-sra/
https://github.com/linsalrob/SRA_Metadata/tree/master/xml2json
https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=xml_schemas
https://bioinformaticsworkbook.org/dataAcquisition/fileTransfer/sra.html#gsc.tab=0

International Nucleotide Sequence Database Collaboration(INSDC)[https://www.insdc.org/]: DDBJ, EMNL-EBI, NCBI에 의해 공동 운영. raw read, through alignments, assemblies 데이터를 커버한다. 이 포스트는 NCBI의 SRA에 대해서 다뤘지만 EMBL-EBI에서는 Nucleic Acid Archive(ENA)를 운영하고 있다. ↩

Study, General

tool

This post is licensed under CC BY 4.0 by the author.