bulkRNA-seq merged fastq file, R1, R1 로 각각 쪼개기
가끔 raw fastq file을 전달받았는데 R1과 R2가 합쳐진 sample_name.fastq 이런식의 파일로 오는 경우가 있다. 물론 회사나 실험하신분께 다시 연락을 드려서 제대로된 파일로 달라고 할수도 있으나 시간이 추가로 필요하니 혼자서 해결해보자.
- 압축이 되어 있다면 풀어준다.
1
gzip -d merged.fastq.gz
awk
사용해서 R1과 R2 read로 분리해준다. [sampleID] 자리에 원하는 샘플명 넣어주자1
cat [SampleID].fastq | awk -F"=" 'BEGIN {OFS = "\n"} {name = $0; getline seq; getline name2; getline phred; print name, substr(seq,0,int(length(seq)/2)), name2, substr(phred,0,int(length(seq)/2)) >> "[SampleID]_R1.fastq"; print name, substr(seq,int(length(seq)/2)+1,length(seq)), name2, substr(phred,int(length(seq)/2)+1,length(seq)) >> "[SampleID]_R2.fastq"}'
다시
.gz
포맷으로 압축 (optional)1
gzip *.fastq
This post is licensed under CC BY 4.0 by the author.