bulkRNA-seq merged fastq file, R1, R1 로 각각 쪼개기

Posted Jun 18, 2023

By Subin Cho 1 min read

가끔 raw fastq file을 전달받았는데 R1과 R2가 합쳐진 sample_name.fastq 이런식의 파일로 오는 경우가 있다. 물론 회사나 실험하신분께 다시 연락을 드려서 제대로된 파일로 달라고 할수도 있으나 시간이 추가로 필요하니 혼자서 해결해보자.

압축이 되어 있다면 풀어준다.
1 gzip -d merged.fastq.gz

awk 사용해서 R1과 R2 read로 분리해준다. [sampleID] 자리에 원하는 샘플명 넣어주자

        
      
 cat [SampleID].fastq | awk -F"=" 'BEGIN {OFS = "\n"} {name = $0; getline seq; getline name2; getline phred; print name, substr(seq,0,int(length(seq)/2)), name2, substr(phred,0,int(length(seq)/2)) >> "[SampleID]_R1.fastq"; print name, substr(seq,int(length(seq)/2)+1,length(seq)), name2, substr(phred,int(length(seq)/2)+1,length(seq)) >> "[SampleID]_R2.fastq"}'

다시 .gz 포맷으로 압축 (optional)
1 gzip *.fastq

Study, Bulk RNA-seq

code

This post is licensed under CC BY 4.0 by the author.

Trending Tags