Post

bulkRNA-seq merged fastq file, R1, R1 로 각각 쪼개기

가끔 raw fastq file을 전달받았는데 R1과 R2가 합쳐진 sample_name.fastq 이런식의 파일로 오는 경우가 있다. 물론 회사나 실험하신분께 다시 연락을 드려서 제대로된 파일로 달라고 할수도 있으나 시간이 추가로 필요하니 혼자서 해결해보자.

  1. 압축이 되어 있다면 풀어준다.
    1
    
     gzip -d merged.fastq.gz
    
  2. awk 사용해서 R1과 R2 read로 분리해준다. [sampleID] 자리에 원하는 샘플명 넣어주자
    1
    
     cat [SampleID].fastq | awk -F"=" 'BEGIN {OFS = "\n"} {name = $0; getline seq; getline name2; getline phred; print name, substr(seq,0,int(length(seq)/2)), name2, substr(phred,0,int(length(seq)/2)) >> "[SampleID]_R1.fastq"; print name, substr(seq,int(length(seq)/2)+1,length(seq)), name2, substr(phred,int(length(seq)/2)+1,length(seq)) >> "[SampleID]_R2.fastq"}'
    
  3. 다시 .gz 포맷으로 압축 (optional)

    1
    
     gzip *.fastq
    
This post is licensed under CC BY 4.0 by the author.

© Subin Cho. Some rights reserved.

Using the Chirpy theme for Jekyll.