본 워크프로우는 생식 세포의 CNV(Copy Number Variant)를 호출하고, 호출된 체세포CNV에 대하여 현재까지 보고된 정보를 주석처리한다. GATK의 best practice를 참고 포함한 총 23개의 호출과정을 한번의 명령어로 수행하며, 체세포CNV분석에 활용되는 모든 소프트웨어를 설치하는 것뿐만 아니라, 중요 스텝에서의 각종 통계량을 통해 체세포 CNV데이터의 엄격한 필터링을 진행한다. 또한, 이 워크플로우는 단일 샘플뿐만 아니라, 다수의 샘플에서도 적용된다. 다수 샘플에서 적용시, 단일 샘플과 같은 프로세스를 진행한 후, 다수의 샘플을 하나의 변이호출파일로 결합하는 과정을 수행한다. 마지막으로, 이 워크프로우는 docker image와 java 기반의 cromwell로 작성되어, 기존의 shell 워크플로우보다 세부적인 수정과 변경이 용이하고 소프트웨어의 개별적인 설치 없이 손쉽게 구동 가능하다.
주요 기능
본 워크플로우는 크게 작업이 수행되는 centos7-essential-plus-genomics-software-installed-custom-python3:0.5 도커 컨테이너와 그안에 software가 포함된 opt 디렉토리를 갖는다.
도커 컨테이너 안에는 /mnt된 디렉토리는 hAnnotation, hReads, hReference, hResults로 구성되어 있으며, hAnnotation은 주석처리를 위한 데이터베이스의 정보파일, hReads는 체세포CNV호출을 수행할 paired-end 파일들, hReference는 체세포CNV호출시 사용할 human reference 파일, hResults는
사용방법
sudo docker run -v ${PWD}:/mnt -w /mnt centos7-essential-plus-genomics-software-installed-custom-python3:0.5 /usr/bin/java -Dconfig.file=/mnt/application.conf -jar /opt/cromwell-41.jar run /mnt/cnvsomaticPipeline.wdl -i /mnt/cnvsomaticPipeline.json