머리말
바이오정보학이 국내에 소개된 지 20여 년이 흘렀다. 생화학과 분자세포생물학으로 대표되는 실험생물학 시대에는 데이터의 획득 그 자체가 생명과학 연구의 가장 중요한 병목이었다. 연구자는 먼저 가설을 세우고 이를 검증하기 위한 실험을 고안한 후, 마침내 어렵게 실험 데이터를 획득한다. 데이터 분석 목적은 앞서 세운 가설을 검증하기 위한 것이다. 바야흐로 데이터 시대다. 모든 분야의 빅 데이터가 넘쳐나는 새로운 시대에는 놀랍게도 데이터가 가설과 실험설계보다 먼저 우리를 찾아온다. 가설검증과 실험생물학의 패러다임을 넘어서는 바이오정보학적 연구로의 패러다임적 전환을 요구한다.
이제 ‘데이터는 그저 생성되게 마련’인 시대다. 사람의 눈보다 많은 카메라와 사람의 귀보다 많은 마이크가 스마트폰에 상주한다. 수많은 바이오센서가 쉬지 않고 데이터를 획득한다. 이제 데이터 획득 자체는 더 이상 의학과 생명과학 연구의 유일한 병목일 수 없다. 병목은 바이오정보학으로 급속히 이동했다. 병목을 지배하는 자가 세상을 통제한다. 데이터 획득이 병목이던 시절에는 조직과 세포와 실험동물로부터 데이터를 획득하는 기술인 실험생물학이 가장 중요했다. 데이터 시대에는 바이오 데이터의 ‘생로병사’를 관장하는 바이오정보학이 가장 중요한 방법론이다.
생명과학자의 눈에는 낯선 데이터 중심적 패러다임은 전혀 새로운 것이 아니다. 이는 이미 많은 과학분야에서 데이터 과학이 자리 잡고 있다. 입자물리학, 천문학, 지구과학을 포함한 대부분의 물리과학은 말할 것도 없고, 거의 대부분의 공학분야와 다양한 산업분야에서 데이터 과학적 패러다임은 세기적 현상이다. 페이스북과 트위톨로지의 출현처럼 인문 사회과학 모든 분야의 데이터도 ‘늘 생성되게 마련’인 시대가 되었다. 임상의학도 전통적으로 관찰과 서술을 통해 발전해온 데이터 과학과 다름없다. 모바일 스마트폰 환경의 도래로 개개인의 바이오 데이터가 끊임없이 생성되는 지금 그 진화의 방향은 점점 더 뚜렷해지고 있다.
본 실습서 ‘유전체 데이터 분석’은 바이오 데이터의 단순 활용을 목적으로 하기보다는 바이오 데이터 그 자체와 그 생명주기를 탐구대상으로 삼는 ‘데이터 과학’의 관점을 취한다.
바이오정보학은 자연계에서 일어나는 생명현상의 가상공간 투사체인 바이오 데이터가 그 생성, 상호작용, 발달 및 소멸의 전 과정에 이르는 ‘데이터의 생로병사’를 주관하는 학문이다. 이런 관점에서, 본 실습서가 ‘분석’에 초점을 맞춘 것은 잘못이다. 입문자용 실습서라는 한계로 생명 데이터의 ‘흐름’과 ‘통제’의 주요 부분들을 거의 다루지 못한 아쉬움이 크다.
실습서 ‘유전체 데이터 분석’은 바이오정보학 분야의 전문가를 위한 책은 아니다. 바이오 정보학의 필요성을 느끼지만 접근에는 어려움을 느낀 생명과학자, 의학자, 통계학자, 전산학자, 공학자 그리고 바이오정보학 분야의 새내기 입문자를 위한 책이다. 하지만 그간의 발전으로 전문가조차 생소한 신생 분야들이 많아져서, 전문가에게도 이 책이 간단한 안내서 역할은 할 수 있을 것이다.
‘유전체 데이터 분석’은 2011년 출발하여, 서울의대 정보의학실과 보건복지부 지원 서울대병원 유전체 정보의학 교육훈련센터(BITEC)가 주관해온 8차례에 걸친 유전체 데이터 분석 워크샵(Genome Data Analysis Workshop, GDA)의 실습자료를 묶음 형식으로 출판한 것이다. 바이오정보학 분야의 발전은 참으로 빨랐다. 2012년 1편이 나온 지 2년 만에 본 실습서의 내용이 이미 너무나 낡아버린 것을 깨닫게 되었다. 2판을 위한 목차를 새로이 정리 하던 중, 2년 만에 한 권의 책에 다 담을 수 없게 되었음을 깨달았다. 2판은 두 권의 책으로 구성될 예정이다. 특히 차세대 시퀀싱(NGS) 기술의 급격한 발전은 2016년 초에 발간 예정
인 제2권에서 주로 다룰 예정이다.
각 실습은 그 개요에 해당하는 이론적 배경을 담은 한 개의 장과 뒤따르는 실습 세 장으로 구성된다. 각 실습은 데이터 소개와 분석전략을 설명한 후 마련된 시나리오를 따라 진행되는 예제에 학습목표와 실전문제를 덧붙였다. 분야의 방대함으로 윈도우즈 환경뿐 아니라 리눅스 환경도 필요하고, 단독실행 프로그램이나 웹 서버 이용뿐 아니라 R 프로그래밍과 간단한 스크립트 실습도 포함되어 초보자에게는 작은 도전과제가 된다. 모든 예제는 누구 나 한번은 실행해 볼 수 있는 ‘무작정 따라 하기’ 식이고 실습에 필요한 대부분의 프로그램과 데이터는 DVD로 제공된다.
늦은 시간까지 실습 자료를 준비하고 정리하고 토론해온 서울의대 정보의학실과 스누비 (SNUBI, http://www.snubi.org/) 연구원들의 노고가 이 실습서 탄생의 진정한 주역이다.
방대하고 지루하기까지 한 GDA Workshop에 참석하시어 아낌없는 격려와 비평을 주신 그간의 실습참여자 2000여 분의 성원이 이 책을 만들었다. 준비되지 않은 원고와 실험적 구성에도 불구하고 흔쾌히 출판을 수락해주신 범문사와 담당자 신선희 선생께도 감사의 말씀을 드린다. 실습을 직접 지휘한 김지훈, 정제균, 박지연 연구교수와 원활한 진행을 도와주신 사무국의 배윤정, 정혜림, 변은미, 장아리랑, 유혜림 양께도 깊이 감사드린다. 실습에 직접 참여하고 실습자료를 정리해준 나영지, 이수연, 정희준, 박유랑, 김도균, 서희원, 윤선민, 박찬희, 윤준희, 이수연, 조용래, 한현욱, 이계화, 김기태, 임재현 군과 실제 실습 진행을 도와준 백수연, 김혜현, 윤영조, 이수현, 록키, 임영균, 이우승, 박유미, 류영재 군이 실습서인 ‘유전체 데이터 분석’의 진정한 저자이다. 너무 많은 분들의 도움을 대신해 대표저자 형식을 빈것이 낯 뜨거울 뿐이다. 끝으로 마지막까지 교정과 정리를 도맡아 해준 이우승 군의 노고에 감사드린다.
실습서 ‘유전체 데이터 분석’이 매년 여름과 겨울 방학 중 진행되는 GDA Workshop과 함께 새로운 지식을 끊임없이 받아들이며 발전해갈 것임을 약속드린다. 실습서에 포함된 모든 오류와 미비점들은 전적으로 저자의 책임임을 밝힌다.
2015년 5월 함춘문을 바라보며
김 주 한
- 목차 -
서문 iii
Part 1 생명의 정보학: 질병 예측과 개인 유전체 해석
Bioinformatics for Life and Personal Genome Interpretation
Chapter 1 생명의 정보학 3
Bioinformatics for Life
Chapter 2 차세대 시퀀싱 기술과 개인 유전체 시대의 개막 15
Next Generation Sequencing and Personal Genome Data Analysis
Chapter 3 개인 유전체 데이터와 변이 서열의 분석 31
Personal Genome Data Analysis
Chapter 4 개인 유전체 데이터의 해석과 질병 위험률 분석 47
Personal Genome Interpretation and Disease Risk Prediction
Part 2 마이크로어레이를 이용한 유전체 발현 분석
Advanced Microarray Data Analysis
Chapter 5 마이크로어레이 데이터와 유전체 발현 분석의 이해 85
advanced Microarray Data Analysis
Chapter 6 유전체 발현 데이터 분석 101
Gene Expression Data Analysis
Chapter 7 유전자 온톨로지와 생물학적 경로 분석 127
Gene Ontology and Biological Pathway-based Analysis
Chapter 8 Gene-set 분석과 예후아군 예측 141
Gene-set Approaches and Prognostic Subgroup Prediction
Chapter 9 마이크로RNA 발현 분석 163
MicroRNA Data Analysis
Part 3 생명 네트워크와 서열 모티프 및 패스웨이, 온톨로지 분석
Network Biology, Sequence, Pathway and Ontology Informatics
Chapter 10 생명 네트워크와 서열 모티프, 패스웨이 및 온톨로지 분석 177
Network Biology, Sequence, Pathway and Ontology Informatics
Chapter 11 모티브와 조절 서열 분석 191
Motif and Regulatory Sequence Analysis
Chapter 12 생물학적 패스웨이와 유전자 온톨로지 분석 217
Molecular Pathways and Gene Ontology
Chapter 13 생물학적 네트워크 분석 239
Biological Network Analysis
Part 4 유전체 변이와 임상의료 데이터의 통합적 분석
SNPs, GWAS and CNVs, Informatics for Genomic Variants
Chapter 14 인간유전체 다형성 및 유전체 변이 데이터 분석의 이해 257
SNPs, GWAS, CNVs: Informatics for Human Genome Variations
Chapter 15 SNP 데이터 분석 269
SNP Data Analysis
Chapter 16 GWAS 데이터 분석 289
GWAS Data Analysis
Chapter 17 CNV 데이터 분석 303
CNV Data Analysis
Part 5 메타유전체 및 후성유전체 데이터 분석
Metagenome and Epigenome, Basic Data Analysis
Chapter 18 메타유전체와 후성유전체 데이터 분석의 이해 319
Metagenome and Epigenome Data Analysis
Chapter 19 메타유전체 데이터 분석 329
Metagenome Data Analysis
Chapter 20 후성유전체 데이터베이스와 및 분석도구 347
Chapter 21 후성유전체 데이터 분석 359
Epigenome Data Analysis
Appix A R을 이용한 기초 데이터 분석 연습 373
Appix B 유전체 데이터 분석에 사용되는 응용 프로그램 401
설치 안내서
글을 마치며 421
등록된 상품이 없습니다.
사용후기가 없습니다.
상품문의가 없습니다.