파이썬으로 생물정보학 데이터를 분석하는 법을 배운다. 생물정보학에서 중요한 계산, 즉 뉴클레오티드 빈도 계산, mRNA 번역, DNA 역상보체 구하기, GC함량 계산, DNA의 모티프 찾기, ORF 프레임 찾기 등을 파이썬 코드로 구현하는 방법을 알아본다. 파이썬 코드를 다루면서 결과를 테스트하고, 문서화해서 작성하는 방법까지 살펴본다. 또한, 여러 솔루션을 제시하면서 독자가 직접 계산해볼 수 있게 하고, 여러 방면으로 생각할 수 있게끔 도와준다. 이후 Seqmagique, FASTX, BLAST 등을 소개하며 파이썬 외의 다른 분석법을 소개하며 지식의 범위를 넓혀준다.
Contents
1부. Rosalind.info 챌린지
1장. 테트라뉴클레오타이드 빈도: 빈도수 계산
2장. DNA를 mRNA로 변환: 문자열 변경, 파일 읽기와 쓰기
3장. DNA 역상보체: 문자열 조작
4장. 피보나치 수열 만들기: 알고리듬 작성, 테스트, 벤치마킹하기
5장. GC 함량 계산하기: FASTA 파싱하고 염기 서열 분석하기
6장. 해밍 거리 찾기: 점 돌연변이 계산하기
7장. mRNA를 단백질로 변환하기: 더 많은 함수형 프로그래밍
8장. DNA에서 모티프 찾기: 염기 서열 유사성 탐색하기
9장. 중첩 그래프: 공유 K-mers를 사용한 염기 서열 조립
10장. 가장 긴 공유 부분 염기 서열 찾기: k-mers 찾기, 함수 작성, 이진 탐색 사용
11장. 단백질 모티프 찾기: 데이터 가져오기 및 정규식 사용하기
12장. 단백질에서 mRNA 유추하기: 리스트의 곱셈과 리스트 줄이기
13장. 위치 제한 부위: 코드 사용, 코드 테스트, 코드 공유
14장. 열린 번역 프레임 찾기
2부. 다른 프로그램
15장. Seqmagique: 보고서 생성과 형식 지정
16장. FASTX grep: 염기 서열을 선택하기 위한 유틸리티 프로그램 만들기
17장. DNA 합성기: 마르코프 체인으로 합성 데이터 생성하기
18장. FASTX 샘플러: 염기 서열 파일 무작위 서브샘플링
19장. Blastomatic: 구분된 텍스트 파일 구문 분석
부록 A. make를 사용해서 명령 문서화와 워크플로 생성하기
부록 B. $PATH 이해하고 명령줄 프로그램 설치하기
Author
켄 유엔스 클라크,황태웅
약 25년 동안 프로그래밍을 해왔다. 노스텍사스대학교(University of North Texas)에서 음악으로 시작해서 영문학으로 끝난 방황하는 학부 교육을 받은 후, 직장에서 다양하고 잡다한 언어를 사용해서 프로그래밍을 배웠다. 결국 생물정보학 실험실에 들어갔고, 생물정보학이 전에 했던 프로그래밍들보다 훨씬 더 멋져 보인다고 생각했으며, 그래서 생물정보학을 고수했다. 애리조나 투싼(Tucson)에 살고 있으며, 애리조나대학교(University of Arizona)에서 2019년에 바이오시스템 공학 석사 학위를 취득했다.
약 25년 동안 프로그래밍을 해왔다. 노스텍사스대학교(University of North Texas)에서 음악으로 시작해서 영문학으로 끝난 방황하는 학부 교육을 받은 후, 직장에서 다양하고 잡다한 언어를 사용해서 프로그래밍을 배웠다. 결국 생물정보학 실험실에 들어갔고, 생물정보학이 전에 했던 프로그래밍들보다 훨씬 더 멋져 보인다고 생각했으며, 그래서 생물정보학을 고수했다. 애리조나 투싼(Tucson)에 살고 있으며, 애리조나대학교(University of Arizona)에서 2019년에 바이오시스템 공학 석사 학위를 취득했다.