配列解析は、ゲノム(DNA)やタンパク質(アミノ酸)などを表す様々なテキスト配列を分析する幅広い分野である。生物配列解析には、ゲノム構造の決定、タンパク質コード領域(遺伝子)の同定、遺伝子機能の予測、系統関係の推定、祖先配列の再構築などが含まれる (Coghlan, 2011; Hall, 2017)。最近の研究は、ゲノム解析と系統解析により新型コロナウイルスの拡散と進化を追跡できる可能性を示した ([https://nextstrain.org/])。配列解析の手法は、生物学の分野のみにとどまらず、写本の系譜(Barbrook et al, 1998)や音楽の類似性評価 (Savage et al., 2018) などにも使用されてきた。このように、配列データ解析に必要なテキスト処理スキルは、他の分野のデータ解析にも適用できる。
この科目では、配列データの解析に使用される主要なツールとデータベースを紹介し、それらを組み合わせて生物学的な問いに取り組む方法を説明する。解析の例として、公共データベースからのタンパク質やDNA配列の取得、DNA配列の統計解析(長さ、GC含量、連続塩基組成、塩基組成の局所変動)、ペアワイズ配列アラインメント(ドット・プロット、グローバル配列アラインメント、ローカル配列アラインメント)、多重配列アライメント、系統推定などが含まれる。
あらゆる分野の学生が、配列解析手法を応用して、独自の分野(生物学、言語、写本、音楽など)の問題解決に取り組む。
Sequence analysis is a broad field, covering any kinds of analyses of textual sequences; e.g. those representing genomes (DNA) and proteins (amino acids). The biological sequence analyses include determining genome structures, identifying protein-coding regions (genes), predicting gene function, inferring phylogenetic relationships, and ancestral reconstruction (Coghlan, 2011; Hall, 2017). Recent studies showed that genomics and phylogenetics can track spread and evolution of novel coronavirus ([https://nextstrain.org/]). The sequence analysis methods have been used not only in the field of biology, but also in genealogy of manuscripts (Barbrook et al., 1998) and quantitative evaluation of melodic similarity (Savage et al., 2018). Thus, text-processing skills necessary to analyze sequence data can be applied to the analysis of data in other fields.
This course will provide the introduction to the main tools and databases used in the analysis of sequence data and explains how these can be used together to answer biological questions. Examples of analysis include retrieving DNA and protein sequences from public databases, DNA sequence statistics (length, GC content, DNA words, and local variation in base composition), pairwise sequence alignment (dotplot, global sequence alignment, and local sequence alignment), multiple sequence alignment, and phylogenetic inference, etc.
Students from all disciplines will use the sequence analysis methods to tackle problems in their fields (biology, language, manuscript, music, etc.).