
配列解析は、ゲノム(DNA)やタンパク質(アミノ酸)などを表す様々なテキスト配列を分析する幅広い分野である。生物配列解析には、ゲノム構造の決定、タンパク質コード領域(遺伝子)の同定、遺伝子機能の予測、系統関係の推定、祖先配列の再構築などが含まれる (Coghlan, 2011; Hall, 2017)。最近の研究は、ゲノム解析と系統解析により新型コロナウイルスの拡散と進化を追跡できる可能性を示した ([https://nextstrain.org/])。配列解析の手法は、生物学の分野のみにとどまらず、写本の系譜(Barbrook et al, 1998)や音楽の類似性評価 (Savage et al., 2018) などにも使用されてきた。このように、配列データ解析に必要なテキスト処理スキルは、他の分野のデータ解析にも適用できる。
この科目では、配列データの解析に使用される主要なツールとデータベースを紹介し、それらを組み合わせて生物学的な問いに取り組む方法を説明する。解析の例として、公共データベースからのタンパク質やDNA配列の取得、DNA配列の統計解析(長さ、GC含量、連続塩基組成、塩基組成の局所変動)、ペアワイズ配列アラインメント(ドット・プロット、グローバル配列アラインメント、ローカル配列アラインメント)、多重配列アライメント、系統推定などが含まれる。
あらゆる分野の学生が、配列解析手法を応用して、独自の分野(生物学、言語、写本、音楽など)の問題解決に取り組む。