この授業では、複雑で大規模なデータセットから情報を探索・抽出するためにバイオインフォマティクス研究者が使用するスキルに焦点を当てる。こうしたデータスキルを学ぶことで、どんなバイオインフォマティクス・データでも(どんなフォーマットの、どんなサイズのファイルでも)扱うことができるようになり、生物学的意味を引き出すためにデータの探究を始めることができる。
授業全体を通して、ロバストで再現性のある手法で研究することの重要性を強調する。再現性とは、自分の研究が他の研究者によって追試されて同じ結果が得られることを意味する。そのためには、作業手順を十分に文書化し、コードとデータを全て公開しなければならない。解析ワークフローを別のマシンで実行して異なる結果が得られた場合、それはロバストでも再現可能でもない。このテーマは、講義の中で繰り返し出てくる。
この授業では、表形式のプレーンテキストデータ形式を主に扱う。表(テーブル)データは、データスキルを磨くのに最適である。将来、他のデータを解析することが目標であっても、表形式のデータは学習に役立つ優れたサンプルデータとなる。表形式データを扱うために必要なテキスト処理のスキルを身につけることは、他のデータ型を扱う際にも応用できる。このように、多様な分野の研究に役立つ計算ツールとデータスキルを学ぶことができる。
あらゆる分野の研究者が、バイオインフォマティクス・データスキルを応用して、独自の分野(生物学、言語、音楽、新型コロナウイルス感染症のパンデミックに寄与した社会的経済的要因など)の問題解決に取り組む。