Galaxy (計算生物学)
Galaxy [ 2] は、プログラミング (コンピュータ) やシステムアドミニストレータ 分野が未経験の研究者を対象とした、計算生物学 の理解に役立つデジタルアーカイブ プラットフォームである。[ 3] [ 4] 当初はゲノミクス研究のために開発されたが、現在は主にバイオインフォマティクス ワークフロー 管理システムとして使用されている。[ 5]
機能
科学的なワークフローシステムであり、レシピのように多段階計算解析を構築するため、通常操作するデータ、実行する手順、グラフィカルユーザーインターフェイス[ 6] などを表示する。
生物学データのためのデータ統合プラットフォームであり、UCSC Genome Browser、BioMart、InterMineなどのオンラインリソースから直接、利用コンピュータからのデータアップロードをURLでサポートしている。幅広く使用されているさまざまな生物学的データフォーマットとそのフォーマット間の変換に対応し、多くのテキスト操作ユーティリティにWebインターフェイスを提供しており、研究者はプログラミングを行うことなく独自の再フォーマットや操作を行える。多くの生物学的ファイルフォーマットは、ゲノム間隔データ(参照フレーム、例えば染色体 またはコンティグ 名、開始や停止位置)を含み、これらのデータを統合できる。
生物学的データ分析、特にゲノミクス用途で開発され、利用可能なツールセットは長年にわたって大幅に拡張された。生命科学分野での遺伝子発現 、配列アセンブリング 、プロテオーム解析 、トランスクリプトーム や他の分野でも活用されている。 プラットフォーム自体は理論上あらゆる科学分野に適用することができ、実際に、画像解析[ 7] 、計算化学[ 8] 、薬物設計[ 9] 、宇宙論、気候モデリング、社会科学[ 10] 、言語学のためのサーバが存在する。
目標
アクセシビリティ
複雑なワークフロー構築を単純なユーザーインターフェイス[ 6] で実現している。これにより、典型的な解析を比較的簡単に作成できるが、ループ構造などの複雑なワークフローの作成は難しい。(ループをサポートするデータ駆動ワークフローシステムの例については、Apache Tavernaを参照。[ 11] )
再現性
科学的結果が公表されるとき、出版物は他の人が実験を繰り返して同じ結果を得るのに十分な情報を含むべきであり、実験分野から計算過程分野にまで拡大するための多くの努力がなされてきたが、当初の期待より困難であることが判明した。[ 12]
Galaxyでは、計算分析であらゆる段階についての十分な情報を取得することで再現性をサポートしているため、分析を正確に繰り返せる。その為には、すべての初期条件、過程、および最終データセットのほか、提供されるパラメータ、および分析の各段階の順序の追跡が求められる。
透明性
研究者がGalaxy Objectsのいずれかを公開したり、特定の個人と共有することで、科学研究の透明性をサポートしている。 共有内容は詳細に調査し、自由に再実行し、仮説検証のためにコピーして修正できる。
実装
Pythonで実装されたオープンソースソフトウェアであり、ペンシルバニア州立大学 、ジョンズ・ホプキンズ大学 、オレゴン健康科学大学 、Galaxy開発チーム[ 13] によって開発された。[ 14]
拡張性があり、新しいコマンドラインツールをGalaxy ToolShed内で統合して共有できる。[ 15]
拡張例としては、質量分析法 ベースのプロテオミクスのためのデータ解析プラットフォームとしてカスタマイズされた、 University of Minnesota Supercomputing Instituteの Galaxy-Pがある。[ 16]
コミュニティ
オープンソースプロジェクトであり、コミュニティには利用者、開発者、ツール開発者が含まれる。メーリングリスト、[ 17] コミュニティハブ、[ 18] 年次会議がある。[ 19]
脚注
^ https://galaxyproject.org/admin/license/
^ Afgan, E.; Baker, D.; van den Beek, M.; Blankenberg, D.; Bouvier, D.; Čech, M.; Chilton, J.; Clements, D.; Coraor, N.; Eberhard, C.; Grüning, B.; Guerler, A.; Hillman-Jackson, J.; Von Kuster, G.; Rasche, E.; Soranzo, N.; Turaga, N.; Taylor, J.; Nekrutenko, A.; Goecks, J. (8 July 2016). "The Galaxy platform for accessible, reproducible and collaborative biomedical analyses: 2016 update" . Nucleic Acids Research . 44 (W1): W3–W10. doi :10.1093/nar/gkw343 . PMC 4987906 . PMID 27137889 。
^ Blankenberg, D.; Taylor, J.; Nekrutenko, A.; The Galaxy, T. (2011). “Making whole genome multiple alignments usable for biologists” . Bioinformatics 27 (17): 2426–8. doi :10.1093/bioinformatics/btr398 . PMC 3157923 . PMID 21775304 . https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3157923/ .
^ Blankenberg, D.; Taylor, J.; Schenck, I.; He, J.; Zhang, Y.; Ghent, M.; Veeraraghavan, N.; Albert, I. et al. (2007). “A framework for collaborative analysis of ENCODE data: Making large-scale analyses biologist-friendly” . Genome Research 17 (6): 960–964. doi :10.1101/gr.5578007 . PMC 1891355 . PMID 17568012 . https://www.ncbi.nlm.nih.gov/pmc/articles/PMC1891355/ .
^ https://galaxyproject.org/public-galaxy-servers
^ a b Schatz, M. C. (2010). “The missing graphical user interface for genomics” . Genome Biology 11 (8): 128–201. doi :10.1186/gb-2010-11-8-128 . PMC 2945776 . PMID 20804568 . https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2945776/ .
^ http://cloudimaging.net.au/
^ Hildebrandt, A. K.; Stöckel, D; Fischer, N. M.; de la Garza, L; Krüger, J; Nickels, S; Röttig, M; Schärfe, C et al. (2014). “Ballaxy: Web services for structural bioinformatics”. Bioinformatics 31 : 121–2. doi :10.1093/bioinformatics/btu574 . PMID 25183489 .
^ http://osddlinux.osdd.net:8001/
^ http://socscicompute.ss.uci.edu/
^ “Looping ”. The Taverna Knowledge Blog . knowledgeblog.org (2010年12月13日). 28 January 2015 閲覧。
^ Ioannidis, J. P. A.; Allison, D. B.; Ball, C. A.; Coulibaly, I.; Cui, X.; Culhane, A. N. C.; Falchi, M.; Furlanello, C. et al. (2008). “Repeatability of published microarray gene expression analyses”. Nature Genetics 41 (2): 149–155. doi :10.1038/ng.295 . PMID 19174838 .
^ https://galaxyproject.org/galaxy-team
^ Lazarus, R.; Taylor, J.; Qiu, W.; Nekrutenko, A. (2008). “Toward the commoditization of translational genomic research: Design and implementation features of the Galaxy genomic workbench” . Summit on translational bioinformatics 2008 : 56–60. PMC 3041519 . PMID 21347127 . https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3041519/ .
^ Blankenberg, Daniel; Von Kuster, Gregory; Bouvier, Emil; Baker, Dannon; Afgan, Enis; Stoler, Nicholas; Taylor, James; Nekrutenko, Anton (2014). “Dissemination of scientific software with Galaxy ToolShed”. Genome Biology 15 (2): 403. doi :10.1186/gb4161 . PMID 25001293 .
^ Sheynkman, GM; Johnson, JE; Jagtap, PD; Shortreed, MR; Onsongo, G; Frey, BL; Griffin, TJ; Smith, LM (22 August 2014). “Using Galaxy-P to leverage RNA-Seq for the discovery of novel protein variations.”. BMC Genomics 15 (703). doi :10.1186/1471-2164-15-703 . PMID 25149441 .
^ https://galaxyproject.org/mailing-lists
^ https://galaxyproject.org/
^ https://galaxyproject.org/events