Pangkalan data biologi ialah pustaka sains biologi yang dikumpulkan daripada eksperimen saintifik, kesusasteraan yang diterbitkan, teknologi percubaan berkemampuan tinggi, dan analisis komputasi. Ia mengandungi maklumat daripada bidang penyelidikan termasuk genomik, proteomik, metabolomik, ekspresi gen mikroarai dan filogenetik.[2] Maklumat yang terkandung dalam pangkalan data biologi termasuk fungsi gen, struktur, penyetempatan (kedua-dua selular dan kromosom), kesan klinikal mutasi serta persamaan jujukan dan struktur biologi.
Pangkalan data biologi boleh diklasifikasikan mengikut jenis data yang mereka kumpulkan (lihat di bawah). Secara umumnya, terdapat pangkalan data molekul (jujukan, molekul, dll.), pangkalan data kefungsian (fisiologi, aktiviti enzim, fenotip, ekologi, dll.), pangkalan data taksonomi (spesies dan pangkat taksonomi lain), imej atau media lain, atau spesimen (untuk koleksi muzium dsb.)
Pangkalan data ialah alat penting dalam membantu saintis menganalisis dan menerangkan pelbagai fenomena biologi daripada struktur biomolekul dan interaksinya, kepada keseluruhan metabolisme organisma dan memahami evolusispesies. Pengetahuan ini membantu memudahkan memerangi penyakit, membantu dalam pembangunan ubat-ubatan, meramalkan penyakit genetik tertentu dan dalam menemui hubungan asas antara spesies dalam sejarah kehidupan.
Kebanyakan pangkalan data biologi boleh didapati melalui laman web yang menyusun data supaya pengguna boleh menyemak imbas data dalam talian. Selain itu, data asas biasanya tersedia untuk dimuat turun dalam pelbagai format. Data biologi datang dalam pelbagai format. Format ini termasuk teks, data jujukan, struktur protein dan pautan. Setiap satu daripada ini boleh didapati daripada sumber tertentu, contohnya:
Data jujukan disediakan oleh GenBank bagi DNA, dan UniProt bagi protein.
Struktur protein disediakan oleh PDB, SCOP dan CATH.
Masalah dan cabaran
Pengetahuan biologi diedarkan sesama pangkalan data yang tidak terkira banyaknya. Ini kadangkala menyukarkan untuk memastikan konsistensi maklumat, contohnya apabila nama yang berbeza digunakan bagi spesies yang sama atau format data yang berbeza. Akibatnya, kebolehoperasian menjadi cabaran berterusan untuk pertukaran maklumat. Sebagai contoh, jika pangkalan data jujukan DNA menyimpan jujukan DNA berdasarkan nama spesies, pertukaran nama spesies itu boleh memutuskan pautan ke pangkalan data lain yang mungkin menggunakan nama lain. Bioinformasi bersepadu ialah satu bidang yang cuba menangani masalah ini dengan menyediakan akses bersatu. Satu penyelesaian ialah bagaimana pangkalan data biologi merujuk silang kepada pangkalan data lain dengan nombor penyertaan untuk menghubungkan pengetahuan berkaitan mereka bersama-sama (cth., supaya nombor penyertaan kekal sama walaupun nama spesies berubah). Pelewahan ialah satu lagi masalah kerana banyak pangkalan data mesti menyimpan maklumat yang sama sepertipangkalan data struktur protein dengan jujukan protein yang berada di bawahnya dan maklumat bibliografinya.
Banyak pangkalan data cuba mendokumentasikan kepelbagaian hidupan di bumi. Contoh yang menonjol ialah Catalogue of Life, pertama kali dicipta pada tahun 2001 oleh Species 2000 dan Sistem Maklumat Taksonomi Bersepadu.[6] Katalog Kehidupan ialah projek kerjasama yang bertujuan untuk mendokumentasikan pengelasan taksonomi semua spesies yang diterima pakai di dunia pada masa ini.[7] Katalog Kehidupan menyediakan pangkalan data yang bersepadu dan konsisten untuk rujukan penyelidik dan pembuat dasar. Katalog Kehidupan menyusun set data terkini daripada sumber lain seperti Pangkalan Data Konifer, ICTV MSL (virus) dan LepIndex (untuk rama-rama dan kupu-kupu). Secara keseluruhan, Katalog Kehidupan diperoleh daripada 165 pangkalan data setakat Mei 2022.[8] Kos operasi Katalog Kehidupan dibayar oleh Kemudahan Maklumat Biodiversiti Global, Tinjauan Sejarah Alam Illinois, Pusat Biodiversiti Naturalis dan Institusi Smithson.[9]
Sesetengah pangkalan data biologi juga mendokumenkan pengedaran geografi spesies yang berbeza. Shuang Dai et al. mencipta pangkalan data berbilang sumber baharu untuk mendokumenkan pengedaran spatial/geografi bagi 1,371 spesies burung di China kerana pangkalan data sedia ada kekurangan data pengedaran ruangan bagi banyak spesies.[10] Sumber pangkalan data baharu ini termasuk buku, kesusasteraan, penjejakan GPS dan data halaman web dalam talian. Pangkalan data baharu memaparkan taksonomi, pengedaran, maklumat spesies dan sumber data untuk setiap spesies. Selepas melengkapkan pangkalan data pengedaran spatial burung, didapati bahawa 61% spesies yang diketahui di China didapati bertaburan di kawasan di luar tempat mereka diketahui sebelum ini.[11]
Pangkalan data perubatan
Pangkalan data perubatan ialah kes khas sumber data bioperubatan dan boleh terdiri daripada bibliografi seperti PubMed, kepada pangkalan data imej pembangunan perisian diagnostik berasaskan AI. Sebagai contoh, satu pangkalan data imej sedemikian telah dibangunkan dengan matlamat untuk membantu dalam pembangunan algoritma pemantauan luka.[13] Lebih 188 set imej berbilang modal telah dipilih susun daripada 79 lawatan pesakit yang terdiri daripada gambar, imej haba dan peta kedalaman jaringan 3D. Garis besar luka dilukis secara manual dan ditambahkan pada set data foto.[14] Pangkalan data telah tersedia secara umum dalam bentuk program yang dipanggil WoundsDB, dan boleh dimuat turun dari tapak web Pangkalan Data Luka Kronik.
Koleksi pangkalan data
Sumber penting untuk mencari pangkalan data biologi ialah terbitan tahunan jurnal Nucleic Acids Research (NAR). Isu pangkalan data NAR tersedia secara percuma, dan mengelaskan banyak pangkalan data biologi awam. Pangkalan data rakan kepada isu ini, dipanggil Koleksi Pangkalan Data Biologi Molekul Dalam Talian, menyenaraikan 1,380 pangkalan data dalam talian.[15] Koleksi pangkalan data lain wujud seperti MetaBase dan Koleksi Pautan Bioinformatik.[16][17]