DNA dizisi veya genetik dizi, gerçek veya hayalî bir DNA molekülü veya ipliğinin birincil yapısına karşılık gelen harfler dizisidir.
Bu dizide bulunan harfler A, C, G ve T 'dir, bunlar DNA ipliğinde bulunan adenin, sitozin, guanin ve timin adlı dört bazı temsil eder. Tipik olarak bu diziyi oluşturan harfler birbirine bitişik olarak, aralarda boşluk olmaksızın yazılır, örneğin AAAGTCTGAC gibi; bu dizinin soldan sağa okunuşu 5'-3' doğrultusuna karşılık gelir.
Fonksiyona göre bir DNA dizisine anlamlı veya anti-anlamlı ve kodlayan veya kodlamayan olarak değinilebilir.
Bir DNA molekülünün baz dizisinin okunmasına DNA dizilemesi denir.
Belirsizlik sembolleri
Özel durumlarda bir dizide A, T, C ve G dışında harfler bulunabilir. Bu harfler dizide belirsizlik olduğunu belirtmek için kullanılır. Saf ve Uygulamalı Kimya Uluslararası Birliği (IUPAC)'nin bu amaç için belirlemiş olduğu sembollerin anlamları (ve anımsatıcıları) şöyledir:[1]
Yukarıda belirtilen belirsizlik sembolleri başlıca iki durumda kullanılır:
DNA dizilemesi sırasında bir baz teknik nedenlerden dolayı tam okunamadığı zaman (örneğin ya G ya C olabilirse, 'S' yazılır)
birbirine benzeşen dizilerin ortak yönlerini belirtmek için. Örneğin SREBP adlı transkripsiyon faktörünün bağlandığı dizilerin ortak özelliği TCACNCCAC olarak yazılabilir. Bu örnekteki N harfi o konumda herhangi bir bazın bulunabileceği anlamına gelir. Bir diziler grubununu bu şekilde ifade edilen biçimine dizi motifi denir.
Dizi formatları
DNA dizilerinin biyoenformatik programları tarafından okunması için belli standart formatlar oluşmuştur. Örneğin bunların en yaygını olan FASTA formatında birinci satır bir ">" sembolünü takibeden bir başlık içerir, onu izleyen satırlarda ise DNA dizisi yer alır.[2] Örneğin: