Görüntü alma sistemi, geniş bir dijital görüntü veritabanından görüntülere göz atmak, aramak ve almak için kullanılan bir bilgisayar sistemidir. Görüntü almanın en geleneksel ve yaygın yöntemleri, görüntülere resim yazısı, anahtar sözcükler, başlık veya açıklamalar gibi meta veriler eklemeye yönelik bazı yöntemleri kullanır, böylece erişim açıklama sözcükleri üzerinden gerçekleştirilebilir. Görüntüye manuel açıklama eklemek zaman alıcı, zahmetli ve pahalıdır; Bu sorunu çözmek için otomatik görüntü açıklaması üzerine çok sayıda araştırma yapılmıştır. Ek olarak, sosyal web uygulamalarının ve anlamsal webin artması, birçok web tabanlı görsel açıklama aracının geliştirilmesine ilham kaynağı olmuştur.
İlk mikrobilgisayar tabanlı görüntü veritabanı erişim sistemi 1990'larda Banireddy Prasaad, Amar Gupta, Hoo-min Toong ve Stuart Madnick tarafından MIT'de geliştirildi.[1]
2008 tarihli bir anket makalesi, 2007'den sonraki ilerlemeleri belgeledi.[2]
2021 yılı sonrasındaki tüm görüntü alma sistemleri, 3D görüntüler için değil, 2D görüntüler için tasarlandı.
İçerik tabanlı görüntü alma
Görüntü benzerliği, iki farklı görüntü arasındaki görsel benzerliği ölçmeyi amaçlayan bir kavramdır. Bu metrik, içerik ve özellik bakımından hedef görsele benzeyen diğer görsellere yüksek benzerlik değerleri, farklı görsellere ise düşük benzerlik değerleri vermelidir. Hedef ve aday görüntüler, görüntü sınıflandırma uygulamalarından farklı olarak aynı sınıf etiketiyle değil, farklı niteliklerle karşılaştırılır. Kullanılan teknikler, araçlar ve algoritmalar istatistik, örüntü tanıma, sinyal işleme ve bilgisayarlı görme gibi alanlardan kaynaklanmaktadır.
Büyük bir görüntü veritabanından görüntülere otomatik olarak erişim için farklı yöntemler uzun zamandır tanıtılmaktadır. Tüm yöntemler renk, şekil ve doku gibi görüntü özelliklerine dayanır.
İçerik tabanlı görüntü alma sistemleri iki aşamadan oluşu:
Özellik Çıkarma: Bir ayırt edilebilir dereceye kadar görüntü özellikleri elde edilmektedir.
Eşleştirme: Görsel olarak benzer bir sonucu elde etmek için bu özellikleri eşleştirmeyi gerektirir.
Görüntü Sorgulama Teknikleri
Metin tabanlı sorgulama: Kullanıcı tarafından tanımlanan anahtar kelimelerle sorgulama yapılıyor.
Çizime dayalı sorgulama: Kullanıcıya Şekil ortamlarına benzer bir ortam hazırlanıyor ve kullanıcı istediği resmi çizip istediği renklere boyayabilir ve bu çizimle sorgulama yapıyor.
Renk dayalı sorgulama: Bu tür sorgulamada kullanıcı için sadece renk önemlidir ve kullanıcılara manuel olarak renk yüzdesini, görüntünün ortaya çıkma mekaniği ve renk değerlerinin dağılımının öngörülmesi için izin verilir.
Semptomlara (işaret) dayalı sorgulama: Kullanıcılara üst düzey anlamsal semptomlar seçimine izin verilir. Semptomların her biri bir dizi ve belirli kavramlara ile ilişkililer.
Model tabanlı sorgulama: Kullanıcı yapılandırılmış sorgu dilinebenzer uzaysal, SQL, ISQL, QL ve PROBE gibi dilleri istenilen görüntüleri aramak için kullanır.
Metin Tabanlı Görüntü Alma
Metin tabanlı görüntü alma (TBIR) yöntemlerinde uzmanlar, coğrafi konum, anahtar kelimeler, etiketler, etiketler veya kısa açıklamalar kullanarak görüntülere manuel olarak açıklama ekler. Kullanıcılar, veritabanında bulunan benzer görselleri almak için anahtar sözcükleri, açıklamaları veya açıklamaları kullanabilir.
Kullanıcı arama terimi olarak metin veya açıklama belirttiğinde TBIR, benzer metin etiketlerine sahip görselleri döndürecektir.Bu yöntem basit ve sezgiseldir ancak bazı eksiklikleri de vardır. İlk olarak, görüntülere manuel olarak açıklama eklemek çok zaman aldığı için yoğun emek gerektirir. Ek olarak, etiketler insanların algılarına ve yorumlarına dayandığı için güvenilmez olabilir ve bunlar gruplar arasında büyük farklılıklar gösterebilir. Bu sorunları çözmek için CBIR, görüntülerin görsel içeriğini doğrudan karşılaştırır. Bu, insan emeğine olan ihtiyacı ve onların subjektif, hataya açık algılarını ortadan kaldırır. [8]
CBIR (Görsel Tabanlı)
TBIR (Metin Tabanlı)
Avantajlar
- Doğrudan görsel içeriği kullanır.
- Metin verileriyle daha fazla bilgiye erişir.
- Görsel benzerlikleri daha doğrudan yakalar.
- Çeşitli dil işleme tekniklerinden faydalanabilir.
- Daha az insan müdahalesi gerektirir.
- Anahtar kelimeler, etiketlerle esnek arama sağlar.
Dezavantajlar
- İçerik ve anlam arasındaki boşluğu doldurmak zor olabilir.
- Metin analizi hatalı veya eksik olabilir.
- Anlam karmaşıklığına dayalı hassasiyet sorunu.
- Görsel içeriğin tüm yönlerini kapsamayabilir.
- Görsel içeriği tam olarak anlamak zor olabilir.
- İnsan dilinin nüanslarından dolayı zorluklar.
Arama yöntemleri
Görsel arama, görselleri bulmak için kullanılan özel bir veri aramasıdır. Görselleri aramak için, kullanıcı anahtar kelime, görsel dosyası/bağlantısı gibi sorgu terimlerini sağlayabilir veya bir görsele tıklayabilir ve sistem, sorguya "benzer" görseller döndürecektir. Arama kriterleri için kullanılan benzerlikler; meta etiketler, görsellerdeki renk dağılımı, bölge/şekil nitelikleri vb. olabilir.
Resim meta araması - anahtar kelimeler, metin vb. gibi ilişkili meta verilere dayalı olarak görsellerin aranması.
İçerik tabanlı görüntü alımı (CBIR) - bilgisayarlı görmenin görüntü alımına uygulanması. CBIR, metinsel açıklamaların kullanılmasından kaçınmayı amaçlar ve bunun yerine, içeriklerindeki benzerliklere (dokular, renkler, şekiller vb.) dayalı olarak görüntüleri kullanıcı tarafından sağlanan bir sorgu görüntüsüne veya kullanıcı tarafından belirlenen görüntü özelliklerine göre alır.
CBIR Motorlarının Listesi - renk, doku, şekil/nesne vb. gibi görsellere dayalı görsel içerikleri arayan motorların listesi.
Görüntü koleksiyonu keşfi - yeni keşif paradigmalarının kullanımına dayalı görsellerin aranması.[3]
CBIR'in farklı sorgulama teknikleri ve uygulamaları, farklı türdeki kullanıcı sorgularını kullanır.
CBIR teknikleri
Örnekle sorgula
QBE (Sorgulama Örneği örneği ), CBIR sistemine daha sonra aramasını temel alacağı örnek bir görüntü sağlamayı içeren bir sorgulama tekniğidir. Temel arama algoritmaları uygulamaya bağlı olarak değişiklik gösterebilir ancak sonuç görsellerinin tümü, verilen örnekle ortak unsurları paylaşmalıdır.
Sisteme örnek görseller sağlama seçenekleri şunları içerir:
Önceden var olan bir görüntü kullanıcı tarafından sağlanabilir veya rastgele bir gruptan seçilebilir.
Kullanıcı, örneğin renk damlaları veya genel şekillerle, aradığı görüntünün kabaca bir yaklaşıkını çizer.
Bu sorgulama tekniği görselleri kelimelerle anlatmaya çalışırken ortaya çıkabilecek zorlukları ortadan kaldırır.
Anlamsal erişim
Anlamsal erişim, kullanıcının "Abraham Lincoln'ün fotoğraflarını bul" gibi bir istekte bulunmasıyla başlar. Bu tür açık uçlu görevleri bilgisayarların gerçekleştirmesi çok zordur; Lincoln her zaman kameraya dönük olmayabilir veya aynı pozda olmayabilir . Bu nedenle çoğu CBIR sistemi genellikle doku, renk ve şekil gibi daha düşük seviyeli özelliklerden yararlanır. Bu özellikler, kriterlerin daha kolay girilmesine olanak tanıyan arayüzlerle veya özellikleri (yüzler, parmak izleri veya şekil eşleştirme gibi) eşleştirmek üzere önceden eğitilmiş veritabanlarıyla birlikte kullanılır. Ancak genel olarak görüntü erişimi, daha üst düzey kavramları tanımlamak için insan geri bildirimini gerektirir.
Uygunluk geri bildirimi (insan etkileşimi)
Çok çeşitli potansiyel kullanıcılarla mevcut CBIR arama tekniklerini ve onların niyetlerini birleştirmek zor bir iş olabilir. CBIR'i başarılı kılmanın bir yönü tamamen kullanıcının amacını anlama yeteneğine dayanır. CBIR sistemleri, kullanıcının sonuçlardaki görselleri arama sorgusuyla "ilgili", "ilgili değil" veya "nötr" olarak işaretleyerek arama sonuçlarını aşamalı olarak iyileştirdiği ve ardından aramayı şu şekilde tekrarladığı alaka geri bildiriminden yararlanabilir: yeni bilgiler. Bu tip arayüzün örnekleri geliştirilmiştir.
Yinelemeli/makine öğrenimi
CBIR'de makine öğrenimi ve yinelemeli tekniklerin uygulanması daha yaygın hale geliyor.
Diğer sorgu yöntemleri
Diğer sorgulama yöntemleri arasında örnek görsellere göz atma, özelleştirilmiş/hiyerarşik kategorilerde gezinme, görsel bölgesine göre sorgulama (görüntünün tamamı yerine), birden fazla örnek görsele göre sorgulama, görsel çizime göre sorgulama, görsel özelliklerinin doğrudan belirtilmesine göre sorgulama ve çok modlu sorgular yer alır; örneğin dokunma, ses vb. birleştirilmesi)
Veri kapsamı
Görsel arama sistemi tasarımının karmaşıklığını belirlemek için görsel verilerinin kapsamını ve doğasını anlamak çok önemlidir. Tasarım aynı zamanda kullanıcı tabanının çeşitliliği ve bir arama sistemi için beklenen kullanıcı trafiği gibi faktörlerden de büyük ölçüde etkilenir. Bu boyuta göre arama verileri aşağıdaki kategorilere göre sınıflandırılabilir:
Arşivler - genellikle belirli homojen konulara ilişkin büyük hacimli yapılandırılmış veya yarı yapılandırılmış veriler içerir.
Etki Alanına Özel Koleksiyon - Bu, çok özel hedeflere sahip kontrollü kullanıcılara erişim sağlayan homojen bir koleksiyondur. Böyle bir koleksiyonun örnekleri biyomedikal ve uydu görüntüsü veritabanlarıdır.
Kurumsal Koleksiyon - bir kuruluşun intranetindeki kullanıcıların erişebildiği heterojen görsel koleksiyonu. Resimler birçok farklı yerde saklanabilir
Kişisel Koleksiyon - genellikle büyük ölçüde homojen bir koleksiyondan oluşur ve genellikle küçük boyuttadır, öncelikli olarak sahibi tarafından erişilebilir ve genellikle yerel bir depolama ortamında depolanır.
Günümüzde Kullanım Alanları
Günümüzde teşhis amaçlı olarak artık birçok hastanede görüntüleme cihazı ve bu cihazlardan alınan farklı görüntüler bulunmakta ve farklı şekilde depolanmaktadır. Bu görüntüler genelde röntgen, CT, MRI, Ultrasound görüntüleridir. Bu görüntülerin büyük çoğunluğu değişik formatta olmalarında rağmen durağan görüntülerdir. Tıbbi Görüntü (TGA) oluşturulmasının asıl amacı, bilgisayar ortamında hastalara ait görüntüleri saklamak ve bu görüntüler üzerinde sorgulama yapmak, istenildiğinde geri getirmek ve kullanıcının istediği şekilde sunulabilmesidir. Görüntülerin kaynaklarının ve formatlarının Tıbbi Görüntü Arşivi (TGA) oluşturma açısından önemli değildir. Netice itibari TGA açısından ilgilenilen, kaynakları ya da formatlarındansa içerdikleri özellikler açısından bir birlerinden ayırt edilebilmesidir.[4]
Halen tıbbi alanda kullanılan görüntü arşivleme sistemleri (PACS), içerdikleri META bilgileri sayesinde ilgili görüntülere erişimi sağlar. Bu bilgiler DICOM standardı kullanılarak görüntü ile beraber saklanmaktadır. Saklanan META bilgileri genelde görüntünün elde edildiği tarih, hasta bilgileri ve dosya numarası gibi dışarıdan bir operatörün belirlediği bilgilerdir. Bu bilgiler içerisinde görüntünün kendi özellikleri ile ilgili herhangi bir bilgi mevcut değildir.
İçerik tabanlı görüntü erişim sistemleri, görüntüyü tanımlamak için görsel tanılayıcılar kullanır. Bu tanımlayıcılar renk, doku ve şekil olmak üzere üç temel grupta toplanabilir.
Her doku, çok boyutlu öznitelik alanında bir noktayı gösteren özelliklerin öznitelik vektörü ile betimlenir. İstatistiksel yaklaşımlar, konumsal alan metotlarını, sinyal işleme metotlarını ve model tabanlı metotları kapsar. Konumsal alan metotlarında öznitelikler, özellikle ikinci sıra istatistiklerden elde edilir, çünkü insanlar ikinci sıradaki istatistiklere karşı daha duyarlıdır. Bu tür istatistiklerin örnekleri, gri seviye eş oluşum matrisi ve gri seviye varyans matrisidir. Gri seviye dizi uzunluğu, Fourier güç spektrumu ve otokorelasyon işlevi gibi daha yüksek düzeydeki istatistikler de ölçülebilir.
Gri Seviye Eş Oluşum Matrisi(GLCM) - M. Haralick tarafından önerilen gri seviye eş oluşum matrisi, dokunun uzaysal anlamda yönlü olarak gri seviye bağımlılığını açıklamanın bir ölçüsüdür.
Gri Seviye Dizi Uzunluk Matrisi (GLRLM) - Gri seviye dizi uzunluk metodu, farklı uzunlukların gri seviye sayılarının hesaplanmasına dayanır. Bir gri seviye uzunluğu, aynı gri seviye değerine sahip doğrusal bir komşu resim noktaları dizisidir. Gri seviye dizi uzunluğu içindeki resim noktalarının sayısıdır.
Çok sayıda aynı gri seviyedeki komşu pikseller, kaba bir dokuyu temsil eder; bu piksellerin azı da ince dokuyu betimler. Farklı yönlerdeki doku ilkellerinin uzunlukları, doku tanımı olarak işe yarar. Bir doku ilkeli, bir çizgide yer alan sabit gri seviye piksellerinin maksimum yakın olan dizisidir. Bunlar daha sonra gri seviye, uzunluk ve yön ifadeleri ile tanımlanabilir. Doku tanımlama öznitelikleri, uzunluğun yakın olasılıklarının hesaplanmasına ve dokudaki ilkellerin gri seviyesine dayanabilir.
Öznitelikleri:
Short Run Emphasis (SRE)
Long Run Emphasis (LRE)
Gray-Level Nonuniformity (GLN)
Run Length Nonuniformity (RLN)
Run Percentage (RP)
Low Gray-Level Run Emphasis (LGRE)
Öklid Uzaklığı - .Öklid uzaklık formülü en yaygın olarak kullanılan uzaklık hesaplama formülüdür. Genelde özellik vektörlerinin elde edilmesinden sonra benzerlik miktarını bulmada Öklid uzaklığı kullanılır. Öklid uzaklığı ve Öklid uzaklığının karesi formülleri ile standartlaştırılmış verilerle değil, işlenmemiş verilerle hesaplama yapılır. Öklid uzaklıkları kümeleme analizine sıra dışı olabilecek yeni nesnelerin eklenmesinden etkilenmezler. Ancak boyutlar arasındaki ölçek farklılıkları Öklid uzaklıklarını önemli ölçüde etkilemektedir.
KNN(K Nearest Neighbor) - Sistem, öncelikle tüm özellikler için eşit ağırlıklar kullanarak en yakın K komşuyu alır. Kullanıcı daha sonra alınan görsellerden hangilerinin alakalı olduğunu, hangilerinin olmadığını işaretler. Ağırlıklar daha sonra olasılıksal bir model kullanılarak göreceli ilgi temelinde yeniden hesaplanır.[6]
COIR (İçerik Odaklı Görüntü Alma) - COIR, genellikle önceden tanımlanmış bir örüntü veya nesneyle eşleşen pikselleri veya özellikleri tespit etmek için kullanılır. Örneğin, bir güvenlik kamerası sistemi, COIR kullanarak belirli bir kişinin yüzünü algılayabilir veya bir trafik kamerası, COIR kullanarak araç plakalarını tanımlayabilir. Bu teknik, nesne tanıma, yüz tanıma, plaka tanıma gibi birçok uygulamada kullanılabilir ve genellikle yapay zeka ve makine öğrenimi teknikleriyle birlikte kullanılır.[7]
Değerlendirmeler
Görüntü alma sistemlerine yönelik, bu tür sistemlerin performansını araştırmayı ve iyileştirmeyi amaçlayan değerlendirme atölyeleri bulunmaktadır. Bu atölyeler, araştırmacıların görüntü işleme ve benzeri alanlardaki çalışmalarını paylaşmalarına ve birbirlerinin yöntemlerini karşılaştırmalarına olanak tanır.
ImageCLEF - Görüntü ve metin alma sistemlerinin performansını değerlendirmek için düzenlenen bir forumdur. Hem metin hem de saf görüntü alma yöntemlerini kullanarak sistemleri değerlendiren Çapraz Dil Değerlendirme Forumunun devam eden bir yolu. Katılımcılar, farklı görevlerde (örneğin, görüntü sınıflandırma, nesne tanıma, metinle ilişkilendirme vb.) sistemlerini test ederler ve sonuçlarını paylaşırlar.[8]
Görüntü ve Video Kitaplıklarına İçerik Tabanlı Erişim - 1998'den 2001'e kadar devam eden bir dizi IEEE çalıştayıdır. Bu çalıştaylar, içerik tabanlı erişim yöntemlerinin (örneğin, içerik tabanlı görüntü ve video arama) performansını değerlendirmek için düzenlenmiştir. Katılımcılar, farklı içerik tabanlı erişim tekniklerini karşılaştırır ve iyileştirmeye yönelik önerilerde bulunurlar.[9]
PASCAL Visual Studio Object Classes (VOC) Challenge - 2005 yılından 2012 yılına kadar düzenlenen bu yarışma, nesne tanıma alanında performansı değerlendirmek için yapılmıştır. Katılımcılar, belirli nesne sınıflarını içeren görüntüler üzerinde nesneleri tanıma ve sınıflandırma yeteneklerini test ederler.
ImageNet Large Scale Visual Recognition Challenge (ILSVRC) - 2010 yılında başlayan ve 2017'de sona eren bu yarışma, geniş ölçekli görüntü tanıma problemlerini ele almıştır. Katılımcılar, verilen görüntüler üzerinde binlerce farklı nesneyi tanıma ve sınıflandırma yeteneklerini test ederler.
MICCAI Grand Challenge on Image Segmentation - Tıbbi görüntüleme alanında kullanılan görüntü segmentasyonu yöntemlerini değerlendirmek için düzenlenen bu yarışma, özellikle MR ve CT görüntülerindeki anatomik yapıları tanıma ve segmentasyon konularında çalışmaları teşvik eder.
CVPR Workshop on Benchmarking Progress in Visual Question Answering - Görüntü ve metin arasındaki ilişkiyi değerlendirmek için düzenlenen bu çalıştay, görsel soru-cevap sistemlerinin performansını test etmek için kullanılan veri kümelerini ve metrikleri ele alır.
Bu tür atölye ve çalıştaylar, araştırmacıların yeni yöntemler geliştirmelerine, mevcut yöntemleri karşılaştırmalarına ve daha geniş bir topluluğa çalışmalarını sunmalarına olanak tanır. Ayrıca, bu etkinlikler, görüntü alma sistemlerinin pratik uygulamalara yönelik olarak geliştirilmesine de katkıda bulunabilirler.
Image-Net.org : ImageNet, büyük ölçekli bir görüntü veritabanı ve görüntü tanıma için bir veri kümesidir. Bilgisayar bilimleri ve yapay zeka araştırmacılarının derin öğrenme modellerini eğitmek ve değerlendirmek için kullandığı önemli bir kaynaktır. Bu veri kümesi, görüntü tanıma, nesne tespiti, görüntü sınıflandırma ve diğer görsel görevlerdeki algoritmaların geliştirilmesine katkıda bulunmuştur.[10]
VGG Image Search Engine(VISE) : Bir görseli arama sorgusu olarak kullanarak çok sayıda görselin görsel olarak aranmasını sağlayan ücretsiz ve açık kaynaklı bir yazılım. VISE, benzer görüntüleri ve içerikleri aramak için gelişmiş bir görüntü işleme ve benzerlik eşleme algoritmaları kullanır. Bu sayede, kullanıcılar bir görüntüyü yüklediklerinde veya bir URL girerek arama yaptıklarında, benzer görüntülerin listesini alabilirler. Genellikle derin öğrenme ve evrişimli sinir ağları (Convolutional Neural Networks - CNN) gibi makine öğrenimi tekniklerini kullanır. Bu algoritmalar, görüntülerin içeriğini temsil etmek ve benzerlikleri belirlemek için görüntülerin özelliklerini çıkarmak için kullanılır.[11]
^Camargo, Jorge E.; Caicedo, Juan C.; Gonzalez, Fabio A. (2013). "A kernel-based framework for image collection exploration". Journal of Visual Languages & Computing. 24 (1): 53–57. doi:10.1016/j.jvlc.2012.10.008.
^PETRIE, H., O'NEILL, A. M., & COLWELL, C. (2002). CONTENT-BASED ACCESS OF IMAGE AND VIDEO LIBRARIES. Encyclopedia of Library and Information Science: Volume 72: Supplement 35, 40.
^Babenko, A., Slesarev, A., Chigorin, A., & Lempitsky, V. (2014). Neural codes for image retrieval. In Computer Vision–ECCV 2014: 13th European Conference, Zurich, Switzerland, September 6-12, 2014, Proceedings, Part I 13 (pp. 584-599). Springer International Publishing. Neural Codes for Image Retrieval 2 Mayıs 2023 tarihinde Wayback Machine sitesinde arşivlendi. (PDF).
Camargo, Jorge E.; Caicedo, Juan C.; Gonzalez, Fabio A. (2013). "A kernel-based framework for image collection exploration". Journal of Visual Languages & Computing. 24 (1): 53–57. doi:10.1016/j.jvlc.2012.10.008.
Babenko, A., Slesarev, A., Chigorin, A., & Lempitsky, V. (2014). Neural codes for image retrieval. In Computer Vision–ECCV 2014: 13th European Conference, Zurich, Switzerland, September 6-12, 2014, Proceedings, Part I 13 (pp. 584–599). Springer International Publishing. Neural Codes for Image Retrieval (PDF).
PETRIE, H., O'NEILL, A. M., & COLWELL, C. (2002). CONTENT-BASED ACCESS OF IMAGE AND VIDEO LIBRARIES. Encyclopedia of Library and Information Science: Volume 72: Supplement 35, 40.
Shriram, K. V., Priyadarsini, P. L. K., and Subashri, V. (2012). An Efficient and Generalized approach for Content Based Image Retrieval in MatLab. I.J. Image, Graphics and Signal Processing, 42-48.
Jahangiri, N. Veri madenciliği teknikleriyle içerik tabanlı görüntü erişimi (Master's thesis, Fen Bilimleri Enstitüsü).
Datta, R., Li, J., & Wang, J. Z. (2005, November). Content-based image retrieval: approaches and trends of the new age. In Proceedings of the 7th ACM SIGMM international workshop on Multimedia information retrieval (pp. 253–262).
Ergen, B., & Baykara, M. (2010, April). Feature extraction of using statistical spatial methods for content based medical image retrieval. In 2010 15th National Biomedical Engineering Meeting (pp. 1–4). IEEE.
Strategi Solo vs Squad di Free Fire: Cara Menang Mudah!