Nesne tespiti, dijital görüntülerde ve videolarda belirli bir sınıftaki (insanlar, binalar veya arabalar gibi) anlamsal nesnelerin örneklerini algılamakla ilgilenen, bilgisayarla görme ve görüntü işleme ile ilgili bir bilgisayar teknolojisidir.[1] Nesne tespiti, bilgisayarla görme ve görüntü işlemeden farklı olarak algılanan nesnenin görüntü üzerinde koordinatlarının bulunmasını içerir. Bulunan koordinatlar ile nesnenin bir çerçeve ile içine alınacağı alan da tespit edilmiş olur. Nesne tespiti, gerçek zamanlı (anlık) ve gerçek zamanlı olmayan olarak ikiye ayrılır. Üzerinde iyi araştırma yapılmış alanlar yüz tespiti, yaya tespiti ve araç tespitidir. Nesne tespiti, görüntü alma ve video gözetimi dahil olmak üzere bilgisayarla görmenin birçok alanında uygulamaya sahiptir.
Kullanımlar
Görüntü etiketleme,[2]aktivite tanıma,[3]yüz algılama, yüz tanıma, video nesnesini müşterek bölümleme gibi bilgisayarla görme görevlerinde yaygın olarak kullanılmaktadır. Örneğin bir futbol maçı sırasında oyundaki topu takip etmek, bir kriket sopasının hareketini izlemek veya bir videodaki herhangi bir kişiyi veyahut kişileri izlemek gibi durumlarda nesneleri takip etmek için kullanılır. Nesne tespiti insansız araçlarda nesnelerin konumlarını takip etmede ve nesnelerin sınıflandırılmasında da kullanılan temel bir yöntemdir. Elde edilen konum ve sınıf verisi ile araçların reaksiyon vermesi ve veriyi değerlendirmesi amaçlanmaktadır.
Konsept
Her nesne sınıfının, sınıfının sınıflandırılmasına yardımcı olan kendine özgü özellikleri vardır - örneğin, tüm daireler yuvarlaktır, deniz mavidir, ağaçların yaprakları yeşildir vb. Nesnenin sınıfı tespit edilirken, sınıflara ait olan bu özellikler kullanılır. Örneğin, herhangi bir daire ararken, bir noktadan (yani merkezden) belirli bir uzaklıkta bulunan nesneler aranır, merkezden uzaklıkları kabul edilebilir bir aralıkta olan bu noktalar bütünü daire olarak sınıflandırılabilir. Benzer şekilde, kareler ararken , köşelerde dik olan ve kenar uzunlukları eşit olan nesnelere ihtiyaç vardır. Benzer bir yaklaşım, gözlerin, burnun ve dudakların bulunabildiği ve ten rengi ve gözler arasındaki mesafe gibi özelliklerinbulunabildiği yüz tanımlaması için kullanılır. Nesnelerin şekillerinin tespit için kullanılan özelliklerden olmasının yanında aynı nesnelerin renkleri de tespit için kullanılan önemli özelliklerdendir. Bir trafik lambasında yeşil, sarı ve kırmızı renklerin nesnenin tespiti için önemli bir özelliktir. 3'lü, 2'li ve tek olan trafik lambalarında nesnelerin kendine özgü özelliklerinden olan renkleri kullanmak önem arz etmektedir.
Yöntemler
Nesne tespiti yöntemleri genellikle sinir ağı tabanlı veya sinirsel olmayan yaklaşımlara girer. Sinirsel olmayan yaklaşımlar için, önce aşağıdaki yöntemlerden birini kullanarak özellikleri tanımlamak, ardından sınıflandırmayı yapmak için destek vektör makinesi (SVM) gibi bir teknik kullanmak gerekli hale gelir. Öte yandan, sinir teknikleri, özellikleri özel olarak tanımlamadan uçtan uca nesne algılaması yapabilir ve tipik olarak evrişimli sinir ağlarına (CNN) dayanır.
Gerçek zamanlı (anlık) nesne tespitinde, anlık elde edilen görüntüyü işleyip nesne veyahut nesnelerin tespiti esas olduğu için performansı yüksek, doğru ve kesin sonuç üretebilen algoritmalar kullanılır. YOLO (You Only Look Once) Tek Bir Sefer Bak algoritmaları bu alandaki performans, kesinlik ve doğruluk açısından tatmin edici sonuçlar verebilen önde gelen algoritmalardandır. Sinir ağı yaklaşımını temel alan YOLO algoritmaları farklı nesne tespit yapılarını (framework) kullanmaktadır.
Kullanılacak olan gerçek zamanlı nesne tespit algoritmalarında, algoritmanın yüksek işlem gereksiniminden dolayı merkezi işlem birimi ile hesaplama yapmak yerine grafik işlemci birimi kullanmak yaygın bir tercihtir. Bu gereksinimden dolayı gerçek zamanlı nesne tespit algoritmaları çalıştırılacakları donanımsal yeterliliklere göre tasarlanır ve kullanılır. Bir akıllı telefondan elde edilecek işlem gücü ile grafik işleme birimine sahip bir bilgisayardan elde edilecek işlem güçleri birbirinden farklı olduğu için her iki sistemde de aynı gerçek zamanlı algoritma çalıştırılamaz.
^Girschick (2015). "Fast R-CNN"(PDF). Proceedings of the IEEE International Conference on Computer Vision: 1440-1448. 31 Ekim 2019 tarihinde kaynağından arşivlendi(PDF). Erişim tarihi: 10 Mayıs 2021.
^Shaoqing (2015). "Faster R-CNN". Advances in Neural Information Processing Systems.
^"SSD: Single shot multibox detector". Computer Vision – ECCV 2016. European Conference on Computer Vision. Lecture Notes in Computer Science. 9905. October 2016. ss. 21-37. doi:10.1007/978-3-319-46448-0_2. ISBN978-3-319-46447-3.
^Redmon (2016). "You only look once: Unified, real-time object detection". Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.
^Joseph Redmon. "Yolov3: An incremental improvement". arXiv:1804.02767 $2.
^Zhang (2018). "Single-Shot Refinement Neural Network for Object Detection". Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition: 4203-4212.
^Lin (2020). "Focal Loss for Dense Object Detection". IEEE Transactions on Pattern Analysis and Machine Intelligence. 42 (2): 318-327. doi:10.1109/TPAMI.2018.2858826. PMID30040631.
^Jiangmiao Pang. "Libra R-CNN: Towards Balanced Learning for Object Detection". arXiv:1904.02701 $2.