物体识别(英語:Object detection),又译做“物体检测”、“目标检测”,是计算机视觉及影像處理中的術語,指的是让计算机去分析一张图片或者一段影片中的物体,并标记出来,这需要给神经网络大量的物体数据去训练它,这样才能进行识别。目前人臉檢測是物體識別領域中被廣泛研究的題目之一。
物體識別在計算機視覺任務中被廣泛應用,有許多基於物體識別之下游任務,如圖像自動標註、物體計數[1]、人臉識別。物體識別亦可應用於物件追蹤,例如:追蹤球類比賽中的球與追蹤影片中的人物。
由於羽球或網球體積小且瞬間移動速度快,因此是球類追蹤中較難精確實現的任務之。
為了解決上述問題,TrackNet利用深度神經網路追蹤球體在影像中的軌跡,並且可以克服球體影響模糊、面積小、且在部分影片幀中消失之問題。TrackNet使用了基於熱點圖的卷積神經網路[4][5],並利用產生的熱點圖來表示球體所在位置的機率分佈。由於TrackNet試圖克服上述「部分影片幀中消失」的問題,模型的輸入為相鄰的三個幀,輸出則為中間幀的結果。其輸出可以表示為 P ( i , j , k ) {\displaystyle P(i,j,k)} ,代表在座標 ( i , j ) {\displaystyle (i,j)} 與深度 k {\displaystyle k} 的位置上的機率,最終輸出為 h ( i , j ) = a r g m a x k P ( i , j , k ) {\displaystyle h(i,j)=argmax_{k}P(i,j,k)} ,即是使用各座標上機率最高的深度作為輸出。
在訓練神經網路方面,為了學習球體位置的機率分佈,TrackNet使用高斯分佈來建模球體在真實位置 ( x 0 , y 0 ) {\displaystyle (x_{0},y_{0})} 的熱點圖,表示如下:
G ( x , y ) = ⌊ ( 1 2 π σ 2 e − ( x − x 0 ) 2 + ( y − y 0 ) 2 2 σ 2 ) ( 2 π σ 2 ⋅ 255 ) ⌋ {\displaystyle G(x,y)=\lfloor ({\frac {1}{2\pi \sigma ^{2}}}e^{-{\frac {(x-x_{0})^{2}+(y-y_{0})^{2}}{2\sigma ^{2}}}})(2\pi \sigma ^{2}\centerdot 255)\rfloor }
損失函數則是使用交叉熵,定義為:
H Q ( P ) = − ∑ i , j , k Q ( i , j , k ) l o g P ( i , j , k ) {\displaystyle H_{Q}(P)=-\sum _{i,j,k}Q(i,j,k)logP(i,j,k)} ,其中 Q ( i , j , k ) = { 1 , if G ( i , j ) = k 0 , otherwise. {\displaystyle Q(i,j,k)={\begin{cases}1,&{\text{if }}G(i,j)=k\\0,&{\text{otherwise.}}\end{cases}}}
近代常見的物體識別方法多為基於深度神經網路模型之方法,核心概念為利用神經網路模型抽取影像之特徵圖,並以此識別出物體類別與位置。
在這個方法中,作者提出一個神經網路模型DETR,旨在將物件偵測任務視為一個集合預測任務,並在訓練時將神經網路模型預測的集合與正確結果集合間進行二分圖匹配。
為了能夠產生出一個集合,DETR,借鑒了自然語言處理領域的Seq2Seq概念,並首次在物件偵測領域引入了Transformer模型,在此方法中同時使用到Transformer編碼器與解碼器,其中在解碼器部分,DETR進行了修改,提出了對象查詢(object queries)的概念,使得模型可以自己學習需要偵測的對象的特徵。
由於這是物件偵測領域首次使用了這種簡化的集合預測方法,因此具有其重要性,並引領後續集合預測方法的蓬勃發展。