知識地圖 – YOLO 介紹 YOLO 簡介 YOLO,全名 You only look once。是一種物件偵測的演算法, 並且在所有物件偵測的方法中,YOLO 也可以說是最為突出的方法之一 YOLO 的發展目標,並不是以物件偵測的準確率為優先,他把重點放在了運算速度上,並且需要消耗的運算資源也隨之下降。 本節將介紹 YOLO,以及它的效果、成績以及技術原理。 重要知識點 理解物件偵測的兩種常見手法 (two-stage,one-stage) 知道 YOLO 的歷史與成績 能夠說明 YOLO 的核心技術原理 什麼是物件偵測? 通常物件偵測會是像這樣的 上面提到的方法稱為 two-stage 的物件偵測方法 所以當然也有 one-stage 的物件偵測方法,其中最具代表性的就是 YOLO YOLO 的效果與成績 YOLO 的發展時間史: YOLOV1,2016年5月 YOLOV2,2016年12月 YOLOV3,2018年4月 在 YOLOV3 的版本中,可以達到最高 33.0 的 mAP 以及最短 22ms 的 Inference time。 這代表了在 2018 年中流以上的準確率,和名列前茅的推論速度。 YOLO 的核心技術原理 YOLO 在給定圖片後,會先切成 SxS 個小方格。接下來會平行的做兩件事: 對每個方格產生 k 個定界框,並計算裡面包含物件的可信度。 對每個方格進行影像分類,計算方格屬於不同類別的可能機率。 知識點回顧 物件偵測包含 two-stage 和 one-stage 兩種方法。 Two-stage 的方法中,首先要對物件的定位,然後對已定位的物件做分類。 YOLO 最早發表於 2016 年,並在 2018 年有當時相當不錯的準確率和幾乎最高的推論速度。 YOLO 在切割 Grid 以後,會平行的進行定位和分類兩個任務。 YOLO 的定位是在每個 Grid 中,隨機產生定界框並計算可信度,當可信度超越定值(Valve),該定界框成立。 YOLO 的分類是直接對每個 Grid 做影像分類,不需要先定位。 參考資料 Object Detection Part 4:Fast Detection Models 本文主要是在描述各種快速的 Object detection,除了 YOLO 外也包括 SSD、RetinaNet 等等 one-stage 的物件偵測模型。 這些模型都跳過了候選區域的階段,直接在影像上進行物件偵測。