記事について

画像はDetectron2より

物体検出をほとんど使っていない方を対象として、2021年末の物体検出ライブラリを俯瞰することが本記事の目的。

ある程度物体検出の経験ある方は学ぶことは少ないと思う。またあくまで書いてあるのは筆者の感想であるので人によっては全く違う意見になることもあるかと。また本記事ではモデルの技術的な説明はありません。それらについて理解を深める際は参考ページや元論文を当ってみると良いかと思います。

また大変遅くなりましたが、本記事はKaggleアドベントカレンダー（裏）の24日目でもあります（年明けちゃってすみません）。

qiita.com

記事について
紹介するライブラリ一覧
- 所感
  - アンサンブルについて
- 精度vs速度トレードオフ
ライブラリ紹介
ゼロから実装する物体検出モデル
- SSD
- CenterNet
  - コンペ使用例

紹介するライブラリ一覧

Library	mAP range	Architecture	Instance segmentation	License	Repo	Stars
yolov5	37-50	Single-stage	☒	GPL-3.0	Here	34.1k
YOLOX	40-51	Single-stage	□	Apache-2.0	Here	7.7k
efficientdet	33-53	Single-stage	□	Apache-2.0	Here	1.4k
Detectron2	35-48	FRCNN	☒	Apache-2.0	Here	23.2k
mmdetection	35-50	Single, FRCNN	☒	Apache-2.0	Here	22.5k

(Star数2023/1/4更新. Yolov5がInstance segmentationにも対応しました。）

FRCNNって何？って方は以下記事もどうぞ。

qiita.com

所感

yolov5がstar一番多い
yolov5以外はオープン（Apache-2.0）ライセンス。GPL-3.0は仕事で使うには注意が必要。
どのライブラリも達成可能な精度レンジは似ている。
yolov5,YOLOX,efficientdet, Detectron2はあるアーキテクチャに特化したライブラリに対し、 mmdetectionは様々な物体検出モデルの再現用ライブラリとなっている。
~~Instance segmentationにはMask-RCNNアーキテクチャが必要。サポートしているのはDetectron2とmmdetection。~~ yolov5でもInstance segmentationに対応しました。

アンサンブルについて

実際にkaggle等で使う時はyolo+effdetなどをアンサンブルすることが多い。カツオコンペやvinbigなど複数ライブラリのアンサンブルでスコアが一気に伸びる例が多かった
Signateカツオコンペ yu4uさんカツオコンペ解法
Kaggle Vinbig 1st place solution

Yolov5+effdetのアンサンブル

VinBigData Chest X-ray Abnormalities Detection | Kaggle

Kaggle Satorius 2nd place solution

Cellの物体認識はyolov5+effdet+MaskRCNNのアンサンブルで実施している。

インスタンスセグメンテーションをせずに、認識したBoxから更にU-netでセマンティックセグメンテーションを実施している。

精度vs速度トレードオフ

ブログ執筆にあたりA6000 GPUを使い学習済みモデルの推論速度を計測してみた。

グラフにまとめたのが上図。

所感：

思ったよりもyolov5の性能が良い
YOLOXページ上ではV100でベンチマークしており、YOLOXの方が早いという結果。これはGPUによって前後しそう
YOLOX, yolov5はTensorRTに対応しており、適応すれば推論は数倍早くなると思われる。
YOLO系がefficientdet系より大幅に早いという事はどのGPUでも成り立つ。
Detectron2, mmdetectionの速度は未測定。学習時の感覚では大体efficientdetくらいの速度ー精度トレードオフ。

ライブラリ紹介

yolov5

ライセンス以外文句なしのライブラリ。

とにかく学習と推論が早いので実験しやすく、精度も高い。またs,m,l,xと4サイズ揃っており精度と速度トレードオフを作りやすい。

ドキュメントも豊富でissue検索すると大体のやりたいことはカバーできるかと思われる。Issueを立てても開発者の返事も早くバグfix速度が凄い。

欠点はライセンスがGPLである点とモデル、データ周りの改造が難しい点でしょうか。

Wandb連携しておりログも自動化してくれてるのが地味にありがたい。

学習について

学習時にはデータを独自フォーマットに変換する必要あり。COCO形式からの変換についてはkaggle notebookをみるのが良いと思う。

公式より：

github.com

小麦コンペのNotebookより：

www.kaggle.com

Vinbigコンペより：

www.kaggle.com

推論について

公式ページにあるtorchhubのモデル推論がお手頃（以下抜粋）。 ~~Kaggle環境ではこのコードではエラー出るため、detect.pyを使うことが多い。~~ Kaggle環境でも問題なく回ります。

import torch

# Model
model = torch.hub.load('ultralytics/yolov5', 'yolov5s')  # or yolov5m, yolov5l, yolov5x, custom

# Images
img = 'https://ultralytics.com/images/zidane.jpg'  # or file, Path, PIL, OpenCV, numpy, list

# Inference
results = model(img)

# Results
results.print()  # or .show(), .save(), .crop(), .pandas(), etc.