EfficientDet: Menuju Deteksi Objek Yang Skalabel Dan Efisien

Daftar Isi:

EfficientDet: Menuju Deteksi Objek Yang Skalabel Dan Efisien
EfficientDet: Menuju Deteksi Objek Yang Skalabel Dan Efisien

Video: EfficientDet: Menuju Deteksi Objek Yang Skalabel Dan Efisien

Video: EfficientDet: Menuju Deteksi Objek Yang Skalabel Dan Efisien
Video: [DeepReader] EfficientDet: масштабируемое и эффективное обнаружение объектов 2024, Mungkin
Anonim

Sebagai salah satu aplikasi utama dalam visi komputer, deteksi objek menjadi semakin penting dalam skenario yang membutuhkan presisi tinggi tetapi memiliki sumber daya komputasi yang terbatas, seperti robotika dan mobil tanpa pengemudi. Sayangnya, banyak detektor presisi tinggi modern tidak memenuhi batasan ini. Lebih penting lagi, aplikasi deteksi objek dunia nyata berjalan pada platform yang berbeda, yang seringkali membutuhkan sumber daya yang berbeda.

Deteksi objek yang terukur dan efisien efficient
Deteksi objek yang terukur dan efisien efficient

Jadi pertanyaan alaminya adalah bagaimana merancang detektor objek yang akurat dan efisien yang juga dapat beradaptasi dengan berbagai kendala sumber daya?

EfficientDet: Deteksi Objek yang Dapat Diskalakan dan Efisien, yang diadopsi pada CVPR 2020, memperkenalkan rangkaian baru detektor objek yang skalabel dan efisien. Membangun pekerjaan sebelumnya pada penskalaan jaringan saraf (EfficientNet) dan menggabungkan jaringan fungsional dua arah (BiFPN) baru dan aturan penskalaan baru, EfficientDet mencapai presisi modern sementara 9 kali lebih kecil dan menggunakan komputasi yang jauh lebih sedikit daripada detektor modern yang dikenal. Gambar berikut menunjukkan arsitektur jaringan umum model.

Gambar
Gambar

Mengoptimalkan Arsitektur Model

Ide di balik EfficientDet berasal dari upaya untuk menemukan solusi untuk meningkatkan efisiensi komputasi dengan secara sistematis memeriksa model deteksi canggih sebelumnya. Secara umum, detektor objek memiliki tiga komponen utama: tulang punggung yang mengekstrak fitur dari gambar tertentu; jaringan objek yang mengambil beberapa tingkat fungsi dari tulang punggung sebagai input dan output daftar fungsi gabungan yang mewakili karakteristik karakteristik gambar; dan jaringan kelas / kotak terakhir yang menggunakan fungsi gabungan untuk memprediksi kelas dan lokasi setiap objek.

Setelah meninjau opsi desain untuk komponen ini, kami mengidentifikasi beberapa pengoptimalan utama untuk meningkatkan kinerja dan efisiensi. Detektor sebelumnya sebagian besar menggunakan ResNets, ResNeXt atau AmoebaNet sebagai tulang punggung, yang kurang kuat atau memiliki efisiensi lebih rendah daripada EfficientNets. Dengan implementasi awal dari tulang punggung EfficientNet, lebih banyak efisiensi yang dapat dicapai. Misalnya, dimulai dengan baseline RetinaNet yang menggunakan backbone ResNet-50, studi ablasi kami menunjukkan bahwa mengganti ResNet-50 dengan EfficientNet-B3 dapat meningkatkan akurasi sebesar 3% sekaligus mengurangi komputasi sebesar 20%. Optimalisasi lainnya adalah meningkatkan efisiensi jaringan fungsional. Sementara sebagian besar detektor sebelumnya hanya menggunakan Jaringan Piramida Downlink (FPN), kami menemukan bahwa FPN hilir secara inheren terbatas pada aliran informasi satu arah. FPN alternatif seperti PANet menambahkan upstream tambahan dengan biaya komputasi tambahan.

Upaya terbaru untuk menggunakan Neural Architecture Search (NAS) telah menemukan arsitektur NAS-FPN yang lebih kompleks. Namun, meskipun struktur jaringan ini efektif, struktur ini juga tidak teratur dan sangat dioptimalkan untuk tugas tertentu, sehingga sulit untuk beradaptasi dengan tugas lain. Untuk mengatasi masalah ini, kami mengusulkan jaringan baru fungsi bi-directional BiFPN, yang mengimplementasikan gagasan menggabungkan fungsi multi-layer dari FPN / PANet / NAS-FPN, yang memungkinkan informasi ditransmisikan baik dari atas ke bawah maupun dari bawah. dari bawah ke atas. menggunakan koneksi yang teratur dan efektif.

Gambar
Gambar

Untuk lebih meningkatkan efisiensi, kami mengusulkan teknik sintesis normalisasi cepat yang baru. Pendekatan tradisional biasanya memperlakukan semua input ke FPN dengan cara yang sama, bahkan pada resolusi yang berbeda. Namun, kami mengamati bahwa fitur input dengan resolusi berbeda sering kali berkontribusi secara tidak merata pada fungsi output. Jadi, kami menambahkan bobot ekstra untuk setiap fungsi input dan membiarkan jaringan mempelajari pentingnya masing-masing fungsi. Kami juga akan mengganti semua konvolusi reguler dengan konvolusi yang lebih murah dan sangat dapat dipisahkan. Dengan pengoptimalan ini, BiFPN kami semakin meningkatkan akurasi sebesar 4% sekaligus mengurangi biaya komputasi hingga 50%.

Optimalisasi ketiga melibatkan pencapaian kompromi terbaik antara akurasi dan efisiensi di bawah berbagai kendala sumber daya. Pekerjaan kami sebelumnya telah menunjukkan bahwa penskalaan bersama kedalaman, lebar, dan resolusi jaringan dapat secara signifikan meningkatkan kinerja pengenalan gambar. Terinspirasi oleh ide ini, kami mengusulkan metode penskalaan komposit baru untuk detektor objek yang secara kolektif meningkatkan resolusi / kedalaman / lebar. Setiap komponen jaringan, yaitu jaringan prediktif backbone, objek dan blok / kelas, akan memiliki satu faktor penskalaan kompleks yang mengontrol semua dimensi penskalaan menggunakan aturan heuristik. Pendekatan ini memudahkan untuk menentukan cara menskalakan model dengan menghitung faktor skala untuk batasan sumber daya target yang diberikan.

Dengan menggabungkan backbone baru dan BiFPN, pertama-tama kami mendesain baseline EfficientDet-D0 kecil dan kemudian menerapkan penskalaan gabungan untuk mendapatkan EfficientDet-D1 ke D7. Setiap model serial memiliki biaya komputasi yang lebih tinggi, mencakup berbagai kendala sumber daya dari 3 miliar FLOP hingga 300 miliar FLOPS, dan memberikan akurasi yang lebih tinggi.

Model kinerja

Mengevaluasi EfficientDet pada kumpulan data COCO, kumpulan data referensi yang banyak digunakan untuk deteksi objek. EfficientDet-D7 mencapai akurasi rata-rata rata-rata (mAP) 52,2, yang 1,5 poin lebih tinggi dari model modern sebelumnya, menggunakan parameter 4 kali lebih sedikit dan penghitungan 9,4 kali lebih sedikit

Gambar
Gambar

Kami juga membandingkan ukuran parameter dan latensi CPU/GPU antara EfficientDet dan model sebelumnya. Dengan batasan akurasi yang serupa, model EfficientDet berjalan 2–4 kali lebih cepat pada GPU dan 5–11 kali lebih cepat pada prosesor daripada detektor lainnya. Sementara model EfficientDet terutama ditujukan untuk deteksi objek, kami juga menguji keefektifannya dalam tugas lain seperti segmentasi semantik. Untuk melakukan tugas segmentasi, kami sedikit memodifikasi EfficientDet-D4 dengan mengganti kepala deteksi dan kehilangan dan kehilangan kepala sambil mempertahankan tulang punggung dan BiFPN berskala yang sama. Kami membandingkan model ini dengan model segmentasi modern sebelumnya untuk Pascal VOC 2012, kumpulan data pengujian segmentasi yang banyak digunakan.

Gambar
Gambar

Mengingat kinerjanya yang luar biasa, EfficientDet diharapkan berfungsi sebagai landasan baru untuk penelitian deteksi objek di masa depan dan berpotensi membuat model deteksi objek yang sangat akurat berguna di banyak aplikasi dunia nyata. Jadi buka semua breakpoints kode dan model yang sudah dilatih sebelumnya di Github.com.

Direkomendasikan: