EfficientDet: Menuju Deteksi Objek Yang Skalabel Dan Efisien

2025 Pengarang: Ian Gardner | [email protected]. Terakhir diubah: 2025-06-01 06:35

Sebagai salah satu aplikasi utama dalam visi komputer, deteksi objek menjadi semakin penting dalam skenario yang membutuhkan presisi tinggi tetapi memiliki sumber daya komputasi yang terbatas, seperti robotika dan mobil tanpa pengemudi. Sayangnya, banyak detektor presisi tinggi modern tidak memenuhi batasan ini. Lebih penting lagi, aplikasi deteksi objek dunia nyata berjalan pada platform yang berbeda, yang seringkali membutuhkan sumber daya yang berbeda.

Jadi pertanyaan alaminya adalah bagaimana merancang detektor objek yang akurat dan efisien yang juga dapat beradaptasi dengan berbagai kendala sumber daya?

EfficientDet: Deteksi Objek yang Dapat Diskalakan dan Efisien, yang diadopsi pada CVPR 2020, memperkenalkan rangkaian baru detektor objek yang skalabel dan efisien. Membangun pekerjaan sebelumnya pada penskalaan jaringan saraf (EfficientNet) dan menggabungkan jaringan fungsional dua arah (BiFPN) baru dan aturan penskalaan baru, EfficientDet mencapai presisi modern sementara 9 kali lebih kecil dan menggunakan komputasi yang jauh lebih sedikit daripada detektor modern yang dikenal. Gambar berikut menunjukkan arsitektur jaringan umum model.

Mengoptimalkan Arsitektur Model

Ide di balik EfficientDet berasal dari upaya untuk menemukan solusi untuk meningkatkan efisiensi komputasi dengan secara sistematis memeriksa model deteksi canggih sebelumnya. Secara umum, detektor objek memiliki tiga komponen utama: tulang punggung yang mengekstrak fitur dari gambar tertentu; jaringan objek yang mengambil beberapa tingkat fungsi dari tulang punggung sebagai input dan output daftar fungsi gabungan yang mewakili karakteristik karakteristik gambar; dan jaringan kelas / kotak terakhir yang menggunakan fungsi gabungan untuk memprediksi kelas dan lokasi setiap objek.

Setelah meninjau opsi desain untuk komponen ini, kami mengidentifikasi beberapa pengoptimalan utama untuk meningkatkan kinerja dan efisiensi. Detektor sebelumnya sebagian besar menggunakan ResNets, ResNeXt atau AmoebaNet sebagai tulang punggung, yang kurang kuat atau memiliki efisiensi lebih rendah daripada EfficientNets. Dengan implementasi awal dari tulang punggung EfficientNet, lebih banyak efisiensi yang dapat dicapai. Misalnya, dimulai dengan baseline RetinaNet yang menggunakan backbone ResNet-50, studi ablasi kami menunjukkan bahwa mengganti ResNet-50 dengan EfficientNet-B3 dapat meningkatkan akurasi sebesar 3% sekaligus mengurangi komputasi sebesar 20%. Optimalisasi lainnya adalah meningkatkan efisiensi jaringan fungsional. Sementara sebagian besar detektor sebelumnya hanya menggunakan Jaringan Piramida Downlink (FPN), kami menemukan bahwa FPN hilir secara inheren terbatas pada aliran informasi satu arah. FPN alternatif seperti PANet menambahkan upstream tambahan dengan biaya komputasi tambahan.

Upaya terbaru untuk menggunakan Neural Architecture Search (NAS) telah menemukan arsitektur NAS-FPN yang lebih kompleks. Namun, meskipun struktur jaringan ini efektif, struktur ini juga tidak teratur dan sangat dioptimalkan untuk tugas tertentu, sehingga sulit untuk beradaptasi dengan tugas lain. Untuk mengatasi masalah ini, kami mengusulkan jaringan baru fungsi bi-directional BiFPN, yang mengimplementasikan gagasan menggabungkan fungsi multi-layer dari FPN / PANet / NAS-FPN, yang memungkinkan informasi ditransmisikan baik dari atas ke bawah maupun dari bawah. dari bawah ke atas. menggunakan koneksi yang teratur dan efektif.

Untuk lebih meningkatkan efisiensi, kami mengusulkan teknik sintesis normalisasi cepat yang baru. Pendekatan tradisional biasanya memperlakukan semua input ke FPN dengan cara yang sama, bahkan pada resolusi yang berbeda. Namun, kami mengamati bahwa fitur input dengan resolusi berbeda sering kali berkontribusi secara tidak merata pada fungsi output. Jadi, kami menambahkan bobot ekstra untuk setiap fungsi input dan membiarkan jaringan mempelajari pentingnya masing-masing fungsi. Kami juga akan mengganti semua konvolusi reguler dengan konvolusi yang lebih murah dan sangat dapat dipisahkan. Dengan pengoptimalan ini, BiFPN kami semakin meningkatkan akurasi sebesar 4% sekaligus mengurangi biaya komputasi hingga 50%.

Optimalisasi ketiga melibatkan pencapaian kompromi terbaik antara akurasi dan efisiensi di bawah berbagai kendala sumber daya. Pekerjaan kami sebelumnya telah menunjukkan bahwa penskalaan bersama kedalaman, lebar, dan resolusi jaringan dapat secara signifikan meningkatkan kinerja pengenalan gambar. Terinspirasi oleh ide ini, kami mengusulkan metode penskalaan komposit baru untuk detektor objek yang secara kolektif meningkatkan resolusi / kedalaman / lebar. Setiap komponen jaringan, yaitu jaringan prediktif backbone, objek dan blok / kelas, akan memiliki satu faktor penskalaan kompleks yang mengontrol semua dimensi penskalaan menggunakan aturan heuristik. Pendekatan ini memudahkan untuk menentukan cara menskalakan model dengan menghitung faktor skala untuk batasan sumber daya target yang diberikan.

Dengan menggabungkan backbone baru dan BiFPN, pertama-tama kami mendesain baseline EfficientDet-D0 kecil dan kemudian menerapkan penskalaan gabungan untuk mendapatkan EfficientDet-D1 ke D7. Setiap model serial memiliki biaya komputasi yang lebih tinggi, mencakup berbagai kendala sumber daya dari 3 miliar FLOP hingga 300 miliar FLOPS, dan memberikan akurasi yang lebih tinggi.

Model kinerja

Mengevaluasi EfficientDet pada kumpulan data COCO, kumpulan data referensi yang banyak digunakan untuk deteksi objek. EfficientDet-D7 mencapai akurasi rata-rata rata-rata (mAP) 52,2, yang 1,5 poin lebih tinggi dari model modern sebelumnya, menggunakan parameter 4 kali lebih sedikit dan penghitungan 9,4 kali lebih sedikit

Kami juga membandingkan ukuran parameter dan latensi CPU/GPU antara EfficientDet dan model sebelumnya. Dengan batasan akurasi yang serupa, model EfficientDet berjalan 2-4 kali lebih cepat pada GPU dan 5-11 kali lebih cepat pada prosesor daripada detektor lainnya. Sementara model EfficientDet terutama ditujukan untuk deteksi objek, kami juga menguji keefektifannya dalam tugas lain seperti segmentasi semantik. Untuk melakukan tugas segmentasi, kami sedikit memodifikasi EfficientDet-D4 dengan mengganti kepala deteksi dan kehilangan dan kehilangan kepala sambil mempertahankan tulang punggung dan BiFPN berskala yang sama. Kami membandingkan model ini dengan model segmentasi modern sebelumnya untuk Pascal VOC 2012, kumpulan data pengujian segmentasi yang banyak digunakan.

Mengingat kinerjanya yang luar biasa, EfficientDet diharapkan berfungsi sebagai landasan baru untuk penelitian deteksi objek di masa depan dan berpotensi membuat model deteksi objek yang sangat akurat berguna di banyak aplikasi dunia nyata. Jadi buka semua breakpoints kode dan model yang sudah dilatih sebelumnya di Github.com.

Direkomendasikan:

Cara Meminjam Untuk Langsung Menuju

Banyak pelanggan seluler menemukan pesan ini: "Akun Anda tidak memiliki cukup dana untuk melakukan panggilan ini." Apakah saldo Anda dekat atau nol? Pelanggan Beeline tidak memiliki alasan untuk khawatir. Dengan memesan layanan "

Cara Memeriksa Saldo Pelanggan Langsung Menuju

Setiap saat, mungkin perlu untuk memeriksa saldo pelanggan seluler Beeline. Ini dapat dilakukan dengan beberapa cara sederhana, dan sama sekali tidak penting apakah Anda sendiri adalah pelanggan Beeline atau tidak. instruksi Langkah 1 Untuk mengetahui status akun pelanggan Beeline lain, Anda perlu menghubungi nomor +79033888696 dan menunggu tanggapan operator

Cara Menuju Ke Layanan Menu

Menu layanan TV digunakan untuk mengonfigurasi parameter dasar perangkat. Tergantung pada produsennya, ada kombinasi yang berbeda untuk mengakses menu ini. Itu perlu - panduan perbaikan. instruksi Langkah 1 Untuk masuk ke menu layanan TV Panasonic, alihkan ke saluran 38 menggunakan remote control, lalu secara bersamaan tekan tombol "

Cara Membuat Cetakan Panggilan Langsung Menuju

Anda bisa mendapatkan informasi tentang siapa yang menelepon Anda dengan menggunakan detail akun Anda. Ini akan berisi informasi tentang tanggal dan waktu yang tepat dari panggilan (baik masuk dan keluar), biaya panggilan, dan jenisnya. Selain itu, Anda dapat mengetahui tentang pengiriman pesan SMS dan sesi GPRS yang dilakukan

Cara Memutar Kamera Di Sekitar Objek

Saat membuat objek dalam editor 3D, penting untuk mempertimbangkan model dari semua sisi, untuk menentukan bagaimana tampilannya dari sudut yang berbeda. Dengan memutar kamera di sekitar objek, Anda dapat menemukan kekurangan waktu dan memperbaikinya

EfficientDet: Menuju Deteksi Objek Yang Skalabel Dan Efisien

Daftar Isi:

Mengoptimalkan Arsitektur Model

Model kinerja

Direkomendasikan:

Cara Meminjam Untuk Langsung Menuju

Cara Memeriksa Saldo Pelanggan Langsung Menuju

Cara Menuju Ke Layanan Menu

Cara Membuat Cetakan Panggilan Langsung Menuju

Cara Memutar Kamera Di Sekitar Objek

Cara Flash Samsung SCX 3200

Cara Membuka Kunci Printer

Cara Mengisi Ulang Kartrid Laser Sendiri

Cara Membuat Printer

Bagaimana Memilih MFP

Bagaimana Cara Membeli Speaker?

Bagaimana Memilih Sistem Pengeras Suara

Cara Membuat Speaker Portabel

Haruskah Saya Membeli Radio Portabel Atau Pemutar Radio?

Cara Menonaktifkan Semua Layanan Di MTS

Cara Memperpanjang Masa Pakai Baterai

Cara Mempromosikan Grup VKontakte Dengan Jujur

Cara Mengunduh Peta Jalan

Bagaimana Memilih Router Wifi

Cara Mengisi Ulang Kartrid Mesin Fotokopi