قوی‌ترین مدل‌های تشخیص اشیا در سال 2025: بررسی علمی، مقایسه و نتایج بنچمارک‌های معتبر

08:04:51 _ 04/08/28

در این مطلب بهترین و دقیق‌ترین مدل‌های تشخیص اشیا در سال 2025 را بر اساس نتایج رسمی بنچمارک‌ها، معماری‌های پیشرفته و شواهد علمی بررسی می‌کنیم تا روشن شود کدام مدل واقعاً قوی‌ترین عملکرد را ارائه می‌دهد.

در سال‌های اخیر معماری‌های مبتنی بر ترنسفورمر و «بک‌بُن»های بزرگ بینایی (vision backbones) تحول بزرگی در تشخیص اشیاء ایجاد کرده‌اند. در عمل، مدل‌های نوین مانند خانوادهٔ DINO/DETR و نسخه‌های بهینه‌شده/مهندسی‌شدهٔ مبتنی بر Swin یا معماری‌های ویژهٔ بلادرنگ (مثلاً RF-DETR) بهترین نتایج را روی بنچمارک‌های استاندارد مثل MS-COCO و LVIS ثبت کرده‌اند. در این مقاله به شرح فنیِ معماری‌های پیشرو، معیارهای ارزیابی، بنچمارک‌های معتبر و نتایج به‌روز پرداخته می‌شود تا خواننده بداند «قوی‌ترین» مدل فعلی کدام است و چرا. arXiv+1

مقدمه

تشخیص اشیاء (object detection) هدفش یافتن و تعیین مکان (bounding box) و برچسب کلاس است. معیارهای عملکردی رایج عبارت‌اند از mAP (میانگین دقت میان چند آستانهٔ IoU)، AP50 و AP75 و AR (Average Recall). این معیارها در بنچمارک‌هایی مثل MS-COCO مرسوم شده‌اند و روش‌های جدید معمولاً برای رقابت در همین معیارها گزارش می‌شوند. توجه: هنگام مقایسه نتایج باید نسخهٔ دیتاست، آیا دادهٔ خارجی استفاده شده یا نه، و تنظیمات آموزش (e.g., test-time augmentation) را در نظر گرفت زیرا این موارد تأثیر بزرگ دارند. COCO Dataset

معماری‌های پیشرو و دلایل برتری‌شان

1) DETR و مشتقات آن (مثلاً DINO) — پایانِ دورانِ NMS و نگاشت مستقیم پرسش→جعبه

DETR (Detection Transformer) ایدهٔ تعیین مستقیم مجموعهٔ پیش‌بینی‌ها با استفاده از queryهای دِتِرمینِستِ تراسفورمر را معرفی کرد؛ DINO (DETR with Improved DeNoising Anchor Boxes) اصلاحاتی در آموزش و انتخاب کوئری‌ها انجام داد که کارایی و همگرایی را به‌مراتب بهتر کرد. DINO یکی از مدل‌های پیشرویی است که مرزهای AP روی COCO را به جلو برد و به‌عنوان پایهٔ بسیاری از کارهای بعدی پذیرفته شد. مزایا: آموزش انتها-به-انتها، حذف برخی ضرورت‌های مهندسی مانند anchor design و NMS، و سازگاری بهتر با بک‌بُن‌های قوی. arXiv

2) بک‌بُن‌های بزرگ و پیش‌آموزش (Swin, DINOv2, ... )

پیشرفت‌های چشمگیر در backboneها (مثل Swin Transformer و نسخه‌های بعدی یا مدل‌های پایهٔ دید مانند DINOv2) باعث شد کیفیت ویژگی‌های استخراج‌شده بسیار بالاتر رفته و دقت نهاییِ تشخیص‌ها افزایش یابد. ترکیب یک decoder/heads قوی (مثلاً DINO decoder) با یک backbone بزرگ، معمولاً بهترین نتایج AP را روی COCO و LVIS ثبت می‌کند. arXiv+1

3) مدل‌های مهندسی‌شده برای کاربرد بلادرنگ — RF-DETR و خانوادهٔ YOLOهای نوین

برای کاربردهایی که نیاز به تأخیر کم (low latency) دارند، مدل‌های مهندسی‌شده مانند RF-DETR تلاش کرده‌اند تا تعادل دقت/سرعت را بهبود دهند. RF-DETR ادعا کرده که برای اولین‌بار به بیش از 60 AP روی COCO در تنظیمات بلادرنگ نزدیک شده است و برای سناریوهای edge یا inference سریع مناسب است. همچنین خانوادهٔ YOLO (با نسخه‌های جدید تا 2025) هنوز برای کاربردهای real-time محبوب و رقابتی‌اند، مخصوصاً وقتی محدودیت محاسباتی داریم. در تحلیل‌های مقایسه‌ای باید همیشه معیارهای سرعت (FPS یا latency روی سخت‌افزار مشخص) را همراه با mAP گزارش کرد. Roboflow Blog+1

بنچمارک‌ها و مجموعه‌داده‌های معتبر

MS-COCO (Common Objects in Context) — استاندارد طلایی برای ارزیابی تشخیص دوبعدی؛ معیارهایی مانند AP@[.5:.95] (mAP)، AP50، AP75 و AR در آن مرسوم است. نتایج رسمی معمولاً از طریق سرور CodaLab و test-dev گزارش می‌شوند. برای مقایسهٔ دقیق، وضعیت استفاده از دادهٔ خارجی و تنظیمات آموزشی باید روشن باشد. COCO Dataset
LVIS (Large Vocabulary Instance Segmentation) — برای کار با تعداد کلاس‌های زیاد و long-tail distribution مناسب است؛ مدل‌هایی که در COCO خوب عمل می‌کنند ممکن است در LVIS با توزیع نامتراکم کلاس‌ها چالش داشته باشند.
OpenImages / Object365 — مجموعه‌های بزرگ با تنوع بالا؛ برخی از بهترین روش‌ها با pretraining یا استفاده از مجموعه‌های خارجی (Object365، OpenImages) نتایج COCO را افزایش می‌دهند؛ بنابراین هنگام گزارش mAP باید مشخص باشد که آیا pretraining اضافی استفاده شده یا نه.
بنچمارک‌های کاربردی (domain-specific) — برای کارهای صنعتی (نظارت ویدئویی، پزشکی، خودران‌ها) معمولاً بنچمارک‌های خاص حوزه (مثل Cityscapes، BDD100K، دیتاست‌های پزشکی خاص) مرجع قرار می‌گیرند.

نحوهٔ ارزیابی درست و اشتباهات رایج

همیشه از AP@[.5:.95] (mAP) به‌عنوان معیار بارز استفاده کنید؛ گزارش صرف AP50 اغلب گمراه‌کننده است.
مشخص کنید آیا آموزش با داده‌های خارجی (extra data) یا فقط COCO انجام شده است.
زمان/سرعت را با ذکر نوع سخت‌افزار دقیق گزارش کنید (مثلاً latency بر حسب ms روی NVIDIA T4 یا A100).
اگر از تقویت در تست (TTA) یا ensemble استفاده می‌کنید، جداگانه گزارش شود.
مقایسه‌های پرداخت‌شده یا نتایج بلاگ‌پست‌‌ها را با احتیاط بپذیرید مگر اینکه مطابق پروتکل رسمی بنچمارک باشند. COCO Dataset

شواهد تجربی و «قوی‌ترین» مدل کدام است؟ (خلاصهٔ مبتنی بر نتایج تا 2025)

روی MS-COCO test-dev، خانوادهٔ DINO/DETR (با backboneهای بزرگ مانند Swin-L/H و pretraining گسترده) از نظر AP جعبه‌ها در صدر قرار گرفته‌اند. یکی از مرجع‌های گردآوری نتایج نشان می‌دهد DINO با AP≈63.3 (بسته به تنظیمات و استفاده از داده‌های اضافه) در بین روش‌های برتر قرار دارد. GitHub+1
با این حال، اگر معیار عملیاتی «بلادرنگ با کمترین تأخیر و AP بالا» باشد، RF-DETR و برخی نسخه‌های بهینه‌شدهٔ YOLO/RT-DETR ترکیبی از دقت و سرعت را ارائه می‌دهند؛ Roboflow ادعا کرده که RF-DETR برای اولین‌بار بالای 60 AP را در تنظیمات real-time ثبت کرده است، که برای کاربردهای edge ارزشمند است. اما باید به یاد داشت که ادعاهای بلاگ/شرکتی باید با نتایج رسمی تست-دِو مقایسه شوند. GitHub+1

جمع‌بندی عملی: اگر هدف شما حداکثر AP روی COCO و تحقیق پژوهشی است، یک پیکربندی DINO (یا مدل DETR پیشرفته با backbone قوی و pretraining گسترده) بهترین انتخاب فعلی است. اگر هدف محصول/تولید/edge و محدودیت latency است، مدل‌های مهندسی‌شده مانند RF-DETR یا نسخه‌های سریع YOLO نسخه‌های جدید گزینهٔ عملی‌تری‌اند. arXiv+1

جدول مقایسه (خلاصه)

مدل / ویژگی	محدوده AP (COCO, تقریبی)	مزایا	معایب
DINO + Swin-L / DINOv2 backbone	≈ 60–64 (AP)	بالاترین دقت در بنچمارک‌های آکادمیک؛ معماری انتها-به-انتها.	نیاز به محاسبات زیاد؛ latency بالاتر
RF-DETR (real-time DETR)	≈ 54–61 (بسته به نسخه)	طراحی‌شده برای latency کم؛ مناسب edge	ممکن است برای حداکثر AP کلی از مدل‌های بزرگ عقب بماند
YOLO (نسخه‌های جدید تا 2025)	≈ 40–58 بسته به نسخه/اندازه	سرعت بالا؛ اجرا روی سخت‌افزار محدود	معمولاً دقت کمتری نسبت به DETRهای بزرگ در بالاترین رده
مدل‌های ensemble/SOTA با external pretraining (Florence, Swin-based HTC++, و غیره)	≈ 62+	کسب AP بالا با pretraining/ensemble	پیچیدگی و هزینهٔ محاسباتی بالا

(منابع داده‌های بالا: آمارهای گردآوری‌شده از leaderboards و گزارش‌های رسمی و پیاده‌سازی‌ها؛ برای مقادیر دقیق به مقالات/سرور رسمی مراجعه کنید). GitHub+1

محدودیت‌ها و جهت‌های آینده

مقایسه‌ها حساس به pretraining و افزودن دیتاست‌های خارجی هستند؛ این موضوع باعث شده «قوی‌ترین» مدل به‌طور مطلق تعریف‌ناپذیر باشد.
ظهور vision foundation models (مثل DINOv2/DINOv3 یا مدل‌های بزرگ چندمنظوره) نشان می‌دهد تمرکز به سمت استفاده از نمایش‌های قدرتمند از پیش‌آموزش‌شده برای بهبود تشخیص اشیاء حرکت کرده است.
به‌تدریج ارزیابی‌های چندمعیاره (دقت، سرعت، مصرف حافظه، انرژی، قابلیت تعمیم به دامنه‌های جدید) در تصمیم‌گیری‌های عملی اهمیت خواهد یافت. arXiv+1

نتیجه‌گیری

برای مقاصد تحقیقاتی و کسب بالاترین mAP در بنچمارک‌های عمومی، معماری‌های مبتنی بر DETR/ DINO همراه با backboneهای بزرگ و pretraining‌های گسترده در صدر قرار دارند. برای کاربردهای عملی که نیاز به تأخیر کم و اجرا در edge دارند، مدل‌هایی مثل RF-DETR یا نسخه‌های بهینه‌شدهٔ خانوادهٔ YOLO انتخاب‌های مناسب‌تری‌اند. arXiv+1

منابع و مراجع

MS-COCO dataset — Common Objects in Context. (صفحهٔ رسمی). COCO Dataset
Zhang, H., et al. “DINO: DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection.” arXiv / ICLR (DINO paper). arXiv
Roboflow — RF-DETR (مقاله و مخزن GitHub / بلاگ رسمی). GitHub+1
گردآوری نتایج و leaderboards (مراجع جمع‌آوری‌شده / GitHub leaderboard snapshot). GitHub
MDPI survey (2025): «2D Object Detection: A Survey» — بررسی جامع روش‌های مدرن. MDPI