قویترین مدلهای تشخیص اشیا در سال 2025: بررسی علمی، مقایسه و نتایج بنچمارکهای معتبر
در این مطلب بهترین و دقیقترین مدلهای تشخیص اشیا در سال 2025 را بر اساس نتایج رسمی بنچمارکها، معماریهای پیشرفته و شواهد علمی بررسی میکنیم تا روشن شود کدام مدل واقعاً قویترین عملکرد را ارائه میدهد.
در سالهای اخیر معماریهای مبتنی بر ترنسفورمر و «بکبُن»های بزرگ بینایی (vision backbones) تحول بزرگی در تشخیص اشیاء ایجاد کردهاند. در عمل، مدلهای نوین مانند خانوادهٔ DINO/DETR و نسخههای بهینهشده/مهندسیشدهٔ مبتنی بر Swin یا معماریهای ویژهٔ بلادرنگ (مثلاً RF-DETR) بهترین نتایج را روی بنچمارکهای استاندارد مثل MS-COCO و LVIS ثبت کردهاند. در این مقاله به شرح فنیِ معماریهای پیشرو، معیارهای ارزیابی، بنچمارکهای معتبر و نتایج بهروز پرداخته میشود تا خواننده بداند «قویترین» مدل فعلی کدام است و چرا. arXiv+1
مقدمه
تشخیص اشیاء (object detection) هدفش یافتن و تعیین مکان (bounding box) و برچسب کلاس است. معیارهای عملکردی رایج عبارتاند از mAP (میانگین دقت میان چند آستانهٔ IoU)، AP50 و AP75 و AR (Average Recall). این معیارها در بنچمارکهایی مثل MS-COCO مرسوم شدهاند و روشهای جدید معمولاً برای رقابت در همین معیارها گزارش میشوند. توجه: هنگام مقایسه نتایج باید نسخهٔ دیتاست، آیا دادهٔ خارجی استفاده شده یا نه، و تنظیمات آموزش (e.g., test-time augmentation) را در نظر گرفت زیرا این موارد تأثیر بزرگ دارند. COCO Dataset
معماریهای پیشرو و دلایل برتریشان
1) DETR و مشتقات آن (مثلاً DINO) — پایانِ دورانِ NMS و نگاشت مستقیم پرسش→جعبه
DETR (Detection Transformer) ایدهٔ تعیین مستقیم مجموعهٔ پیشبینیها با استفاده از queryهای دِتِرمینِستِ تراسفورمر را معرفی کرد؛ DINO (DETR with Improved DeNoising Anchor Boxes) اصلاحاتی در آموزش و انتخاب کوئریها انجام داد که کارایی و همگرایی را بهمراتب بهتر کرد. DINO یکی از مدلهای پیشرویی است که مرزهای AP روی COCO را به جلو برد و بهعنوان پایهٔ بسیاری از کارهای بعدی پذیرفته شد. مزایا: آموزش انتها-به-انتها، حذف برخی ضرورتهای مهندسی مانند anchor design و NMS، و سازگاری بهتر با بکبُنهای قوی. arXiv
2) بکبُنهای بزرگ و پیشآموزش (Swin, DINOv2, ... )
پیشرفتهای چشمگیر در backboneها (مثل Swin Transformer و نسخههای بعدی یا مدلهای پایهٔ دید مانند DINOv2) باعث شد کیفیت ویژگیهای استخراجشده بسیار بالاتر رفته و دقت نهاییِ تشخیصها افزایش یابد. ترکیب یک decoder/heads قوی (مثلاً DINO decoder) با یک backbone بزرگ، معمولاً بهترین نتایج AP را روی COCO و LVIS ثبت میکند. arXiv+1
3) مدلهای مهندسیشده برای کاربرد بلادرنگ — RF-DETR و خانوادهٔ YOLOهای نوین
برای کاربردهایی که نیاز به تأخیر کم (low latency) دارند، مدلهای مهندسیشده مانند RF-DETR تلاش کردهاند تا تعادل دقت/سرعت را بهبود دهند. RF-DETR ادعا کرده که برای اولینبار به بیش از 60 AP روی COCO در تنظیمات بلادرنگ نزدیک شده است و برای سناریوهای edge یا inference سریع مناسب است. همچنین خانوادهٔ YOLO (با نسخههای جدید تا 2025) هنوز برای کاربردهای real-time محبوب و رقابتیاند، مخصوصاً وقتی محدودیت محاسباتی داریم. در تحلیلهای مقایسهای باید همیشه معیارهای سرعت (FPS یا latency روی سختافزار مشخص) را همراه با mAP گزارش کرد. Roboflow Blog+1
بنچمارکها و مجموعهدادههای معتبر
-
MS-COCO (Common Objects in Context) — استاندارد طلایی برای ارزیابی تشخیص دوبعدی؛ معیارهایی مانند AP@[.5:.95] (mAP)، AP50، AP75 و AR در آن مرسوم است. نتایج رسمی معمولاً از طریق سرور CodaLab و test-dev گزارش میشوند. برای مقایسهٔ دقیق، وضعیت استفاده از دادهٔ خارجی و تنظیمات آموزشی باید روشن باشد. COCO Dataset
-
LVIS (Large Vocabulary Instance Segmentation) — برای کار با تعداد کلاسهای زیاد و long-tail distribution مناسب است؛ مدلهایی که در COCO خوب عمل میکنند ممکن است در LVIS با توزیع نامتراکم کلاسها چالش داشته باشند.
-
OpenImages / Object365 — مجموعههای بزرگ با تنوع بالا؛ برخی از بهترین روشها با pretraining یا استفاده از مجموعههای خارجی (Object365، OpenImages) نتایج COCO را افزایش میدهند؛ بنابراین هنگام گزارش mAP باید مشخص باشد که آیا pretraining اضافی استفاده شده یا نه.
-
بنچمارکهای کاربردی (domain-specific) — برای کارهای صنعتی (نظارت ویدئویی، پزشکی، خودرانها) معمولاً بنچمارکهای خاص حوزه (مثل Cityscapes، BDD100K، دیتاستهای پزشکی خاص) مرجع قرار میگیرند.
نحوهٔ ارزیابی درست و اشتباهات رایج
-
همیشه از AP@[.5:.95] (mAP) بهعنوان معیار بارز استفاده کنید؛ گزارش صرف AP50 اغلب گمراهکننده است.
-
مشخص کنید آیا آموزش با دادههای خارجی (extra data) یا فقط COCO انجام شده است.
-
زمان/سرعت را با ذکر نوع سختافزار دقیق گزارش کنید (مثلاً latency بر حسب ms روی NVIDIA T4 یا A100).
-
اگر از تقویت در تست (TTA) یا ensemble استفاده میکنید، جداگانه گزارش شود.
-
مقایسههای پرداختشده یا نتایج بلاگپستها را با احتیاط بپذیرید مگر اینکه مطابق پروتکل رسمی بنچمارک باشند. COCO Dataset
شواهد تجربی و «قویترین» مدل کدام است؟ (خلاصهٔ مبتنی بر نتایج تا 2025)
-
روی MS-COCO test-dev، خانوادهٔ DINO/DETR (با backboneهای بزرگ مانند Swin-L/H و pretraining گسترده) از نظر AP جعبهها در صدر قرار گرفتهاند. یکی از مرجعهای گردآوری نتایج نشان میدهد DINO با AP≈63.3 (بسته به تنظیمات و استفاده از دادههای اضافه) در بین روشهای برتر قرار دارد. GitHub+1
-
با این حال، اگر معیار عملیاتی «بلادرنگ با کمترین تأخیر و AP بالا» باشد، RF-DETR و برخی نسخههای بهینهشدهٔ YOLO/RT-DETR ترکیبی از دقت و سرعت را ارائه میدهند؛ Roboflow ادعا کرده که RF-DETR برای اولینبار بالای 60 AP را در تنظیمات real-time ثبت کرده است، که برای کاربردهای edge ارزشمند است. اما باید به یاد داشت که ادعاهای بلاگ/شرکتی باید با نتایج رسمی تست-دِو مقایسه شوند. GitHub+1
جمعبندی عملی: اگر هدف شما حداکثر AP روی COCO و تحقیق پژوهشی است، یک پیکربندی DINO (یا مدل DETR پیشرفته با backbone قوی و pretraining گسترده) بهترین انتخاب فعلی است. اگر هدف محصول/تولید/edge و محدودیت latency است، مدلهای مهندسیشده مانند RF-DETR یا نسخههای سریع YOLO نسخههای جدید گزینهٔ عملیتریاند. arXiv+1
جدول مقایسه (خلاصه)
| مدل / ویژگی | محدوده AP (COCO, تقریبی) | مزایا | معایب |
|---|---|---|---|
| DINO + Swin-L / DINOv2 backbone | ≈ 60–64 (AP) | بالاترین دقت در بنچمارکهای آکادمیک؛ معماری انتها-به-انتها. | نیاز به محاسبات زیاد؛ latency بالاتر |
| RF-DETR (real-time DETR) | ≈ 54–61 (بسته به نسخه) | طراحیشده برای latency کم؛ مناسب edge | ممکن است برای حداکثر AP کلی از مدلهای بزرگ عقب بماند |
| YOLO (نسخههای جدید تا 2025) | ≈ 40–58 بسته به نسخه/اندازه | سرعت بالا؛ اجرا روی سختافزار محدود | معمولاً دقت کمتری نسبت به DETRهای بزرگ در بالاترین رده |
| مدلهای ensemble/SOTA با external pretraining (Florence, Swin-based HTC++, و غیره) | ≈ 62+ | کسب AP بالا با pretraining/ensemble | پیچیدگی و هزینهٔ محاسباتی بالا |
(منابع دادههای بالا: آمارهای گردآوریشده از leaderboards و گزارشهای رسمی و پیادهسازیها؛ برای مقادیر دقیق به مقالات/سرور رسمی مراجعه کنید). GitHub+1
محدودیتها و جهتهای آینده
-
مقایسهها حساس به pretraining و افزودن دیتاستهای خارجی هستند؛ این موضوع باعث شده «قویترین» مدل بهطور مطلق تعریفناپذیر باشد.
-
ظهور vision foundation models (مثل DINOv2/DINOv3 یا مدلهای بزرگ چندمنظوره) نشان میدهد تمرکز به سمت استفاده از نمایشهای قدرتمند از پیشآموزششده برای بهبود تشخیص اشیاء حرکت کرده است.
-
بهتدریج ارزیابیهای چندمعیاره (دقت، سرعت، مصرف حافظه، انرژی، قابلیت تعمیم به دامنههای جدید) در تصمیمگیریهای عملی اهمیت خواهد یافت. arXiv+1
نتیجهگیری
برای مقاصد تحقیقاتی و کسب بالاترین mAP در بنچمارکهای عمومی، معماریهای مبتنی بر DETR/ DINO همراه با backboneهای بزرگ و pretrainingهای گسترده در صدر قرار دارند. برای کاربردهای عملی که نیاز به تأخیر کم و اجرا در edge دارند، مدلهایی مثل RF-DETR یا نسخههای بهینهشدهٔ خانوادهٔ YOLO انتخابهای مناسبتریاند. arXiv+1
منابع و مراجع
-
MS-COCO dataset — Common Objects in Context. (صفحهٔ رسمی). COCO Dataset
-
Zhang, H., et al. “DINO: DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection.” arXiv / ICLR (DINO paper). arXiv
-
Roboflow — RF-DETR (مقاله و مخزن GitHub / بلاگ رسمی). GitHub+1
-
گردآوری نتایج و leaderboards (مراجع جمعآوریشده / GitHub leaderboard snapshot). GitHub
-
MDPI survey (2025): «2D Object Detection: A Survey» — بررسی جامع روشهای مدرن. MDPI