La اكتشاف الكائنات في الصور باستخدام الذكاء الاصطناعي أصبحت هذه التقنية من التقنيات الرائدة في مجال رؤية الحاسوب. ورغم صعوبة استيعاب البشر لجميع تفاصيل المشهد المعقد، فإن الخوارزميات الحالية قادرة على تحديد وتصنيف مئات العناصر في أجزاء من الثانية، بدءًا من الناس والسيارات حتى العيوب المجهرية في قطعة صناعية.
لا تقتصر هذه القدرة على التعرف على "ما" يظهر في الصورة أو الفيديو فحسب، بل تشمل أيضاً معرفة "موقع" كل عنصر، وحجمه، وكيفية حركته، وعلاقته ببقية العناصر. وبفضل ذلك، يمكن للذكاء الاصطناعي تشغيل تطبيقات متنوعة مثل... المركبات ذاتية القيادة، والمراقبة بالفيديو الذكية، والتشخيص الطبي، والتجزئة بدون أمين صندوق، والتحليل الجغرافي المكاني باستخدام الأقمار الصناعية والطائرات بدون طيار.
ما هو اكتشاف الأجسام تحديداً؟
عندما نتحدث عن اكتشاف الأجسام، فإننا نشير إلى فرع من فروع رؤية الحاسوب والتعلم العميق يُمكّن هذا النظام من تحديد العناصر الظاهرة في صورة أو مقطع فيديو، وتحديد مواقعها باستخدام مربعات إحاطة. والهدف هو أن تحاكي الآلات، إلى حد ما، العمليات المعقدة للرؤية البشرية.
بخلاف الأساليب الأخرى الأبسط، لا يقول الكاشف ببساطة "هناك كلب في هذه الصورة"، ولكنه يُرجع نتيجة لكل كائن. فئة وإحداثيات دقيقة (إحداثيات س و ص، عرض وارتفاع المربع). وهذا يُمكّن من حساب عدد السيارات في موقف السيارات، وتتبع أحد المشاة عبر كاميرات متعددة، أو العثور على جميع البراغي المعيبة في خط الإنتاج.
لتحقيق هذا السلوك، يتم تدريب النماذج على كميات كبيرة من الصور المشروحة، حيث يتم وضع علامة يدوية على كل حالة ذات صلة بـ مربع محيط وعلامة فئةتساعد كيلومترات من الصور المصنفة، حرفياً، الشبكة العصبية على تعلم ربط الأنماط المرئية (النسيج، والخطوط، والألوان، والأشكال) بالأشياء الملموسة.
تعتمد هذه العملية بشكل أساسي على الذكاء الاصطناعي الذي يستخلص سمات مجردة بشكل متزايد من الصور حتى يتمكن من التمييز بين قطة وكلب، أو خوذة أمان وقبعة، أو ورم ونسيج سليم، وذلك في تتنوع الأوضاع والأحجام وظروف الإضاءة بشكل كبير.
الكشف مقابل التصنيف والتجزئة
من المهم توضيح الفرق بين اكتشاف الأجسام ومهام رؤية الحاسوب الأخرى ذات الصلة الوثيقة، مثل تصنيف الصور وتجزئتها (دلاليًا أو حسب الحالات)لأنها لا تحل نفس المشكلة.
في تصنيف الصور، يستقبل النموذج صورة كاملة ويعيد تصنيفًا عامًا واحدًا. أي أنه يستطيع أن يشير إلى أن الصورة "شاطئ" أو "قطة" أو "سيارة"، ولكن لا يشير ذلك إلى مكان وجود الشيء. داخل المشهد. لا توجد إحداثيات أو حالات متعددة: إنه قرار واحد لكل صورة.
تتجاوز عملية اكتشاف الأجسام ذلك خطوةً أخرى: إذ يقوم النظام بفحص الصورة، واقتراح مناطق محتملة ذات محتوى مثير للاهتمام، ومحاولة تحديد فئة كل منها. والنتيجة النهائية هي عدة مربعات تحمل تسمياتها ومستويات الثقة الخاصة بها. وهذا يتيح... تحديد وتحديد مواقع العديد من العناصر في وقت واحد، مثل المشاة وإشارات المرور واللافتات والمركبات في نفس الإطار.
من ناحية أخرى، يقوم التجزئة الدلالية بتعيين تصنيف لكل بكسل، بحيث يتم تلوين السطح بأكمله لـ "الطريق" أو "السماء" أو "النباتات" بشكل متسق. هذا النهج مفيد للغاية عندما تكون المناطق أكثر أهمية من الكائنات الفردية، ولكن لا يميز بين الحالات المختلفة من نفس الفئة (سيارتان متصلتان تصبحان "كتلة سيارات" واحدة).
يجمع تجزئة الكائنات بين أفضل ما في كلا المجالين: فهو يميز كل كائن، ويحدد شكله بدقة تتجاوز مجرد مربع بسيط. تقنيات مثل قناع R-CNN لقد صُممت هذه التقنيات خصيصاً لهذا الغرض، حيث توسع نطاق الكشف الكلاسيكي باستخدام أقنعة مفصلة.
كيف يعمل كاشف الأجسام الحديث
خلف أجهزة الكشف الحالية، يوجد دائمًا تقريبًا، الشبكات العصبية التلافيفية (CNN)تتألف الخطة العامة من أخذ صورة، وتمريرها عبر شبكة عصبية تلافيفية تستخرج خرائط الميزات، ومن ثم التنبؤ بفئات الكائنات وموضع مربعاتها.
كان أحد المناهج التاريخية الأولى هو فكرة استخدام شبكة تصنيف مدربة مسبقًا (مثل ResNet أو VGG) وتطبيقها نافذة منزلقة تم فحص الصورة بأكملها، واختبار العديد من الأجزاء ذات الأحجام والمواقع المختلفة. تم فرز كل جزء على حدة لمعرفة ما إذا كان يحتوي على عنصر ذي أهمية. على الرغم من بساطة الفكرة، إلا أنها غير فعالة للغاية في الواقع: ملايين الأجزاء، وأوقات حساب هائلة، والعديد من التداخلات الزائدة.
ولتحسين ذلك، ظهرت ما يسمى بالشبكات القائمة على المناطق، R-CNN (شبكة CNN القائمة على المناطق)بدلاً من المسح العشوائي، حددت خوارزمية اختيار المنطقة الأولية (البحث الانتقائي، مربعات الحواف، وطرق مماثلة) مئات أو آلاف المناطق الواعدة في الصورة. تم اقتصاص هذه المناطق فقط، وتغيير حجمها، وإرسالها إلى الشبكة العصبية التلافيفية لاستخراج الميزات، ثم تصنيفها باستخدام نموذج إضافي، وأخيراً تحسين المربع باستخدام مُنحدر.
وقد أسفر هذا النهج عن نتائج جيدة إلى حد ما، ولكنه لا يزال مكلفة حسابيًا وبطيئةتمت معالجة كل منطقة بشكل مستقل تقريبًا، وقد تستغرق معالجة صورة واحدة عشرات الثواني. ومع ذلك، مهدت شبكة R-CNN الطريق وأرست مفاهيم أساسية مثل استخدام تقاطع فوق الاتحاد (IoU) لقياس التداخل بين المربعات أو قمع غير أقصى (NMS) للاحتفاظ بأفضل صندوق فقط عندما تصف عدة صناديق نفس الكائن.

الطرق ذات المرحلتين مقابل الطرق ذات المرور الواحد
بالنظر إلى الوضع الحالي، يمكننا تقسيم خوارزميات الكشف إلى عائلتين رئيسيتين: أساليب من مرحلتين (من نوع R-CNN) و طرق المرحلة الواحدة (لقطة واحدة). يمثل كل نهج حلاً وسطاً مختلفاً بين الدقة والسرعة واستهلاك الموارد.
في الطرق ذات المرحلتين، مثل Faster R-CNN أو Mask R-CNN، تقوم الشبكة أولاً بإنشاء مجموعة من اقتراحات المناطق التي قد تتواجد فيها الكائنات، وفي المرحلة الثانية، يقوم بتنقيح وتصنيف كل اقتراحيوفر هذا الهيكل عادةً دقة عالية وصناديق موضوعة بشكل جيد، مما يجعلها مثالية للسياقات التي يكون فيها للخطأ تكلفة عالية، مثل التشخيص الطبي أو الفحص الدقيق أو التطبيقات العلمية.
في الأساليب أحادية المرحلة، يقوم الكاشف بمعالجة الصورة من البداية إلى النهاية في خطوة واحدة. بنى مثل YOLO أو SSD أو RetinaNet يحوّلون المشكلة إلى انحدار مباشر: لكل خلية في الشبكة ولعدة نقاط ارتكاز، تتنبأ الشبكة في آنٍ واحد بوجود كائن، وفئته، وكيفية ملاءمته للمربع. هذا يلغي مرحلة الاقتراح الصريح ويسمح بتحقيق سرعات استدلال عالية جدًامناسب للفيديو في الوقت الفعلي.
YOLO (أنت تنظر مرة واحدة فقط)
المثال الأكثر شهرة. يقسم هذا النموذج الصورة إلى شبكة (على سبيل المثال، 13×13)، ويربط عدة نقاط مرجعية بكل خلية، وباستخدام شبكة عصبية التفافية من نوع Darknet، يُولّد في آنٍ واحد مئات التنبؤات للمربعات والفئات. وبفضل تصميمه الذي لا يتطلب تكرارات خارجية، تحقق نماذج مثل YOLOv3 وYOLOv5 وإصدارات Ultralytics نتائج مذهلة. عشرات الإطارات في الثانية على الأجهزة التقليدية، وهو أمر أساسي في القيادة الذاتية، أو الروبوتات، أو الكاميرات الذكية.
SSD (كاشف اللقطة الفردية)
يقترح هذا النظام بنية هرمية تستفيد من خرائط الميزات ذات الدقة المختلفة لـ اكتشاف الأجسام الكبيرة والصغيرة في تمريرة واحدة، بينما تقدم RetinaNet التقنية الشهيرة الخسارة البؤرية لمعالجة عدم التوازن القوي بين الأمثلة الخلفية والأمثلة الإيجابية، وبالتالي تحسين اكتشاف الأجسام النادرة دون أن تهيمن عليها الأمثلة السلبية.
أهم النماذج والأدوات ذات الصلة بالنظام البيئي
وبعيدًا عن البنى النظرية، هناك المنصات والمكتبات والخدمات السحابية تُسهّل هذه الأدوات بشكل كبير العمل مع تقنية اكتشاف الأجسام، سواءً في المشاريع البحثية أو لدمجها في المنتجات التجارية دون الحاجة إلى إعادة اختراع العجلة. وهذه هي أفضلها:
- الكاشف2تم تطوير هذه الأداة بواسطة شركة Meta AI، وهي مبنية على PyTorch وتوفر تطبيقات مرجعية لنماذج مثل Faster R-CNN وMask R-CNN وRetinaNet وDensePose، بالإضافة إلى كاشفات تعتمد على المحولات مثل DETR. وهي أداة قيّمة للغاية في مجال البحث العلمي لأنها يتيح لك ذلك إنشاء نماذج أولية وتقييم الأفكار الجديدة. بسهولة نسبية، ويتعايش مع مشاريع إدارة الصور مثل فوتوبريسم.
- مكتبة برمجية مفتوحة للرؤية الحاسوبيةتُطوّر شركة OpenCV، من خلال فرعها التجاري OpenCV.ai، حلولاً مُخصصة للرؤية الآلية، تشمل: اكتشاف الأجسام، وتقسيمها، وتقدير وضعها، وإعادة بنائها ثلاثية الأبعاد، ومعايرة الكاميرا، ونماذج مُحسّنة للأجهزة منخفضة الطاقة. وتستفيد الشركة من قاعدة المستخدمين الضخمة التي تستخدم مكتبة OpenCV في مشاريع صناعية، وطبية حيوية، وسيارات، ورياضية.
- API4AI. يوفر هذا الحل نقطة نهاية سحابية لإرسال الصور واستقبال المربعات والتصنيفات ودرجات الثقة. يُعد هذا النوع من الحلول مفيدًا عندما تريد دمج الذكاء الاصطناعي دون إدارة البنية التحتية أو تدريب النماذج من الصفر.
- فلاي بيكس الذكاء الاصطناعي تتفوق هذه المنصة في مجال المعلومات الجغرافية المكانية، مع التركيز على صور الأقمار الصناعية والطائرات المسيّرة. وتتيح منصتها سهلة الاستخدام للمستخدمين تحميل الصور الجوية أو الصور الفسيفسائية، وتدريب نماذج مخصصة لاكتشاف المباني والمحاصيل والمركبات أو التغيرات في التضاريس، وإنشاء خرائط حرارية أو طبقات متجهة.
كما وجدنا حلولاً مثل SentiSight.ai، مع نموذج دفع مرن حسب الاستخدام وأدوات ويب لوضع العلامات والتدريب والنشر أجهزة كشف مخصصةأو فيزوا، مع التركيز بشكل أكبر على حماية العلامة التجارية، والكشف عن الشعارات، ومكافحة الاحتيال البصري في سياقات الأمن السيبراني وقرصنة المحتوى.
خدمات الحوسبة السحابية ومنصات المؤسسات
تُقدم معظم شركات الحوسبة السحابية الكبرى خدمات رؤية حاسوبية تتضمن خاصية اكتشاف الأجسام. على سبيل المثال، تُقدم جوجل الذكاء الاصطناعي لرؤية السحابة، مع وظائف مثل وضع علامات على الصور، وتحديد موقع الكائنات، والتعرف على النصوص (OCR)، واكتشاف الوجوه والشعارات، ومراقبة المحتوى، أو تحليل المستندات الممسوحة ضوئياً.
يعتمد نموذج الفوترة عادةً على الاستخدام: تُحتسب كل صورة وكل نوع من العمليات (مثل اكتشاف التصنيفات، واكتشاف النصوص، وتحديد موقع الكائنات، وما إلى ذلك) كوحدة فوترة واحدة. عادةً ما تكون أول بضعة آلاف من الطلبات شهريًا مجانية، وبعد ذلك، تُفرض رسوم على كل ألف وحدة. هذا يُبسط العملية. اختبر التكنولوجيا بأقل قدر من المخاطرة ثم قم بالتوسيع إذا تطلبت حالة الاستخدام ذلك.
شركات مثل Clarifai تتجاوز هذه المنصات ذلك بكثير، إذ توفر منصات ذكاء اصطناعي شاملة، حيث تتكامل رؤية الحاسوب مع معالجة اللغة الطبيعية والنماذج التوليدية. تتيح لك Clarifai إنشاء النماذج ونشرها وإدارتها على نطاق واسع، وأتمتة مهام مثل تصنيف البيانات، ومراجعة الصور والفيديوهات، والفحص البصري في المصانع، مع خيارات نشر في السحابة، أو في مراكز البيانات المحلية، أو في بيئة هجينة، أو على الحافة.
ومن الميزات الأخرى المثيرة للاهتمام استخدام خاصية اكتشاف الكائنات في بيئات الإنتاجية مثل Microsoft Power Apps و Power Automate. منشئ الذكاء الاصطناعيمن خلال واجهة إرشادية، يمكنك اختيار مجال (كائنات عامة، منتجات على الرفوف، شعارات)، وتحديد الفئات المراد اكتشافها، وتحميل الصور، ووضع علامات عليها عن طريق رسم مربعات، والسماح للمنصة بتدريب ونشر نموذج جاهز للاستخدام في سير العمل والتطبيقات الداخلية دون كتابة التعليمات البرمجية.
مزايا وقيود اكتشاف الأجسام
من بين نقاط قوة هذه التقنية قدرتها على التعامل مع المشاهد المعقدة ذات العناصر المتعددة. وتعمل أجهزة الكشف بشكل جيد للغاية مع أجسام متوسطة الحجم ذات خطوط خارجية واضحةتشغل هذه العناصر ما بين 5% إلى ثلثي الصورة. علاوة على ذلك، فهي تتيح التشغيل بسرعات عالية، بمعدلات إطارات تتجاوز 15 إطارًا في الثانية على الأجهزة المناسبة، مما يجعلها مفيدة للغاية للتطبيقات المباشرة.
ومن مزاياها الأخرى تعدد استخداماتها: إذ يمكن لنموذج واحد أن يكتشف في آن واحد عدة فئات، بدءًا من السيارات والأشخاص وصولًا إلى أنواع محددة من العيوب أو المنتجات. وهذا ما يجعلها أداة فعّالة للغاية لمهام مثل... المراقبة الآلية، وجرد المخزون، والخدمات اللوجستية، وفحص البنية التحتية، أو تحليل الفيديو الرياضي.
مع ذلك، لا يُعدّ اكتشاف الأجسام حلاً سحرياً، وله حدود. فالأجسام الطويلة أو الرفيعة للغاية، كالكابلات أو أقلام الرصاص، قد لا تُمثّل بدقة بواسطة مربع مستطيل. وينطبق الأمر نفسه على الأشكال غير المنتظمة، التي يصعب تمثيلها بمستطيل بسيط.
عندما يكون التركيز على المفاهيم المجردة التي لا يوجد لها وجود مادي واضح، فإن تصنيف الصور أو أساليب التحليل متعدد الوسائط غالباً ما تكون أنسب. وإذا لم تكن الحدود بين المناطق محددة بدقة، كما هو الحال في الصور الجوية للمناظر الطبيعية أو الصور الطبية ثلاثية الأبعاد، التجزئة الدلالية أو تجزئة الحالات قد يكون ذلك أكثر ملاءمة من مجرد مربع حدودي.
على الصعيد العملي، يتطلب تدريب وتشغيل أجهزة الكشف المتقدمة موارد حاسوبية كبيرة، وخاصة وحدات معالجة الرسومات أو وحدات معالجة الموتر متوسطة أو عالية الأداء (انظر أجهزة الكمبيوتر العملاقة المكتبية لتطوير الذكاء الاصطناعيبالإضافة إلى ذلك، إنشاء مجموعات بيانات عالية الجودة مع تعليقات توضيحية دقيقة للمربعات والفئات إنه مكلف وشاقتختار العديد من الشركات التعاون مع مزودي خدمات تصنيف البيانات المتخصصين لتجنب إرهاق فرق علوم البيانات الخاصة بها بالمهام اليدوية.
التعرف على الصور: الفرص والمخاطر
يندرج اكتشاف الأجسام تحت مظلة التعرف على الصور بالذكاء الاصطناعي، وهو مجال أوسع يشمل أيضًا التصنيف العام، والتعرف على الوجوه، وقراءة النصوص، والبحث المرئي، والوصف التلقائي للمشاهد. تفتح هذه المجموعة من التقنيات الباب أمام تحسينات هائلة في الكفاءة والدقة في قطاعات متعددة.
- الصحةتتيح أنظمة الرؤية تحليل الأشعة السينية، والتصوير المقطعي المحوسب، والتصوير بالرنين المغناطيسي، أو المجهر بمستوى من التفاصيل والاتساق يصعب على الإنسان المتعب تحقيقه بعد ساعات من العمل.
- الأمن. فهي تساعد في مراقبة الأماكن الحيوية والكشف عن السلوك الشاذ أو الأشخاص المطلوبين.
- تنقليةفهي تتيح القيادة المساعدة والملاحة المتقدمة.
إلا أن هذه التطورات تنطوي على مخاطر. فمجموعة البيانات المرئية الضخمة تثير مشاكل من الخصوصية وحماية البياناتوخاصة إذا تم تضمين الوجوه أو غيرها من المعرفات الشخصية.
علاوة على ذلك، حيثما تتركز كميات كبيرة من الصور والنماذج القوية، يزداد خطر الهجمات: من سرقة البيانات إلى التلاعب بالكاميرات أو توليد صور مزيفة مُحسّنة لخداع أجهزة الكشف. لهذا السبب، من الضروري استكمال أي حل للرؤية الآلية بـ أفضل الممارسات في مجال الأمن السيبراني والتدقيق وحوكمة الذكاء الاصطناعي.
في ضوء هذا السيناريو، أصبح اكتشاف الأجسام في الصور باستخدام الذكاء الاصطناعي أمراً راسخاً. عنصر أساسي في التحول الرقميعند تصميمها وتدريبها بشكل جيد باستخدام بيانات متنوعة وعالية الجودة، تُمكّن هذه التقنية المؤسسات من جميع الأحجام من أتمتة مهام التحليل البصري، واكتشاف الأنماط التي تغيب عن العين البشرية، وتقديم خدمات أكثر أمانًا وكفاءة وتخصيصًا. ويشترط لتحقيق ذلك الالتزام بإدارة المخاطر الأخلاقية والقانونية والتقنية المرتبطة بها بدقة ومسؤولية.


