ما هو Ferret ؟
تُعد المجموعة الحالية من نماذج الذكاء الاصطناعي التوليدية، بما في ذلك Propensity وMidjourney وClaude وGemini وChatGPT، مألوفة لعشاق التكنولوجيا والجمهور على حد سواء، وتُعتبر هي المشاريع الأبرز وصاحبة البصمة الأكبر في مجال الذكاء الاصطناعي حتى وقت كتابة تلك السطور.
أحد النماذج التي لم تكتسب ضجة بعد، لكنها ستفعل ذلك قريبًا، نموذج Ferret من شركة آبل، وهو نموذج اللغة الكبيرة متعدد الوسائط مفتوح المصدر (MLLM) الذي أطلقته الشركة بهدوء في أكتوبر الماضي على Github مما أحدث هزات في مجتمع أبحاث الذكاء الاصطناعي.
تم إنشاء Apple’s Ferret كمشروع مشترك بين Apple وجامعة كورنيل. ,وهو نتيجة بحث مكثف حول كيفية التعرف على النماذج اللغوية الكبيرة ووضعها في سياق العناصر داخل الصورة. وهذا يعني أن واجهة المستخدم التي تحتوي على نموذج Ferret تحتها يمكنها إدارة الاستعلامات مثل تلك الخاصة بـ ChatGPT أو Gemini، ومع ذلك يمكنها أيضًا السماح للمستخدمين بإنشاء منطقة عن طريق رسم مربع محيط ثم تحديد العناصر ذات الصلة بالموجه داخل تلك المنطقة.
فما الذي تحتاجون معرفته عن هذه الأداة؟ وما الذي سيُميزها عن باقي روبوتات محادثة الذكاء الاصطناعي؟
ما هي آلية عمله؟
الابتكار الرئيسي كان هو قدرته على اكتشاف الكائنات والمفاهيم الدلالية داخل المناطق التي يحددها المستخدم من الصورة بدلاً من مجرد تحليل الصورة بأكملها.
على سبيل المثال، يمكن للمستخدم رسم شكل غير منتظم حول وجه شخص ما في الصورة ويسأل “ما لون عيون هذا الشخص؟” سيتعرف البرنامج بعد ذلك على العيون الموجودة في تلك المنطقة، ويكتشف أنها زرقاء، ويجيب: “هذا الشخص لديه عيون زرقاء”.وباستخدام البيانات المدربة كأساس، سيحدد النموذج لون العيون ويقدم معلومات داعمة، مما يوضح أنه يفهم كيف يشير المستخدم إلى جزء من الصورة.
يتجاوز روبوت Ferret التعرف على الأشياء الأساسية. يمكنه فهم العلاقات بين الكائنات والإجراءات والتفاصيل السياقية الأخرى لإجراء محادثة غنية ومتعددة المحاور حول الصورة مع المستخدم. وهذا يجعله أكثر قدرة على الدردشة التي تركز على المنطقة مقارنة بأنظمة الذكاء الاصطناعي متعددة الوسائط السابقة. ولتحقيق ذلك، تستفيد Ferret من برنامجي تشفير مُزدوجين. يركز أحد برامج التشفير على الجوانب المرئية، بينما يتعامل الآخر مع الإدخال النصي.
إليك كيفية عمل Apple Ferret LLM:
التكامل البصري: لا يقتصر على فهم النص فحسب، بل يقوم بتحليل مناطق معينة من الصور وتحديد العناصر الموجودة بداخلها. يتم بعد ذلك استخدام هذه العناصر كجزء من الاستعلام، مما يسمح لـه بالرد على المطالبات التي تتضمن كلاً من النصوص والصور.
الاستجابات السياقية: على سبيل المثال، عندما يُطلب منه تحديد كائن داخل صورة ما، لا يتعرف على الكائن فحسب، بل يستفيد من العناصر المحيطة لتوفير رؤى أو سياق أعمق، ويتجاوز مجرد التعرف على الكائن.
ما لا نعرفه عن كواليس إطلاق روبوت Ferret من آبل
يجلب Ferret، الذي تم تدريبه على 8 وحدات معالجة رسوميات A100 بذاكرة سعة 80 جيجابايت، بُعدًا جديدًا لتفاعل المستخدم مع الصور. فهو يسمح للمستخدمين برسم منطقة على الصورة، وتحديد العناصر ذات الصلة داخل تلك المنطقة، ورسم المربعات المحيطة للاستعلامات. بعبارات أبسط، يشبه الأمر وجود محقق شخصي للصور، قادر على التعرف على العناصر داخل الصورة ووضعها في سياقها.
على سبيل المثال، إذا قمت بتسليط الضوء على صورة لحيوان وسألت عن هويته، فإنه لا يحدد النوع فحسب، بل يفهم أيضًا ما إذا كنت تشير إلى فصيلة معينة من الكائنات، وما إذا كنت تقصد التلميح إلى شخص آخر مثلًا. إن القدرة على الاستفادة من المعلومات السياقية بهذه الطريقة تفتح إمكانيات مثيرة لتفاعل المستخدم.
مفتوح المصدر ولا يهدف للربح المادي
أحد الجوانب الرائعة لإصدار روبوت Ferret هو قرار آبل بجعله مفتوح المصدر بموجب ترخيص غير تجاري. على الرغم من أنه غير متاح حاليًا للاستخدام التجاري وبالتالي لا نعرف ما إذا كانت هناك ستكون نسخة مدفوعة للشركات ربما أم لا، إلا أن هذه الخطوة تشير إلى تحول في نهج شركة آبل، لتصبح أكثر شفافية وتعاونًا في مجال أبحاث الذكاء الاصطناعي. يعد الدمج المحتمل لـه مع منتجات الشركة المستقبلية احتمالًا مثيرًا للاهتمام كذلك.
تأثير Ferret على أجهزة آبل
قد يؤدي اندماج Ferret في منتجات آبل إلى إحداث ثورة في تجارب المستخدم. تعد التفاعلات المحسنة القائمة على الصور مع Siri، ووظائف البحث المرئي المتقدمة، ومساعدة المستخدم المعززة لتسهيل الوصول، وفهم الوسائط الغنية من بين التطبيقات المحتملة. ويمكن للمطورين أيضًا الاستفادة من قدرات Ferret في التطبيقات المبتكرة عبر مختلف المجالات.
المقارنة مع GPT-4
كشفت الاختبارات المعيارية ضد أحد أبرز المنافسين في ذلك المجال GPT-4 عن تفوق Ferret في دقة الإشارة وتأريض الكائن، خاصة في التعامل مع التفاصيل الصغيرة والدقيقة داخل الصور. تسمح البنية المتخصصة لـ Ferret، المُحسّنة للتحليل الدقيق، بالتفوق على GPT-4 في الفهم متعدد الوسائط.
بينما يستمر GPT-4 في الهيمنة على المهام اللغوية الرئيسية وقدرات المحادثة، فإن نهج آبل المتخصص وريادتها في الابتكار يمنحاها ميزة فريدة في الذكاء متعدد الوسائط. ويمهد هذا الإنجاز الطريق لعصر جديد في الذكاء الاصطناعي، حيث تقود شركات التكنولوجيا العملاقة مثل أبل المنافسة والابتكار في السعي إلى تحقيق الاستفادة القصوى من قدرات الذكاء الاصطناعي.
Ferret مقابل ChatGPT: مقارنة وجهًا لوجه
لقد اكتسب ChatGPT شعبية هائلة باعتباره روبوت محادثة الذكاء الاصطناعي الرائد، لكن الاختبارات المعيارية تكشف أن Ferret يتفوق بالفعل على ChatGPT في بعض المجالات على الرغم من حجمه الأصغر:
- الإحالة والتأريض – يتفوق Ferret بشكل فريد في تحديد الكائنات ذات الشكل الحر في الصور وربطها مكانيًا، بينما يُكافح ChatGPT بشكل ملحوظ مع هذه الأمور.
- الوعي المكاني – يتيح برنامج التشفير البصري المتخصص في Ferret تمثيلات محلية ومفصلة لمناطق الصورة، بينما لا يُمكن لـ ChatGPT القيام بأيًا من تلك الأمور.
- المعرفة – يتيح التدريب المكثف الذي يقدمه ChatGPT معرفة واسعة ومختصة. نطاق Ferret أضيق بكثير.
- محادثة شبيهة بالإنسان – يُظهر ChatGPT تجريدًا إبداعيًا مشابهًا للمناقشات البشرية. يركز Ferret على الإجابات الوظيفية فقط.
وفي الختام، قد يمثل غزو شركة آبل للذكاء الاصطناعي التوليدي تحولًا تاريخيًا للشركة. وفي حين أن Ferret ليس سوى الخطوة الأولى، فإن موارد الشركة الهائلة تكاد تضمن تحقيق تقدم سريع في السنوات القادمة. سيراقب خبراء الذكاء الاصطناعي والمستهلكون على حدٍ سواء عن كثب قدرات روبوت Ferret من آبل، ومدى الإسهامات التي سيُقدّمها للبشرية، ولكن بشكل عام يبدو أن سباق التنافس في مجال الذكاء الاصطناعي أصبح مُحتدمًا للغاية.