كل ما تريد معرفته عن نموذج ذكاء اصطناعى الجديد "Ferret UI"

منذ 3 أسابيع

2 دقائق

كل ما تريد معرفته عن نموذج ذكاء اصطناعى الجديد "Ferret UI"

القاهرة: «رأي الأمة»

نشر باحثو شركة Apple ورقة بحثية أخرى حول نماذج الذكاء الاصطناعي (AI)، وينصب التركيز هذه المرة على فهم واجهات مستخدم الهواتف الذكية (UI) والتنقل فيها. تسلط هذه الورقة، التي لم تخضع لمراجعة النظراء بعد، الضوء على نموذج اللغة الكبير (LLM). يطلق عليه Ferret UI، والذي يمكنه تجاوز رؤية الكمبيوتر التقليدية وفهم شاشات الهواتف الذكية المعقدة.

وهذه ليست الورقة الأولى حول الذكاء الاصطناعي التي ينشرها قسم الأبحاث في شركة التكنولوجيا العملاقة، فقد سبق أن نشرت ورقة بحثية عن ماجستير إدارة الأعمال في الوسائط المتعددة (MLLMs) وأخرى عن نماذج الذكاء الاصطناعي الموجودة على الجهاز.

تم نشر نسخة ما قبل الطباعة من الورقة على موقع arXiv، وهو مستودع مفتوح الوصول عبر الإنترنت للأوراق العلمية. تحمل الورقة عنوان “Ferret-UI: فهم واجهة مستخدم الهاتف المحمول الأرضي مع LLMs متعددة الوسائط” وتركز على توسيع حالة الاستخدام لـ MLLMs.

ويسلط الضوء على أن معظم نماذج اللغات ذات القدرات المتعددة الوسائط لا يمكنها الفهم بما يتجاوز الصور الطبيعية وأن وظائفها “مقيدة”، كما تنص أيضًا على أن نماذج الذكاء الاصطناعي ضرورية لفهم الواجهات المعقدة والديناميكية مثل تلك الموجودة على الهاتف الذكي.

وفقًا للورقة البحثية، تم تصميم واجهة Ferret UI “لتنفيذ مهام مرجعية دقيقة ومهام أساسية خاصة بشاشات واجهة المستخدم، مع تفسير تعليمات اللغة المفتوحة والعمل عليها ببراعة.” بعبارات بسيطة، لا يستطيع نموذج لغة الرؤية التعامل مع شاشة الهاتف الذكي بعناصر متعددة تمثل معلومات مختلفة فحسب، بل يمكنه أيضًا إخبار المستخدم عنها عند سؤاله عن استفسار.

استنادًا إلى الصورة التي تمت مشاركتها في الورقة، يمكن للنموذج فهم عناصر واجهة المستخدم وتصنيفها والتعرف على الرموز. ويمكنه أيضًا الإجابة على أسئلة مثل “أين يوجد رمز التشغيل” و”كيف يمكنني فتح تطبيق التذكيرات؟” وهذا يدل على أن الذكاء الاصطناعي غير قادر على تفسير عدم قدرته على رؤية الشاشة فحسب، بل يمكنه أيضًا الانتقال إلى أجزاء مختلفة من جهاز iPhone بناءً على المطالبة.

لتدريب Ferret UI، قام باحثو Apple بإنشاء بيانات ذات تعقيدات مختلفة بأنفسهم، وقد ساعد هذا النموذج على تعلم المهام الأساسية وفهم العمليات المكونة من خطوة واحدة. “للمهام المتقدمة، نستخدم GPT-4 [40] لتوليد البيانات، بما في ذلك الوصف التفصيلي، وإدراك المحادثة والتفاعل، والتفكير الوظيفي، أوضحت الورقة أن هذه المهام المتقدمة تعد النموذج للمشاركة في مناقشات أكثر دقة حول المكونات المرئية، وصياغة خطط عمل مع وضع أهداف محددة في الاعتبار، وتفسير الأهداف العامة الغرض من الشاشة.

للمزيد : تابعنا هنا ، وللتواصل الاجتماعي تابعنا علي فيسبوك وتويتر .

مصدر المعلومات والصور: youm7