نهج تعاوني لتوليد الصور
كتب – المحرر الإفتراضي
كيف تعمل المعكرونة
لتدريب وكيل الذكاء الاصطناعي بفعالية للتكيف مع التفضيلات الفردية للمستخدم ، هناك حاجة إلى مجموعة كبيرة ومتنوعة من بيانات التفاعل. ومع ذلك ، فإن جمع هذه البيانات من المستخدمين الحقيقيين أمر صعب بسبب عدة عوامل ، بما في ذلك خصوصية المستخدم. لمعالجة هذا ، قمنا بتدريب المعكرونة باستخدام استراتيجية على مرحلتين تجمع بين ردود الفعل البشرية الحقيقية ومحاكاة المستخدم على نطاق واسع.
أولاً ، جمعنا مجموعة بيانات تأسيسية عالية الجودة مع أكثر من 7000 تفاعلات متسلسلة لـ 7000. تضمنت هذه التفاعلات توسعات موجهة تم إنشاؤها بواسطة نموذج متعدد الوسائط كبير في الجوزاء والصور المقابلة التي تم إنشاؤها بواسطة نموذج T2I المستقر XL (SDXL). ثم تم استخدام هذه البذرة الأولية لبيانات التفضيل الأصلية لتدريب محاكاة المستخدم ، المصممة لإنشاء بيانات إضافية تكرر الخيارات والتفضيلات البشرية الحقيقية.
يوجد في صميم طريقتنا نموذج مستخدم ، ويتضمن مكونين رئيسيين: 1) نموذج الأداة المساعدة يتنبأ بالدرجة التي سيحب بها المستخدم أي مجموعة من الصور ، و 2) نموذج اختيار يتنبأ بمجموعة الصور التي سيختارونها عند تقديمها مع عدة مجموعات. قمنا ببناء نموذج المستخدم باستخدام تشفير المشبك المدربين مسبقًا ومكونات خاصة بالمستخدم. لقد قمنا بتدريب النموذج باستخدام خوارزمية التوقعات التي تسمح لنا في وقت واحد بتعلم تفاصيل تفضيلات المستخدم مع اكتشاف “أنواع المستخدمين” الكامنة ، أي مجموعات من المستخدمين ذوي الأذواق المماثلة (على سبيل المثال ، تفضل تفضيل الصور مع الحيوانات أو وجهات النظر ذات المناظر الخلابة أو الفن التجريدي).
يمكن لمحاكاة المستخدم المدربة تقديم ملاحظات وتفضيلات التعبير عن الصور التي تم إنشاؤها ، وتقديم اختيارات من مجموعات من الصور المقترحة. يتيح لنا ذلك توليد أكثر من 30،000 مسار للتفاعل المحاكاة .. نهجنا يفعل أكثر من مجرد إنشاء المزيد من البيانات ؛ إنه يعطينا بيئة خاضعة للرقابة لاستكشاف مجموعة واسعة من سلوكيات المستخدم حتى نتمكن من تدريب وكيل المعكرونة على التعاون بفعالية مع المستخدمين.






