تقنية المسابقة الطويلة للنماذج الكبيرة تتطور، وقد تكون 400000 توكن مجرد البداية
تزداد قدرة النماذج الكبيرة على معالجة النصوص الطويلة بشكل مذهل. من 4000 توكن في البداية إلى 400000 توكن الآن، يبدو أن القدرة على التعامل مع النصوص الطويلة قد أصبحت "ميزة قياسية" جديدة لمصنعي النماذج الكبيرة.
عالميًا، قامت OpenAI بترقية GPT-4 عدة مرات، وزادت طول السياق إلى 32,000 توكن؛ بينما قامت Anthropic بزيادة طول السياق إلى 100,000 توكن؛ وLongLLaMA زادت طول السياق إلى 256,000 توكن أو حتى أكثر.
الشركات المحلية لا تتخلف أيضاً. أطلق شركة ناشئة في مجال النماذج الكبيرة، "جانب القمر"، دردشة كيمي التي تدعم إدخال 200,000 حرف صيني، ما يعادل حوالي 400,000 توكن؛ التقنية LongLoRA التي تم تطويرها بالتعاون بين جامعة هونغ كونغ الصينية ومعهد ماساتشوستس للتكنولوجيا، قادرة على توسيع طول النص لنموذج 7B إلى 100,000 توكن، ونموذج 70B إلى 32,000 توكن.
في الوقت الحالي، تركز العديد من الشركات والمؤسسات الرائدة في مجال النماذج الكبيرة، بما في ذلك OpenAI وAnthropic وMeta و月之暗面، على تحسين القدرة على معالجة النصوص الطويلة. كما أن هذه الشركات تعتبر أيضًا أهدافًا محبوبة في أسواق رأس المال، حيث شهدت أحجام التمويل والتقييمات نموًا انفجاريًا.
ماذا تعني突破技术 النص الطويل؟ يبدو أن هناك تحسنًا كبيرًا في قدرة النموذج على القراءة والإدخال، حيث كان في البداية قادرًا فقط على قراءة نص قصير، والآن يمكنه بسهولة معالجة رواية طويلة. المعنى الأعمق هو أنه يعزز تطبيق النماذج الكبيرة في مجالات مثل المالية والقانون والبحث العلمي.
ومع ذلك، فإن طول النص ليس كلما كان أطول كان أفضل. أظهرت الأبحاث أن طول السياق الذي يمكن للنموذج معالجته لا يعني بالضرورة فعالية، والأهم من ذلك هو كيف يمكن للنموذج الاستفادة بشكل فعال من محتوى السياق. حتى الآن، لم تصل الصناعة إلى "السقف" في استكشاف طول النص، قد تكون 400000 توكن مجرد بداية.
لماذا يجب تجاوز حد النصوص الطويلة؟
قال مؤسس الجانب المظلم من القمر يانغ زهي لين، إنه بسبب قيود طول الإدخال، نشأت العديد من الصعوبات في تطبيق النماذج الكبيرة. على سبيل المثال، في مشاهد مثل الشخصيات الافتراضية، وألعاب السيناريو، والتحليل القانوني، يمكن أن يؤدي طول الإدخال غير الكافي إلى فقدان المعلومات، ونتائج غير مرضية، وغيرها من المشاكل.
تعتبر القدرة على معالجة النصوص الطويلة ضرورية أيضًا لمستقبل الوكلاء وتطبيقات الذكاء الاصطناعي الأصلية. يحتاج الوكلاء إلى الاعتماد على المعلومات التاريخية لاتخاذ قرارات التخطيط، وتحتاج تطبيقات الذكاء الاصطناعي إلى السياق للحفاظ على تجربة متسقة وشخصية.
يعتقد يانغ زهي لين أن الحد الأقصى للنموذج الكبير تحدده القدرة على الخطوة الواحدة وعدد خطوات التنفيذ، حيث يرتبط الأول بعدد المعلمات، والثاني بطول السياق. من خلال زيادة طول السياق، يمكن تحسين قدرة النموذج دون زيادة كبيرة في عدد المعلمات.
النص الطويل يساعد أيضًا في تقليل مشاكل الوهم في النماذج الكبيرة. يمكن أن تساعد المزيد من معلومات السياق النموذج في تحديد المعنى، وتقليل الغموض، وزيادة دقة الاستدلال.
يمكن القول إن تقنية النصوص الطويلة ليست فقط حلاً لبعض نقاط الضعف في النماذج الكبيرة، بل هي أيضاً المفتاح لتحفيز الصناعة على أرض الواقع. وهذا يمثل دخول النماذج الكبيرة إلى مرحلة جديدة من LLM إلى Long LLM.
مثال على Kimi Chat في الجانب المظلم من الشهر، فإن قدرته على معالجة النصوص الطويلة قد جلبت العديد من التحديثات:
يمكن تحليل النصوص الطويلة، والتقارير المالية، وما إلى ذلك بسرعة، واستخراج المعلومات الرئيسية وتوليد ملخص.
يمكن تحويل كتاب كامل أو مستند قانوني إلى قاعدة معرفة قابلة للاستعلام
يمكن تحويل الرسالة مباشرة إلى كود، وإجراء التعديلات والتحسينات
دعم تمثيل الشخصيات في المحادثات الطويلة، لتحقيق التفاعل مع الشخصيات الافتراضية
تظهر هذه الميزات أن الروبوتات المحادثة تتجه نحو الاحترافية والشخصية والعمق، ومن المتوقع أن تصبح أداة جديدة لتحفيز تطبيق الصناعة.
قال يانغ زهي لين إن هدف الجانب المظلم من القمر هو إنشاء تطبيق سوبر (APP) للواجهة الأمامية، مع تطوير عدة تطبيقات عمودية بناءً على نموذج عام. وتوقع أن سوق النماذج الكبيرة في البلاد سينقسم إلى معسكرين: toB و toC، حيث ستظهر تطبيقات سوبر قائمة على نماذج تم تطويرها ذاتيًا في مجال toC.
التحديات التقنية للنصوص الطويلة
تواجه التقنية النصية الطويلة مثلث المستحيل "طول النص - الانتباه - القدرة الحاسوبية:"
كلما كان النص أطول، كان من الصعب التركيز على المعلومات الرئيسية
الانتباه محدود، والنصوص القصيرة من الصعب أن تعبر عن المعلومات المعقدة بشكل كامل
معالجة النصوص الطويلة تتطلب طاقة حسابية كبيرة، مما يزيد من التكلفة
تنشأ هذه المشكلة من آلية الانتباه الذاتي في هيكل المحول. تتيح هذه الآلية للنموذج تحليل العلاقات بين المعلومات بمرونة، ولكن كمية الحسابات تنمو بشكل مربع مع زيادة طول النص.
تشير الأبحاث إلى أن السياقات الطويلة جدًا تؤدي إلى انخفاض نسبة المعلومات ذات الصلة وتشتت الانتباه. وهذا يشكل تناقضًا بين طول النص والتركيز. في الوقت نفسه، يتطلب التعامل مع نصوص أطول مزيدًا من قوة الحوسبة، مما يخلق تناقضًا مع قوة الحوسبة.
هناك حاليًا ثلاثة أنواع رئيسية من الحلول:
استخدام أدوات خارجية: تقسيم النصوص الطويلة ومعالجتها، من خلال استرجاع مقاطع نصية قصيرة لبناء إجابات نصية طويلة.
تحسين حساب الانتباه الذاتي: مثل LongLoRA التي تخفض من حجم الحساب من خلال الحساب الجماعي.
تحسين النموذج: مثل LongLLaMA، الذي يحقق القدرة على التنبؤ بسلاسل أطول من خلال الضبط الدقيق.
تتمتع الحلول المختلفة بمزايا وعيوب. يجب على الشركات المصنعة أن تجد نقطة توازن بين طول النص والانتباه وقوة الحوسبة، من أجل معالجة معلومات كافية مع مراعاة كفاءة الحساب والتكاليف.
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
قدرة النماذج الكبيرة على معالجة النصوص الطويلة زادت بشكل هائل، 400,000 توكن قد تكون نقطة انطلاق جديدة
تقنية المسابقة الطويلة للنماذج الكبيرة تتطور، وقد تكون 400000 توكن مجرد البداية
تزداد قدرة النماذج الكبيرة على معالجة النصوص الطويلة بشكل مذهل. من 4000 توكن في البداية إلى 400000 توكن الآن، يبدو أن القدرة على التعامل مع النصوص الطويلة قد أصبحت "ميزة قياسية" جديدة لمصنعي النماذج الكبيرة.
عالميًا، قامت OpenAI بترقية GPT-4 عدة مرات، وزادت طول السياق إلى 32,000 توكن؛ بينما قامت Anthropic بزيادة طول السياق إلى 100,000 توكن؛ وLongLLaMA زادت طول السياق إلى 256,000 توكن أو حتى أكثر.
الشركات المحلية لا تتخلف أيضاً. أطلق شركة ناشئة في مجال النماذج الكبيرة، "جانب القمر"، دردشة كيمي التي تدعم إدخال 200,000 حرف صيني، ما يعادل حوالي 400,000 توكن؛ التقنية LongLoRA التي تم تطويرها بالتعاون بين جامعة هونغ كونغ الصينية ومعهد ماساتشوستس للتكنولوجيا، قادرة على توسيع طول النص لنموذج 7B إلى 100,000 توكن، ونموذج 70B إلى 32,000 توكن.
في الوقت الحالي، تركز العديد من الشركات والمؤسسات الرائدة في مجال النماذج الكبيرة، بما في ذلك OpenAI وAnthropic وMeta و月之暗面، على تحسين القدرة على معالجة النصوص الطويلة. كما أن هذه الشركات تعتبر أيضًا أهدافًا محبوبة في أسواق رأس المال، حيث شهدت أحجام التمويل والتقييمات نموًا انفجاريًا.
ماذا تعني突破技术 النص الطويل؟ يبدو أن هناك تحسنًا كبيرًا في قدرة النموذج على القراءة والإدخال، حيث كان في البداية قادرًا فقط على قراءة نص قصير، والآن يمكنه بسهولة معالجة رواية طويلة. المعنى الأعمق هو أنه يعزز تطبيق النماذج الكبيرة في مجالات مثل المالية والقانون والبحث العلمي.
ومع ذلك، فإن طول النص ليس كلما كان أطول كان أفضل. أظهرت الأبحاث أن طول السياق الذي يمكن للنموذج معالجته لا يعني بالضرورة فعالية، والأهم من ذلك هو كيف يمكن للنموذج الاستفادة بشكل فعال من محتوى السياق. حتى الآن، لم تصل الصناعة إلى "السقف" في استكشاف طول النص، قد تكون 400000 توكن مجرد بداية.
لماذا يجب تجاوز حد النصوص الطويلة؟
قال مؤسس الجانب المظلم من القمر يانغ زهي لين، إنه بسبب قيود طول الإدخال، نشأت العديد من الصعوبات في تطبيق النماذج الكبيرة. على سبيل المثال، في مشاهد مثل الشخصيات الافتراضية، وألعاب السيناريو، والتحليل القانوني، يمكن أن يؤدي طول الإدخال غير الكافي إلى فقدان المعلومات، ونتائج غير مرضية، وغيرها من المشاكل.
تعتبر القدرة على معالجة النصوص الطويلة ضرورية أيضًا لمستقبل الوكلاء وتطبيقات الذكاء الاصطناعي الأصلية. يحتاج الوكلاء إلى الاعتماد على المعلومات التاريخية لاتخاذ قرارات التخطيط، وتحتاج تطبيقات الذكاء الاصطناعي إلى السياق للحفاظ على تجربة متسقة وشخصية.
يعتقد يانغ زهي لين أن الحد الأقصى للنموذج الكبير تحدده القدرة على الخطوة الواحدة وعدد خطوات التنفيذ، حيث يرتبط الأول بعدد المعلمات، والثاني بطول السياق. من خلال زيادة طول السياق، يمكن تحسين قدرة النموذج دون زيادة كبيرة في عدد المعلمات.
النص الطويل يساعد أيضًا في تقليل مشاكل الوهم في النماذج الكبيرة. يمكن أن تساعد المزيد من معلومات السياق النموذج في تحديد المعنى، وتقليل الغموض، وزيادة دقة الاستدلال.
يمكن القول إن تقنية النصوص الطويلة ليست فقط حلاً لبعض نقاط الضعف في النماذج الكبيرة، بل هي أيضاً المفتاح لتحفيز الصناعة على أرض الواقع. وهذا يمثل دخول النماذج الكبيرة إلى مرحلة جديدة من LLM إلى Long LLM.
مثال على Kimi Chat في الجانب المظلم من الشهر، فإن قدرته على معالجة النصوص الطويلة قد جلبت العديد من التحديثات:
تظهر هذه الميزات أن الروبوتات المحادثة تتجه نحو الاحترافية والشخصية والعمق، ومن المتوقع أن تصبح أداة جديدة لتحفيز تطبيق الصناعة.
قال يانغ زهي لين إن هدف الجانب المظلم من القمر هو إنشاء تطبيق سوبر (APP) للواجهة الأمامية، مع تطوير عدة تطبيقات عمودية بناءً على نموذج عام. وتوقع أن سوق النماذج الكبيرة في البلاد سينقسم إلى معسكرين: toB و toC، حيث ستظهر تطبيقات سوبر قائمة على نماذج تم تطويرها ذاتيًا في مجال toC.
التحديات التقنية للنصوص الطويلة
تواجه التقنية النصية الطويلة مثلث المستحيل "طول النص - الانتباه - القدرة الحاسوبية:"
تنشأ هذه المشكلة من آلية الانتباه الذاتي في هيكل المحول. تتيح هذه الآلية للنموذج تحليل العلاقات بين المعلومات بمرونة، ولكن كمية الحسابات تنمو بشكل مربع مع زيادة طول النص.
تشير الأبحاث إلى أن السياقات الطويلة جدًا تؤدي إلى انخفاض نسبة المعلومات ذات الصلة وتشتت الانتباه. وهذا يشكل تناقضًا بين طول النص والتركيز. في الوقت نفسه، يتطلب التعامل مع نصوص أطول مزيدًا من قوة الحوسبة، مما يخلق تناقضًا مع قوة الحوسبة.
هناك حاليًا ثلاثة أنواع رئيسية من الحلول:
استخدام أدوات خارجية: تقسيم النصوص الطويلة ومعالجتها، من خلال استرجاع مقاطع نصية قصيرة لبناء إجابات نصية طويلة.
تحسين حساب الانتباه الذاتي: مثل LongLoRA التي تخفض من حجم الحساب من خلال الحساب الجماعي.
تحسين النموذج: مثل LongLLaMA، الذي يحقق القدرة على التنبؤ بسلاسل أطول من خلال الضبط الدقيق.
تتمتع الحلول المختلفة بمزايا وعيوب. يجب على الشركات المصنعة أن تجد نقطة توازن بين طول النص والانتباه وقوة الحوسبة، من أجل معالجة معلومات كافية مع مراعاة كفاءة الحساب والتكاليف.