شركات النماذج الكبيرة تبدأ منافسة تقنية النصوص الطويلة، 400,000 توكن مجرد بداية
4000 إلى 400000 توكن، النموذج الكبير يقوم بزيادة قدرة معالجة النصوص الطويلة بسرعة مذهلة.
يبدو أن قدرة النص الطويل أصبحت "ميزة قياسية" جديدة لمصنعي النماذج الكبيرة. في الخارج، قامت OpenAI من خلال عدة ترقيات برفع طول إدخال السياق لـ GPT-3.5 و GPT-4 إلى 16000 و 32000 توكن على التوالي. بينما قامت Anthropic بزيادة طول السياق إلى 100000 توكن دفعة واحدة. وقام LongLLaMA بتمديد طول السياق إلى 256000 توكن أو حتى أكثر.
فيما يتعلق بالجانب المحلي، أطلق شركة ناشئة في مجال النماذج الكبيرة "وجه القمر المظلم" المساعد الذكي Kimi Chat الذي يدعم إدخال 200,000 حرف صيني، ما يعادل حوالي 400,000 توكن. تقنية LongLoRA التي تم إصدارها من قبل فريق Jia Jiaya في جامعة هونغ كونغ الصينية بالتعاون مع MIT يمكن أن توسع طول النص لنموذج 7B إلى 100,000 توكن، ونموذج 70B إلى 32,000 توكن.
حالياً، هناك مجموعة كبيرة من الشركات التقنية الكبرى والنواحي البحثية في الداخل والخارج التي تعتبر توسيع طول السياق من أولويات الترقية. وقد حصلت معظم هذه الشركات على دعم كبير من السوق المالية، مثل OpenAI التي حققت استثماراً يقارب 12 مليار دولار، ومن المتوقع أن تصل قيمة Anthropic إلى 30 مليار دولار، بينما أكملت شركة "وجه القمر المظلم" جولتين من التمويل بقيمة تقارب 2 مليار يوان بعد ستة أشهر من تأسيسها.
كيف يؤثر تركيز شركات النماذج الكبيرة على تقنية النصوص الطويلة، وما الذي يعنيه توسيع طول السياق بمقدار 100 مرة؟ يبدو أن الأمر يتعلق بزيادة طول النص المدخل وقدرة القراءة. على مستوى أعمق، تدفع تقنية النصوص الطويلة النماذج الكبيرة لتطبيقها في مجالات متخصصة مثل المالية والعدالة والبحث العلمي.
ومع ذلك، ليست طول السياق الذي يمكن أن يتعامل معه النموذج الكبير هو الأمر الحاسم، بل الأهم هو كيفية استخدام النموذج لمحتوى السياق. حتى الآن، لم تصل الأبحاث المحلية والدولية حول طول النص إلى "نقطة حرجة"، وقد يكون 400,000 توكن مجرد بداية.
قال مؤسس مشروع "الوجه المظلم للقمر" يانغ زhi لين إن القيود المفروضة على طول مدخلات النماذج الكبيرة هي التي تسببت في العديد من الصعوبات في تطبيقاتها. يمكن لتقنية النصوص الطويلة حل بعض من المشكلات التي تم انتقاد النماذج الكبيرة من أجلها في مراحلها الأولى، وتعزيز بعض الوظائف، وهي أيضًا التقنية الأساسية لدفع الصناعة وتطبيقاتها إلى الأمام. وهذا يُشير إلى دخول تطوير النماذج الكبيرة مرحلة جديدة من LLM إلى Long LLM.
تكنولوجيا النصوص الطويلة جلبت مجموعة جديدة من ترقيات الوظائف للنماذج الكبيرة، مثل استخراج وتحليل المعلومات من النصوص الفائقة الطول، وتوليد الأكواد المعقدة، وتقمص الأدوار في سيناريوهات الحوار الطويلة. تُظهر هذه الوظائف أن النماذج الكبيرة تتجه نحو التخصص، والتخصيص، والتعمق، ومن المتوقع أن تصبح أداة جديدة لتحفيز تطبيقات الصناعة.
ومع ذلك، تواجه تقنيات النصوص الطويلة أيضًا ديلما "مثلث المستحيل": كلما كان النص أطول، أصبح من الصعب جمع الانتباه الكافي؛ تحت قيود الانتباه، يصعب قراءة المعلومات المعقدة بشكل كامل في النصوص القصيرة؛ يتطلب معالجة النصوص الطويلة قدرًا كبيرًا من قوة الحوسبة، مما يزيد من التكاليف. وهذا يرجع أساسًا إلى آلية الانتباه الذاتي في هيكل Transformer الذي تعتمد عليه معظم النماذج، حيث تزداد كمية الحساب المطلوبة بشكل متزايد مع طول السياق.
حالياً، هناك ثلاث حلول رئيسية: استخدام أدوات خارجية للمساعدة في المعالجة، تحسين حساب آلية الانتباه الذاتي، واستخدام طرق تحسين النماذج. في المستقبل، يحتاج مصنعو النماذج الكبيرة إلى البحث عن أفضل نقطة توازن بين طول النص والانتباه وقيود قوة الحوسبة، من أجل معالجة معلومات كافية مع مراعاة تكلفة حساب الانتباه وقيود قوة الحوسبة.
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
النموذج الكبير يطلق مسابقة نصوص طويلة تحتوي على 400,000 توكن لدفع تطبيقات المجال المهني.
شركات النماذج الكبيرة تبدأ منافسة تقنية النصوص الطويلة، 400,000 توكن مجرد بداية
4000 إلى 400000 توكن، النموذج الكبير يقوم بزيادة قدرة معالجة النصوص الطويلة بسرعة مذهلة.
يبدو أن قدرة النص الطويل أصبحت "ميزة قياسية" جديدة لمصنعي النماذج الكبيرة. في الخارج، قامت OpenAI من خلال عدة ترقيات برفع طول إدخال السياق لـ GPT-3.5 و GPT-4 إلى 16000 و 32000 توكن على التوالي. بينما قامت Anthropic بزيادة طول السياق إلى 100000 توكن دفعة واحدة. وقام LongLLaMA بتمديد طول السياق إلى 256000 توكن أو حتى أكثر.
فيما يتعلق بالجانب المحلي، أطلق شركة ناشئة في مجال النماذج الكبيرة "وجه القمر المظلم" المساعد الذكي Kimi Chat الذي يدعم إدخال 200,000 حرف صيني، ما يعادل حوالي 400,000 توكن. تقنية LongLoRA التي تم إصدارها من قبل فريق Jia Jiaya في جامعة هونغ كونغ الصينية بالتعاون مع MIT يمكن أن توسع طول النص لنموذج 7B إلى 100,000 توكن، ونموذج 70B إلى 32,000 توكن.
حالياً، هناك مجموعة كبيرة من الشركات التقنية الكبرى والنواحي البحثية في الداخل والخارج التي تعتبر توسيع طول السياق من أولويات الترقية. وقد حصلت معظم هذه الشركات على دعم كبير من السوق المالية، مثل OpenAI التي حققت استثماراً يقارب 12 مليار دولار، ومن المتوقع أن تصل قيمة Anthropic إلى 30 مليار دولار، بينما أكملت شركة "وجه القمر المظلم" جولتين من التمويل بقيمة تقارب 2 مليار يوان بعد ستة أشهر من تأسيسها.
كيف يؤثر تركيز شركات النماذج الكبيرة على تقنية النصوص الطويلة، وما الذي يعنيه توسيع طول السياق بمقدار 100 مرة؟ يبدو أن الأمر يتعلق بزيادة طول النص المدخل وقدرة القراءة. على مستوى أعمق، تدفع تقنية النصوص الطويلة النماذج الكبيرة لتطبيقها في مجالات متخصصة مثل المالية والعدالة والبحث العلمي.
ومع ذلك، ليست طول السياق الذي يمكن أن يتعامل معه النموذج الكبير هو الأمر الحاسم، بل الأهم هو كيفية استخدام النموذج لمحتوى السياق. حتى الآن، لم تصل الأبحاث المحلية والدولية حول طول النص إلى "نقطة حرجة"، وقد يكون 400,000 توكن مجرد بداية.
قال مؤسس مشروع "الوجه المظلم للقمر" يانغ زhi لين إن القيود المفروضة على طول مدخلات النماذج الكبيرة هي التي تسببت في العديد من الصعوبات في تطبيقاتها. يمكن لتقنية النصوص الطويلة حل بعض من المشكلات التي تم انتقاد النماذج الكبيرة من أجلها في مراحلها الأولى، وتعزيز بعض الوظائف، وهي أيضًا التقنية الأساسية لدفع الصناعة وتطبيقاتها إلى الأمام. وهذا يُشير إلى دخول تطوير النماذج الكبيرة مرحلة جديدة من LLM إلى Long LLM.
تكنولوجيا النصوص الطويلة جلبت مجموعة جديدة من ترقيات الوظائف للنماذج الكبيرة، مثل استخراج وتحليل المعلومات من النصوص الفائقة الطول، وتوليد الأكواد المعقدة، وتقمص الأدوار في سيناريوهات الحوار الطويلة. تُظهر هذه الوظائف أن النماذج الكبيرة تتجه نحو التخصص، والتخصيص، والتعمق، ومن المتوقع أن تصبح أداة جديدة لتحفيز تطبيقات الصناعة.
ومع ذلك، تواجه تقنيات النصوص الطويلة أيضًا ديلما "مثلث المستحيل": كلما كان النص أطول، أصبح من الصعب جمع الانتباه الكافي؛ تحت قيود الانتباه، يصعب قراءة المعلومات المعقدة بشكل كامل في النصوص القصيرة؛ يتطلب معالجة النصوص الطويلة قدرًا كبيرًا من قوة الحوسبة، مما يزيد من التكاليف. وهذا يرجع أساسًا إلى آلية الانتباه الذاتي في هيكل Transformer الذي تعتمد عليه معظم النماذج، حيث تزداد كمية الحساب المطلوبة بشكل متزايد مع طول السياق.
حالياً، هناك ثلاث حلول رئيسية: استخدام أدوات خارجية للمساعدة في المعالجة، تحسين حساب آلية الانتباه الذاتي، واستخدام طرق تحسين النماذج. في المستقبل، يحتاج مصنعو النماذج الكبيرة إلى البحث عن أفضل نقطة توازن بين طول النص والانتباه وقيود قوة الحوسبة، من أجل معالجة معلومات كافية مع مراعاة تكلفة حساب الانتباه وقيود قوة الحوسبة.