Las empresas de modelos grandes inician una competencia tecnológica de textos largos, 400,000 tokens es solo el comienzo
De 4000 a 400,000 tokens, el modelo grande está mejorando su capacidad de procesamiento de texto largo a una velocidad asombrosa.
La capacidad de texto largo parece haberse convertido en un nuevo "estándar" para los fabricantes de grandes modelos. En el extranjero, OpenAI ha aumentado la longitud de entrada de contexto de GPT-3.5 y GPT-4 a 16,000 y 32,000 tokens, respectivamente, a través de múltiples actualizaciones. Anthropic ha elevado la longitud de contexto a 100,000 tokens. LongLLaMA ha ampliado la longitud de contexto a 256,000 tokens o incluso más.
En el ámbito nacional, el asistente inteligente Kimi Chat lanzado por la startup de modelos grandes, 月之暗面, admite la entrada de 200,000 caracteres chinos, aproximadamente 400,000 tokens. La tecnología LongLoRA, publicada por el equipo de Jia Jiaya de la Universidad China de Hong Kong en colaboración con el MIT, puede extender la longitud del texto del modelo de 7B a 100,000 tokens y del modelo de 70B a 32,000 tokens.
Actualmente, un gran número de empresas de tecnología de modelos de gran escala y instituciones de investigación tanto a nivel nacional como internacional han tomado la expansión de la longitud del contexto como un enfoque clave para la mejora. La mayoría de estas empresas han atraído la atención del mercado de capitales, como OpenAI que ha obtenido cerca de 12 mil millones de dólares en inversiones, Anthropic que tiene una valoración que se espera alcance los 30 mil millones de dólares, y Dark Moon que, en solo seis meses desde su creación, ha completado dos rondas de financiamiento por cerca de 2 mil millones de yuanes.
Las empresas de grandes modelos valoran tanto la tecnología de textos largos, ¿qué significa expandir la longitud del contexto 100 veces? A primera vista, se trata de un aumento en la longitud del texto de entrada y en la capacidad de lectura. En un nivel más profundo, la tecnología de textos largos está impulsando la implementación de grandes modelos en campos profesionales como las finanzas, la justicia y la investigación científica.
Sin embargo, la longitud del contexto que puede manejar el modelo grande no es clave, lo más importante es la utilización del contenido del contexto por parte del modelo. Actualmente, la exploración de la longitud del texto tanto en el país como en el extranjero aún está lejos de alcanzar el "punto crítico", 400,000 tokens puede ser solo el comienzo.
El fundador de la cara oculta de la luna, Yang Zhilin, declaró que fue precisamente debido a la limitación en la longitud de entrada de los grandes modelos que surgieron muchas dificultades en la implementación de aplicaciones. La tecnología de texto largo puede resolver algunos de los problemas criticados de los grandes modelos en sus primeras etapas, mejorar ciertas funciones y, al mismo tiempo, es una tecnología clave para avanzar en la industria y la implementación de aplicaciones. Esto marca la entrada del desarrollo de grandes modelos en una nueva etapa, de LLM a Long LLM.
La tecnología de texto largo ha traído una serie de nuevas actualizaciones de funciones para los grandes modelos, como la extracción y análisis de información de texto extremadamente largo, la generación de código complejo y el juego de roles en escenarios de diálogo prolongado. Estas funciones muestran que los grandes modelos están evolucionando hacia una dirección de especialización, personalización y profundización, y se espera que se conviertan en una nueva palanca para impulsar la implementación en la industria.
Sin embargo, la tecnología de texto largo también enfrenta el dilema del "triángulo imposible": cuanto más largo es el texto, más difícil es captar la atención suficiente; con las limitaciones de atención, los textos cortos son difíciles de interpretar completamente la información compleja; el procesamiento de textos largos requiere una gran cantidad de poder de cálculo, aumentando los costos. Esto se debe principalmente al mecanismo de autoatención en la estructura de Transformer en la que se basan la mayoría de los modelos, cuyo volumen de cálculo crece al cuadrado con la longitud del contexto.
Actualmente hay tres soluciones principales: utilizar herramientas externas para ayudar en el procesamiento, optimizar el cálculo del mecanismo de atención y utilizar métodos de optimización de modelos. En el futuro, los fabricantes de grandes modelos necesitarán buscar el mejor equilibrio entre la longitud del texto, la atención y el costo computacional, para manejar suficiente información mientras se consideran las limitaciones de cálculo de atención y costo de computación.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
17 me gusta
Recompensa
17
2
Republicar
Compartir
Comentar
0/400
PrivateKeyParanoia
· hace18h
el token se va a poner en su sitio
Ver originalesResponder0
WalletsWatcher
· hace18h
Elegir una carrera de larga distancia aún está bien.
El gran modelo lanza una competencia de texto largo de 400,000 tokens para promover la aplicación en campos profesionales.
Las empresas de modelos grandes inician una competencia tecnológica de textos largos, 400,000 tokens es solo el comienzo
De 4000 a 400,000 tokens, el modelo grande está mejorando su capacidad de procesamiento de texto largo a una velocidad asombrosa.
La capacidad de texto largo parece haberse convertido en un nuevo "estándar" para los fabricantes de grandes modelos. En el extranjero, OpenAI ha aumentado la longitud de entrada de contexto de GPT-3.5 y GPT-4 a 16,000 y 32,000 tokens, respectivamente, a través de múltiples actualizaciones. Anthropic ha elevado la longitud de contexto a 100,000 tokens. LongLLaMA ha ampliado la longitud de contexto a 256,000 tokens o incluso más.
En el ámbito nacional, el asistente inteligente Kimi Chat lanzado por la startup de modelos grandes, 月之暗面, admite la entrada de 200,000 caracteres chinos, aproximadamente 400,000 tokens. La tecnología LongLoRA, publicada por el equipo de Jia Jiaya de la Universidad China de Hong Kong en colaboración con el MIT, puede extender la longitud del texto del modelo de 7B a 100,000 tokens y del modelo de 70B a 32,000 tokens.
Actualmente, un gran número de empresas de tecnología de modelos de gran escala y instituciones de investigación tanto a nivel nacional como internacional han tomado la expansión de la longitud del contexto como un enfoque clave para la mejora. La mayoría de estas empresas han atraído la atención del mercado de capitales, como OpenAI que ha obtenido cerca de 12 mil millones de dólares en inversiones, Anthropic que tiene una valoración que se espera alcance los 30 mil millones de dólares, y Dark Moon que, en solo seis meses desde su creación, ha completado dos rondas de financiamiento por cerca de 2 mil millones de yuanes.
Las empresas de grandes modelos valoran tanto la tecnología de textos largos, ¿qué significa expandir la longitud del contexto 100 veces? A primera vista, se trata de un aumento en la longitud del texto de entrada y en la capacidad de lectura. En un nivel más profundo, la tecnología de textos largos está impulsando la implementación de grandes modelos en campos profesionales como las finanzas, la justicia y la investigación científica.
Sin embargo, la longitud del contexto que puede manejar el modelo grande no es clave, lo más importante es la utilización del contenido del contexto por parte del modelo. Actualmente, la exploración de la longitud del texto tanto en el país como en el extranjero aún está lejos de alcanzar el "punto crítico", 400,000 tokens puede ser solo el comienzo.
El fundador de la cara oculta de la luna, Yang Zhilin, declaró que fue precisamente debido a la limitación en la longitud de entrada de los grandes modelos que surgieron muchas dificultades en la implementación de aplicaciones. La tecnología de texto largo puede resolver algunos de los problemas criticados de los grandes modelos en sus primeras etapas, mejorar ciertas funciones y, al mismo tiempo, es una tecnología clave para avanzar en la industria y la implementación de aplicaciones. Esto marca la entrada del desarrollo de grandes modelos en una nueva etapa, de LLM a Long LLM.
La tecnología de texto largo ha traído una serie de nuevas actualizaciones de funciones para los grandes modelos, como la extracción y análisis de información de texto extremadamente largo, la generación de código complejo y el juego de roles en escenarios de diálogo prolongado. Estas funciones muestran que los grandes modelos están evolucionando hacia una dirección de especialización, personalización y profundización, y se espera que se conviertan en una nueva palanca para impulsar la implementación en la industria.
Sin embargo, la tecnología de texto largo también enfrenta el dilema del "triángulo imposible": cuanto más largo es el texto, más difícil es captar la atención suficiente; con las limitaciones de atención, los textos cortos son difíciles de interpretar completamente la información compleja; el procesamiento de textos largos requiere una gran cantidad de poder de cálculo, aumentando los costos. Esto se debe principalmente al mecanismo de autoatención en la estructura de Transformer en la que se basan la mayoría de los modelos, cuyo volumen de cálculo crece al cuadrado con la longitud del contexto.
Actualmente hay tres soluciones principales: utilizar herramientas externas para ayudar en el procesamiento, optimizar el cálculo del mecanismo de atención y utilizar métodos de optimización de modelos. En el futuro, los fabricantes de grandes modelos necesitarán buscar el mejor equilibrio entre la longitud del texto, la atención y el costo computacional, para manejar suficiente información mientras se consideran las limitaciones de cálculo de atención y costo de computación.