La competencia de tecnología de modelos largos se actualiza, 400,000 tokens pueden ser solo el comienzo
Los grandes modelos están mejorando su capacidad para procesar textos largos a una velocidad asombrosa. Desde los inicialmente 4000 tokens hasta ahora 400,000 tokens, la capacidad para textos largos parece haberse convertido en un nuevo "estándar" para los fabricantes de grandes modelos.
A nivel internacional, OpenAI ha mejorado en múltiples ocasiones, aumentando la longitud del contexto de GPT-4 a 32,000 tokens; Anthropic ha ampliado la longitud del contexto a 100,000 tokens; LongLLaMA ha llevado la longitud del contexto a 256,000 tokens o incluso más.
Las empresas nacionales tampoco se quedan atrás. Kimi Chat, lanzado por la startup de modelos grandes "Lado oscuro de la luna", admite la entrada de 200,000 caracteres chinos, equivalentes a aproximadamente 400,000 tokens; la Universidad China de Hong Kong y MIT han desarrollado la tecnología LongLoRA, que puede expandir la longitud de texto del modelo de 7B a 100,000 tokens y del modelo de 70B a 32,000 tokens.
Actualmente, varias de las principales empresas e instituciones de modelos grandes, incluidos OpenAI, Anthropic, Meta y Dark Side of the Moon, están enfocando sus esfuerzos de actualización en la capacidad de procesamiento de textos largos. Estas empresas también son objetos de gran interés en el mercado de capitales, con un crecimiento explosivo en su financiación y valoración.
¿Qué significa la ruptura de la tecnología de texto largo? A primera vista, parece que la capacidad de entrada y lectura del modelo ha mejorado significativamente, pasando de poder leer solo un breve artículo a poder manejar fácilmente una novela larga. El significado más profundo radica en que impulsa la implementación de grandes modelos en campos profesionales como las finanzas, el derecho y la investigación científica.
Sin embargo, la longitud del texto no siempre es mejor cuanto más larga sea. Los estudios muestran que la longitud del contexto que un modelo puede manejar no se traduce necesariamente en mejores resultados; lo más importante es cómo el modelo utiliza eficazmente el contenido del contexto. Actualmente, la exploración de la longitud del texto en la industria aún no ha tocado el "techo"; 400,000 tokens pueden ser solo un comienzo.
¿Por qué superar las limitaciones de texto largo?
El fundador de la cara oculta de la luna, Yang Zhilin, afirmó que las limitaciones en la longitud de entrada han causado dificultades en la implementación de muchas aplicaciones de modelos grandes. Por ejemplo, en escenarios como personajes virtuales, juegos de guiones y análisis legal, la longitud de entrada insuficiente puede provocar pérdida de información y resultados insatisfactorios.
La capacidad de texto largo es crucial para las aplicaciones nativas de Agent y AI en el futuro. Los agentes necesitan basarse en información histórica para la toma de decisiones de planificación, y las aplicaciones de AI requieren contexto para mantener experiencias coherentes y personalizadas.
Yang Zhili认为, el límite de un gran modelo está determinado conjuntamente por la capacidad de un solo paso y el número de pasos de ejecución, donde el primero está relacionado con la cantidad de parámetros y el segundo es la longitud del contexto. Al aumentar la longitud del contexto, se puede mejorar la capacidad del modelo sin aumentar significativamente la cantidad de parámetros.
Los textos largos también ayudan a reducir el problema de las ilusiones en los modelos grandes. Más información contextual puede ayudar al modelo a juzgar la semántica, reducir la ambigüedad y mejorar la precisión de la inferencia.
Se puede decir que la tecnología de texto largo no solo aborda algunas de las limitaciones de los grandes modelos, sino que también es clave para la implementación en la industria. Esto marca la entrada de los grandes modelos en una nueva etapa, de LLM a Long LLM.
Tomando como ejemplo Kimi Chat de la cara oculta de la luna, su capacidad de texto largo ha traído múltiples mejoras:
Puede analizar rápidamente textos largos, informes financieros, etc., extraer información clave y generar resúmenes
Puede convertir un libro completo o un documento legal en una base de datos de conocimiento consultable
Se puede convertir directamente el documento en código y realizar modificaciones y optimizaciones.
Soporte para el juego de roles en diálogos largos, permitiendo la interacción con personajes virtuales
Estas funciones muestran que los chatbots están avanzando hacia una especialización, personalización y profundización, y se espera que se conviertan en una nueva palanca para la implementación de la industria.
Yang Zhilin afirmó que el objetivo de la cara oculta de la luna es crear la próxima súper APP para el consumidor final, derivando múltiples aplicaciones verticales a partir de un modelo general. Predijo que el mercado nacional de grandes modelos se dividirá en dos grandes campos: toB y toC, y que en el ámbito de toC aparecerán aplicaciones súper basadas en modelos desarrollados internamente.
Los desafíos técnicos de los textos largos
El texto largo enfrenta la trinidad imposible de "longitud del texto - atención - potencia de cálculo:"
Cuanto más largo es el texto, más difícil es centrarse en la información clave.
La atención es limitada, y los textos cortos tienen dificultad para expresar información compleja de manera completa.
Procesar textos largos requiere una gran cantidad de potencia de cálculo, lo que aumenta los costos.
Este dilema se origina en el mecanismo de autoatención dentro de la estructura del Transformer. Este mecanismo permite que el modelo analice de manera flexible las relaciones entre la información, pero la carga computacional crece de manera cuadrática con la longitud del texto.
Los estudios indican que un contexto demasiado largo puede llevar a una disminución en la proporción de información relevante y a una dispersión de la atención. Esto constituye una contradicción entre la longitud del texto y la atención. Al mismo tiempo, superar textos más largos también requiere más potencia de cálculo, creando una contradicción con la potencia de cálculo.
Actualmente, hay tres tipos principales de soluciones:
Utilizar herramientas externas: dividir el texto largo en fragmentos más cortos y construir respuestas largas mediante la búsqueda de estos fragmentos.
Optimización del cálculo de autoatención: como LongLoRA, que reduce la carga computacional mediante el cálculo por grupos.
Optimización del modelo: como LongLLaMA logra la capacidad de extrapolación de secuencias más largas a través del ajuste fino.
Cada solución tiene sus pros y sus contras. Los fabricantes deben encontrar un punto de equilibrio entre la longitud del texto, la atención y la potencia de cálculo, para manejar suficiente información mientras consideran la eficiencia y el costo del cálculo.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
La capacidad de procesamiento de texto largo de grandes modelos ha aumentado drásticamente, 400,000 tokens podrían ser un nuevo punto de partida.
La competencia de tecnología de modelos largos se actualiza, 400,000 tokens pueden ser solo el comienzo
Los grandes modelos están mejorando su capacidad para procesar textos largos a una velocidad asombrosa. Desde los inicialmente 4000 tokens hasta ahora 400,000 tokens, la capacidad para textos largos parece haberse convertido en un nuevo "estándar" para los fabricantes de grandes modelos.
A nivel internacional, OpenAI ha mejorado en múltiples ocasiones, aumentando la longitud del contexto de GPT-4 a 32,000 tokens; Anthropic ha ampliado la longitud del contexto a 100,000 tokens; LongLLaMA ha llevado la longitud del contexto a 256,000 tokens o incluso más.
Las empresas nacionales tampoco se quedan atrás. Kimi Chat, lanzado por la startup de modelos grandes "Lado oscuro de la luna", admite la entrada de 200,000 caracteres chinos, equivalentes a aproximadamente 400,000 tokens; la Universidad China de Hong Kong y MIT han desarrollado la tecnología LongLoRA, que puede expandir la longitud de texto del modelo de 7B a 100,000 tokens y del modelo de 70B a 32,000 tokens.
Actualmente, varias de las principales empresas e instituciones de modelos grandes, incluidos OpenAI, Anthropic, Meta y Dark Side of the Moon, están enfocando sus esfuerzos de actualización en la capacidad de procesamiento de textos largos. Estas empresas también son objetos de gran interés en el mercado de capitales, con un crecimiento explosivo en su financiación y valoración.
¿Qué significa la ruptura de la tecnología de texto largo? A primera vista, parece que la capacidad de entrada y lectura del modelo ha mejorado significativamente, pasando de poder leer solo un breve artículo a poder manejar fácilmente una novela larga. El significado más profundo radica en que impulsa la implementación de grandes modelos en campos profesionales como las finanzas, el derecho y la investigación científica.
Sin embargo, la longitud del texto no siempre es mejor cuanto más larga sea. Los estudios muestran que la longitud del contexto que un modelo puede manejar no se traduce necesariamente en mejores resultados; lo más importante es cómo el modelo utiliza eficazmente el contenido del contexto. Actualmente, la exploración de la longitud del texto en la industria aún no ha tocado el "techo"; 400,000 tokens pueden ser solo un comienzo.
¿Por qué superar las limitaciones de texto largo?
El fundador de la cara oculta de la luna, Yang Zhilin, afirmó que las limitaciones en la longitud de entrada han causado dificultades en la implementación de muchas aplicaciones de modelos grandes. Por ejemplo, en escenarios como personajes virtuales, juegos de guiones y análisis legal, la longitud de entrada insuficiente puede provocar pérdida de información y resultados insatisfactorios.
La capacidad de texto largo es crucial para las aplicaciones nativas de Agent y AI en el futuro. Los agentes necesitan basarse en información histórica para la toma de decisiones de planificación, y las aplicaciones de AI requieren contexto para mantener experiencias coherentes y personalizadas.
Yang Zhili认为, el límite de un gran modelo está determinado conjuntamente por la capacidad de un solo paso y el número de pasos de ejecución, donde el primero está relacionado con la cantidad de parámetros y el segundo es la longitud del contexto. Al aumentar la longitud del contexto, se puede mejorar la capacidad del modelo sin aumentar significativamente la cantidad de parámetros.
Los textos largos también ayudan a reducir el problema de las ilusiones en los modelos grandes. Más información contextual puede ayudar al modelo a juzgar la semántica, reducir la ambigüedad y mejorar la precisión de la inferencia.
Se puede decir que la tecnología de texto largo no solo aborda algunas de las limitaciones de los grandes modelos, sino que también es clave para la implementación en la industria. Esto marca la entrada de los grandes modelos en una nueva etapa, de LLM a Long LLM.
Tomando como ejemplo Kimi Chat de la cara oculta de la luna, su capacidad de texto largo ha traído múltiples mejoras:
Estas funciones muestran que los chatbots están avanzando hacia una especialización, personalización y profundización, y se espera que se conviertan en una nueva palanca para la implementación de la industria.
Yang Zhilin afirmó que el objetivo de la cara oculta de la luna es crear la próxima súper APP para el consumidor final, derivando múltiples aplicaciones verticales a partir de un modelo general. Predijo que el mercado nacional de grandes modelos se dividirá en dos grandes campos: toB y toC, y que en el ámbito de toC aparecerán aplicaciones súper basadas en modelos desarrollados internamente.
Los desafíos técnicos de los textos largos
El texto largo enfrenta la trinidad imposible de "longitud del texto - atención - potencia de cálculo:"
Este dilema se origina en el mecanismo de autoatención dentro de la estructura del Transformer. Este mecanismo permite que el modelo analice de manera flexible las relaciones entre la información, pero la carga computacional crece de manera cuadrática con la longitud del texto.
Los estudios indican que un contexto demasiado largo puede llevar a una disminución en la proporción de información relevante y a una dispersión de la atención. Esto constituye una contradicción entre la longitud del texto y la atención. Al mismo tiempo, superar textos más largos también requiere más potencia de cálculo, creando una contradicción con la potencia de cálculo.
Actualmente, hay tres tipos principales de soluciones:
Utilizar herramientas externas: dividir el texto largo en fragmentos más cortos y construir respuestas largas mediante la búsqueda de estos fragmentos.
Optimización del cálculo de autoatención: como LongLoRA, que reduce la carga computacional mediante el cálculo por grupos.
Optimización del modelo: como LongLLaMA logra la capacidad de extrapolación de secuencias más largas a través del ajuste fino.
Cada solución tiene sus pros y sus contras. Los fabricantes deben encontrar un punto de equilibrio entre la longitud del texto, la atención y la potencia de cálculo, para manejar suficiente información mientras consideran la eficiencia y el costo del cálculo.