Змагання з технологій довгих текстів великих моделей оновлюється, 400 тисяч токенів, можливо, лише початок
Великі моделі вражаючими темпами підвищують здатність обробляти довгі тексти. З початкових 4000 токенів до теперішніх 400000 токенів, можливість роботи з довгими текстами, здається, стала новою "стандартною характеристикою" виробників великих моделей.
На міжнародному рівні OpenAI кілька разів оновлював GPT-4, збільшивши довжину контексту до 32 тисяч токенів; Anthropic в один момент розширив довжину контексту до 100 тисяч токенів; LongLLaMA навіть розширив довжину контексту до 256 тисяч токенів і навіть більше.
Внутрішні компанії також не відстають. Стартап у сфері великих моделей "Темна сторона місяця" запустив Kimi Chat, який підтримує введення 200 тисяч китайських символів, що відповідає приблизно 400 тисячам токенів; Гонконгський університет та MIT спільно розробили технологію LongLoRA, яка може розширити довжину тексту 7B моделі до 100 тисяч токенів, а 70B моделі - до 32 тисяч токенів.
На даний момент кілька провідних компаній і установ, включаючи OpenAI, Anthropic, Meta та Moon's Dark Side, зосередили свої зусилля на вдосконаленні можливостей обробки довгих текстів. Ці компанії також є популярними об'єктами в капітальних ринках, їх обсяги фінансування та оцінки демонструють експоненціальне зростання.
Що означає прорив у технології довгих текстів? На перший погляд, це суттєве підвищення здатності моделей до введення та читання, від початкової можливості прочитати лише короткий текст до здатності легко обробляти цілу повість. Глибше значення полягає в тому, що це сприяло впровадженню великих моделей у професійних сферах, таких як фінанси, право, наука.
Проте, довжина тексту не завжди є кращою, чим більша. Дослідження показують, що довжина контексту, яку модель може обробити, не є рівнозначною її ефективності; важливіше, як модель ефективно використовує контент контексту. На даний момент дослідження довжини тексту в галузі ще далеко не досягли "стелі", 400 тисяч токенів може бути лише початком.
Чому потрібно подолати обмеження на довгі тексти?
Засновник "Темної сторони Місяця" Ян Чжилін заявив, що саме через обмеження довжини вводу виникають труднощі з реалізацією багатьох великих моделей. Наприклад, в таких сценах, як віртуальні персонажі, ігри зі сценарієм, правовий аналіз, недостатня довжина вводу може призвести до втрати інформації, поганих результатів та інших проблем.
Довгий текст є надзвичайно важливим для майбутніх агентів та нативних додатків AI. Агентам потрібно покладатися на історичну інформацію для планування рішень, а додаткам AI необхідний контекст для підтримки цілісності та персоналізованого досвіду.
Ян Чжилин вважає, що межа великої моделі визначається одноетапною здатністю та числом виконуваних кроків, перша з яких пов'язана з кількістю параметрів, а друга - з довжиною контексту. Збільшуючи довжину контексту, можна підвищити здатність моделі без значного збільшення кількості параметрів.
Довгі тексти також допомагають зменшити проблему ілюзії у великих моделях. Більше контекстної інформації може допомогти моделі оцінити семантику, зменшити двозначність і підвищити точність міркувань.
Можна сказати, що технологія довгих текстів не лише вирішила деякі недоліки великих моделей, але й є ключем до впровадження в промисловість. Це знаменує собою перехід великих моделей з LLM до Long LLM.
Наприклад, Kimi Chat з темної сторони місяця приніс кілька оновлень завдяки своїй здатності до обробки довгих текстів:
Можна швидко аналізувати довгі тексти, фінансові звіти тощо, витягувати ключову інформацію та створювати резюме
Може перетворити цілу книгу або юридичний документ у запитувану базу знань
Можна безпосередньо перетворити статтю на код і внести зміни для оптимізації
Підтримка рольової гри в довгих діалогах для взаємодії з віртуальними персонажами
Ці функції демонструють, що чат-боти рухаються в напрямку професіоналізації, персоналізації та поглиблення, і можуть стати новим важелем для впровадження в індустрії.
Ян Чжилин заявив, що мета "Темної сторони Місяця" полягає в тому, щоб створити наступний супер-додаток для кінцевого споживача, який на базі універсальної моделі розвиватиме кілька вертикальних застосувань. Він прогнозує, що ринок великих моделей у країні поділиться на два основних табори: toB та toC, а в сфері toC з'являться супер-додатки на основі власних моделей.
Технічні проблеми довгих текстів
Технології обробки довгих текстів стикаються з «неможливим трикутником» «довжина тексту - увага - обчислювальні потужності»:
Чим довший текст, тим складніше зосередитися на ключовій інформації
Обмежена увага, короткий текст важко повністю висловити складну інформацію
Обробка довгих текстів потребує великої обчислювальної потужності, що підвищує витрати.
Ця проблема виникає з механізму самостійної уваги в структурі Transformer. Цей механізм дозволяє моделі гнучко аналізувати взаємозв'язки між інформацією, але обчислювальні витрати зростають у квадратній залежності від довжини тексту.
Дослідження показали, що надто довгий контекст призводить до зниження частки релевантної інформації та відволікання уваги. Це створює суперечність між довжиною тексту та увагою. Водночас, подолання довших текстів вимагає більше обчислювальної потужності, що формує суперечність з обчислювальною потужністю.
Наразі існує три основні категорії рішень:
Використання зовнішніх інструментів: розділіть довгі тексти на частини, щоб створити довгі відповіді шляхом пошуку коротких текстових фрагментів.
Оптимізація обчислень самостійної уваги: наприклад, LongLoRA зменшує обсяг обчислень за рахунок групового обчислення.
Оптимізація моделі: такі як LongLLaMA, що досягає здатності екстраполяції довших послідовностей через донавчання.
Різні варіанти мають свої переваги та недоліки. Виробники повинні знайти баланс між довжиною тексту, увагою та обчислювальною потужністю, щоб під час обробки достатньої кількості інформації враховувати ефективність обчислень та витрати.
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Здатність великих моделей обробляти довгі тексти зросла до 400 тисяч токенів, що може стати новою відправною точкою.
Змагання з технологій довгих текстів великих моделей оновлюється, 400 тисяч токенів, можливо, лише початок
Великі моделі вражаючими темпами підвищують здатність обробляти довгі тексти. З початкових 4000 токенів до теперішніх 400000 токенів, можливість роботи з довгими текстами, здається, стала новою "стандартною характеристикою" виробників великих моделей.
На міжнародному рівні OpenAI кілька разів оновлював GPT-4, збільшивши довжину контексту до 32 тисяч токенів; Anthropic в один момент розширив довжину контексту до 100 тисяч токенів; LongLLaMA навіть розширив довжину контексту до 256 тисяч токенів і навіть більше.
Внутрішні компанії також не відстають. Стартап у сфері великих моделей "Темна сторона місяця" запустив Kimi Chat, який підтримує введення 200 тисяч китайських символів, що відповідає приблизно 400 тисячам токенів; Гонконгський університет та MIT спільно розробили технологію LongLoRA, яка може розширити довжину тексту 7B моделі до 100 тисяч токенів, а 70B моделі - до 32 тисяч токенів.
На даний момент кілька провідних компаній і установ, включаючи OpenAI, Anthropic, Meta та Moon's Dark Side, зосередили свої зусилля на вдосконаленні можливостей обробки довгих текстів. Ці компанії також є популярними об'єктами в капітальних ринках, їх обсяги фінансування та оцінки демонструють експоненціальне зростання.
Що означає прорив у технології довгих текстів? На перший погляд, це суттєве підвищення здатності моделей до введення та читання, від початкової можливості прочитати лише короткий текст до здатності легко обробляти цілу повість. Глибше значення полягає в тому, що це сприяло впровадженню великих моделей у професійних сферах, таких як фінанси, право, наука.
Проте, довжина тексту не завжди є кращою, чим більша. Дослідження показують, що довжина контексту, яку модель може обробити, не є рівнозначною її ефективності; важливіше, як модель ефективно використовує контент контексту. На даний момент дослідження довжини тексту в галузі ще далеко не досягли "стелі", 400 тисяч токенів може бути лише початком.
Чому потрібно подолати обмеження на довгі тексти?
Засновник "Темної сторони Місяця" Ян Чжилін заявив, що саме через обмеження довжини вводу виникають труднощі з реалізацією багатьох великих моделей. Наприклад, в таких сценах, як віртуальні персонажі, ігри зі сценарієм, правовий аналіз, недостатня довжина вводу може призвести до втрати інформації, поганих результатів та інших проблем.
Довгий текст є надзвичайно важливим для майбутніх агентів та нативних додатків AI. Агентам потрібно покладатися на історичну інформацію для планування рішень, а додаткам AI необхідний контекст для підтримки цілісності та персоналізованого досвіду.
Ян Чжилин вважає, що межа великої моделі визначається одноетапною здатністю та числом виконуваних кроків, перша з яких пов'язана з кількістю параметрів, а друга - з довжиною контексту. Збільшуючи довжину контексту, можна підвищити здатність моделі без значного збільшення кількості параметрів.
Довгі тексти також допомагають зменшити проблему ілюзії у великих моделях. Більше контекстної інформації може допомогти моделі оцінити семантику, зменшити двозначність і підвищити точність міркувань.
Можна сказати, що технологія довгих текстів не лише вирішила деякі недоліки великих моделей, але й є ключем до впровадження в промисловість. Це знаменує собою перехід великих моделей з LLM до Long LLM.
Наприклад, Kimi Chat з темної сторони місяця приніс кілька оновлень завдяки своїй здатності до обробки довгих текстів:
Ці функції демонструють, що чат-боти рухаються в напрямку професіоналізації, персоналізації та поглиблення, і можуть стати новим важелем для впровадження в індустрії.
Ян Чжилин заявив, що мета "Темної сторони Місяця" полягає в тому, щоб створити наступний супер-додаток для кінцевого споживача, який на базі універсальної моделі розвиватиме кілька вертикальних застосувань. Він прогнозує, що ринок великих моделей у країні поділиться на два основних табори: toB та toC, а в сфері toC з'являться супер-додатки на основі власних моделей.
Технічні проблеми довгих текстів
Технології обробки довгих текстів стикаються з «неможливим трикутником» «довжина тексту - увага - обчислювальні потужності»:
Ця проблема виникає з механізму самостійної уваги в структурі Transformer. Цей механізм дозволяє моделі гнучко аналізувати взаємозв'язки між інформацією, але обчислювальні витрати зростають у квадратній залежності від довжини тексту.
Дослідження показали, що надто довгий контекст призводить до зниження частки релевантної інформації та відволікання уваги. Це створює суперечність між довжиною тексту та увагою. Водночас, подолання довших текстів вимагає більше обчислювальної потужності, що формує суперечність з обчислювальною потужністю.
Наразі існує три основні категорії рішень:
Використання зовнішніх інструментів: розділіть довгі тексти на частини, щоб створити довгі відповіді шляхом пошуку коротких текстових фрагментів.
Оптимізація обчислень самостійної уваги: наприклад, LongLoRA зменшує обсяг обчислень за рахунок групового обчислення.
Оптимізація моделі: такі як LongLLaMA, що досягає здатності екстраполяції довших послідовностей через донавчання.
Різні варіанти мають свої переваги та недоліки. Виробники повинні знайти баланс між довжиною тексту, увагою та обчислювальною потужністю, щоб під час обробки достатньої кількості інформації враховувати ефективність обчислень та витрати.