Büyük model uzun metin işleme yeteneği %400 artarak 400.000 token yeni bir başlangıç olabilir.

Büyük model uzun metin teknolojisi yarışması yükseliyor, 400 bin token belki de sadece başlangıç.

Büyük modeller, uzun metinleri işleme yeteneklerini inanılmaz bir hızla artırıyor. İlk olarak 4000 token'dan 400.000 token'a kadar büyüyen uzun metin yetenekleri, büyük model tedarikçilerinin yeni "standart" özelliği haline gelmiş gibi görünüyor.

Dünya genelinde, OpenAI bir dizi güncelleme ile GPT-4'ün bağlam uzunluğunu 32.000 token'a yükseltti; Anthropic, bağlam uzunluğunu 100.000 token'a çıkardı; LongLLaMA ise bağlam uzunluğunu 256.000 token'a ve hatta daha fazlasına genişletti.

Yerli şirketler de geri kalmak istemiyor. Büyük model girişimi Ay'ın Karanlığı tarafından sunulan Kimi Chat, 200.000 Çince karakter girişi destekliyor, bu da yaklaşık 400.000 token'a eşdeğer; Hong Kong Çin Üniversitesi ve MIT'nin işbirliğiyle geliştirilen LongLoRA teknolojisi, 7B modelinin metin uzunluğunu 100.000 token'a, 70B modelini ise 32.000 token'a kadar uzatabiliyor.

Şu anda, OpenAI, Anthropic, Meta ve Ayın Karanlık Yüzü de dahil olmak üzere birçok önde gelen büyük model şirketi ve kurumu, uzun metin işleme yeteneklerini önemli bir yükseltme yönü olarak belirliyor. Bu şirketler, sermaye piyasalarında da büyük ilgi gören popüler hedeflerdir ve finansman ölçekleri ile değerlemeleri patlama büyüklüğünde artış göstermektedir.

Uzun metin teknolojisindeki atılım ne anlama geliyor? Yüzeysel olarak bakıldığında, modelin girdi ve okuma yeteneğinde büyük bir artış olduğu görülüyor; başlangıçta sadece kısa bir metni okuyabilen model, şimdi bir romanı kolayca işleyebiliyor. Daha derin bir anlam ise, bu durumun büyük modellerin finans, hukuk, araştırma gibi uzmanlık alanlarında uygulanmasını hızlandırmasıdır.

Ancak, metin uzunluğu her zaman iyi değildir. Araştırmalar, modelin işleyebileceği bağlam uzunluğunun etkisi ile eşit olmadığını göstermektedir; daha önemli olan modelin bağlam içeriğini nasıl etkili bir şekilde kullandığıdır. Şu anda sektörde metin uzunluğu üzerine yapılan araştırmalar henüz "tavan" noktasına ulaşmamıştır; 400 bin token belki de sadece bir başlangıçtır.

Neden uzun metin sınırlamalarını aşmalıyız?

Ay'ın karanlık yüzü kurucusu Yang Zhilin, girdi uzunluğu sınırlamalarının birçok büyük model uygulamasının hayata geçirilmesindeki zorlukların başlıca nedeni olduğunu belirtti. Örneğin, sanal karakterler, senaryo oyunları, hukuki analiz gibi sahnelerde, yetersiz girdi uzunluğu bilgi kaybına ve istenen sonuçların elde edilememesine neden olabilir.

Uzun metin yeteneği, gelecekteki Agent ve AI yerel uygulamaları için de son derece önemlidir. Agent'lar, planlama kararları almak için tarihi bilgilere ihtiyaç duyar, AI uygulamaları ise tutarlılığı ve kişiselleştirilmiş deneyimi sürdürmek için bağlama ihtiyaç duyar.

Yang Zhilin, büyük modellerin üst sınırının tek adım yeteneği ve yürütme adımı sayısı tarafından belirlendiğini düşünüyor. Birincisi parametre sayısıyla, ikincisi ise bağlam uzunluğuyla ilgilidir. Bağlam uzunluğunu artırarak, parametreleri büyük ölçüde artırmadan model yeteneklerini geliştirmek mümkündür.

Uzun metinler, büyük modellerin yanılsama sorununu azaltmaya da yardımcı olur. Daha fazla bağlam bilgisi, modelin anlamı değerlendirmesine yardımcı olabilir, belirsizliği azaltır ve çıkarım doğruluğunu artırır.

Uzun metin teknolojisi, büyük modellerin bazı zayıflarını çözmekle kalmayıp, aynı zamanda sanayinin uygulanmasında da kritik bir rol oynamaktadır. Bu, büyük modellerin LLM'den Long LLM'ye geçiş yaptığını göstermektedir.

Kimi Chat'in ayın karanlık yüzü örneğinde, uzun metin yetenekleri birçok yükseltme getirdi:

  • Uzun metinleri, mali raporları vb. hızlı bir şekilde analiz edebilir, anahtar bilgileri çıkarabilir ve özet oluşturabilir.
  • Tüm bir kitabı veya hukuki belgeleri sorgulanabilir bir bilgi havuzuna dönüştürebilir.
  • Tezleri doğrudan koda dönüştürebilir ve düzenleyip optimize edebilirsiniz.
  • Uzun diyaloglarda rol yapmayı destekler, sanal karakterlerle etkileşim sağlar.

Bu işlevler, sohbet robotlarının profesyonelleşme, kişiselleşme ve derinleşme yönünde geliştiğini gösteriyor ve endüstrinin hayata geçirilmesinde yeni bir araç olma potansiyeline sahip.

Yang Zhilin, Ay'ın karanlık yüzünün hedefinin, genel modelin temelinde birden fazla dikey uygulama türeterek bir sonraki C son kullanıcısı süper uygulamasını oluşturmak olduğunu belirtti. Ülke içindeki büyük model pazarının B2B ve B2C olmak üzere iki büyük kamp alanına ayrılacağını öngördü, B2C alanında ise kendi geliştirdikleri modellere dayanan süper uygulamaların ortaya çıkacağını öngördü.

Uzun Metinlerin Teknik Sorunları

Uzun metin teknolojisi, "metin uzunluğu-dikkat-hesaplama gücü" imkansız üçgeni ile karşı karşıya.

  • Metin ne kadar uzun olursa, anahtar bilgileri odaklamak o kadar zorlaşır.
  • Dikkat sınırlıdır, kısa metinler karmaşık bilgileri tam olarak ifade etmekte zordur.
  • Uzun metinleri işlemek çok fazla hesap gücü gerektirir, maliyetleri artırır.

Bu durum, Transformer yapısındaki kendine dikkat mekanizmasından kaynaklanmaktadır. Bu mekanizma, modelin bilgi arasındaki ilişkileri esnek bir şekilde analiz etmesine olanak tanır, ancak hesaplama yükü metin uzunluğu ile kare oranında artmaktadır.

Araştırmalar, çok uzun bağlamların ilgili bilgi oranının azalmasına ve dikkat dağınıklığına yol açtığını göstermektedir. Bu, metin uzunluğu ile dikkat arasında bir çelişki oluşturmaktadır. Aynı zamanda, daha uzun metinleri aşmak daha fazla hesaplama gücü gerektirdiğinden, bu da hesaplama gücü ile bir çelişki oluşturur.

Şu anda üç ana çözüm türü vardır:

  1. Dış araçlar yardımıyla: Uzun metni parçalara ayırarak, kısa metin parçalarını arayarak uzun metin yanıtları oluşturmak.

  2. Kendinden dikkat hesaplamalarını optimize etme: LongLoRA gibi gruplama hesaplamaları ile hesaplama yükünü azaltma.

  3. Model optimizasyonu: LongLLaMA gibi, daha uzun dizilerin dışa aktarma yeteneğini sağlamak için ince ayar yapılır.

Farklı çözümlerin her birinin avantajları ve dezavantajları vardır. Üreticilerin, yeterli bilgiyi işlerken hesaplama verimliliği ve maliyetini de göz önünde bulundurarak metin uzunluğu, dikkat ve hesaplama gücü arasında bir denge bulmaları gerekmektedir.

TOKEN2.29%
View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Reward
  • 5
  • Repost
  • Share
Comment
0/400
DeFiVeteranvip
· 19h ago
Tam metni anlamak neyi değiştirir?
View OriginalReply0
OldLeekMastervip
· 08-11 05:52
K kesinlikle oynama
View OriginalReply0
DegenWhisperervip
· 08-11 05:52
Ne kadar oynadığını gör.
View OriginalReply0
DiamondHandsvip
· 08-11 05:47
Çok yüksek teknoloji savaşı
View OriginalReply0
WalletDivorcervip
· 08-11 05:26
İyi görüyorsan, harekete geç.
View OriginalReply0
  • Pin
Trade Crypto Anywhere Anytime
qrCode
Scan to download Gate app
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)