DeepSeek, yeni modeli V3.2-Exp ile uzun metin yazılımında maliyetleri yarı yarıya düşürdü

DeepSeek, Yeni Deneysel Modelini Tanıttı: DeepSeek V3.2-Exp

Çin merkezli yapay zeka girişimi DeepSeek, yeni deneysel modeli olan V3.2-Exp’i duyurdu. Şirket, bu yeni modelin geniş bağlamlı metin işleme süreçlerinde maliyet düşürücü etkiler sunan “DeepSeek Sparse Attention (DSA)” mekanizmasıyla öne çıktığını belirtti. DeepSeek, V3.2-Exp’in açık kaynak kodlu olduğunu vurgulayarak dünya çapındaki geliştiricilerin erişimine açık olduğunu duyurdu.

Açık kaynak nedir?

DeepSeek’in yeni modeli, “lightning indexer” adı verilen bir modülle önemli pasajları seçmeye odaklanarak, “fine-grained token selection” modülüyle bu pasajlardaki kritik unsurları belirleyerek sınırlı dikkat penceresine yüklemesi şeklinde tanımlanıyor. Bu yaklaşım, geleneksel dikkat mekanizmalarının işlem yükünü azaltmayı hedefliyor. DeepSeek’e göre bu sayede basit bir API çağrısının maliyeti uzun metinlerde yarı yarıya düşürülmüş durumda.

Çin’in yeni DeepSeek hamlesiyle yer yerinden oynadı

Firma temsilcileri, V3.2-Exp’in V3.1-Terminus ile benzer benchmark performansı sergilemesine rağmen işlem verimliliğini artırdığını belirtiyor. DeepSeek ayrıca API fiyatlarını %50’nin üzerinde indirerek kullanıcıların avantajlı fiyatlardan yararlanabileceğini duyurdu. Firmanın resmi duyurularına göre yeni sürüm, uygulama, web ve API katmanlarında aktif olarak kullanılabilir durumda.

Tencent, DeepSeek’i tahtından etti

DeepSeek’in V3.2-Exp hamlesi, şirketin önceki R1 modeliyle sağladığı ivmeyi sürdürme çabasının bir parçası. R1, açık kaynak kodlu olması ve düşük maliyetle yüksek performans sunmasıyla öne çıkmıştı.

Araştırmalar, R1’in politik içerikli konularında filtreleme veya sansür uyguladığını gösteriyor. R1’in, hassas konulara ilişkin soruların %85’ine cevap vermediği belirtiliyor. Güvenlik çalışmaları, DeepSeek modellerinin zararlı yönlendirmelere karşı savunmasız kalabileceğini ortaya koyuyor.

DeepSeek R1: Çin’den dünyayı şaşırtan yapay zeka hamlesi

DeepSeek’in arka plandaki donanım stratejisi de tartışma konusu. Şirket, R1 eğitiminde NVIDIA GPU’larını kullandıktan sonra Huawei’in Ascend donanımına geçmeye çalıştı. Ancak bu geçiş tam olarak başarılı olmadı ve eğitim NVIDIA altyapısına geri taşındı.

DeepSeek’in uluslararası alanda yükselmesi, yapay zeka alanındaki dengeleri etkileyebilir. Reuters, V3.2-Exp’in ABD’li ve Çinli rakipleri üzerinde baskı kurma potansiyeline sahip olduğunu belirtiyor.

DeepSeek, V3 ve R1 modelleriyle sağladığı kar oranlarını paylaşarak günlük %545’e varan kar iddialarında bulunmuştu. Yeni modelin uzun metin işleme uygulamalarındaki maliyet baskısını hafifletebileceği, ancak güvenlik açıkları ve donanım bağımlılığı gibi sorunların dikkate alınması gerektiği belirtiliyor.

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir