DeepSeek, Yeni Deneysel Modelini Tanıttı: DeepSeek V3.2-Exp
Çin merkezli yapay zeka girişimi DeepSeek, yeni deneysel modeli olan V3.2-Exp’i duyurdu. Şirket, bu yeni modelin geniş bağlamlı metin işleme süreçlerinde maliyet düşürücü etkiler sunan “DeepSeek Sparse Attention (DSA)” mekanizmasıyla öne çıktığını belirtti. DeepSeek, V3.2-Exp’in açık kaynak kodlu olduğunu vurgulayarak dünya çapındaki geliştiricilerin erişimine açık olduğunu duyurdu.
Açık kaynak nedir?
DeepSeek’in yeni modeli, “lightning indexer” adı verilen bir modülle önemli pasajları seçmeye odaklanarak, “fine-grained token selection” modülüyle bu pasajlardaki kritik unsurları belirleyerek sınırlı dikkat penceresine yüklemesi şeklinde tanımlanıyor. Bu yaklaşım, geleneksel dikkat mekanizmalarının işlem yükünü azaltmayı hedefliyor. DeepSeek’e göre bu sayede basit bir API çağrısının maliyeti uzun metinlerde yarı yarıya düşürülmüş durumda.
Çin’in yeni DeepSeek hamlesiyle yer yerinden oynadı
Firma temsilcileri, V3.2-Exp’in V3.1-Terminus ile benzer benchmark performansı sergilemesine rağmen işlem verimliliğini artırdığını belirtiyor. DeepSeek ayrıca API fiyatlarını %50’nin üzerinde indirerek kullanıcıların avantajlı fiyatlardan yararlanabileceğini duyurdu. Firmanın resmi duyurularına göre yeni sürüm, uygulama, web ve API katmanlarında aktif olarak kullanılabilir durumda.
Tencent, DeepSeek’i tahtından etti
DeepSeek’in V3.2-Exp hamlesi, şirketin önceki R1 modeliyle sağladığı ivmeyi sürdürme çabasının bir parçası. R1, açık kaynak kodlu olması ve düşük maliyetle yüksek performans sunmasıyla öne çıkmıştı.
Araştırmalar, R1’in politik içerikli konularında filtreleme veya sansür uyguladığını gösteriyor. R1’in, hassas konulara ilişkin soruların %85’ine cevap vermediği belirtiliyor. Güvenlik çalışmaları, DeepSeek modellerinin zararlı yönlendirmelere karşı savunmasız kalabileceğini ortaya koyuyor.
DeepSeek R1: Çin’den dünyayı şaşırtan yapay zeka hamlesi
DeepSeek’in arka plandaki donanım stratejisi de tartışma konusu. Şirket, R1 eğitiminde NVIDIA GPU’larını kullandıktan sonra Huawei’in Ascend donanımına geçmeye çalıştı. Ancak bu geçiş tam olarak başarılı olmadı ve eğitim NVIDIA altyapısına geri taşındı.
DeepSeek’in uluslararası alanda yükselmesi, yapay zeka alanındaki dengeleri etkileyebilir. Reuters, V3.2-Exp’in ABD’li ve Çinli rakipleri üzerinde baskı kurma potansiyeline sahip olduğunu belirtiyor.
DeepSeek, V3 ve R1 modelleriyle sağladığı kar oranlarını paylaşarak günlük %545’e varan kar iddialarında bulunmuştu. Yeni modelin uzun metin işleme uygulamalarındaki maliyet baskısını hafifletebileceği, ancak güvenlik açıkları ve donanım bağımlılığı gibi sorunların dikkate alınması gerektiği belirtiliyor.