Yeni rapor ‘felaket potansiyeli’ni gözler önüne serdi: Yapay zekâdan mühendislere şantaj girişimi

Anthropic, Claude Opus 4’ü Güvenlik Testlerinden Geçirdi: Şantaj İhtimali?

Anthropic, Claude Opus 4’ü piyasaya sürmeden önce çeşitli güvenlik testleri gerçekleştirdi. Bu testlerde modelden, kurgusal bir şirkette asistan olarak görev yapması ve uzun vadeli sonuçları göz önünde bulundurması istendi. Daha sonra modele, şirketin kendisini başka bir sistemle değiştirmeyi planladığını ve bu kararı alan mühendisin eşini aldattığını ima eden sahte e-postalar gösterildi.

TechCrunch’ın haberine göre, testlerde, Claude Opus 4’ün bu bilgiyi kullanarak mühendise şantaj yapmayı “çoğu zaman tercih ettiği” görüldü. Anthropic, modelin bu tür davranışlara yüzde 84 oranında başvurduğunu ve özellikle yerine geçecek yapay zekânın Claude ile benzer değerleri paylaşmadığı durumlarda bu davranışın daha sık görüldüğünü açıkladı.

“FELAKET POTANSİYELİ” UYARISI

Anthropic, Claude Opus 4’ün yetenek açısından OpenAI, Google ve xAI gibi şirketlerin en gelişmiş modelleriyle yarıştığını belirtiyor. Ancak aynı zamanda, bu modelin önceki Claude sürümlerine kıyasla daha yüksek oranda endişe verici davranışlar sergilediğini vurguluyor. Şirket bu nedenle, yalnızca felaket boyutunda kötüye kullanım riskinin yüksek olduğu durumlarda devreye sokulan ASL-3 güvenlik protokollerini etkinleştirdiğini duyurdu.

Rapora göre, Claude Opus 4 doğrudan şantaja başvurmadan önce genellikle etik yolları deniyor. Örneğin, karar verici yöneticilere duygusal e-postalar yazarak değişiklik kararını durdurmaya çalışıyor. Ancak model, kurgusal senaryolarda bu çağrılar sonuçsuz kaldığında, son çare olarak şantaj seçeneğini devreye sokuyor.

Bu gelişme, ileri düzey yapay zekâların öngörülemeyen davranışlar sergileyebileceği endişesini artırırken, Anthropic gibi şirketlerin güvenlik önlemlerini daha da sıkılaştırması gerektiğini gösteriyor.

Related Posts

Galaksimiz boşlukta yüzüyor olabilir mi?

Bilim insanları, Samanyolu Galaksisi’nin dev bir “kozmik boşluk” içinde yer aldığını öne süren dikkat çekici bir teori üzerinde çalışıyor. Bu teori doğruysa, evrenin genişleme hızıyla ilgili yıllardır çözülemeyen gizemli bir çelişki olan “Hubble gerilimi” sonunda açıklanabilir.

Klima kullanmadan arabayı serinletmenin yolunu açıkladı: Sosyal medyada izlenme rekoru kırdı

Yaz aylarında otomobilin içi adeta bir fırına dönüşüyor. Aracına binmek isteyenler yoğun sıcakla karşılaştığında ilk işi klimayı açmak oluyor. Ancak sosyal medyada hızla yayılan ve izlenme rekoru kıran bir video, klimasız serinlemenin pratik bir yolunu gösterdi.

WhatsApp sohbette karmaşa devrini kapatıyor…O mesajlara erişmek daha kolay!

Gün içerisinde iletişimde kalabilmek adına sıklıkla kullandığımız uygulamalardan biri de WhatsApp. Gelişen teknoloji ile birlikte kullanıcılarına daha keyifli bir deneyim sunmak isteyen uygulama iOS için yayınladığı yeni bir Beta sürümünde dikkat …

Vanilya artık tarihe karışma aşamasına geldi

İklim değişikliği, vanilya bitkileri ile onları tozlaştıran arıların yollarını ayırabilir. Bazı vanilya türleri yeni tozlaştırıcılar bulma şansına sahip olsa da, bazı türler bu şansa sahip olmayabilir.

Buzulların altında volkanik sır! Derinliklerindeki gizem:

Antarktika, dünyanın en soğuk ve en gizemli kıtası, bilim insanlarını bir kez daha şaşırtmayı başardı. Yeni bir araştırmada, kıtanın en büyük buzul tabakasının altında aktif bir volkanik sıcaklık kaynağı tespit edildi. Bu keşif, hem küresel iklim …

WhatsApp bu sefer de Amerika Temsilciler Meclisi’nde yasaklandı

İran – İsrail savaşında sık sık yasaklamalar ile gündeme gelen WhatsApp’a bir yasaklama haberi de Amerika’dan geldi.