YELLOWSTAR MAGAZİNE GÜNCEL İŞ VE EKONOMİ HABERLERİ

Yapay zekada yeni tehlike: Zehirli yapay zeka

Teknoloji

İngiltere Yapay Zeka Güvenlik Enstitüsü, Alan Turing Enstitüsü ve Anthropic’in ortak araştırmasına göre, milyonlarca verinin yer aldığı bir eğitim setine sadece 250 zararlı dosya eklemek, bir modeli gizlice zehirleyebilir.

İSTANBUL-NURULLAH SARI(YSM) - Yapay zeka zehirleme, bir modele bilerek yanlış bilgi öğretilmesi anlamına geliyor.

Amaç, modelin davranışını bozmak, hatalı sonuçlar üretmesini sağlamak veya gizli kötü niyetli komutlar yerleştirmek.

Örneğin, bir saldırgan eğitim verisine fark edilmeyecek şekilde özel bir tetikleyici kelime ekliyor. Model, bu kelimeyle karşılaştığında otomatik olarak saldırganın istediği yönde cevap veriyor. Bu yöntem “arka kapı” (backdoor) saldırısı olarak biliniyor.

Misinformasyondan siber tehdide

Bazı saldırılar modelin genel performansını düşürmeyi hedefliyor. Buna “konu yönlendirme” (topic steering) deniyor. Saldırganlar, örneğin “marul kanseri iyileştirir” gibi yanlış bilgileri binlerce sahte siteye yayarak modelin bu bilgiyi doğruymuş gibi öğrenmesini sağlayabiliyor.

Araştırmalar, bu tür veri zehirlemenin gerçek dünyada uygulanabilir olduğunu ve ciddi sonuçlara yol açabileceğini gösteriyor.

Ocak ayında yapılan bir deneyde, yalnızca eğitim verisinin yüzde 0.001’inin yanlış bilgiyle değiştirilmesi, modelin tıbbi konularda hatalı yanıtlar verme olasılığını artırdı.

Sanatçılardan ters hamle

Bazı sanatçılar ise yapay zeka modellerinin izinsiz içerik toplamasına karşı kendi eserlerine “zehir” yerleştiriyor. Böylece bu içerikleri kullanan modeller bozuk veya işe yaramaz sonuçlar üretiyor.

Uzmanlara göre bu durum, yapay zeka teknolojisinin dışarıdan göründüğü kadar sağlam olmadığını kanıtlıyor.

“Zehirli” modeller, gelecekte hem yanlış bilgi yayılımı hem de siber güvenlik açıkları açısından en ciddi tehditlerden biri haline gelebilir.

YSM HABER MERKEZİ

Yorum yapabilmek için lütfen sitemizden üye girişi yapınız!
Sıradaki Haber
Sitemizden en iyi şekilde faydalanmanız için çerezler kullanılmaktadır.