Yapay Zekâ ve Veri Yetersizliği: Sentetik Veri Çözümü

Yapay zekâ şirketleri, güçlü üretici modeller geliştirmek ve gerekli veri miktarını elde etmek için yeni bir yöntem kullanıyor. Microsoft, OpenAI ve Cohere gibi gruplar, “sentetik veri” olarak adlandırılan bilgisayar tarafından üretilen bilgiyi kullanarak büyük dil modellerini (LLM) eğitiyor. Gelişen generatif yapay zekâ teknolojisi, Google, Microsoft ve Meta gibi büyük teknoloji şirketlerinin ilgisini çekiyor.

Son dönemde Microsoft destekli OpenAI’in ChatGPT’sinin piyasaya sürülmesi, Google ve Anthropic gibi şirketlerin de benzer ürünler sunmasına neden oldu. Bu ürünler, basit yönergelerle gerçekçi metinler, görüntüler veya kodlar üretebiliyor. Şu anda, ChatGPT ve Bard gibi sohbet botlarını çalıştıran LLM’ler, internet üzerinden toplanan verilerle eğitiliyor. Ancak bu şirketler, daha sofistike hale gelen generatif yapay zekâ yazılımı için yeterli ve kaliteli veri bulmakta zorlanıyor. Aynı zamanda, yapay zekâ teknolojisinin tüketmekte olduğu kişisel verilerin miktarı ve kökeni, dünya çapındaki düzenleyiciler, sanatçılar ve medya kuruluşları tarafından eleştiriliyor.

OpenAI’nin CEO’su Sam Altman, Londra’da düzenlenen bir etkinlikte, ChatGPT’nin gizlilik ihlalleri nedeniyle düzenleyici soruşturmaların endişe yaratıp yaratmadığı sorusuna, verilerin yakında tamamen sentetik olacağına olan güvenini dile getirerek kayıtsız kalıyor. Geliştiricilere göre, genel web verileri artık yapay zekâ modellerinin performansını ileriye taşımak için yeterli değil. Microsoft Research’teki iki çalışma ise, sentetik verilerin, OpenAI’nin GPT-4 veya Google’ın PaLM-2 gibi mevcut yazılımlardan daha küçük ve basit modellerin eğitimi için kullanılabileceğini gösteriyor.

Bilim, tıp ve iş dünyasındaki zorluklarla başa çıkmak için yapay zekâ modellerinin benzersiz ve karmaşık veri kümelerine ihtiyacı olduğu belirtiliyor. Ancak bu verilerin insanlar tarafından oluşturulması oldukça pahalı. Son trend, sentetik veri kullanımıyla bu maliyetli gereksinimi ortadan kaldırıyor.

Sentetik veri, bireylerin gizliliğini korurken mevcut verilerdeki önyargıları ve dengesizlikleri ortadan kaldırabilir.

Eleştirmenler, tüm sentetik verilerin gerçek dünya verilerini yansıtmayabileceğine dikkat çekiyor. Özellikle, yapay zekâ tarafından üretilen metin ve görüntülerin webi doldurması durumunda, yapay zekâ şirketlerinin eğitim verileri için kendi modellerinin ilk sürümlerinden elde edilen verileri kullanması olasıdır. Bu durum, “kendi ürününü kullanma” olarak adlandırılıyor.

Araştırmacılar, kendi çıktılarına dayanarak yapay zekâ modellerini eğitmenin zamanla teknolojiyi bozabileceği ve “geri dönüşü olmayan hatalara” neden olabileceği konusunda uyarıda bulunuyorlar. Ancak bazı yapay zekâ araştırmacıları, sentetik verilerin süper zeki yapay zekâ sistemlerine giden yolu hızlandırabileceğini söylüyorlar. Modellerin kendi kendine öğrenmelerini sağlamak hedef olarak görülüyor.

Kaynak: https://www.ft.com/content/053ee253-820e-453a-a1d5-0f24985258de

Yasin Demirkaya

Next Üretici Yapay Zeka ve İş Dünyası: Algoritmaların Stratejik Potansiyeli »

Previous « TRAI Meet-Up #72: Sürdürülebilirlik, Enerji, İklim & YZ

Published by

Yasin Demirkaya

2 yıl ago

99.TRAI Meet-Up’ta “Pazarlama ve Yapay Zeka: Geleceğin Stratejileri” Konuşuldu

2017 yılından bu yana her ayın üçüncü çarşambası düzenlediğimiz TRAI Meet-Up serisinin 99’uncusunu 19 Kasım…

1 hafta ago

Haberler

Çin, Yerli Yapay Zeka Çiplerini Desteklemek İçin Teknoloji Devlerine Ucuz Enerji Sunuyor

Çin hükümetinin teknoloji şirketlerine daha ucuz elektrik tarifeleri sunduğu ve bunun yerli yapay zeka çiplerinin…

4 hafta ago

Haberler

OpenAI ve Amazon Arasında 38 Milyar Dolarlık Anlaşma

OpenAI, sistemlerini Amazon Web Services üzerinde çalıştırmak ve yüz binlerce Nvidia GPU’ya erişmek için Amazon…

4 hafta ago

Haberler

Türkiye Yapay Zeka Zirvesi’nde Katılım Rekoru

Bu yıl sekizincisini düzenlediğimiz Türkiye Yapay Zeka Zirvesi, ülkemizdeki yapay zeka ekosisteminin önde gelen isimlerini,…

1 ay ago

TRAI Yapay Zeka Araştırması Yayında!

Yapay zeka artık yalnızca bir teknoloji değil; ekonomilerin motoru, rekabetin yeni ölçüsü. Türkiye Yapay Zeka…

1 ay ago

Haberler

98. TRAI Meet-Up’ta “Hukuk, Etik ve Felsefe Perspektifinden Yapay Zeka” Konuşuldu

2017 yılından bu yana her ayın üçüncü çarşambası düzenlediğimiz TRAI Meet-Up serisinin 98’incisini 15 Ekim…

1 ay ago

Yapay Zekâ ve Veri Yetersizliği: Sentetik Veri Çözümü

Related Post

Recent Posts

99.TRAI Meet-Up’ta “Pazarlama ve Yapay Zeka: Geleceğin Stratejileri” Konuşuldu

Çin, Yerli Yapay Zeka Çiplerini Desteklemek İçin Teknoloji Devlerine Ucuz Enerji Sunuyor

OpenAI ve Amazon Arasında 38 Milyar Dolarlık Anlaşma

Türkiye Yapay Zeka Zirvesi’nde Katılım Rekoru

TRAI Yapay Zeka Araştırması Yayında!

98. TRAI Meet-Up’ta “Hukuk, Etik ve Felsefe Perspektifinden Yapay Zeka” Konuşuldu

Headline