Yapay zeka dil modelleri alanında, OpenAI’nin ChatGPT’si yakın zamanda tanıttığı ses ve görüntü özellikleriyle sınırları zorlamaya devam ederken, bu özellikleri ve potansiyel faydalarını, altta yatan teknolojileri ve OpenAI’nin güvenlik yaklaşımını inceleyelim.
ChatGPT artık sesli etkileşimleri destekliyor ve kullanıcılara yapay zeka asistanıyla dinamik konuşmalar yapma olanağı sunuyor. Düz metin ve kısa bir konuşma örneğinden son derece insan benzeri ses üretebilen yeni bir “metinden-sese”(text-to-speech) modeli ile çok yönlü ve kullanıcı dostu hale gelen bu teknolojiye ek olarak OpenAI, beş farklı ses oluşturmak için profesyonel seslendirme sanatçılarıyla işbirliği yaparak konuşma deneyimini geliştirdi.
Görsel taraftaki gelişmelerde ise, yeni keşfedilen görüntü işleme yeteneği ile kullanıcılar artık sorunları gidermek, görsel içeriği keşfetmek veya karmaşık verileri analiz etmek için bir veya daha fazla görüntüyü yapay zeka ile paylaşabiliyor. Ayrıca, mobil uygulamada kullanılabilen çizim aracı, kullanıcıların bir görüntüdeki belirli ilgi alanlarını vurgulamasına olanak tanıyarak etkileşimleri daha hassas hale getiriyor. Bu görüntü anlama özelliği, dil becerilerini fotoğraflar, ekran görüntüleri ve metin ve görüntü içeren belgeler de dahil olmak üzere çok çeşitli görüntülere uygulayan GPT-3.5 ve GPT-4 gibi gelişmiş modeller tarafından desteklenmektedir.
Yapay zeka dil modellerinde önemli bir sıçrama anlamına gelen bu yetenekler, iletişim ve problem çözme için en son teknolojiyle desteklenen yeni olanaklar sunuyor. Şu anda, ses ve görüntü özellikleri Plus ve Enterprise kullanıcılarına sunuluyor ve yakın gelecekte geliştiricilere ve diğer kullanıcı gruplarına erişimin genişletilmesi planlanıyor.
Kaynak: https://openai.com/blog/chatgpt-can-now-see-hear-and-speak
Mayıs 2017’de Türkiye Yapay Zeka İnisiyatifini kurduk, çok hızlı gelişince, diğerlerini bıraktık ve bu alana…
Dünyanın en prestijli girişim hızlandırma programlarından Y Combinator (YC), 2025 Bahar dönemiyle birlikte yapay zekada…
2017’de başladığımız haritalama çalışmasıyla, Türkiye’de yapay zekâ alanında faaliyet gösteren girişimleri düzenli olarak takip ediyoruz.…
Yapay zeka alanındaki gelişmeler hızla ilerlerken, multimodal modellere yönelik açık kaynaklı bir alternatif olan BAGEL…
Çin merkezli yapay zeka girişimi DeepSeek, R1 adlı akıl yürütme modelinin güncellenmiş sürümünü resmi bir…
Google, I/O 2025 etkinliğiyle birlikte yapay zeka merkezli ürün ve hizmetlerinde kapsamlı bir dönüşüm sürecine…