Google Gemini'yi yayınladı: GPT4'ten Daha İyi Performans Gösteren Çok Modlu LLM'ler

Google Gemini’yi yayınladı: GPT4’ten Daha İyi Performans Gösteren Çok Modlu LLM’ler

Yasin Demirkaya
Haberler
8 Aralık 2023

Google Gemini’yi yayınladı: GPT4’ten Daha İyi Performans Gösteren Çok Modlu LLM’ler

Doğuşu olarak çok modlu olacak şekilde tasarlanan bu model, Gemini dönemi modellerinin ilk adımı. Gemini üç boyutta optimize edilmiş – Ultra, Pro ve Nano.

Kıyaslama testlerinde Gemini, 32 testin 30’unda OpenAI’nin GPT-4’ünden, özellikle de çok modlu anlama ve Python kodu oluşturmada daha iyi performans gösteriyor.

Her model belirli uygulamaları hedefliyor.

Amiral gemisi modeli Gemini Ultra, veri merkezlerindeki ve kurumsal uygulamalardaki karmaşık görevler için tasarlandı ve Google’ın yapay zeka yeteneklerinin tüm gücünden yararlanıyor. Öte yandan Gemini Pro, Google’ın kendi yapay zeka hizmeti Bard ile sorunsuz bir şekilde entegre olarak daha geniş bir yapay zeka hizmetleri yelpazesine hizmet ediyor. Bu model, Google’ın yapay zeka cephaneliğinde çok yönlü bir araç olarak konumlandırılmış ve çeşitli yapay zeka odaklı görevleri yerine getiriyor.

Ailenin en benzersiz üyesi olan Gemini Nano, iki versiyona ayrılıyor: 1,8 milyar parametreye sahip Nano-1 ve 3,25 milyar parametreye sahip Nano-2. Bu modeller, Android ortamlarında performansı optimize etmeye odaklanarak cihaz üzerinde işlemler için özel olarak tasarlanmış.

Kodlama için Gemini, modelin çeşitli dillerde yüksek kaliteli kodu anlama ve oluşturma konusundaki yeterliliğini gösteren bir kod üretme sistemi olan AlphaCode 2’yi kullanıyor.

Gemini modellerinin merkezinde, Google’ın kendi Tensör İşleme Birimleri (TPU’lar) için özel olarak uyarlanmış, gelişmiş Transformer kod çözücüleri üzerine inşa edilmiş bir mimari yer alıyor. Donanım ve yazılım arasındaki bu sinerji, modellerin verimli eğitim ve çıkarım süreçleri elde etmesini sağlayarak PaLM gibi önceki iterasyonlara kıyasla hız ve maliyet etkinliği açısından fark yaratıyor.

Gemini paketinin önemli bir özelliği de doğal olarak çok modlu olmasıdır. Metin, görüntü, ses ve kod dahil olmak üzere çok çeşitli veri kümeleri üzerinde eğitilen modeller, bu modaliteler arasında çıktıları işleme ve üretme konusunda iyi sonuçlar veriyor.

Özellikle çok modlu anlama ve Python kodu üretme gibi çeşitli kıyaslamalarda OpenAI’nin GPT-4’ünü geride bıraktıkları bildirildiğinden, bu durum performanslarında özellikle belirgindir.

Bu hafta piyasaya sürülen Gemini Pro sürümü, önümüzdeki yıl çıkması beklenen daha gelişmiş bir model olan Gemini Ultra’nın daha hafif bir varyantı.

Ana Çıkarımlar

Performans: Gemini AI, insan düzeyinde MMLU kıyaslama performansında GPT-4’ü %90 puanla geride bırakıyor.
Mimari: Gelişmiş Transformer kod çözücüleri kullanır ve 32k jetonluk önemli bir bağlam uzunluğu desteğine sahip TPUv4 bölmeleri üzerinde eğitilir.
Varyantlar: Karmaşık görevler için Ultra, ölçeklenebilirlik için Pro ve cihaz üzerinde verimlilik için Nano olmak üzere üç özel versiyonu mevcuttur.
Kıyaslamalar: Görüntü anlama ve muhakeme problemleri de dahil olmak üzere çok modlu görevlerde yeni SOTA sonuçları belirler.
Erişilebilirlik: Gemini Pro, 13 Aralık’tan itibaren Google AI Studio veya Google Cloud Vertex AI üzerindeki bir API aracılığıyla geliştiricilerin erişimine açılacak.

Gemini Pro şimdi Google’ın ChatGPT rakibi Bard’a güç veriyor ve akıl yürütme ve anlama konusunda gelişmiş yetenekler vaat ediyor. Ancak, bir sorun var: Google bu modellerin piyasaya sürülmeden önce bağımsız olarak test edilmesine izin vermedi ve bizi onların sözüne güvenmek zorunda bıraktı. Pro sürümü de yakında kurumsal kullanıcılar ve geliştiriciler için kullanıma sunulacak.

Daha ilgi çekici olan Gemini Ultra, metin, görüntü, ses ve video dahil olmak üzere çeşitli verileri işleyerek “doğal olarak çok modlu” olduğunu iddia ediyor. Bu yetenek OpenAI’nin GPT-4 with Vision’ını aşıyor, ancak iyileştirmeler birçok açıdan marjinal. Örneğin, bazı kıyaslamalarda Gemini Ultra, GPT-4’ten yalnızca biraz daha iyi performans gösteriyor.

Endişe verici bir husus da Google’ın Gemini’nin eğitim verileri konusundaki gizliliğidir. Verilerin kaynakları ve yaratıcıların hakları hakkındaki sorular cevapsız bırakıldı. Yapay zeka endüstrisi, telif hakkıyla korunan içeriğin kaynak gösterilmeden ya da tazminat ödenmeden kullanılması nedeniyle davalarla karşı karşıya olduğu için bu durum kritik önem taşıyor.

Kaynak: AlphaSignal ( https://alphasignal.ai/ )