Konuşma Analitiği ve Üretken Yapay Zeka

Fibabanka olarak organizasyonumuzda Generative AI odağında birçok inisiyatif var. Bu yazıda bunlardan üzerinde çalıştığımız “Konuşma Analitiği Use Case”inden bahsetmek istiyorum.

Ses/Konuşma analizi, çağrı merkezlerinin işleyişini baştan sona değiştirebilen güçlü bir araçtır. Temsilcilerle müşteriler arasındaki kaydedilmiş konuşmaları analiz edilerek, müşterilerin ne hissettiğini, temsilcilerin ne kadar iyi performans gösterdiğini ve genel çağrı kalitesini anlamak için değerli bilgiler sağlar. Ses/Konuşma analitiği ile müşteri memnuniyet artışı, müşteri temsilcisi performansını iyileştirme, çağrı merkezi operasyonları iyileştirme, uyumluluk ve risk yönetimi sağlanır.

Geçtiğimiz yıllarda, özellikle Gen AI gibi teknolojilerin henüz yaygınlaşmadığı dönemde bile konuyla ilgili bazı çalışmalarımız olmuştu. Ancak, görüşmelerin yazıya dönüştürme sürecinin yüksek maliyeti ve sınıflandırma problemlerini çözmek için gerekli olan veri etiketleme sürecindeki yüksek insan kaynak maliyeti, bu alandaki çalışmalarımızı önemli ölçüde zorlaştırmıştı. Özellikle Türkçe ses kayıtlarının metin dosyalarına dönüştürme konusunda açık kod kaynaklı bir çözüm olmaması maliyeti ciddi derecede etkiliyordu. Organizasyon olarak maliyet-performans dengesini korumaya büyük önem veriyoruz. Bu nedenle geçmişte bu projeyi rafa kaldırmıştık.

Gen AI teknolojileriyle ilgili yaptığımız araştırmalar sonucunda, OpenAI’nın yayınladığı Whisper ASR (Otomatik konuşma tanıma) modelinin Türkçe dilinde oldukça başarılı sonuçlar verdiğini tespit ettik ve çalışmalarımıza hız verdik. Ancak, ilk testlerimizde modelin çıkarım sürelerinin (inference) oldukça uzun olduğunu gözlemledik. Mevcut donanımımızla 1 günlük kaydı işlemek 24 saatten fazla sürüyordu. Bu sorunu aşmak için farklı yöntemler denedik. Farklı çalışma ortamları (runtime) kullanarak (Ctranslate2 gibi) çıkarım süresini kısaltmayı başardık, ancak istenen seviyeye ulaşamadık. Aynı zamanda, Whisper modelinin farklı uygulamalarını da (faster-whisper, whisperx gibi) test ettik ve ihtiyacımız olan kalite ve performansı faster-whisper v3 modelinde bulduk.

Final mimarimizde, 1 günlük çağrı merkezi ses kayıtlarını metinlere çevirdik. Bu, projemizin ilk aşamalarından biriydi. Konuşmalar metin formatına dönüştürüldükten sonra, problem dolaylı olarak bir NLP sınıflandırma problemine dönüştü. Bu aşamada etiketleme ve sınıflandırma işlemlerini büyük dil modelleri kullanarak gerçekleştirdik.

Proje beklentilerimizi karşılamak amacıyla yaklaşık 40 adet metrik belirledik. Bu metriklerin bir kısmı büyük dil modelleri (LLM) kullanılarak oluşturulurken, bir kısmı tamamen ses analizi yöntemiyle elde edildi. Örnek metrikler arasında konuşma özeti, konuşmanın amacı/konusu, konuşmada müşteri ve agentin duygu/yaklaşımı, konuşma sonunda sorun çözülüp çözülmediği, çağrıda üçüncü bir konuşanın olup olmadığı, çağrıda gürültü veya müzik sesi olup olmadığı ve sesin hangi taraftan geldiği, müşteri temsilcisinin konuşma hızı gibi değerlendirmeler yer almaktadır. Bu ve benzeri metrikleri kullanarak gerçekleştirdiğimiz konuşma ve ses analizleri sayesinde organizasyonumuza önemli katkılar sağlamaya başladık.

Bu çalışmada altyapı olarak MLRun kullandık. (https://www.mlrun.org/) MLRun’ ın sahip oldu MPIJob and Horovod runtime yapısı sayesinde Kubernetes clusterımızda iş yükünü farklı nodlarda yer alan GPU lara dağıtarak mevcut donanım kaynaklarımızı verimli bir şekilde kullanabildik.

Özetle, mevcut LLM teknolojilerinin iş problemlerine çözüm sunma potansiyeli oldukça yüksek olsa da henüz tek başına yeterli olmadığı görülmektedir. Bu teknolojiler, özellikle dil işleme gibi alanlarda önemli bir katalizör görevi üstlense de karmaşık makine öğrenmesi problemlerin çözümü için insan uzmanlığı ve diğer teknolojilerle bir arada kullanılmaları gerekmektedir. Gelecekte, LLM’lerin daha da gelişmesiyle birlikte, iş dünyasında dönüştürücü bir etki yaratmalarını bekliyoruz.

 

*Bu yazı Fibabanka tarafından hazırlanmıştır.

TRAI

Recent Posts

Fal.ai, 1.5 Milyar Dolar Değerlemeyle Unicorn Oldu

Türk girişimciler Burkay Gür ve Görkem Yurtseven tarafından kurulan Fal.ai, son yatırım turunda 125 milyon…

22 saat ago

Meta, Yapay Zekada Yeni Bir Dönemi Başlatıyor

Meta CEO’su Mark Zuckerberg, 30 Temmuz 2025 tarihinde yayımladığı açık mektup ile şirketin yeni nesil…

2 gün ago

Yapay Zeka Kullanmayanlar İşini Kaybedecek

Yapay Zeka Artık Bir Tercih Değil, Zorunluluk Çip teknolojisinin öncüsü Nvidia’nın kurucusu ve CEO’su Jensen…

4 gün ago

Yapay Zeka ile Müşteri Hizmetlerinde Yeni Dönem: Virtual Voice Bridge

Günümüzün hızla dijitalleşen dünyasında müşteri hizmetleri, yalnızca bir destek hattı olmaktan çıkıp markaların en kritik…

5 gün ago

95. TRAI Meet-Up’ta Yapay Zeka Altyapıları Konuşuldu

2017 yılından bu yana her ayın üçüncü çarşamba akşamı düzenlediğimiz TRAI Meet-Up serisinin 95’incisi, 23…

1 hafta ago

NTT DATA, SAP Geliştirme Süreçlerini Yapay Zeka ile Yeniden Tanımlıyor

Standart entegrasyonların ötesine geçen, projeye özgü özel SAP geliştirmelerinin diğer sistemlerle entegrasyonu genellikle daha karmaşık…

2 hafta ago