Konuşma Analitiği ve Üretken Yapay Zeka

Fibabanka olarak organizasyonumuzda Generative AI odağında birçok inisiyatif var. Bu yazıda bunlardan üzerinde çalıştığımız “Konuşma Analitiği Use Case”inden bahsetmek istiyorum.

Ses/Konuşma analizi, çağrı merkezlerinin işleyişini baştan sona değiştirebilen güçlü bir araçtır. Temsilcilerle müşteriler arasındaki kaydedilmiş konuşmaları analiz edilerek, müşterilerin ne hissettiğini, temsilcilerin ne kadar iyi performans gösterdiğini ve genel çağrı kalitesini anlamak için değerli bilgiler sağlar. Ses/Konuşma analitiği ile müşteri memnuniyet artışı, müşteri temsilcisi performansını iyileştirme, çağrı merkezi operasyonları iyileştirme, uyumluluk ve risk yönetimi sağlanır.

Geçtiğimiz yıllarda, özellikle Gen AI gibi teknolojilerin henüz yaygınlaşmadığı dönemde bile konuyla ilgili bazı çalışmalarımız olmuştu. Ancak, görüşmelerin yazıya dönüştürme sürecinin yüksek maliyeti ve sınıflandırma problemlerini çözmek için gerekli olan veri etiketleme sürecindeki yüksek insan kaynak maliyeti, bu alandaki çalışmalarımızı önemli ölçüde zorlaştırmıştı. Özellikle Türkçe ses kayıtlarının metin dosyalarına dönüştürme konusunda açık kod kaynaklı bir çözüm olmaması maliyeti ciddi derecede etkiliyordu. Organizasyon olarak maliyet-performans dengesini korumaya büyük önem veriyoruz. Bu nedenle geçmişte bu projeyi rafa kaldırmıştık.

Gen AI teknolojileriyle ilgili yaptığımız araştırmalar sonucunda, OpenAI’nın yayınladığı Whisper ASR (Otomatik konuşma tanıma) modelinin Türkçe dilinde oldukça başarılı sonuçlar verdiğini tespit ettik ve çalışmalarımıza hız verdik. Ancak, ilk testlerimizde modelin çıkarım sürelerinin (inference) oldukça uzun olduğunu gözlemledik. Mevcut donanımımızla 1 günlük kaydı işlemek 24 saatten fazla sürüyordu. Bu sorunu aşmak için farklı yöntemler denedik. Farklı çalışma ortamları (runtime) kullanarak (Ctranslate2 gibi) çıkarım süresini kısaltmayı başardık, ancak istenen seviyeye ulaşamadık. Aynı zamanda, Whisper modelinin farklı uygulamalarını da (faster-whisper, whisperx gibi) test ettik ve ihtiyacımız olan kalite ve performansı faster-whisper v3 modelinde bulduk.

Final mimarimizde, 1 günlük çağrı merkezi ses kayıtlarını metinlere çevirdik. Bu, projemizin ilk aşamalarından biriydi. Konuşmalar metin formatına dönüştürüldükten sonra, problem dolaylı olarak bir NLP sınıflandırma problemine dönüştü. Bu aşamada etiketleme ve sınıflandırma işlemlerini büyük dil modelleri kullanarak gerçekleştirdik.

Proje beklentilerimizi karşılamak amacıyla yaklaşık 40 adet metrik belirledik. Bu metriklerin bir kısmı büyük dil modelleri (LLM) kullanılarak oluşturulurken, bir kısmı tamamen ses analizi yöntemiyle elde edildi. Örnek metrikler arasında konuşma özeti, konuşmanın amacı/konusu, konuşmada müşteri ve agentin duygu/yaklaşımı, konuşma sonunda sorun çözülüp çözülmediği, çağrıda üçüncü bir konuşanın olup olmadığı, çağrıda gürültü veya müzik sesi olup olmadığı ve sesin hangi taraftan geldiği, müşteri temsilcisinin konuşma hızı gibi değerlendirmeler yer almaktadır. Bu ve benzeri metrikleri kullanarak gerçekleştirdiğimiz konuşma ve ses analizleri sayesinde organizasyonumuza önemli katkılar sağlamaya başladık.

Bu çalışmada altyapı olarak MLRun kullandık. (https://www.mlrun.org/) MLRun’ ın sahip oldu MPIJob and Horovod runtime yapısı sayesinde Kubernetes clusterımızda iş yükünü farklı nodlarda yer alan GPU lara dağıtarak mevcut donanım kaynaklarımızı verimli bir şekilde kullanabildik.

Özetle, mevcut LLM teknolojilerinin iş problemlerine çözüm sunma potansiyeli oldukça yüksek olsa da henüz tek başına yeterli olmadığı görülmektedir. Bu teknolojiler, özellikle dil işleme gibi alanlarda önemli bir katalizör görevi üstlense de karmaşık makine öğrenmesi problemlerin çözümü için insan uzmanlığı ve diğer teknolojilerle bir arada kullanılmaları gerekmektedir. Gelecekte, LLM’lerin daha da gelişmesiyle birlikte, iş dünyasında dönüştürücü bir etki yaratmalarını bekliyoruz.

 

*Bu yazı Fibabanka tarafından hazırlanmıştır.

TRAI

Recent Posts

TRAI Meet-Up #105’te Perakende ve Pazarlamada Yapay Zeka Ele Alındı

TRAI Meet-Up serimizin 105. etkinliğini, “Algoritmadan Sepete: Perakende ve Pazarlamada Yapay Zeka” başlığıyla gerçekleştirdik. TRAI Ekosistem Direktörü Betül…

1 hafta ago

Yapay Zekanın Kararlarını Anlamak: Peki Ama Neden?

Yapay Zeka projelerinde ilk bakılan şey çoğu zaman performanstır. Doğruluk oranı kaç, F1 skoru ne…

1 hafta ago

Üretim ve Enerji Sektörlerinde Yapay Zeka Gündemi TRAI Çalışma Grubu’nda Ele Alındı

TRAI Yapay Zeka Üretim ve Enerji Çalışma Grubu çevrim içi toplantısı, 6 Mayıs’ta 148 katılımcıyla…

2 hafta ago

Yapay Zeka Girişimlerinde Yeni Eşik: Demo değil, Gerçek İş Etkisi

CB Insights, dünyanın en umut vadeden erken aşama yapay zeka şirketlerini belirlediği AI 100 2026…

2 hafta ago

TRAI Ekosistemi’ne Katılan 25 Yeni Girişimle Tanışın!

Türkiye Yapay Zeka İnisiyatifi olarak, 2017’den bu yana yürüttüğümüz haritalama çalışmasıyla Türkiye’de yapay zeka alanında…

2 hafta ago

Girişim Ekosisteminde Stratejik Nefes Darlığı

TRAI Ekosistem Direktörümüz Betül Kübra Ekinci, Türkiye girişimcilik ekosisteminde erken exit tartışmasını değerlendirirken, bu tabloyu…

4 hafta ago