Konuşma Analitiği ve Üretken Yapay Zeka

Fibabanka olarak organizasyonumuzda Generative AI odağında birçok inisiyatif var. Bu yazıda bunlardan üzerinde çalıştığımız “Konuşma Analitiği Use Case”inden bahsetmek istiyorum.

Ses/Konuşma analizi, çağrı merkezlerinin işleyişini baştan sona değiştirebilen güçlü bir araçtır. Temsilcilerle müşteriler arasındaki kaydedilmiş konuşmaları analiz edilerek, müşterilerin ne hissettiğini, temsilcilerin ne kadar iyi performans gösterdiğini ve genel çağrı kalitesini anlamak için değerli bilgiler sağlar. Ses/Konuşma analitiği ile müşteri memnuniyet artışı, müşteri temsilcisi performansını iyileştirme, çağrı merkezi operasyonları iyileştirme, uyumluluk ve risk yönetimi sağlanır.

Geçtiğimiz yıllarda, özellikle Gen AI gibi teknolojilerin henüz yaygınlaşmadığı dönemde bile konuyla ilgili bazı çalışmalarımız olmuştu. Ancak, görüşmelerin yazıya dönüştürme sürecinin yüksek maliyeti ve sınıflandırma problemlerini çözmek için gerekli olan veri etiketleme sürecindeki yüksek insan kaynak maliyeti, bu alandaki çalışmalarımızı önemli ölçüde zorlaştırmıştı. Özellikle Türkçe ses kayıtlarının metin dosyalarına dönüştürme konusunda açık kod kaynaklı bir çözüm olmaması maliyeti ciddi derecede etkiliyordu. Organizasyon olarak maliyet-performans dengesini korumaya büyük önem veriyoruz. Bu nedenle geçmişte bu projeyi rafa kaldırmıştık.

Gen AI teknolojileriyle ilgili yaptığımız araştırmalar sonucunda, OpenAI’nın yayınladığı Whisper ASR (Otomatik konuşma tanıma) modelinin Türkçe dilinde oldukça başarılı sonuçlar verdiğini tespit ettik ve çalışmalarımıza hız verdik. Ancak, ilk testlerimizde modelin çıkarım sürelerinin (inference) oldukça uzun olduğunu gözlemledik. Mevcut donanımımızla 1 günlük kaydı işlemek 24 saatten fazla sürüyordu. Bu sorunu aşmak için farklı yöntemler denedik. Farklı çalışma ortamları (runtime) kullanarak (Ctranslate2 gibi) çıkarım süresini kısaltmayı başardık, ancak istenen seviyeye ulaşamadık. Aynı zamanda, Whisper modelinin farklı uygulamalarını da (faster-whisper, whisperx gibi) test ettik ve ihtiyacımız olan kalite ve performansı faster-whisper v3 modelinde bulduk.

Final mimarimizde, 1 günlük çağrı merkezi ses kayıtlarını metinlere çevirdik. Bu, projemizin ilk aşamalarından biriydi. Konuşmalar metin formatına dönüştürüldükten sonra, problem dolaylı olarak bir NLP sınıflandırma problemine dönüştü. Bu aşamada etiketleme ve sınıflandırma işlemlerini büyük dil modelleri kullanarak gerçekleştirdik.

Proje beklentilerimizi karşılamak amacıyla yaklaşık 40 adet metrik belirledik. Bu metriklerin bir kısmı büyük dil modelleri (LLM) kullanılarak oluşturulurken, bir kısmı tamamen ses analizi yöntemiyle elde edildi. Örnek metrikler arasında konuşma özeti, konuşmanın amacı/konusu, konuşmada müşteri ve agentin duygu/yaklaşımı, konuşma sonunda sorun çözülüp çözülmediği, çağrıda üçüncü bir konuşanın olup olmadığı, çağrıda gürültü veya müzik sesi olup olmadığı ve sesin hangi taraftan geldiği, müşteri temsilcisinin konuşma hızı gibi değerlendirmeler yer almaktadır. Bu ve benzeri metrikleri kullanarak gerçekleştirdiğimiz konuşma ve ses analizleri sayesinde organizasyonumuza önemli katkılar sağlamaya başladık.

Bu çalışmada altyapı olarak MLRun kullandık. (https://www.mlrun.org/) MLRun’ ın sahip oldu MPIJob and Horovod runtime yapısı sayesinde Kubernetes clusterımızda iş yükünü farklı nodlarda yer alan GPU lara dağıtarak mevcut donanım kaynaklarımızı verimli bir şekilde kullanabildik.

Özetle, mevcut LLM teknolojilerinin iş problemlerine çözüm sunma potansiyeli oldukça yüksek olsa da henüz tek başına yeterli olmadığı görülmektedir. Bu teknolojiler, özellikle dil işleme gibi alanlarda önemli bir katalizör görevi üstlense de karmaşık makine öğrenmesi problemlerin çözümü için insan uzmanlığı ve diğer teknolojilerle bir arada kullanılmaları gerekmektedir. Gelecekte, LLM’lerin daha da gelişmesiyle birlikte, iş dünyasında dönüştürücü bir etki yaratmalarını bekliyoruz.

*Bu yazı Fibabanka tarafından hazırlanmıştır.

TRAI