Siri, Alexa ve Cortana, insanların arkadaşları ve zamanlarını kurtaran güvenilir sesli asistanlar haline geldiler. 2000’lı yılların başlarında, sesli asistanlarının bu kadar popüler olduğunu hayal bile edemezdiniz. Bu kadar popüler bir alanda hal böyle olunca, pastadan payını almak isteyen çok fazla şirket oluyor. Bu sesli asistanlara yönelik talebin ve çalışmanın gittikçe artmaya devam edeceği anlamına geliyor.

Sesli asistan geliştirmek zor bir süreçtir ve buna hazırlıklı olmalısınız. Bu yazıda, ses asistanı yapımı ve ses asistanı geliştirme konularında aklınıza takılan sorulara tatmin edici cevaplar vermeye çalışacağım. Piyasadaki en iyi ses asistanlarına daha yakından bakacağız, güçlü AI oluşturmanıza yardımcı olacak hizmetleri keşfedeceğiz ve sesli asistan uygulamaları için hayati teknolojileri listeleyeceğiz. Daha fazla uzatmadan başlayalım.

Uygulamanıza Sesli Asistan Ekleme Yöntemleri

Uygulamanıza sesli asistan dahil etmek için üç yöntem arasından seçim yapabilirsiniz. Her birini ayrıntılı olarak ele alalım, böylece daha iyi bir bakış açısına sahip olursunuz.

Hazır Çözümleri Entegre Edin

Bu, basit ve kolay olan yöntem. Tek yapmanız gereken, uygulamanızı Siri, Google Asistanı, Alexa, Cortana vb. gibi popüler çözümlerle bağlamaktır. Harika sonuçlar elde etmek için özel API’leri ve diğer geliştirme teknolojilerini kullanabilirsiniz.

Açık Kaynak Teknolojilerine Fırsat Verin

Sesli Asistan Geliştirme hedefinizde hazır çözümler size göre değilse, belki açık kaynaklı teknolojiler size daha çok hitap ediyordur. Bu yöntemin aslında en önemli avantajı, onu istediğiniz şekilde özelleştirmenize izin veren açık kaynaklı oluşudur. Dahası, yararlanmak istediğiniz bu açık kaynaklı teknolojinin topluluğu yeni güncellemeler yayınlayabilir, ek özellikler ekleyebilir ve bunları ücretsiz olarak herkesin kullanımına sunabilir.

Sıfırdan Oluşturun

Sesli Asistan Geliştrme konusunda üçüncü yöntem ise sizin ana fikrinizdir. Sıfırdan bir ses asistanı yapmanız ve uygulamanıza uygulamak için hazırlamanız gerekir. Dürüst olalım; bu, seçebileceğiniz en zorlu yöntemdir. Kaynaklardan, uzmanlıktan ve profesyonel personelden yoksunsanız, kendi başınıza sesli asistan yapmak neredeyse imkansızdır.

Ünlü Sesli Asistanlar ve Entegrasyonları

Daha iyi bir sonuca sahip olmak ve sesli asistan uygulamasına nelerin dahil edilmesi gerektiğini tam olarak anlamak için biraz rakip araştırması yapmanız gerekir. Bu araştırma size temel özellikler, uygulama teknolojileri vb. hakkında önemli bilgiler verir. Araştırmanıza yardımcı olmak için, piyasadaki en popüler ses asistanlarını ele alalım.

Siri

Birkaç yıl önce, Siri‘nin, çoğu üçüncü taraf uygulaması için kullanılamaması ilginçti. Ancak iOS 10’un piyasaya sürülmesiyle birlikte, uygulamanıza Siri eklemek mümkün hale geliyor. Ancak Apple, bir liste hazırladı. Buna küçük bir kurallar listesi diyebiliriz. Uygulamanızın Siri’yi özgürce kullanabilmesi için listelenen alanlardan birinde çalışması gerekir. İşte liste:

  • Sesli ve görüntülü görüşmeler
  • Mesajlaşma
  • Siri ile ödemeler
  • Fotoğraf arama
  • Egzersiz uygulamaları
  • Araç rezervasyonu

Apple, Siri desteğini bir uygulama özelliği olarak eklemek için hayati önem taşıyan iki çerçeveyle dolu SiriSDK‘yı tanıttı.

Siri’de “intention” denen bir konu var. Bu terim, kullanıcıların çeşitli uygulamalardaki niyetlerini ve davranış senaryolarını ifade eder. Önceden tanımlanmış özelliklere sahip farklı sınıflara bağlıdırlar. Kullanıcının bir antrenman başlatmak istediğini varsayalım. Bu sınıflar, egzersiz türleri, egzersiz seansı uzunluğu ve daha fazlasını içerecektir. Asistan bir sesli talep aldığında, sistem niyet nesnesini önceden tanımlanmış özelliklerle tamamlar ve bunu uygulama uzantısına gönderir. Bundan sonra, son kısım verileri işler ve doğru yanıtı gösterir.

Siri ile Sesli Asistanlarda Intensions Grafiği

Google Asistan ve Sesli İşlemler

Google’ın sesli asistanıyla ilgili durum oldukça katı çünkü bu asistan yalnızca belirli uygulamaları destekliyor. Örneğin, Google Asistan;

  • eBay
  • Lyft
  • Airbnb

gibi, uygulamaları destekliyor.

Ancak, küçük geliştirme ekiplerinin geliştirmelerinde bir uygulama özelliği olarak Google’ın ses asistanını dahil etme şansı hala var. Bunu yapmak için geliştiricilerin uygulamayı Google’a kaydettirmesi gerekir.

Google Asistan ile sesli işlemler arasında ilginç bir fark var, onları karıştırmamak çok önemli. Google Asistan, yol boyunca dinleyebilen, analiz edebilen ve öğrenebilen tam donanımlı bir ses asistanıdır. Fakat, Sesli İşlemler, konuşma tanıma ve bilgi arama sorguları ile çalışan biraz farklı bir özelliktir.

Google Asistan’ın bir başka büyük avantajı da Google’ın, uygulamanıza sesli asistan özellikleri eklemeye yönelik takibi kolay bir kılavuz sağlamasıdır.

Cortana

Cortana, Microsoft tarafından yapılan popüler bir sesli asistandır. Cortana’nın ana özelliği, kullanıcının Cortana’yı doğrudan aramadan sesli asistanı kontrol edebilmesidir. Cortana sesli asistanı kullanarak istekte bulunmanın üç yolu vardır:

Prefixal Yöntemi

Bu yöntem, ses komutunun önünde duran uygulama adını ifade eder. Örneğin, “Spor Zamanı, benim için bir antrenman seç.”

Infixal Yöntemi

Uygulama adı, sesli komutun ortasında yer aldığından bu yöntem biraz farklıdır. Örneğin, “Lütfen bir Spor Saati ayarla.”

Suffixal Yöntemi

Bu yöntemde ise uygulama adı, sesli komutun sonunda durur. Örneğin, “İzmir hava sıcaklığını ara, Hava Durumunda”.

 

Kullanıcılar Cortana aracılığıyla sesli komutlarla arka plan veya ön plan uygulamasını etkinleştirebilir. Bu uygulamalar, çalışma yöntemlerindeki farklılık nedeniyle farklı durumlara uyacaktır. Örneğin, arka plan uygulamaları “Geçerli tarih ve saati göster” gibi basit görevlerin yerine getirilmesinde iyidir. Bu arada, ön plan karmaşık isteklerle çalışır. Bu istekler belirli parametreler gerektirebilir. İşte böyle bir göreve küçük bir örnek:

  • Cortana! Bir mesaj gönder!
  • “Ne Mesajı?”
  • Merhaba Mesajı
  • “Kime Göndermeliyim?”
  • Fatih’e Gönder.

Ses Asistanı Geliştirmenize Yardımcı Olacak Bazı Hizmetler

Diğer uygulamalara sesli asistan özellikleri eklemek için kullanılan en ünlü teknolojileri incelemek istiyorum. Geliştiricilerin makine öğrenimiyle desteklenen sesli asistanları uygulamasına yardımcı olan birkaç bağımsız hizmeti kısaca anlatmam gerektiğini düşünüyorum. Buna hem mobil hem de web hizmetlerini dahil edeceğiz.

Melissa

Melissa, kendi güçlü ses asistanını yapmak ve bunu uygulamada kullanmak isteyen “yeni başlayanlar” için gerçek bir dost olacaktır. Bu sistem, onu esnek kılan çok çeşitli parçalar içerir. Geliştiriciler, tüm algoritma yapısını yeniden oluşturmadan sistemin belirli bölümlerini değiştirebilir ve geliştirebilirler. Kısacası, Amerika’yı yeniden keşfetmeye ihtiyacınız yok.

Dahası, Melissa konuşma, not alma, müzik çalma, resim yükleme gibi birçok görevi yerine getirebilir. Python programlama dili kullanılarak yapılmıştır ve Windows, macOS, Linux gibi platformlarda çalışabilir. Ayrıca Melissa’nın JavaScript ile yazılmış bir web arayüzü de var.

Jasper

Jasper, dış destek olmadan yapay zekanın önemli bir bölümünü oluşturmak ve kendi başlarına özel yapay zeka asistanları geliştirmek isteyenler için mükemmel bir seçimdir. Ayrıca Jasper, Model B’de mükemmel çalışıyor, bu nedenle Raspberry Pi mikrobilgisayarlarına bağlı kalanlar için mükemmel bir araçtır.

Tıpkı Melissa gibi, Jasper da Python programlama dili kullanılarak oluşturuldu. Jasper, dinleyip öğrenebildiği için sesli asistan görevinde oldukça güçlü bir alternatiftir. Dinleme; aktif modül tarafından desteklenirken, pasif modül öğrenmeyi uygular. Jasper her zaman açık kalır ve günün ve gecenin herhangi bir saatinde görevleri yerine getirmeye hazırdır. Alışkanlıklarınızı sessizce öğrenir ve onları kullanarak size kesin bilgiler verebilir.

Api.ai

Api.ai çok çeşitli görevlerde, geliştiricilerin kendi ses asistanlarını yapmalarına fırsat veriyor. Bu hizmet, sesleri tanıma ve onları metne çevirme konularında oldukça başarılıdır. Tüm bunların yanında, analiz etmek ve sonuç çıkarmak bu platformun temel özelliklerinden biridir.

Api.ai ücretsiz ve ücretli sürümlerle dağıtılır. Api.ai, ücretli sürümünde, önemli bir özelliği barındırıyor. Güvenliği yepyeni bir seviyeye yükseltmenize olanak tanıyan ücretli sürümde özel bir bulutla çalışabilirsiniz. Bunun yanı sıra Api.ai, iOS, Android, Windows Phone, Cordova, Python, Node.js, Unity, C# vb. çok çeşitli API’leri destekler.

Wit.ai

Wit.ai, Api.ai’ye oldukça benzer. Uygulamayla çalışmasını sağlamak için, geliştiricilerin iki özel öğe ayarlaması gerekir (Intents – Entities). Aslında bu sistem Siri’nin sistemine benziyor. Intents, kullanıcının gerçekleştirmek istediği eylemleri (hava durumunu göster) temsil ederken, Entities verilen amaçların belirli özelliklerini (kullanıcının yeri) belirler.

Karmaşık görünüyor ama Wit.ai, önceden hazırlanmış uzun bir Intents listesiyle dolu olduğundan, geliştiricilerin kendi başlarına Intents oluşturmaları gerekmez. Wit.ai, özel ve halka açık kullanım için tamamen ücretsizdir. Tabi ki buda geliştiriciler ve ürün sahipleri için bir başka büyük avantaj.

Wit.ai, çeşitli platformlar için bir ses asistanı oluşturmanız gerekiyorsa, sizin için harika bir çözüm olacaktır.

Yapay Zeka ile Sesli Asistan Nasıl Yapılır?

Kendi Siri benzeri sesli asistan uygulamanızı yapmaya karar verdiyseniz, projenize değer katmak için uygulamanızda olması gereken birkaç hayati teknolojiyi bilmeniz gerekiyor.

Ses – Konuşma Özelliği

Bu özellik, sesi dijital verilere (daha kesin olmak gerekirse metin verilerine) dönüştürme işlemidir. Bunun nasıl gerçekleştirileceği geliştiricilere bağlıdır. Ses alma, bir akış veya dosya olarak gelebilir. Ancak CMU Sphinx isimli harika bir araç, bu işlemlerinizde size çok yardımcı olacaktır.

Metni Sese – Konuşmaya Çevirme Özelliği

Bu süreç öncekinden biraz farklı. Metin veya görüntülerin insan konuşmasına dönüştürülmesi anlamına geliyor. Örneğin, kullanıcı yabancı kelimelerin doğru telaffuzunu duymak isterse bu özellik kullanışlı olacaktır. Hatırlayın, çoğumuz gün içinde Google Translate ile bunu kullandık.

Akıllı Etiketleme ve Karar Verme Özellikleri

Akıllı etiketleme ve karar verme özellikleri, kullanıcının isteklerinin yorumlanması için çok önemlidir. Örneğin, bir kullanıcı “Bu akşam hangi filmi izlemeliyim?” diye sorabilir. Bu teknoloji, en beğenilen filmleri etiketleyecek ve kullanıcının ilgi alanlarına göre bir öneri listesi verecektir.

Görüntü Tanıma Özelliği

Görüntü tanıma özelliği zorunlu değil ancak çok faydalı olabilir. Bu özelliği temel bir tanıma sistemi ile bağlayabilirsiniz. Bu eylem, genel tanıma sistemini güncelleyecek ve çok daha güçlü ve işlevsel hale getirecektir. Görüntü tanıma özelliğini AI sesli asistanınıza uygulamak için OpenCV‘yi kullanabilirsiniz.

Hassas Gürültü Kontrolü

Ses asistanının sesi nasıl filtrelediği ve gürültülü ortamlarda kullanıcının sesini nasıl tanıdığı, tüm uygulamanın başarısını etkileyebilir. Kullanıcılar telefonlarını genellikle sokaklarda, metroda, süpermarketlerde vb. yerlerde kullanırlar. Bu yerlerden gelen gürültü, kullanıcının sesini belirsizleştirebilir veya konuşmanın tamamını engelleyebilir.

Sonuç olarak gürültü kontrolü, sesli asistan uygulaması için hayati bir özelliktir. Bu teknoloji, kullanıcının sesi dışındaki her gürültüyü tamamen ortadan kaldırmalıdır. Bu nedenle, genel kullanıcı deneyimini yepyeni bir seviyeye yükselttiğinden bu özelliği ihmal etmeyin.

Ses Biyometri Özelliği

Bu özellik, sesli asistan uygulamasının güvenlik yönünü sağlamak için çok önemlidir. Ses biyometrisi, sesli asistan uygulamasının, kullanıcının sesini tanımasına yardımcı olur. Ayrıca, kullanıcıların kafa karıştırıcı durumlarla karşılaşmayacağından emin olmak istiyorsanız bu özellik kullanışlı olacaktır.

Örneğin Amazon’un sesli asistanı Alexa, sesli bir komutu benzer bir sesle TV hoparlörlerinden duyduğunda evdeki termostatı kapatmıştı.

Konuşma Sıkıştırma Özelliği

Konuşma dosyasının boyutu ne kadar küçükse, sunucuya o kadar hızlı gönderilir ve daha hızlı işlenir. Konuşma sıkıştırma özelliği dosyayı yeniden boyutlandırarak daha hafif olmasını sağlar. Bu özelliği uygulamak için G.711 standardını kullanmak akıllıca olacaktır.

Ses Arayüzü

Ses arayüzü, bir uygulamanın kendisini çeşitli kullanıcı etkileşimlerine, yanıt olarak sunma biçimidir. Farklı animasyonlar, ekranlar ve çok daha fazlası bir uygulamayı göze hoş gelen bir hale getirebilir. Ve en önemli kısım, sesli asistan uygulamanız için doğru sesi seçmektir. Her ünlü sesli asistanın benzersiz bir sesi vardır, bu nedenle rakipler arasından sıyrılmak için doğru sesi seçin.

Ses dosyalarının ve metin verilerinin uzak sunucularda veya kullanıcının cihazında işlenebileceğini unutmayın.

Aşağıda, tüm sistemin nasıl göründüğünü görebilirsiniz.

Sesli asistan geliştirmek zor bir süreçtir

Özetlemek Gerekirse

Sesli asistan geliştirme ile ilgili teknik olmayan her şeyi ve bu işlevi uygulamanıza eklemenin yollarını ele aldık. Ve gördüğünüz gibi, her yöntemin kendi artıları ve eksileri vardır. Siri veya Cortana gibi iyi bilinen çözümler zaten popülerliğe sahip, ancak bunlar bağlanabilecekleri uygulamalarla sınırlı.

Alternatif sesli asistan hizmetleri, uygulama sürecini sorunsuz ve hızlı hale getirir, ancak bu çözümler o kadar esnek değildir.

Bence, kendi ses asistanı uygulamanızı yapmanın en etkili yolu, bu alanda kapsamlı uzmanlığa sahip özel bir yazılım geliştirme ekibi ile anlaşmak olmalıdır. Böylece geliştirme sürecini mümkün olan en iyi şekilde yürütebilirsiniz.

Buraya kadar okuduysanız teşekkür ederim. Paylaşmayı ve diğer blog yazılarımızı incelemeyi unutmayın.

Burası AnatoliaCode!

Kendinize iyi bakın. İyi kodlamalar!

Paylaşmak İster Misiniz?