Yazılım
Ses Tanıma Teknolojisi                             
Ses Tanımada Yeni Dönem
Söz Dinleyen Bilgisayarlar
Geliştiriciler, insan konuşmasına tam anlamıyla tepki gösteren bilgisayarların, telefon ve makinelerin müjdesini veriyorlar. Hızlı işlemciler ve daha iyi yazılımlar makinelerin kulağı olacaklar.
• Bilgisayar - Koruma kalkanlarını in­dir, gücü üç katma çıkar!" 30 yıl kadar önce bu sözleri Kaptan Kirk'ün ağzın­dan duyduğumuzda uzay gemisi En-terprise'ın yıldızlar arasında uzaklara seyahati gibi gemi bilgisayarının sesle yönetilmesi de oldukça büyük bir ha­yaldi. Farklı konular üzerine kurulu "Savaş yıldızı Galactica" ve "Yıldız Sa­vaşları" gibi diğer bilim kurgu filmle­rinde de konuşmayı anlayan bilgisa­yarlar, ses tanıyan kapılar ve benzeri özel donanımlara yer veriliyordu. "2001: A Space Odyssey" filminin efsa­nevi bilgisayarı HAL ise özelliklerini hızla geliştirmiş ve dudaklardan ko­nuşmayı okuyabiliyordu.
Dünün Bilim-Kurgu rüyası bugünün gerçeği
Yetmişli ve seksenli yıllarda bilim kur-, gu akımının yaratıcıları için konuşan bilgisayarlar bugünün düşüncesiyle ışınlanma kadar uzak bir teknolojik rüyaydı. Senaryo yazarları için ışık hı­zında seyahat eden uzay gemileri gele­ceği yansıtan güzel bir hayal olarak ka­lırken son yıllarda ses tanıma çok bü­yük bir yol aldı.
İleride ağızdan çıkan kelimeler klav­ye başında boşa geçen zamanın yerinin alacak, bilgisayar ve günlük hayatın parçaları olan elektronik eşyaların kul­lanımı gözle görülür şekilde basitleşe-cek. Şimdiden insan ağzından çıkan kelimelere duyarlı sayısız sistem geliş­tirilmiş durumda. Özel hazırlanmış yazılımlarla donatılmış bilgisayarlar, tıp bilimindeki özel kullanım alanları ve tabii ki günlük hayatta sıkça kullan­dığımız cep telefonu yada arabalar bu sistemlere ilk örnekler olarak gösterile­bilir.
1993 yılından bu yana PC için ko­nuşmayı tanıyan yazılımlar bulunuyor. Buna rağmen ancak üç sene öncesin­den başlayan bir çalışma İle büro ya­şantısını neşeli hale getirecek yeni ve yoğun bir uzmanlaşma sonucunda is­tenen sonucu veren dikte yazılımları
142 CHIP NİSAN 2001
Yazılım
Ses Tanıma Teknolojisi
geliştirilmiş. Sonuç olarak PC'ler için geliştirilmiş yeni ses tanıma yazılımları doğal bir konuşmayı yazıya dönüştüre-biliyorlar. Dikte olarak adlandırılan ve beklemelerle dolu bu işlem artık geç­mişte kalıyor. En ideal kullanımda yüz-
de 95'lik bir isabet oranına sahip ses tanı­ma buradan da anlaşıl­dığı gibi aslında halen 100 harften beşini hatalı olarak yazıya çeviriyor. Bu oran bir A4 sayfasında 200 hataya karşılık geliyor ve profesyonel bir çalışma için bu sayı gerçekten ol­dukça fazla.
PC'niz söylenenleri yazıya çeviriyor
Açıkçası sadece sınırlı terim­leri içeriyor da olsa belirli ko­nularda geliştirilen Özel çözüm­ler güvenilirlik sağlarlar. Bu işle uğ­raşan uzmanlar için hazırlanmış prog­ramlar bilgisayara konuşulan söz­cükleri yazılı metine çevirirler. Ancak bu işlem, sadece ses ta­nıma sürecinden istenen ve­rim alınana dek yapılacak olan bir takım çalışmasıdır. Ve tabi ki sadece tıp veya hu­kukçular İçin satılan pahalı sözlükler yüzde yüz oranında güvenilir olabilirler. Okunan dokümanın anında ve doğru ola­rak işlenmesi ise şimdilik sadece gün­demi İşgal etmeye devam edecek. Dikte yazılımlarıyla çalışma süreci farklı sınırlamaların et­kisinde kalıyor. Ne olursa ol­sun kullanıcının bilgisayara bağlı olan bir kafa mikrofo­nu ile konuşması gerekiyor. Telsiz mikrofonlar büyük bir çalışma alanına sahip, ancak yine de kontrol için kullanıcının özlerinin monitör üzerinde bu­lunması gerekecektir.
Sokaktan gelen sesler, açık bir pen­cere yada büyük bir büroda çalı­şanların telefon görüşmeleri gi­bi rahatsız edici ortam gürül-tüsü ses tanımanın zorlaşma-sına ve hatalara neden ola­caktır. Ancak şive ve telaffuz farklılıklarının belirlenmesi
için gerekli olan sıkıcı, uzun,
hassas deneme aşamaları sonu-
cunda yazılım, kullanıcısının söy­lediklerini anlamaya başlar.
Tüm bu zorluklara rağmen ses tanı­ma, işletim sisteminin bir parçası ol­duktan sonra uygulamaların yöneti­minde adeta farenin icadı gibi bir dev-
Stay tuned: Ses tanıma için konuşmanın alınacağı bir Headset çalışma masanızın vazgeçilmez parcası.
rim gerçekleştirecek. Başlangıçta fare-nin işletim sistemiyle uyumunu sağla-yan çok az yazılım bulunuyordu. An-cak günümüzde grafik arabirime sahip her işletim sistemi pratik olarak kulla-nıcı arabiriminin yönetimi için fareyi standart ve neredeyse vazgeçilmez ola­rak görüyorlar.
Işletim sistemi: Uzman çözümler için ses tanıma geliştiriliyor
Ses tanıma konusunda kısa sürede bü-yük gelişimler bekleniyor. Çünkü IBM firmasi ofis uyguiamaları paketi olarak geliştirilmiş Smart Suite'in 9.0 sürü-müne ses tanıma yazılımı olan ViaVo-ce'ı ekledikten sonra Microsoft firma­sı da kolları sıvadı. Yeni piyasaya çıka-cak olan Office sürümünün ses tanıma ile desteklendiğinin açıklanmasının ar-dından öncelikle konuşma sistemi SA-PI 5.0 yazılım geliştiricilerinin emrine ücretsiz olarak sunulmaya başladı. 125 Mbyte büyüklüğündeki ses tanımanın yanında yazıları okuyan bir de uygula-ma içeriyor.
Şimdilik Microsoft geliştirici paketi sadece İngilizce, Çince ve Japonca ko-nuşabiliyor. Sistem sabit disk üzerinde 450 Mbyte'a kadar boş alana ihtiyaç duyuyor ve donanım gereksinimi de dikkat çekiyor: Sadece ses tanıma isle-mi için sisteme 128 Mbyte çalışma ha-fızasına eklemeniz gerekiyor ve 64 Mbyte hafızanın tamamı konuşma iş-lemi icin kullanılıyor. Yeni piyasaya çı-kacak olan "Whistler" adındaki Consu­mer-Windows da konuşma motoruna sahip.
İşletim sistemiyle tarn entegrasyon sayesinde sadece uygulamalarda sesini-zi yazıya dönüştürme özelliğine değil aynı zamanda işletim sistemini tarn olarak ses komutlarıyla yönetebilme
NİSAN 2001 CHIP 143
Yazılım
Ses Tanıma Teknolojisi
cı sadece belirlenmiş komutları söyle­mek zorunda kalıyor ve genel olarak günlük hayattaki konuşma tanınmış sayılmıyor.
Aynı şekilde kısa bir süre önce kulla­nıcısının sesini tanıyarak saklanmış numaraları arayan cep telefonları da satışa sunuldu. Bu araçlar da aslında kullanıcının kelimelerini gerçekten anlayamıyorlar. Bu işlemin üç temel basamağı bulunuyor. Kullanıcı tarafın­dan istenen isim telefon numarasıyla birlikte ses kaydı olarak telefon hafıza­sına saklanıyor. Aranmak istenen nu­maranın kayıtlı olan ismi tekrar söy­lendiğinde telefon tüm ses kayıtlarım karşılaştırıyor. İki ses dalgası da birbi­rini tuttuğunda telefon İlgili numarayı arıyor.
Ses destekli bir sistem olan tamamen yeni uygulama Xybernaut (xyberna-ut.com) üreticilerinin fikirlerine daya­nıyor. Amerikan kuruluşu olan bu şir­ket Amerikan silahlı kuvvetleriyle or­taklık yaparak "body-worn computer" olarak adlandırılan yazılım ve donanı­mı geliştirip desteğini veriyorlar. Vücut üzerinde taşınan bu sistem günümü­zün büyük ve kullanışsız bilgisayarları­na karşı birçok farklı uygulama alanını elinde bulunduruyor.
Ses destekleyen bu sistem kafaya ası­lan ve sağ gözün önünde bulunan minyatür ekranı ve bilekte bulunan klavyesiyle birlikte belde yer alıyor. Ta­mamen vücutta taşınan sistem kullanı-
Kulağı olan Chip'ler: Do-
nanım tabanlı konuşma tanıma sistemleri güven­lik ve sistem giriş kontrolü sistem­lerinde kullanılıyor.
Bilgisayarsız da yapılabilir: Chip'lerdeki ses tanıma
Embedded Voice Solution yani Chip üzerinde ses tanıma hemen hemen tüm ürünlere uygulanabiliyor. Araba­ların yönetiminden başlamak üzere ev donanımının ve elektronik araçların yönetimine kadar neredeyse her şeyin otomatikleştirilmesinde farklı şekiller­de kullanılıyor. Bu uygulama­larda önemsiz sayılabile­cek kadar komutun bu­lunmasından ötürü sesten bağımsız sistem geliştirilmesine önem verilmiş. Bunun için ar­tık geniş sabit disk alanına sahip, hızlı işlemcili bir bilgisaya­ra gerek duyulmaz, çünkü gerekli Chip'i içeren bir CPU doğru yazılım ile birlikte ses sinyalleri üzerinde çalışmak üzere özelleştirilir.
Embedded sistemler bu saye­de düşük maliyet ile büyük mik-tarlarda üretim İmkanına sahip olur.
Bunun yanında bu tür Chip'ler dış etkenlere karşı günümüz bilgisa­yarlarına göre daha faz­la dayanıklılık göste­rirler. Uygun bir Chip ile güçlendi­rilmiş her araç böy­lelikle duyabilen bir aygıta dönüşe­cektir. Örneğin tele­vizyonunuzu uzaktan kumanda ile yönet­mek yerine gelecekte kanal değiştirmek için sa­dece istediğiniz kanalın adını söylemek yeterli ola­cak. Televizyon için ses ta­nıma konusunda biraz daha beklemeniz de ge­rekse arabalardaki uygu­lamalar artık bir gerçek. Sadece birkaç yıl önce hayranlıkla izlediğimiz bu sistemler örneğin artık İngiliz araba üreticisi Ja­guar tarafından 2001 yı­lından itibaren S tipi mo­dellerine Embedded Vo-ice çözümü sayesinde is­teğe bağlı olarak güvenlik ve konfor seçimi olarak sunuluyor. Ses destekle-
cısına denetim ve bakım konusunda karmaşık endüstri kollarında büyük yardım sağlamayı hedefliyor. Herhangi bir sorun anında teknisyen üretim pla­nı ve dokümantasyon gibi gerekli bilgi­leri gözüyle takip edebiliyor.
Ses ile yönetilen İnsan-Makine ileti­şiminin hızlı ve yakalanması güç gelişimi her şeye rağmen da­ha çok donanım alanındaki ilerlemeler ile sağlanıyor.
Roboworker: Uçuş kon­trolü, savunma ve silahlı kuvvetler yada endüstriyel amaçlı kullanılabilen mobil minyatür PC'ler şirket ağlarına bağlantı da sağlıyor.
146 CHIP NİSAN 2001
Ses Tanıma Yazılımları
da sistem sadece seslenme-
Bankamatikler müşterilerini duyuyor, görüyor ve hissediyor
Donanım üzerine dayalı ses tanımanın farklı bir uygulaması da şu an deneme aşamasında yer alıyor. Üretici firma NCR'ın para otomatı "Stella" gerçek­ten üstün yeteneklere sahip. Kişisel bir tanıtım numarası, şifresi (PIN) girmek yerine aygıt müşterisini gözün retina­sından tanıyarak kişisel bir şekilde kar­şılama yapıyor ve hatta doğum günü­nüzü bile kutluyor.
Sistem, müşterinin varlı­ğım basınca duyarlı pas­pas sayesinde algılıyor. Klasik komutlar yar­dımıyla bankamatik size işlemlerinizde ko­laylık gösteriyor. Ses ko­mutları ve kelime tanıma özellikleriyle geliştirilmiş bu bankama­tik sistemi iki büyük kredi enstitüsü ta­rafından test edilmiş. Ses tanıma için görülen tüm örnekler özellikle de In-ternet ortamıyla da birleştiği düşünü­lürse gerçekten oldukça heyecan verici.
Geleneksel olarak telefon ağlarıyla
niz ile birlikte hedefe doğ­ru en kısa yolu veya mobil bağlantı ile Internet'ten alınan borsa kurları gibi gerekli bilgileri gayet sem-patik bir ses ile size okuyor. Beş yıl içerisinde ise araba ve sürücü arasında gerçek bir konuşma mümkün olacak. Bunun yanında sü-rücünün güvenlik açısın­
Tahmin: 2005 yılına kadar ses tanıma programlar
dan yol dışında herhangi
pazarında patlama bekleniyor.
bir yönetime dikkat harca­mayacak olması da siste­min en büyük getirilerinden. Bu siste­min gerçekleştirilmesi için Jaguar tara­fından desteklenen Visteon'da 60'a ya­kın geliştirici çalışıyor. Aynı sınıfın araç üreticileri olan DaimlerChrysler ve BMW de ses destekli telefon siste­mini üretim programına koymuş du­rumda. Güvenlik açısından sürüş sıra­sında önem taşıyan sinyal yada fren gi­bi unsurların geliştirilmesi de gelecek için sadece mühendislerin elinde bulu­nuyor.
yen bu sistem tüm müzik, telefon ve klima donanımını şimdilik sadece İn-gilizce olmak üzere yönetilmesini sağ-lıyor. Türkçe komutların tercümesi için ise uzun süre daha çalışılması ge­rekiyor.
Yukarıdaki üç sistemde kelimelere tepki verebiliyor. Kısa komutlar hızlı bir telefon bağlantısının kurulması, radyo kanalının seçimi yada klimanın farklı bir biçimde ayarlanması için kullanılabiliyor. Tüm bunların yanın-
SES TANIMA NASIL GERÇEKLEŞİYOR?
Düşünüyor mu Yoksa Düşünmüyor mu?
Bilgisayarlar düşünmezler, sadece verilen program basamaklarının gös­terdiği yolu izlerler. Klavyeden bilgi girişiyle karşılaştırılırsa ses tanımayla birlikte işlemci büyük bir yük altına ve analiz prosesine girecektir. Olasılık tahmini yapılarak kullanıcının ne söy­lemiş olduğu anlaşılmaya çalışılır.
İlk adımda bilgisayar kullanıcının akustik girişini dijital ses boyutuna getirir ve bunu milisaniye boyutların­da parçalara ayırır. Kayıtın devam et­tiği sürede yazılım arka planda ses parçalarını saklanmış ses örnekleriyle karşılaştırır. Karşılaştırma veritabanı-nın kalitesi sorunsuz ses tanımanın en önemli koşuludur. Burada ton düş­mesi, şive, hecelerin vurgulanması, telaffuz gibi çeşitli konuşma özellikle­rine sahip farklı konuşmacıların sesle­ri bulunuyor. Ses tanımanın bu yönü konuşmacıdan bağımsız sistemlerin yaratılması için oldukça önemli tutu­luyor.
Ses tanıma sistemleri ek olarak ko-nuşmanın en küçük akustik birimi olan ses bilgisine dayanıyor. Türk­çe'den bir örnek vermek gerekirse "Rol" kelimesi aynı yazılmasına rağ­men "Erol" içerisindeki hecede farklı
okunuyor. Çalışmalar sırasında yazılım, kullanıcının en önemli ses özelliklerini ta­nımlıyor ve bu değerleri konuşmacı pro­fili altında kaydediyor. Bundan sonra ko­nuşmayı yapan kullanıcının dikte işlemi sırasında mümkün olduğunca aynı telaf­fuzu kullanması da oldukça önemli.
Ses tanıma işlemi son olarak vurgu ta­nıma ile tamamlanıyor. Buradan bir keli-
Ses kartı üzerinden sayısallaştırma
\
menin farklı başka kelimelere benzeyip benzemediği anlaşılıyor. Cep telefonu sahipleri bu buluşu yeni modellerin kı­sa mesaj (SMS) yazma sırasında keli­meleri otomatik olarak tamamlanması özelliğinden tanıyacaklardır.
Tanıma metotlarının kombinasyon­ları gelecek yazılımlara daha anlaşılır kullanıcı girişi olanağı sağlayacaklar.
148 CHIP NİSAN 2001