Mark Hasegawa Johnson son projesi için verileri tararken Florentine Yumurtası tarifini keşfettiğinde hoş bir sürpriz yaşadı. Yüzlerce saatlik kayıtlı konuşmaların incelenmesinin bir veya iki hazineyi ortaya çıkaracağını söyledi.
Hasegawa Johnson, Illinois Urbana-Champaign Üniversitesi’nde ses tanıma cihazlarını konuşma engelli kişiler için daha kullanışlı hale getirmeye yönelik bir girişim olan Konuşma Erişilebilirliği Projesi’ne liderlik ediyor.
Projenin yayınlanan ilk çalışmasında araştırmacılar, otomatik konuşma tanıyıcıdan 151 saatlik ses dinlemesini istedi; Yaklaşık altı buçuk gün -; Parkinson hastalığına bağlı konuşma bozukluğu olan kişilerden alınan kayıtlardan. Modelleri, benzer kayıtlardan oluşan yeni bir veri kümesini, Parkinson hastalığı olan kişileri dinlemeyen bir kontrol modeline göre %30 daha doğru bir şekilde kopyaladı.
Bu çalışma şurada görünür: Konuşma, Dil ve İşitme Araştırmaları Dergisi. Araştırmada kullanılan konuşma kayıtları araştırmacıların, kar amacı gütmeyen kuruluşların ve ses tanıma cihazlarını geliştirmek isteyen şirketlerin kullanımına ücretsiz olarak sunuluyor.
Illinois’de elektrik ve bilgisayar mühendisliği profesörü ve üniversitenin Beckman İleri Bilim ve Teknoloji Enstitüsü’nde araştırmacı olan Hasegawa Johnson, “Sonuçlarımız, geniş bir atipik konuşma veri tabanının engelli insanlar için konuşma teknolojisini önemli ölçüde geliştirebileceğini gösteriyor” dedi. Projenin bulunduğu yer. “Diğer kuruluşların bu verileri ses tanıma cihazlarını daha kapsayıcı hale getirmek için nasıl kullanacağını görmek için sabırsızlanıyorum.”
Akıllı telefonlar ve sanal asistanlar gibi cihazlar, ifadelerden anlam çıkarmak için otomatik konuşma tanımayı kullanarak insanların bir çalma listesi oluşturmasına, eller serbest olarak mesaj dikte etmesine, sanal toplantılara sorunsuz bir şekilde katılmasına ve arkadaşlarıyla ve aile üyeleriyle net bir şekilde iletişim kurmasına olanak tanıyor.
Ses tanıma teknolojisi herkeste iyi çalışmıyor; Özellikle, toplu olarak dizartri olarak adlandırılan, çeşitli gergin veya tutarsız konuşma kalıplarına neden olabilen Parkinson hastalığı gibi nörolojik hareket bozuklukları olanlar.
Hasegawa-Johnson, “Maalesef bu, ses kontrol cihazlarına en çok ihtiyaç duyan birçok kişinin bunları iyi kullanmakta daha fazla zorluk çekebileceği anlamına geliyor” dedi.
“Mevcut araştırmalardan, bir ASR’yi birinin sesi üzerinde eğitirseniz, onu daha doğru bir şekilde anlamaya başlayacağını biliyoruz. Biz şunu sorduk: Parkinson dizartrisi olan kişileri küçük bir gruba göstererek otomatik konuşma tanıyıcıyı eğitebilir misiniz? benzer konuşma kalıplarına sahip insanlar?
Hasegawa-Johnson ve meslektaşları, Parkinson hastalığına bağlı değişen derecelerde dizartrisi olan yaklaşık 250 yetişkini çalışmaya aldılar. Potansiyel katılımcılar çalışmaya katılmadan önce uygunluklarını değerlendiren bir konuşma-dil patoloğuyla görüştü.
Ekipte dil ve konuşma patoloğu olan Clarion Mendez, “Uzun süreli, özellikle ilerleyici iletişim bozukluğu olan birçok kişi günlük iletişimden çekilebilir” dedi. “İletişimlerinin anlamlı konuşmalar yapamayacak kadar etkilendiğine inanarak benzersiz düşüncelerini, ihtiyaçlarını ve fikirlerini çok sık paylaşabilirler.
“Bunlar tam olarak aradığımız insanlar” dedi.
Seçilen katılımcılar ses kayıtlarını göndermek için kişisel bilgisayarlarını ve akıllı telefonlarını kullandılar. Kendi hızlarında ve isteğe bağlı olarak bir bakıcının yardımıyla çalıştılar, “Alarmı kur” gibi önemsiz sesli komutları tekrarladılar, romanlardan pasajlar okudular ve “Lütfen dört kişilik kahvaltı hazırlamanın aşamalarını açıklayın” gibi açık uçlu görüşler sundular. ”
Son soruya yanıt olarak bir katılımcı Floransa yumurtası yapımındaki adımları sıraladı; Hollandaise sosu ve hepsi -; Bir diğeri pratik olarak sipariş siparişi verilmesini tavsiye ederken.
Mendez, “Birçok katılımcıdan katılım sürecinin sadece eğlenceli olmadığını, aynı zamanda aileleriyle yeniden bağlantı kurma konusunda onlara güven verdiğini söylediklerini duyduk” dedi. “Bu proje birçok katılımcıya ve sevdiklerine umut, heyecan ve enerji – benzersiz insan nitelikleri – getirdi.”
Ekibin, katılımcıların yaşamlarıyla ilgili içerik geliştirmek için Parkinson hastalığı uzmanlarına ve topluluk üyelerine danıştığını söyledi. Yönlendirmeler spesifik ve spontaneydi: Örneğin, ilaç adlarını tanıyacak bir konuşma algoritması eğitmek, son kullanıcının bir eczaneyle iletişim kurmasına yardımcı olabilirken, sıradan sohbet başlatıcılar günlük sohbetin ritmini taklit edebiliyordu.
Mendez, “Katılımcılara şunu söylüyoruz: Tüm çabanızı göstererek konuşmanızı daha anlaşılır hale getirebileceğinizi biliyoruz, ancak belki de başkalarının yararı için kendinizi anlatmaya çalışmaktan yoruldunuz” dedi. “Rahatlamaya çalışın. ve “Kanepe”de ailenizle konuşuyormuş gibi iletişim kurun.
Algoritmanın konuşmayı ne kadar iyi dinlediğini ve öğrendiğini ölçmek için araştırmacılar örnekleri üç gruba ayırdı. 190 katılımcıdan veya 151 kayıt saatinden oluşan ilk grup modeli eğitti. Performansı geliştikçe araştırmacılar, modelin ikinci, daha küçük bir kayıt setini tanıtarak ciddi şekilde öğrendiğini (ve yalnızca katılımcıların yanıtlarını ezberlemekle kalmayıp) doğruladılar. Model ikinci sette en yüksek performansa ulaştığında araştırmacılar test seti ile modele meydan okudu.
Araştırma ekibinin üyeleri, modelin işe yaradığını doğrulamak için katılımcı başına ortalama 400 kaydı manuel olarak yazıya geçirdi.
Eğitim seti dinlendikten sonra ASR sisteminin kayıtları test setinden %23,69 kelime hata oranıyla kopyaladığını bulmuşlardır. Karşılaştırma yapmak gerekirse, Parkinson hastası olmayan kişilerden alınan konuşma örnekleri üzerinde eğitilmiş bir sistem, test setini %-36,3 kelime hata oranıyla kopyaladı; Yaklaşık %30 daha az doğru.
Test grubundaki hemen hemen tüm bireylerde hata oranları da azaldı. Olağandışı hızlı konuşma veya kekemelik gibi daha az tipik Parkinson konuşması olan konuşmacılar bile mütevazı gelişmeler gördü.
Hasegawa-Johnson, “Böylesine muazzam bir fayda görmek beni heyecanlandırdı” dedi.
Heyecanının katılımcıların yorumlarıyla pekiştiğini sözlerine ekledi:
“Bu teknolojinin geleceğiyle ilgilenen katılımcılardan biriyle konuştum” dedi. “Bu projenin harika yanı da bu: İnsanların akıllı hoparlörler ve cep telefonları tarafından anlaşılabilme konusunda ne kadar heyecanlı olduklarını görmek. Bizim de gerçekten yapmaya çalıştığımız şey bu.”
“Pop kültürünün ninjası. Sosyal medya fanatiği. Tipik problem çözücü. Kahve pratisyeni. Çok aşık olur. Seyahat tutkunu.”
More Stories
IFE Erişilebilirlik Çözümleri’nin Thales serisi prestijli Kristal Kabin Ödülünü kazandı
Özel büyülü temelleri ortaya çıkarın: Temizleme, Fırtınalar ve Hazineler
Razer’ın Basilisk V3’ü