Přesně zapsat slovo od slova, například vystupujícího při přednášce a nenechat se vyrušit okolním hlukem dovede umělá inteligence, aplikace Beey. Ta dokáže přepsat do textu mluvené slovo nyní ještě o něco lépe, a to díky novým neuronovým modelům, což dokáže zásluhou vědců Technické univerzity v Liberci.
Za aplikací Beey, kterou používají lidé už ve více než padesáti zemích, stojí vývojáři z pražské firmy Newton Technologies a tým vědců z Laboratoře počítačového zpracování řeči na Fakultě mechatroniky, informatiky a mezioborových studií liberecké univerzity. Základem programu je jeden z nejkvalitnějších nástrojů pro automatické rozpoznání řeči, který je v současnosti na trhu. Poradí si nejen s češtinou, ale i s dalšími devatenácti světovými jazyky. Mezi všemi dvaceti jazyky umí aplikace Beey také překládat. Nyní už není překážkou ani hluk v místnosti.
„Nové architektury neuronových sítí umožňují trénovat systémy rozpoznávání řeči pouze na základě zvukových nahrávek a odpovídajících textových přepisů. Na rozdíl od minulé generace modelů tak není nutné vytvářet slovníky obsahující pro každé slovo různé výslovností varianty. A zejména novou generaci modelů není vůbec nutné učit, jak se slova v daném jazyce vyslovují. To výrazně zjednodušuje proces přípravy dat pro učení, kterých je nyní možné použít řádově více než v minulosti,“ říká Petr Červa, vedoucí týmu vědců z fakulty mechatroniky, který pracuje na počítačových modelech na rozpoznávání řeči.
Pokud aplikace přepisuje projev jednoho člověka, je stoprocentní. Když je vystavena úkolu přepsat hovor více lidí, který se prolíná, je její spěšnost asi 80 procent. „Prostor pro zlepšení ještě stále máme. Obecně ke zvyšování přesnosti přispívá kromě stále lepší architektury neuronových sítí také vzrůstající množství dat pro trénování, které máme k dispozici. Souvisí to s tím, že dané technologie využívá stále více lidí,“ dodává docent Červa.
Převod mluvené řeči na psaný text umožňuje získávat rychlé a levné přepisy podcastů, rozhovorů, schůzí nebo přednášek. Umělá inteligence v Beey titulkuje videa na internetu a s využitím automatických překladů zpřístupňuje také audiovizuální obsah z celého světa. Technologie nachází využití i v průmyslu, zdravotnictví, médiích nebo státní správě. V době pandemie koronaviru začala platforma Beey titulkovat vybrané, zejména zpravodajské, pořady pro sluchově postižené.
„Naším cílem je, aby výsledky posledních výzkumů v oblasti umělé inteligence mohl využívat každý, ať je to student, lékař, novinář nebo třeba státní úředník. Proto si náš program může vyzkoušet zdarma každý, kdo má počítač nebo chytrý mobil a přístup k internetu,“ přibližuje základní filozofii společnosti firmy Newton Technologies její ředitel Petr Herian.
Počáteční impulz k využívání hlasové technologie pro účely zautomatizování monitoringu televizního a rozhlasového vysílání dali před lety firmě Newton Media vědci z Laboratoře počítačového zpracování řeči na fakulty mechatroniky. Společnost vsadila na spolupráci s Technickou univerzitou v Liberci a časem založila firmu Newton Technologies. Ta kromě aplikace Beey stojí například i za softwarem Newton Dictate, který existuje v několika jazykových variantách. Používá se zejména pro diktování medicínských nálezů a textů v oblasti justice a práva. Právě Newton Dictate byl ve prvním výsledkem spolupráce fakulty mechatroniky a společnosti Newton.
Pro přidání příspěvku se musíte nejdříve přihlásit / registrovat / přihlásit přes Facebook.