hlasové rozpoznávání

Rozpoznávání řeči nebo automatické rozpoznávání řeči je obor aplikované výpočetní techniky , strojírenství a počítačové lingvistiky . Ona se zabývá vyšetřováním a rozvoji postupů, které tvoří mluveného jazyka a automatické získávání dat přístupných strojů, zejména počítačů . Rozpoznávání řeči je třeba odlišovat od hlasu nebo reproduktorů identifikace s biometrickým způsobu identifikace osob. Realizace těchto procesů je však podobná.

historický vývoj

Výzkum systémů pro rozpoznávání řeči začal v 60. letech, ale v té době byl z velké části neúspěšný: systémy vyvinuté soukromými společnostmi umožňovaly rozpoznat několik desítek jednotlivých slov za laboratorních podmínek . To bylo způsobeno jednak omezenými znalostmi v této nové oblasti výzkumu, ale také omezenými technickými možnostmi v té době.

Teprve v polovině 80. let se vývoj pohnul kupředu. Během této doby se zjistilo, že lze rozlišit homofony pomocí kontextových testů . Kompilací a vyhodnocením statistik o frekvenci určitých slovních kombinací bylo možné rozhodnout, které slovo je určeno pro podobná nebo podobně znějící slova. Tyto takzvané trigramové statistiky se poté staly důležitou součástí všech systémů rozpoznávání řeči. V roce 1984 představila společnost IBM první systém rozpoznávání řeči, který dokázal rozpoznat přibližně 5 000 jednotlivých anglických slov. Systém však pro proces rozpoznávání vyžadoval několik minut výpočetního času na sálovém počítači . Na druhou stranu systém vyvinutý společností Dragon Systems byl progresivnější: mohl být použit na přenosném počítači.

V letech 1988 až 1993 evropský projekt SUNDIAL také demonstroval hlasové rozpoznávání jízdních řádů vlaků v němčině. SUNDIAL také studoval metriky hodnocení rozpoznávání hlasu.

V roce 1991 IBM poprvé představila na CeBIT systém rozpoznávání řeči, který dokázal rozpoznat 20 000 až 30 000 německých slov. Představení systému s názvem TANGORA 4 však muselo probíhat ve speciálně promítané místnosti, protože hluk z veletrhu by jinak systém narušil.

Na konci roku 1993 představila společnost IBM první systém rozpoznávání řeči vyvinutý pro masový trh: Systém s názvem IBM Personal Dictation System běžel na běžných počítačích a stál méně než 1 000 $. Když byl na CeBIT 1994 představen pod názvem IBM VoiceType Dictation System , setkal se s velkým zájmem návštěvníků i odborného tisku.

V roce 1997 se pro koncové uživatele PC objevil software IBM ViaVoice (nástupce IBM VoiceType) a verze 1.0 softwaru Dragon NaturallySpeaking . V roce 1998 společnost Philips Speech Recognition Systems uvedla na trh FreeSpeech 98, rozpoznávání řeči pro koncové uživatele PC, jehož ovládání bylo přizpůsobeno internímu digitálnímu diktafonu SpeechMike, ale po druhé verzi, FreeSpeech 2000, ukončila produktovou řadu. V roce 2004 IBM vydala části svých aplikací pro rozpoznávání řeči jako otevřený zdroj , což způsobilo senzaci. Zasvěcenci z odvětví předpokládali taktická opatření proti společnosti Microsoft , která je rovněž aktivní v této oblasti a od roku 2007, kdy se poprvé objevil její operační systém Windows Vista jako nedílná součást, poprvé nabídla funkce rozpoznávání hlasu pro ovládání i pro diktát, které jsou v systému Windows dodnes 10, byly dále vyvíjeny.

Zatímco vývoj produktu IBM ViaVoice byl ukončen, stal se Dragon NaturallySpeaking dnes nejpopulárnějším softwarem pro rozpoznávání řeči závislým na řeči od jiných výrobců pro počítače se systémem Windows a od roku 2005 jej vyrábí a prodává společnost Nuance Communications .

Akvizicí společnosti Philips Speech Recognition Systems ve Vídni v roce 2008 získala společnost Nuance rovněž práva na sadu SpeechMagic pro vývoj softwaru (SDK) , která je obzvláště populární ve zdravotnictví. U osobních počítačů iMac od společnosti Apple prodává MacSpeech od roku 2006 software pro rozpoznávání řeči třetích stran pod názvem iListen, který je založen na součástech společnosti Philips. V roce 2008 to bylo nahrazeno MacSpeech Dictate s využitím hlavních komponent Dragon NaturallySpeaking a přejmenováno na Dragon Dictate (verze 2.0 - verze 3.0 byla distribuována od roku 2012) poté, co společnost Nuance Communications získala MacSpeech v roce 2010.

Společnost Siri Inc. byla založena v roce 2007 a koupila ji společnost Apple v dubnu 2010. V říjnu 2011 představila společnost Apple software pro rozpoznávání řeči Siri pro iPhone 4s, který rozpoznává a zpracovává přirozeně mluvený jazyk (pomocí serverů Apple) a je určen k výkonu funkcí osobního asistenta.

Aktuální stav

V současné době lze rozlišovat dva typy rozpoznávání řeči:

  • Rozpoznávání řeči nezávislé na reproduktoru
  • Rozpoznávání řeči závislé na reproduktoru

Charakteristikou „řečníka nezávislého“ rozpoznávání řeči je vlastnost, že uživatel může okamžitě začít s rozpoznáváním řeči bez předchozí fáze tréninku. Slovní zásoba je však omezena na několik tisíc slov.

Rozpoznávače řeči závislé na reproduktoru si uživatel před použitím procvičuje vlastní zvláštnosti výslovnosti (v novějších systémech: během používání). Ústředním prvkem je možnost individuální interakce se systémem za účelem dosažení optimálního výsledku závislého na mluvčím (vlastní termíny, zkratky, zkratky atd.). Nemá smysl jej používat v aplikacích s často se měnícími uživateli (např. Call centra). Ve srovnání je slovní zásoba mnohem větší než u rozpoznávačů nezávislých na mluvčích. Současné systémy obsahují více než 300 000 slovních forem. Je také třeba rozlišovat mezi:

  • Front-end systémy a
  • Back-end systémy.

V systémech front-end je jazyk zpracován a okamžitě převeden na text, takže uživatel může číst výsledek prakticky bez znatelného časového zpoždění. Implementaci lze provést na počítači uživatele nebo na cloudu. Přímá interakce mezi uživatelem a systémem umožňuje dosažení nejvyšší kvality rozpoznávání. Systém lze také ovládat pomocí příkazů a dalších komponent, jako jsou asistenční systémy v reálném čase. V systémech typu back-end se však implementace provádí s časovým zpožděním. K tomu obvykle dochází na vzdáleném serveru . Text je k dispozici až po zpoždění. Takové systémy jsou v lékařské oblasti stále rozšířené. Vzhledem k tomu, že mezi reproduktorem a výsledkem rozpoznávání nedochází k žádné přímé interakci, lze vynikající kvalitu očekávat, pouze pokud má uživatel již zkušenosti s rozpoznáváním řeči.

Rozpoznávání řeči „nezávislé na mluvčím“ je preferováno v technických aplikacích, například v systémech automatického dialogu, jako jsou informace o jízdním řádu. Všude, kde se používá pouze omezená slovní zásoba, se s úspěchem procvičuje rozpoznávání řeči nezávislé na řečníkovi. Systémy pro rozpoznávání číslic mluvené angličtiny od 0 do 9 dosahují téměř 100% míry rozpoznávání.

Použitím rozpoznávání řeči závislého na řečníkovi lze dosáhnout velmi vysoké míry rozpoznávání. I přesnost 95 procent však může být vnímána jako příliš nízká, protože příliš mnoho je třeba zlepšit. Interakce mezi uživatelem a systémem, která uživateli umožňuje přímo nebo nepřímo ovlivnit výsledek osobního rozpoznávání, je rozhodující pro úspěch rozpoznávání řeči závislé na řečníkovi.

Současné systémy mezitím dosahují míry rozpoznávání přibližně 99 procent při diktování souvislých textů na osobních počítačích a splňují tak požadavky praxe pro mnoho oblastí použití, např. B. za vědecké texty, obchodní korespondenci nebo právní podklady. Jeho použití dosahuje svých limitů tam, kde příslušný autor neustále potřebuje nová slova a slovní tvary, které software zpočátku nerozpozná, které lze přidat ručně, ale není efektivní, pokud se v textech stejného řečníka vyskytnou pouze jednou. Proto z. B. Hustší z používání rozpoznávání řeči než z. B. Lékaři a právníci .

Kromě velikosti a flexibility slovníku hraje rozhodující roli také kvalita akustického záznamu. U mikrofonů, které jsou umístěny přímo před ústy (například náhlavní soupravy nebo telefony), je dosaženo výrazně vyšší přesnosti rozpoznávání než u mikrofonů v místnosti dále.

Nejdůležitějšími ovlivňujícími faktory v praxi jsou však přesná výslovnost a koherentní plynulý mluvený diktát, takže slovní spojení a pravděpodobnosti pořadí slov mohou optimálně plynout do procesu rozpoznávání.

Vývoj rozpoznávání řeči probíhá velmi rychle. Dnes (od roku 2016) jsou systémy rozpoznávání řeči mimo jiné. používá se v smartphonech z. B. se Siri , Google Now , Cortana a Samsung S Voice . Současné systémy rozpoznávání řeči již nemusí být vyškoleny. Plastičnost systému je rozhodující pro vysokou úroveň přesnosti mimo každodenní jazyk. Aby bylo možné splnit vysoké požadavky, nabízejí profesionální systémy uživateli možnost ovlivnit osobní výsledek předepisováním nebo zkouškami.

Čtení rtů

Aby se ještě více zvýšila přesnost rozpoznávání, někdy se dělají pokusy natáčet tvář mluvčího pomocí videokamery a číst z ní pohyby rtů . Kombinací těchto výsledků s výsledky akustické detekce můžete dosáhnout výrazně vyšší míry detekce, zejména u hlučných záznamů.

To odpovídá pozorování při rozpoznávání lidské řeči: Harry McGurk v roce 1976 zjistil, že lidé také odvozují mluvený jazyk od pohybu rtů ( McGurkův efekt ).

Hlasový výstup

Protože komunikace s lidským jazykem je obvykle dialog mezi dvěma účastníky, rozpoznávání řeči se často vyskytuje v souvislosti se syntézou řeči . Tímto způsobem může být uživateli systému poskytnuta akustická zpětná vazba o úspěchu rozpoznávání řeči a informace o veškerých akcích, které mohly být provedeny. Stejným způsobem lze uživatele požádat o další hlasový vstup.

Problém

Abychom pochopili, jak systém rozpoznávání řeči funguje, musíme si nejprve ujasnit výzvy, které je třeba překonat.

Diskrétní a nepřetržitý jazyk

Ve větě v běžném jazyce jsou jednotlivá slova vyslovována bez znatelné pauzy mezi nimi. Jako člověk se lze intuitivně orientovat na přechody mezi slovy - dřívější systémy rozpoznávání řeči to nedokázaly. Vyžadovali diskrétní (přerušovaný) jazyk s umělými pauzami mezi slovy.

Moderní systémy však dokážou porozumět i souvislému (plynulému) jazyku.

Diskrétní jazyk

Grafika věty: „Svobodná encyklopedie“, vyslovována diskrétně

V diskrétním jazyce můžete jasně vidět pauzy mezi slovy, které jsou delší a jasnější než přechody mezi slabikami ve slově encyklopedie .

Kontinuální jazyk

Grafika věty: „Svobodná encyklopedie“, vyslovováno nepřetržitě

V souvislém jazyce se jednotlivá slova spojují do sebe, nedochází k žádným pauzám.

Velikost slovníku

Prostřednictvím skloňování , tj. Skloňování slova v závislosti na jeho gramatické funkci, vede stonky slov ( lexémy ) k mnoha tvarům slov. To je důležité pro velikost slovní zásoby, protože na všechny slovní formy je třeba při rozpoznávání řeči pohlížet jako na samostatná slova.

Velikost slovníku do značné míry závisí na jazyku. Na jedné straně mají průměrní německy mluvící mluvčí výrazně větší slovní zásobu s přibližně 4000 slovy než angličtí mluvčí s přibližně 800 slovy. Kromě toho má skloňování v německém jazyce za následek zhruba desetkrát více slovních forem než v anglickém jazyce , kde existuje pouze čtyřikrát více slovních tvarů. (Citovat zdroje)

Homofony

V mnoha jazycích existují slova nebo tvary slov, které mají různé významy, ale vyslovují se stejně. Slova „moře“ a „více“ zní stejně, ale stále nemají nic společného. Taková slova se nazývají homofony . Jelikož systém rozpoznávání řeči na rozdíl od lidí obecně nemá znalosti o světě , nemůže na základě významu rozlišovat mezi různými možnostmi.

Do této oblasti spadá také otázka malých a velkých písmen.

Formants

Na akustické úrovni hraje roli zejména poloha formantů : Frekvenční složky mluvených samohlásek se obvykle soustředí na určité různé frekvence, které se nazývají formanty. Pro rozlišení mezi samohláskami jsou zvláště důležité dva nejnižší formanty: Nižší frekvence je v rozmezí od 200 do 800 Hertzů , vyšší frekvence v rozmezí od 800 do 2400 Hertzů. Jednotlivé samohlásky lze rozlišit podle polohy těchto frekvencí.

Souhlásky

„Mluv“ mluvený, originální
„P“ skryté

Souhlásky je poměrně obtížné rozpoznat; Například jednotlivé souhlásky (tzv. Plosivy ) lze určit pouze přechodem na sousední zvuky, jak ukazuje následující příklad:

Jeden poznává, že ve slově mluví souhláska p (přesněji: zavírací fáze fonému p ) je ve skutečnosti jen ticho a je rozpoznána pouze přechody k ostatním samohláskám - její odstranění nezpůsobuje slyšitelný rozdíl.

Ostatní souhlásky lze rozpoznat podle jejich charakteristických spektrálních vzorů. Zvuk je , stejně jako zvuk f ( fricatives ) se vyznačují vysokým podílem energie ve vyšších kmitočtových pásmech. Je pozoruhodné, že většina informací důležitých pro rozlišení mezi těmito dvěma zvuky leží mimo spektrální rozsah přenášený v telefonních sítích (až do přibližně 3,4 kHz). To vysvětluje, proč je pravopis po telefonu bez použití speciální pravopisné abecedy extrémně pracný a náchylný k chybám, a to i při komunikaci mezi dvěma lidmi.

Dialekty a sociolekty

I když je program rozpoznávání řeči již dobře přizpůsoben jazyku vysoké úrovně , neznamená to, že dokáže porozumět všem formám tohoto jazyka. Takové programy často dosahují svých limitů, zejména v případě dialektů a sociolektů . Lidé jsou obvykle schopni rychle se přizpůsobit možnému neznámému dialektu svého protějšku - software pro rozpoznávání to nedokáže snadno. Dialekty je nejprve nutné naučit program složitými procesy.

Kromě toho je třeba poznamenat, že významy slov se mohou příležitostně měnit v závislosti na oblasti. Například Bavorsko a Berlín znamenají různé dezerty, když mluví o „palačinkách“. Díky znalostem kulturního pozadí se člověk může těmto nedorozuměním vyhnout a objasnit je snadněji, než je software v současné době schopen.

Strategie řešení komunikačních problémů

Pokud se vyskytnou problémy s porozuměním komunikaci, lidé přirozeně mají tendenci mluvit obzvláště hlasitě nebo podrobněji parafrázovat nepochopené výrazy. To však může mít na počítač kontraproduktivní účinek, protože je trénován na zvládnutí normálního objemu konverzace a také pracuje spíše s klíčovými slovy než s uchopením kontextů.

realizace

Vývoj systému rozpoznávání řeči podle Alexandra Waibela

Systém rozpoznávání řeči se skládá z následujících komponent: Předběžné zpracování, které rozkládá analogové řečové signály na jednotlivé frekvence. Samotné rozpoznávání pak probíhá pomocí akustických modelů, slovníků a jazykových modelů.

Předběžné zpracování

Předběžné zpracování v zásadě sestává z kroků vzorkování , filtrování, transformace signálu do frekvenční domény a vytvoření vektoru funkcí .

Snímání

Při skenování je analogový (spojitý) signál digitalizován , tj. Rozdělen na elektronicky zpracovatelnou bitovou sekvenci, aby mohl být dále snadněji zpracován.

Filtrování

Nejdůležitějším úkolem kroku filtrování je rozlišovat mezi okolními zvuky, jako je hluk nebo např. B. Hluk motoru a jazyk. K tomuto účelu se například používá energie signálu nebo rychlost křížení nuly.

proměna

Pro rozpoznávání řeči není relevantní časový signál, ale signál ve frekvenčním rozsahu. K tomu je transformován pomocí FFT . Frekvenční složky přítomné v signálu lze číst z výsledku, frekvenčního spektra.

Vektor funkcí

Pro skutečné rozpoznávání řeči je vytvořen vektor funkcí . Skládá se ze vzájemně závislých nebo nezávislých funkcí, které jsou generovány z digitálního řečového signálu. Kromě již zmíněného spektra sem patří především cepstrum. Vektory prvků mohou být z. B. porovnat pomocí dříve definované metriky .

Cepstrum

Cepstrum se získá ze spektra tvořící FFT podle logarithmized velikosti spektra. To umožňuje rozpoznání periodicity ve spektru. Ty se generují v lidském hlasovém traktu a stimulací hlasivek. Periodicita způsobená stimulací hlasivek převažuje, a proto se nachází v horní části mozkového mozku, zatímco spodní část zobrazuje polohu hlasivek. To je relevantní pro rozpoznávání řeči, takže pouze tyto spodní části cepstrum proudí do vektoru funkcí. Protože funkce přenosu prostoru - tj. Změna signálu z. B. odrazy na stěnách - časem se nemění, to lze vyjádřit střední hodnotou cepstrum. To se proto často odečte od cepstrumu, aby se kompenzovaly ozvěny. První derivace cepstrum, která může také proudit do vektoru funkcí, musí být také použita ke kompenzaci funkce přenosu prostoru.

uznání

Model rozpoznávače řeči založený na skrytém Markovově modelu

Skryté Markovovy modely

V dalším průběhu procesu hrají Hidden Markov Models (HMM) důležitou roli. Umožňují najít fonémy, které nejlépe odpovídají vstupním signálům. K tomu je akustický model fonému rozdělen na různé části: začátek, jiný počet středních částí v závislosti na délce a konec. Vstupní signály jsou porovnány s těmito uloženými sekcemi a pomocí Viterbiho algoritmu jsou hledány možné kombinace.

Pro rozpoznání přerušené (diskrétní) řeči (ve které se za každým slovem provede pauza) stačí vypočítat jedno slovo společně s modelem pauzy v rámci HMM. Vzhledem k tomu, že se výpočetní kapacita moderních počítačů výrazně zvýšila, lze nyní plynulý (nepřetržitý) jazyk rozpoznat také vytvořením větších skrytých Markovových modelů, které se skládají z několika slov a přechodů mezi nimi.

Neuronové sítě

Alternativně již byly provedeny pokusy o použití neuronových sítí pro akustický model. U neuronových sítí s časovým zpožděním by se k detekci měly používat zejména změny ve frekvenčním spektru v průběhu času. Vývoj zpočátku přinesl pozitivní výsledky, ale poté byl opuštěn ve prospěch HMM. Teprve v posledních několika letech byl tento koncept znovuobjeven v kontextu Deep Neural Networks. Systémy rozpoznávání řeči založené na hlubokém učení poskytují míry rozpoznávání v lidském rozsahu.

Existuje však také hybridní přístup, při kterém jsou data získaná z předzpracování předem klasifikována neurální sítí a výstup ze sítě je použit jako parametr pro skryté Markovovy modely. To má tu výhodu, že můžete také použít data z krátce před a krátce po právě zpracovaném období, aniž byste zvýšili složitost HMM. Kromě toho lze od sebe oddělit klasifikaci údajů a kontextově citlivé složení (tvorba smysluplných slov / vět).

Jazykový model

Jazykový model se poté pokusí určit pravděpodobnost určitých slovních spojení, a tím vyloučit falešné nebo nepravděpodobné hypotézy. K tomuto účelu lze použít buď gramatický model využívající formální gramatiky, nebo statistický model využívající N-gramy .

Statistika bi- nebo trigramu ukládá pravděpodobnost výskytu slovních kombinací dvou nebo více slov. Tyto statistiky jsou získávány z velkých textových korpusů (ukázkové texty ). Každá hypotéza určená rozpoznáním řeči je poté zkontrolována a v případě potřeby vyřazena, pokud je její pravděpodobnost příliš nízká. To znamená, že lze rozlišit také homofony, tj. Různá slova se stejnou výslovností. „Děkuji“ by bylo pravděpodobnější než „Děkuji vám padl“, i když oba jsou vyslovovány stejně.

S trigramy jsou teoreticky možné přesnější odhady pravděpodobnosti výskytu slovních kombinací ve srovnání s bigramy. Ukázkové textové databáze, ze kterých jsou trigramy extrahovány, však musí být výrazně větší než u bigramů, protože všechny povolené slovní kombinace tří slov se v ní musí objevit ve statisticky významném počtu (tj. Každá významně vícekrát). Kombinace čtyř nebo více slov se dlouho nepoužívají, protože obecně již není možné najít ukázkové textové databáze, které obsahují dostatečný počet všech slovních kombinací. Výjimkou je Dragon, který od verze 12 používá také pentagramy - což zvyšuje přesnost rozpoznávání v tomto systému.

Jsou-li použity gramatiky, jedná se většinou o bezkontextové gramatiky . Každému slovu však musí být v gramatice přiřazena jeho funkce. Z tohoto důvodu se takové systémy obvykle používají pouze pro omezenou slovní zásobu a speciální aplikace, ale ne v běžném softwaru pro rozpoznávání řeči pro PC.

Hodnocení

Kvalita systému rozpoznávání řeči může být indikována různými čísly. Kromě rychlosti rozpoznávání - obvykle udávané jako faktor v reálném čase (EZF) - lze kvalitu rozpoznávání měřit jako přesnost slova nebo rychlost rozpoznávání slov .

Slovní zásoba

Pro integraci profesionálních systémů rozpoznávání řeči existují již předdefinované slovníky, které mají usnadnit práci s rozpoznáváním řeči. Tyto slovníky jsou zmíněny v oblasti SpeechMagic ConText a v oblasti Dragon Datapack . Čím lépe je slovní zásoba přizpůsobena stylu slovní zásoby a diktátu (četnost slovních sekvencí) používaného mluvčím, tím vyšší je přesnost rozpoznávání. Kromě lexikonu nezávislého na řečnících (technická a základní slovní zásoba) obsahuje slovní zásoba také individuální model sekvence slov (jazykový model). Všechna slova známá softwaru jsou uložena ve slovníku ve fonetice a pravopisu. Tímto způsobem systém rozpoznává mluvené slovo podle zvuku. Pokud se slova liší významem a pravopisem, ale zní stejně, software používá model sekvence slov. Definuje pravděpodobnost, s jakou jedno slovo následuje druhé pro konkrétního uživatele. Rozpoznávání řeči v chytrých telefonech používá stejné technické koncepty, ale aniž by uživatel měl jakýkoli vliv na předdefinovanou slovní zásobu. Novější technologie se odklánějí od myšlenky pevného seznamu uložených slov, protože lze tvořit složená slova. Všechny systémy mají společné to, že se mohou naučit pouze jednotlivá slova a fráze prováděním oprav příslušným uživatelem.

Příklady použití

Rozpoznávání řeči se dnes používá mimo jiné. používá se v chytrých telefonech např. B. se Siri , Google Now , Cortana , Amazon Echo / Alexa a Samsung S Voice . Nyní s vysokou spolehlivostí v každodenním jazyce (např. Jako smartphony) nebo v žargonu (individualizované profesionální systémy) se jazyk převádí na text (řeč na text) , provádějí se příkazy a ovládací prvky běhu (příkaz a ovládání) nebo sémantické analýzy ( jazykové znalosti) .

Viz také

literatura

  • Pirani, Giancarlo, ed.: Pokročilé algoritmy a architektury pro porozumění řeči. Sv. 1. Springer Science & Business Media, 2013. ISBN 978-3-642-84341-9 .
  • Lawrence R. Rabiner, Ronald W. Schafer: Digitální zpracování řečových signálů , 1978, ISBN 0-13-213603-1 .
  • Matthias Woelfel, John McDonough: Distant Speech Recognition , 2009, ISBN 0-470-51704-2 .
  • Lawrence R. Rabiner, Biing-Hwang Juang Juang: Základy rozpoznávání řeči , 1993, ISBN 0-13-015157-2 .
  • Ernst Günter Schukat-Talamazzini: Automatické rozpoznávání řeči. Základy, statistické modely a efektivní algoritmy , Vieweg, Braunschweig / Wiesbaden 1995, ISBN 3-528-05492-1 .

webové odkazy

Wikislovník: Rozpoznávání řeči  - vysvětlení významů, původ slov, synonyma, překlady

bobtnat

  1. Porozumění řeči a dialog. Citováno 22. května 2020 .
  2. ^ Peckham, Jeremy: Porozumění řeči a dialog po telefonu: přehled projektu ESPRIT SUNDIAL. LDS. 1991.
  3. Danieli, Morena; Elisabetta Gerbino: Metriky pro hodnocení strategií dialogu v systému mluveného jazyka - Sborník jarních sympozií AAAI z roku 1995 o empirických metodách při interpretaci a generování diskurzu. Svazek 16. 1995.
  4. ^ Ciaramella, Alberto: Prototypová zpráva o hodnocení výkonu. Pracovní balíček slunečních hodin 8000 (1993).
  5. ^ Charpentier, F., Micca, G., Schukat-Talamazzini, E., Thomas, T. (1995): Součást uznání projektu SUNDIAL. In: Rozpoznávání a kódování řeči (str. 345-348). Springer Berlin Heidelberg.
  6. Michael Spehr: Diktování je mnohem rychlejší než psaní. V: FAZ.net . 22. září 2010, zpřístupněno 13. října 2018 .
  7. L. Lamel, J.-L. Gauvain: Rozpoznávání řeči. Oxford Handbooks Online (svazek 14) . Oxford University Press, 2005. doi: 10,1093 / oxfordhb / 9780199276349.013.0016
  8. Malaka, Rainer; Butz, Andreas; Hußmann, Heinrich: Medieninformatik: Úvod. Pearson Studium, Mnichov 2009, ISBN 978-3-8273-7353-3 , s. 263.
  9. Ulf Schoenert: Rozpoznávání řeči: Normálnost konverzací se stroji. In: Zeit Online. 14. února 2012, zpřístupněno 6. února 2016 .
  10. https://www.infoq.com/news/2017/03/ibm-speech-recognition
Tento článek byl přidán do seznamu článků, které stojí za to si přečíst 14. listopadu 2006 v této verzi .