Na první pohled to vypadá jednoduše: někdo mluví, systém překládá a na obrazovce naskakují titulky. Jenže právě v tomhle detailu se skrývá zásadní rozdíl mezi použitelným nástrojem a technologií, která spíš překáží, než pomáhá. Report Slator o kvalitě AI přeložených titulků totiž ukazuje, že nestačí sledovat jen to, jestli je překlad správně, ale také jestli se titulky průběžně nepřepisují tak často, že se přestanou dát číst.
Report společnosti SLATOR porovnávala pět řešení pro živé překlady v online schůzkách: Google Meet, Microsoft Teams, Zoom, DeepL Voice for Microsoft Teams a DeepL Voice for Zoom. Hodnotila 14 jazykových kombinací a zapojila 28 profesionálních lingvistů, kteří titulky posuzovali naslepo. K tomu přidala i automatizovanou analýzu stability titulků (caption churn, tedy jak často se titulky mění mezi snímky).
Výsledek
Podle reportu vyšla nejlépe obě řešení DeepL Voice. V kvalitě překladu získal DeepL Voice for Zoom skóre 96,4 ze 100 a DeepL Voice for Teams 96,3. Ostatní nástroje zůstaly níže: Zoom kolem 89,8 bodu, Microsoft Teams zhruba 89,1 a Google Meet 87,1. Jinými slovy: rozdíl není propastný v absolutních číslech, ale report tvrdí, že v kritických chybách byl rozdíl mnohem výraznější.
A právě kritické chyby jsou to, co v praxi bolí nejvíc. Podle studie produkty DeepL Voice snížily výskyt závažných nebo kritických překladových chyb v průměru o 76 % oproti ostatním hodnoceným nástrojům. Zatímco u DeepL Voice prošlo hodnocením bez zásadních problémů 79 % segmentů, u konkurenčních nástrojů to bylo jen 42 %. To už není kosmetický rozdíl, ale něco, co může rozhodovat o tom, zda mezinárodní porada funguje, nebo se mění v jazykový chaos.
Ještě zajímavější je ale druhá část reportu: stabilita titulků. U živého překladu totiž nestačí, aby se systém „nakonec trefil“. Když se věta třikrát přepíše, dvakrát změní význam a na konci se srovná, uživatel mezitím dávno ztratil nit. Report proto měřil i takzvaný caption churn, tedy jak často se titulky mění mezi jednotlivými snímky videa. Nejlépe dopadl DeepL Voice for Zoom s churnem 11,35 %, zatímco Zoom měl 25,08 % a Microsoft Teams 22,75 %. Google Meet si v této disciplíně vedl lépe než Teams i Zoom, ale zaostal v samotné kvalitě překladu.
Pro firmy je to docela praktická zpráva. Report říká tři věci: kvalita AI titulků se zlepšuje, ale mezi platformami zůstávají velké rozdíly; stabilita titulků má přímý vliv na použitelnost; a specializovaná řešení s možností přizpůsobení — například přes glosáře nebo posílení rozpoznávání termínů — mohou výsledek výrazně zlepšit. Jinými slovy: nejde jen o to „mít AI překlad v meetingu“, ale o to, jak dobře je takový překlad udělaný a nakolik odpovídá reálnému pracovnímu prostředí.
Je fér dodat i důležitou metodickou poznámku. Report porovnával běžná vestavěná řešení platforem s variantami DeepL Voice, u nichž byly použity i doplňkové funkce, například glosáře, nastavení formality a u Teams také rozpoznávání mluvených termínů. Výsledek tedy neukazuje jen to, „kdo má lepší základ“, ale i to, co udělá specializace a možnost systém doladit. A právě to je možná nejzajímavější závěr celého dokumentu: v AI překladu už nejde jen o samotný model, ale čím dál víc i o to, jak je zasazený do konkrétního použití.
Je třeba dodat, že Slator testoval jen 14 jazykových kombinací, a to v obou směrech mezi angličtinou a sedmi jazyky: španělštinou, francouzštinou, němčinou, italštinou, portugalštinou, korejštinou a japonštinou. Šlo o ověření překladů pro běžného uživatele bez větších nároků na přesnost. V profesionální praxi se věci mají trochu jinak a zkouší se více modelů a způsobů, jak se s živými překlady řečníků vypořádat bez přítomnosti profesionálních překladatelů.
Hned na začátku je třeba si uvědomit, že žádný automatický překladatelský systém si neporadí s nekvalitním zvukem řečníka. Kvalita zvuku je zde naprostým základem a tomu je třeba věnovat pozornost a problematiku zvuku v žádném případě nepodceňovat. Proto se na konferencích s překlady do titulků používají vždy profesionální náhlavní mikrofonní soupravy.
Další z věcí, které musí automatický překladový systém na živých akcích zvládnout, je kontext, tedy musí umět porozumět smyslu věty řečníka. Proto u živých překladů chvíli trvá, než se titulek objeví – systém čeká na kontext.
Poznámka z praxe: Například v České televizi vymysleli technici systém, kdy zpozdí obraz o několik sekund, aby automatický překladač stihl pochopit kontext, a až pak je hotový titulek připojen ke slovu řečníka. A společnost YouTube, která u videí na své platformě nabízí automatický překlad do titulků, zas využívá toho, ze si u přehrávaného videa načítá na pozadí zvuk již několik sekund dopředu. Na živých akcích ale tuto možnost nemáte, proto zde vždy vzniká nějaká časová prodleva, než se titulek zkompletuje a objeví.
Další z věcí, které je nutné automatické překladače titulků naučit, jsou různé slangové výrazy, nespisovný jazyk, v českém prostředí i obecná čeština, dále pak je třeba nakrmit databáze názvy (obcí, měst, řek, pohoří, úřadů, důležitých dokumentů atd.), nezapomenout na různé odborné terminologie podle oborů a mnoho a mnoho dalšího. V podstatě jde o neustálé doplňování databáze překladového systému podle toho, s čím se v praxi potýkáte, na co je třeba systém doladit. A tady je pak nutná přímá a rychlá spolupráce s dodavatelem systému. Tady vám pak mohu doporučit poptat se na zkušenosti u technického oddělení České televize nebo si domluvit schůzku ve firmě Audiopro a tam si krom konzultace problematiky rovnou i odzkoušet jimi dodávaný systém živého titulkování v předváděcí místnosti.
Report
↓

Market Assessment of AI Translated Captions
Translation is increasingly being added as a feature of enterprise tools, and AI generated translated captions have been incorporated into software for global meetings. Real-time caption translation is now available in platforms such as Google Meet, Microsoft Teams, and Zoom to enable communication across languages.
⚠️ Důležité upozornění: Tento článek byl vytvořen za pomoci AI COPILOT