Na základě krátkého Vítkova postu jsem vyrazil nedávno do hradeckého Centralu na nový film Juliana Schnabela Skafandr a motýl (Le Scaphandre et le papillon). Schnabela mohou čeští diváci znát jak díky Basquiatovi, tak smutnému a tragickému Before Night Falls (momentálně k dostání jako DVD v Levných knihách, hlavní roli ztvárnil čerstvý držitel Oskara Javier Bardem). Poslední Schnabelův film není vůbec jednoduchý. Vítek už psal o zajímavé a výrazné kameře, já přidám velice silný příběh/námět (vnitřní svět muže stiženého locked-in syndromem) nebo netriviální dějovou strukturu, nepodbízivý způsob vyprávění a kladení akcentů. Pokud v brzké době vyšetřím trochu času, zkusím stručně analyzovat významotvornost střídání funkcí kamery a jejího pohybu (např. jestli její užití ve funkci "objektivujícího oka" nějak koreluje s vnitřním stavem hrdiny apod.), dnes chci ale soustředit pozornost na jiný problém.
Děsivost locked-in syndromu spočívá mimo jiné v tom, že pacient je sice při vědomí a častokrát s plně zachovanými kognitivními funkcemi, zároveň je však bohužel quadriplegický a zbaven schopnosti produkovat mluvenou řeč (jazyková schopnost však zůstává neporušena!). Jean-Dominique Bauby, hrdina Schnabelova filmu, byl po mozkové příhodě úplně paralyzován a jediným komunikačním prostředkem mu bylo mrkání levým očním víčkem, jež využíval jako binární logické funkce TRUE/FALSE. Jeho řečová terapeutka se po mnoha "výzkumech a konzultacích" rozhodla, že odemkne Baubyho svět pomocí tabulky grafémů uspořádané na základě frekvence jednotlivých grafémů ve francouzštině (nebylo řečeno, zda-li na základě slovníku nebo statistického výzkumu korpusového typu). Komunikace ve směru Bauby-okolní svět probíhala tak, že Bauby vybíral pomocí mrknutí oka z řady vždy od začátku opakovaného výčtu frekvenčně řazených grafémů francouzštiny. Bauby tak za pomoci zapisovatelky dokonce napíše knihu, která "took about 200,000 blinks to write and each word took approximately two minutes".
Daná situace je velmi zajímavá z hlediska matematické a logizující i klasické lingvistiky a také neurolingvistiky (teorie informace a komunikace, teorie binárního kódování, problém vztahu mluvené a psané řeči ve vztahu k jazyku, afatické a neafatické poruchy atd.). V tomto postu se ale podrobněji zaměřím pouze na problematiku vztahu přirozeného jazyka (češtiny) a teorie informace. Zdá se, že komunikační kód, který zvolila terapeutka (v podání překrásné Marie-Josée Croze), je sice inspirován v základě správnou úvahou, ale představuje "pouhý" počátkek cesty k rozvinutí opravdu efektivního komunikačního prostředku. Je přitom nutné vzít v úvahu, že film nijak netematizuje způsob sestavení dané tabulky, takže se budeme pohybovat v rovině spekulací a instruktážních ilustrací. Ale minimálně zobrazované užívání tabulky trochu napoví a poslouží jako vstupní brána při exkurzu do světa (lingvistické) teorie informace.
V roce 1997, kdy se příběh francouzského žurnalisty J-D. Baubyho odehrál, již měla (nejen francouzská) lingvistika k dispozici velmi mnoho kvalitních údajů o tom, jaké jsou vlastnosti přirozeného jazyka nahlíženého z hlediska obecné teorie informace. Zájem lingvistů o výsledky matematiků pracujících na poli teorie informace a komunikace se totiž objevil záhy po publikování základní práce oboru, Shannonovy Mathematical Theory of Communication (Shannon, 1948). Podobně jako v případě aplikací matematických modelů v oblasti strojového překladu, i v případě teorie informace bylo počáteční nadšení zchlazeno složitostí problematiky, nesporné výsledky však dlouhodobý výzkum přeci jen přinesl. Ukázalo se, že modely přirozeného jazyka pojímaného jako kód (symbolický systém s určitými statisticky relevantními vlastnostmi jako jsou konexita jeho prvků, statistická struktura zprávy, množství informace apod.), které vycházejí např. z markovovských procesů, mohou nejen vypovědět mnoho teoreticky zajímavého o vlastnostech přirozených jazyků a průběhu našeho dorozumívání, ale mohou přinést i spoustu praktického využití (např. Baubyho případ).
Od počátku se výzkumy v oblasti přirozených jazyků týkaly aplikací klíčového pojmu teorie informace, entropie (průměrného množství informace na jeden symbol jazyka, vyjádřené konvenčně v bitech). Bylo vypracováno několik typů metod pro její zjišťování (viz např. Königová, 1965, podrobněji o některých pak v Shannon, 1964 a Newman - Waugh, 1964), jejichž vývoj odrážel uvědomování si, jak složité vztahy existují uvnitř přirozených jazyků i mezi nimi navzájem. A právě to, jak bylo ve Skafandru a motýlovi používáno pomocné tabulky, nám pomůže na některé z těchto vztahů poukázat.
Jak vyplývá z výše uvedeného, úkolem Baubyho terapeutky bylo vymyslet co nejefektivnější způsob, jak z minima pacientových možností vytěžit maximálně efektivní nástroj pro jeho možné vyjádření. Celkem pochopitelně usoudila, že nezbývá nic jiného, než směřovat svou snahu k vystavění kódu založeného na Baubyho schopnosti mrkat jedním okem. Zde se nabízí jako nejjednodušší poskytnout pacientovi tabulku s písmeny zakódovanými do tzv. Morseovy abecedy, samozřejmě - vzhledem k univerzálnímu charakteru morseovky - upravené pro potřeby daného přirozeného jazyka (tj. kódování by se přizpůsobilo statistickým vlastnostem grafémického systému francouzštiny, češtiny atd.). Pacient by pak prostě každé písmeno zakódoval a zapisovatelka by pouze převedla jeho sdělení do grafémické podoby. Tento postup by byl pochopitelně nejrychlejší, ale pro Baubyho také nejnamáhavější - vezmeme-li v úvahu, že základní česká abeceda (zredukovaná o samostatné grafémy pro dlouhé vokály a konsonanty s diakritikou!) vykazuje průměrné zatížení jednoho grafému zhruba 3 mrknutí oka, pak by průměrně dlouhé české slovo (cca 5 - 6 písmen) vyžadovalo 15-18 mrknutí (o tom, že skutečný údaj by nakonec byl přeci jen nižší, níže). Nespornou výhodou tohoto postupu tedy zůstává snadná technická proveditelnosti, největší rychlost kódování a nejspíš i menší kognitivní náročnost pro Baubyho paměť a plánování výpovědí (umožňovalo by to pohodlnější tvorbu v reálném čase), nevýhodou pak relativně velká fyzická náročnost celého procesu.
Další možnou metodou představuje využití binárně koncipovaného algoritmu, který by sloužil jako průvodce hláskovým systémem daného jazyka (co nejpřehledněji vztaženým k jeho grafémové podobě). Ten by byl v základu opřen o kombinaci statistických výzkumů (četnost jednotlivých skupin hlásek i hlásek samotných v textech daného jazyka) a funkčně upravených klasických klasifikací hláskového systému na základě fonologických kritérií. V zájmu co nejmenšího zatížení pacienta bychom při průchodu systémem kódovali NE jako NEMRKNUTÍ, ANO jako MRKNUTÍ. Tak by při opětovném vynechání kvantity byl vokál kódován maximálně dvěma mrknutími (a navíc velice rychle), stejně tak neznělý konsonant, znělý by byl kódován jen jedním mrknutím. Výhodou celého systému je opět jeho technická nenáročnost a při mírném snížení rychlosti vyvažující menší zatížení pacienta (max. počet mrknutí na znak by se snížil na dvě mrknutí, což by při první variantě z hlediska úspornosti překonávaly pouze dva grafémy a vyrovnávaly grafémy čtyři).
Oba výše uvedené modely pracují s principy teorie informace velmi omezeně. Opírají se především o statistická zjištění týkající se četnosti grafémů v textech jazyka (případně fonémů dle fonologických kategorií), při podrobnějším zpracování by pak využívaly zjištění o frekvenci výskytu symbolu v závislosti na pozici ve slově (o tom níže) a při praktické aplikaci by zároveň oba modely přirozeně pracovaly s prediktabilitou následujícího symbolu, jež by ovšem byla ukotvena "pouze" jako znalost v jazykovém povědomí zapisovatelky. K efektivnějšímu využití teorie informace by však nejspíš směřovaly až modely následujícího typu.
Jak už bylo uvedeno výše, teorii informace zajímá statistická struktura zprávy, a to vzhledem k pojmu entropie, což je neurčitost symbolu vyjádřitelná také jako jeho informační hodnota (a tak vztáhnutelná např. k pojmu redundance). Teorie informace mimo jiné zjišťuje, kolik informace připadá průměrně na jeden symbol kódu a jakými vlastnostmi kódu (a vztahy v něm) je tato míra informace ovlivněna. Vlastně ji zajímá předpověditelnost...
Základním východiskem, se kterým pracuje i tabulka z Baubyho případu, je fakt, že jednotlivé symboly se v textech jazyka nevyskytují se stejnou frekvencí. Pravděpodobnost, že se v textu objeví určitý symbol, je u různých symbolů různá. "Míra neurčitosti před obdržením symbolu tedy závisí na počtu možných symbolů a na jejich pravděpodobnostech." (Padučevová, 1965) V případě, že bychom sestavovali základní "baubyovskou tabulku", mohli bychom se řídit právě četnostmi výskytů symbolů v textech (spíš než ve slovníku). V takovém případě by na prvním místě v tabulce pro češtinu stál grafém O (nepočítáme mezeru), druhý by byl grafém E atd. (viz např. Králík, 1985), což by mělo zefektivnit a zrychlit celý proces vyjadřování. Na tomto principu byla vystavěna tabulka ve filmu a koneckonců by se o něj opíral navrhovaný "morseovský" přístup a částečně i přístup "fonologický". Průměrná hodnota neurčitosti H1 = - [p(1)log2p(1) + p(2)log2p(2) + ... p(n)log2p(n)], kde n je počet symbolů v abecedě a p jsou pravděpodobnosti prvního až n-tého symbolu. Problémem tohoto jednoduchého přístupu je, že cenou, kterou platí za svoji jednoduchost, je právě ignorování vztahů v systému symbolů (jejich konexity). Takovýto přístup totiž pojímá symboly ve zprávě jako nezávislé a nezpracovává fakt, že v jazyce musíme počítat s tzv. podmíněnou pravděpodobností. Tak jako se s určitou četností vyskytují v textech jazyka základní symboly, platí to i o jejich řetězcích (matematici mluví v případě přirozeného jazyka o složitých markovovských řetězcích). Můžeme tedy zkoumat vlastnosti digramů (H2), trigramů (H3) atd. To vše samozřejmě v závislosti na velikosti vzorku, z něhož dané informace získáváme (čím větší řetězce, tím více se přibližujeme zjišťování frekvence slov, tedy musíme pracovat skutečně s velkým korpusem dat). Zatímco pro zjištění četnosti jednoduchých nezávislých symbolů stačí relativně malý vzorek (Königová a spol. pracovali se vzorkem 20 000 grafémů, viz Königová, 1965), pro zjišťování digramů a trigramů by takový vzorek už nejspíš dostatečný nebyl. Takovýto model odpovídá více naší intuici, že po grafémech následují další grafémy s nestejnou pravděpodobností. Pokud budeme např. někomu předříkávat tabulku písmen a on odsouhlasí písmeno P, pak můžeme při novém kole prezentace grafémů P v češtině klidně vynechat a (za jisté situace) rovnou přikročit ke grafému O. Vylepšená tabulka by v naší úpravě tedy musela obsahovat "podtabulky" operující minimálně s markovovskými, v lepším případě však přímo se složitými markovovskými procesy. Tak bychom se vyhnuli tomu, že bychom nerespektovali vztahy konexity, které v daném kódu panují.
Tento přístup bychom mohli samozřejmě dále zjemňovat a efektivizovat. Je např. zcela zřejmé, že jinou tabulku bychom potřebovali pro začátky slova, jinou pro jeho zakončení apod. Ukazuje se, že pozice grafému ve slově zřetelně ovlivňuje pravděpodonost jeho výskytu. Přestože je např. O nejfrekventovanější grafém v českých textech, tabulka pro počáteční písmeno slova by ho obsahovala až kolem sedmé pozice (jeho frekvence je silně ovlivněna vysokou frekvencí předložky o, předpony o-, zakončením tvarů ukazovacích zájmen apod.) a obecně byl by relativně osamoceným vokálem, protože frekvence vokálů je vysoká především v zakončení slovních tvarů (díky bohaté flexi češtiny). Stejně tak se mění entropie počátečního písmene v závislosti na frekvenci slov v jazyce (o tom pro češtinu např. Těšitelová, 1965).
Další zjištění, které můžeme využít, je údaj o průměrné délce slova v grafémech. Vezmeme-li v úvahu, že jazyková sdělení jsou do značné míry redundandní (kontext pomáhá posluchači dourčovat prediktabilitu zakončení slov apod.) a zvážíme-li průměrnou délku českého slova, mohou nás do jisté míry zajímat jen statistické vlastnosti a vztahy omezené na zhruba první čtyři grafémy českých slov. Vždy se však pohybujeme v aproximaci a testování, tj. musíme vzít v úvahu např. slovotvorné vlastnosti češtiny - typy předpon, závislost na slovních druzích apod. Podíváme-li se na nejfrekventovanější počáteční grafémy češtiny, zjistíme, že jejich frekvence je dána silnou produktivností předpon, na jejichž počátku stojí. V takovém případě bychom tedy s frekvencí pouhých čtyř prvních grafémů vystačili jen těžko... Atd. atd.
Tento stručný pohled na jednu z praktických aplikací vysoce teoretického jazykovědného výzkumu není samozřejmě vyčerpávající a nejspíš ani nejaktuálnější. Věřím, že existují sofistikované softwarové nástroje, které by, opřené o podrobnější výzkum češtiny, pomohly řešit "Baubyho problém" mnohem elegantněji, než zde bylo naznačeno. Nebohá terapeutka by si za filmem naznačených podmínek mohla dovolit tak maximálně speciální tabulku pro každou pozici ve slově, což by nebylo úplně neefektivní, ale pořád značně krkolomné. Přes veškerou snahu se mi zatím nepodařilo zjistit nic o případném aktuálně probíhajícím lingvistickém výzkumu současné češtiny. Pokud o něm víte nebo máte v šupleti dobrý algoritmus, podělte se :)
Čermák, F. - Křen, M. a kol.: Frekvenční slovník. Praha 2004.
http://en.wikipedia.org/wiki/The_Diving_Bell_and_the_Butterfly (5. 4. 2008)
Königová, M.: Odhad entropie vyšších řádů. Informační bulletin pro otázky jazykovědné. Kvantitativní lingvistika, 6, 1965, s. 17-23.
Králík, J.: Kvantitativní charakteristiky českých grafémů. In: Těšitelová, M. a kol.: Kvantitativní charakteristiky současné češtiny. Praha 1985.
Newman, E. B. - Waugh, N. C.: Redundance textů ve třech jazycích. In: Doležel, L. (ed.): Teorie informace a jazykověda. Praha 1964.
Padučevová, J. V.: Možnosti zkoumání jazyka metodami teorie informace. In: Exaktní metody v jazykovědě. Praha 1965.
Shannon, C. E.: Mathematical theory of Communication. Bell System Technical Journal, Vol. 27, pp. 379–423, 623–656, 1948.
Shannon, C. E.: Predikce a entropie tištěné angličtiny. In: Doležel, L. (ed.): Teorie informace a jazykověda. Praha 1964.
Těšitelová, M.: O entropii počátečních písmen v češtině. Informační bulletin pro otázky jazykovědné. Kvantitativní lingvistika, 6, 1965, s. 31-37.
Daná situace je velmi zajímavá z hlediska matematické a logizující i klasické lingvistiky a také neurolingvistiky (teorie informace a komunikace, teorie binárního kódování, problém vztahu mluvené a psané řeči ve vztahu k jazyku, afatické a neafatické poruchy atd.). V tomto postu se ale podrobněji zaměřím pouze na problematiku vztahu přirozeného jazyka (češtiny) a teorie informace. Zdá se, že komunikační kód, který zvolila terapeutka (v podání překrásné Marie-Josée Croze), je sice inspirován v základě správnou úvahou, ale představuje "pouhý" počátkek cesty k rozvinutí opravdu efektivního komunikačního prostředku. Je přitom nutné vzít v úvahu, že film nijak netematizuje způsob sestavení dané tabulky, takže se budeme pohybovat v rovině spekulací a instruktážních ilustrací. Ale minimálně zobrazované užívání tabulky trochu napoví a poslouží jako vstupní brána při exkurzu do světa (lingvistické) teorie informace.
V roce 1997, kdy se příběh francouzského žurnalisty J-D. Baubyho odehrál, již měla (nejen francouzská) lingvistika k dispozici velmi mnoho kvalitních údajů o tom, jaké jsou vlastnosti přirozeného jazyka nahlíženého z hlediska obecné teorie informace. Zájem lingvistů o výsledky matematiků pracujících na poli teorie informace a komunikace se totiž objevil záhy po publikování základní práce oboru, Shannonovy Mathematical Theory of Communication (Shannon, 1948). Podobně jako v případě aplikací matematických modelů v oblasti strojového překladu, i v případě teorie informace bylo počáteční nadšení zchlazeno složitostí problematiky, nesporné výsledky však dlouhodobý výzkum přeci jen přinesl. Ukázalo se, že modely přirozeného jazyka pojímaného jako kód (symbolický systém s určitými statisticky relevantními vlastnostmi jako jsou konexita jeho prvků, statistická struktura zprávy, množství informace apod.), které vycházejí např. z markovovských procesů, mohou nejen vypovědět mnoho teoreticky zajímavého o vlastnostech přirozených jazyků a průběhu našeho dorozumívání, ale mohou přinést i spoustu praktického využití (např. Baubyho případ).
Od počátku se výzkumy v oblasti přirozených jazyků týkaly aplikací klíčového pojmu teorie informace, entropie (průměrného množství informace na jeden symbol jazyka, vyjádřené konvenčně v bitech). Bylo vypracováno několik typů metod pro její zjišťování (viz např. Königová, 1965, podrobněji o některých pak v Shannon, 1964 a Newman - Waugh, 1964), jejichž vývoj odrážel uvědomování si, jak složité vztahy existují uvnitř přirozených jazyků i mezi nimi navzájem. A právě to, jak bylo ve Skafandru a motýlovi používáno pomocné tabulky, nám pomůže na některé z těchto vztahů poukázat.
Jak vyplývá z výše uvedeného, úkolem Baubyho terapeutky bylo vymyslet co nejefektivnější způsob, jak z minima pacientových možností vytěžit maximálně efektivní nástroj pro jeho možné vyjádření. Celkem pochopitelně usoudila, že nezbývá nic jiného, než směřovat svou snahu k vystavění kódu založeného na Baubyho schopnosti mrkat jedním okem. Zde se nabízí jako nejjednodušší poskytnout pacientovi tabulku s písmeny zakódovanými do tzv. Morseovy abecedy, samozřejmě - vzhledem k univerzálnímu charakteru morseovky - upravené pro potřeby daného přirozeného jazyka (tj. kódování by se přizpůsobilo statistickým vlastnostem grafémického systému francouzštiny, češtiny atd.). Pacient by pak prostě každé písmeno zakódoval a zapisovatelka by pouze převedla jeho sdělení do grafémické podoby. Tento postup by byl pochopitelně nejrychlejší, ale pro Baubyho také nejnamáhavější - vezmeme-li v úvahu, že základní česká abeceda (zredukovaná o samostatné grafémy pro dlouhé vokály a konsonanty s diakritikou!) vykazuje průměrné zatížení jednoho grafému zhruba 3 mrknutí oka, pak by průměrně dlouhé české slovo (cca 5 - 6 písmen) vyžadovalo 15-18 mrknutí (o tom, že skutečný údaj by nakonec byl přeci jen nižší, níže). Nespornou výhodou tohoto postupu tedy zůstává snadná technická proveditelnosti, největší rychlost kódování a nejspíš i menší kognitivní náročnost pro Baubyho paměť a plánování výpovědí (umožňovalo by to pohodlnější tvorbu v reálném čase), nevýhodou pak relativně velká fyzická náročnost celého procesu.
Další možnou metodou představuje využití binárně koncipovaného algoritmu, který by sloužil jako průvodce hláskovým systémem daného jazyka (co nejpřehledněji vztaženým k jeho grafémové podobě). Ten by byl v základu opřen o kombinaci statistických výzkumů (četnost jednotlivých skupin hlásek i hlásek samotných v textech daného jazyka) a funkčně upravených klasických klasifikací hláskového systému na základě fonologických kritérií. V zájmu co nejmenšího zatížení pacienta bychom při průchodu systémem kódovali NE jako NEMRKNUTÍ, ANO jako MRKNUTÍ. Tak by při opětovném vynechání kvantity byl vokál kódován maximálně dvěma mrknutími (a navíc velice rychle), stejně tak neznělý konsonant, znělý by byl kódován jen jedním mrknutím. Výhodou celého systému je opět jeho technická nenáročnost a při mírném snížení rychlosti vyvažující menší zatížení pacienta (max. počet mrknutí na znak by se snížil na dvě mrknutí, což by při první variantě z hlediska úspornosti překonávaly pouze dva grafémy a vyrovnávaly grafémy čtyři).
Oba výše uvedené modely pracují s principy teorie informace velmi omezeně. Opírají se především o statistická zjištění týkající se četnosti grafémů v textech jazyka (případně fonémů dle fonologických kategorií), při podrobnějším zpracování by pak využívaly zjištění o frekvenci výskytu symbolu v závislosti na pozici ve slově (o tom níže) a při praktické aplikaci by zároveň oba modely přirozeně pracovaly s prediktabilitou následujícího symbolu, jež by ovšem byla ukotvena "pouze" jako znalost v jazykovém povědomí zapisovatelky. K efektivnějšímu využití teorie informace by však nejspíš směřovaly až modely následujícího typu.
Jak už bylo uvedeno výše, teorii informace zajímá statistická struktura zprávy, a to vzhledem k pojmu entropie, což je neurčitost symbolu vyjádřitelná také jako jeho informační hodnota (a tak vztáhnutelná např. k pojmu redundance). Teorie informace mimo jiné zjišťuje, kolik informace připadá průměrně na jeden symbol kódu a jakými vlastnostmi kódu (a vztahy v něm) je tato míra informace ovlivněna. Vlastně ji zajímá předpověditelnost...
Základním východiskem, se kterým pracuje i tabulka z Baubyho případu, je fakt, že jednotlivé symboly se v textech jazyka nevyskytují se stejnou frekvencí. Pravděpodobnost, že se v textu objeví určitý symbol, je u různých symbolů různá. "Míra neurčitosti před obdržením symbolu tedy závisí na počtu možných symbolů a na jejich pravděpodobnostech." (Padučevová, 1965) V případě, že bychom sestavovali základní "baubyovskou tabulku", mohli bychom se řídit právě četnostmi výskytů symbolů v textech (spíš než ve slovníku). V takovém případě by na prvním místě v tabulce pro češtinu stál grafém O (nepočítáme mezeru), druhý by byl grafém E atd. (viz např. Králík, 1985), což by mělo zefektivnit a zrychlit celý proces vyjadřování. Na tomto principu byla vystavěna tabulka ve filmu a koneckonců by se o něj opíral navrhovaný "morseovský" přístup a částečně i přístup "fonologický". Průměrná hodnota neurčitosti H1 = - [p(1)log2p(1) + p(2)log2p(2) + ... p(n)log2p(n)], kde n je počet symbolů v abecedě a p jsou pravděpodobnosti prvního až n-tého symbolu. Problémem tohoto jednoduchého přístupu je, že cenou, kterou platí za svoji jednoduchost, je právě ignorování vztahů v systému symbolů (jejich konexity). Takovýto přístup totiž pojímá symboly ve zprávě jako nezávislé a nezpracovává fakt, že v jazyce musíme počítat s tzv. podmíněnou pravděpodobností. Tak jako se s určitou četností vyskytují v textech jazyka základní symboly, platí to i o jejich řetězcích (matematici mluví v případě přirozeného jazyka o složitých markovovských řetězcích). Můžeme tedy zkoumat vlastnosti digramů (H2), trigramů (H3) atd. To vše samozřejmě v závislosti na velikosti vzorku, z něhož dané informace získáváme (čím větší řetězce, tím více se přibližujeme zjišťování frekvence slov, tedy musíme pracovat skutečně s velkým korpusem dat). Zatímco pro zjištění četnosti jednoduchých nezávislých symbolů stačí relativně malý vzorek (Königová a spol. pracovali se vzorkem 20 000 grafémů, viz Königová, 1965), pro zjišťování digramů a trigramů by takový vzorek už nejspíš dostatečný nebyl. Takovýto model odpovídá více naší intuici, že po grafémech následují další grafémy s nestejnou pravděpodobností. Pokud budeme např. někomu předříkávat tabulku písmen a on odsouhlasí písmeno P, pak můžeme při novém kole prezentace grafémů P v češtině klidně vynechat a (za jisté situace) rovnou přikročit ke grafému O. Vylepšená tabulka by v naší úpravě tedy musela obsahovat "podtabulky" operující minimálně s markovovskými, v lepším případě však přímo se složitými markovovskými procesy. Tak bychom se vyhnuli tomu, že bychom nerespektovali vztahy konexity, které v daném kódu panují.
Tento přístup bychom mohli samozřejmě dále zjemňovat a efektivizovat. Je např. zcela zřejmé, že jinou tabulku bychom potřebovali pro začátky slova, jinou pro jeho zakončení apod. Ukazuje se, že pozice grafému ve slově zřetelně ovlivňuje pravděpodonost jeho výskytu. Přestože je např. O nejfrekventovanější grafém v českých textech, tabulka pro počáteční písmeno slova by ho obsahovala až kolem sedmé pozice (jeho frekvence je silně ovlivněna vysokou frekvencí předložky o, předpony o-, zakončením tvarů ukazovacích zájmen apod.) a obecně byl by relativně osamoceným vokálem, protože frekvence vokálů je vysoká především v zakončení slovních tvarů (díky bohaté flexi češtiny). Stejně tak se mění entropie počátečního písmene v závislosti na frekvenci slov v jazyce (o tom pro češtinu např. Těšitelová, 1965).
Další zjištění, které můžeme využít, je údaj o průměrné délce slova v grafémech. Vezmeme-li v úvahu, že jazyková sdělení jsou do značné míry redundandní (kontext pomáhá posluchači dourčovat prediktabilitu zakončení slov apod.) a zvážíme-li průměrnou délku českého slova, mohou nás do jisté míry zajímat jen statistické vlastnosti a vztahy omezené na zhruba první čtyři grafémy českých slov. Vždy se však pohybujeme v aproximaci a testování, tj. musíme vzít v úvahu např. slovotvorné vlastnosti češtiny - typy předpon, závislost na slovních druzích apod. Podíváme-li se na nejfrekventovanější počáteční grafémy češtiny, zjistíme, že jejich frekvence je dána silnou produktivností předpon, na jejichž počátku stojí. V takovém případě bychom tedy s frekvencí pouhých čtyř prvních grafémů vystačili jen těžko... Atd. atd.
Tento stručný pohled na jednu z praktických aplikací vysoce teoretického jazykovědného výzkumu není samozřejmě vyčerpávající a nejspíš ani nejaktuálnější. Věřím, že existují sofistikované softwarové nástroje, které by, opřené o podrobnější výzkum češtiny, pomohly řešit "Baubyho problém" mnohem elegantněji, než zde bylo naznačeno. Nebohá terapeutka by si za filmem naznačených podmínek mohla dovolit tak maximálně speciální tabulku pro každou pozici ve slově, což by nebylo úplně neefektivní, ale pořád značně krkolomné. Přes veškerou snahu se mi zatím nepodařilo zjistit nic o případném aktuálně probíhajícím lingvistickém výzkumu současné češtiny. Pokud o něm víte nebo máte v šupleti dobrý algoritmus, podělte se :)
Čermák, F. - Křen, M. a kol.: Frekvenční slovník. Praha 2004.
http://en.wikipedia.org/wiki/The_Diving_Bell_and_the_Butterfly (5. 4. 2008)
Königová, M.: Odhad entropie vyšších řádů. Informační bulletin pro otázky jazykovědné. Kvantitativní lingvistika, 6, 1965, s. 17-23.
Králík, J.: Kvantitativní charakteristiky českých grafémů. In: Těšitelová, M. a kol.: Kvantitativní charakteristiky současné češtiny. Praha 1985.
Newman, E. B. - Waugh, N. C.: Redundance textů ve třech jazycích. In: Doležel, L. (ed.): Teorie informace a jazykověda. Praha 1964.
Padučevová, J. V.: Možnosti zkoumání jazyka metodami teorie informace. In: Exaktní metody v jazykovědě. Praha 1965.
Shannon, C. E.: Mathematical theory of Communication. Bell System Technical Journal, Vol. 27, pp. 379–423, 623–656, 1948.
Shannon, C. E.: Predikce a entropie tištěné angličtiny. In: Doležel, L. (ed.): Teorie informace a jazykověda. Praha 1964.
Těšitelová, M.: O entropii počátečních písmen v češtině. Informační bulletin pro otázky jazykovědné. Kvantitativní lingvistika, 6, 1965, s. 31-37.