sobota 5. januára 2008

Česko-slovenské slovníky

Slovníky patria medzi najdôležitejšie časti prekladového systému (pri štatistickom preklade síce slovník nemusíme mať, ale nahradzuje ho paralelný korpus - čo je vlastne taký lepší slovník :)). Vzhľadom na spoločný štát by sme sa mohli domnievať, že česko-slovenských slovníkov bude dostatok. Lenže to nie je tak úplne pravda.

Papierové slovníky

Knižne vyšlo hneď niekoľko slovníkov, ktoré na rozdiel od napr. anglicko-slovenských sa nesnažia o pokrytie všetkých slov. Ľudia si totižto dokážu poskladať podobné slová k sebe aj bez slovníku (padať - padat, pes - pes). A keďže všetky existujúce slovníky vznikali pre ľudí, ktorí takéto slová nepotrebujú, tak všetky papierové slovníky sú diferenčné slovníky. Čo je tak trochu problém pre strojové spracovanie a strojový preklad :( Z takýchto slovníkov mám najlepšie referencie na Slovensko-český a česko-slovenský slovník rozdílných výrazů (Jaroslav Nečas, Miloslav Kopecký, ISBN 8004224172).

Elektronické slovníky

Jediný rozumne veľký elektronický slovník PC Translator sa predáva buď zvlášť, alebo alebo v komplete do ktorého patria aj poľština, maďarčina, latinčina, portugalčina a holandčina (nesnažte sa pochopiť, čo majú tieto jazyky spoločné :)). V reklame sa dozviete, že česko-slovenský slovník obsahuje viac než 200 tisíc významových dvojíc. Znamená to, že ide o najjednoduchší typ slovníku (prekladový tezaurus) v ktorom nie sú k jednotlivým prekladovým dvojiciam pridávané podrobnejšie popisy významov, príklady a ďalšie (občas) užitočné informácie. Znamená to tiež, že ak má slovo viac prekladov, tak má
aj viacero prekladových dvojíc. Predávaná verzia (máme ju kúpenú) je len obtiažne použiteľná, pretože obsahuje:
  • slovenské slová o ktorých nikto nechtyroval (ani ja, ani google, ani SNK)
  • slová aj v inom ako základnom tvare, ale zase nie všetky tvary
  • slovné spojenia, ktoré vzniknú len pospájaním slov bez akejkoľvek inej zmeny (napr. špeciálna žabia jednotka -> speciální žabí jednotka)
Keď sa odstráni väčšina tohoto balastu, tak sa dostaneme k reálnym číslam. Aktuálne má vyčistená verzia tohoto slovníku približne 82 tisíc dvojíc (cca 1.1 prekladu na slovenské slovo). Tento vyčistený slovník dostal kódové označenie ŽUMPA, pretože ešte stále obsahuje (minimálne) niekoľko stoviek dvojíc, ktoré tam nemajú, čo robiť. Bohužiaľ, nič lepšie nie je na obzore a tak teraz pracujem na tvorbe nového slovníku (ktorý stále nemá rozumné meno).

Slovníky na internete

Na internete sa mi podarilo nájsť dva česko-slovenské slovníky. Na stránke Slovákov žijúcich v Prahe (www.somvprahe.cz) sa nachádza elektronická verzia Slovensko-český a česko-slovenský slovník na cesty (Magdaléna Feifičová, Vladimír Němec, ISBN 80-85853-66-3). Tento slovník obsahuje 6780 slovníkových hesiel (zrejme dokopy, pretože to má 144 strán malého formátu). Druhý sa nachádza na stránke, ktorá združuje viacero slobodných (GNU/FDL-GPL) slovníkov. Medzi nich patrí aj česko-slovenský slovník, bohužiaľ všetky ich slovníky majú spolu len 28tisíc dvojíc (tj. vrátane slovensko-anglického, slovensko-nemeckého, ...).

Žiadne komentáre: