piatok 18. januára 2008

Zase tie slovníky

Včera sa mi podarilo odovzdať tézy dizertačnej práce. To znamená, že momentálne nemám žiaden skorý deadline a môžem robiť všakovaké zaujímavé veci. Začal som sa opäť venovať slovníkom, a to takým, ktoré dokážem generovať. Je jasné, že takéto niečo nebude nikdy fungovať pre slovenčinu a čínštinu, ale s češtinou by to mohlo byť lepšie. A ono to aj skutočne lepšie je :)

Celý postup som prezentoval na konferencii Slovko 2007, z ktorej je k voľne dostupný zborník. Tak len v skratke. Základné ingrediencie sú zoznamy slov v oboch jazykoch (len základné tvary), doplnené o ručne napísané pravidlá, Levenshteinova vzdialenosť (zrejme by ju bolo fajn doplniť aj do slovenskej wikipédie) a jej upravená verzia. Pomocou pravidiel spravíme zo slovenských slov kandidátov na české slová a ak je to málo, tak nájdeme medzi českými slovami to najpodobnejšie. Tá posledná časť patrí asi medzi tie najkomplikovanejšie, ale bohužiaľ sa mi ešte žiadne fakt dobré riešenie nepodarilo nájsť :( Verím, že moje posledné nápady s využitím korpusov by mohli priniesť ovocie. Dnes som sa, ale hral so slovinsko-srbským slovníkom, ktorý mi poslal Jernej. Použil som rovnaké metódy (kvôli tomu som prepisoval svoje skripty ešte pred Vianocami), akurát tie pravidlá som vymýšlal ja. Čo nie je práve výhra, keďže neviem srbsky a slovinsky :) ale zopár som ich trafil.

Baseline ukazuje omnoho vyššie pokrytie ako pre češtinu a slovenčinu (36.7% vs 18.4%), ale zato s nižšou presnosťou (90.2% vs 99.3%). Aj keď možno je to len kvalitou slovníka. Zajtra sa pokúsim o trošku presnejšie vyhodnotenie. Budovanie slovníku pár hodín trvá.

sobota 5. januára 2008

Česko-slovenské slovníky

Slovníky patria medzi najdôležitejšie časti prekladového systému (pri štatistickom preklade síce slovník nemusíme mať, ale nahradzuje ho paralelný korpus - čo je vlastne taký lepší slovník :)). Vzhľadom na spoločný štát by sme sa mohli domnievať, že česko-slovenských slovníkov bude dostatok. Lenže to nie je tak úplne pravda.

Papierové slovníky

Knižne vyšlo hneď niekoľko slovníkov, ktoré na rozdiel od napr. anglicko-slovenských sa nesnažia o pokrytie všetkých slov. Ľudia si totižto dokážu poskladať podobné slová k sebe aj bez slovníku (padať - padat, pes - pes). A keďže všetky existujúce slovníky vznikali pre ľudí, ktorí takéto slová nepotrebujú, tak všetky papierové slovníky sú diferenčné slovníky. Čo je tak trochu problém pre strojové spracovanie a strojový preklad :( Z takýchto slovníkov mám najlepšie referencie na Slovensko-český a česko-slovenský slovník rozdílných výrazů (Jaroslav Nečas, Miloslav Kopecký, ISBN 8004224172).

Elektronické slovníky

Jediný rozumne veľký elektronický slovník PC Translator sa predáva buď zvlášť, alebo alebo v komplete do ktorého patria aj poľština, maďarčina, latinčina, portugalčina a holandčina (nesnažte sa pochopiť, čo majú tieto jazyky spoločné :)). V reklame sa dozviete, že česko-slovenský slovník obsahuje viac než 200 tisíc významových dvojíc. Znamená to, že ide o najjednoduchší typ slovníku (prekladový tezaurus) v ktorom nie sú k jednotlivým prekladovým dvojiciam pridávané podrobnejšie popisy významov, príklady a ďalšie (občas) užitočné informácie. Znamená to tiež, že ak má slovo viac prekladov, tak má
aj viacero prekladových dvojíc. Predávaná verzia (máme ju kúpenú) je len obtiažne použiteľná, pretože obsahuje:
  • slovenské slová o ktorých nikto nechtyroval (ani ja, ani google, ani SNK)
  • slová aj v inom ako základnom tvare, ale zase nie všetky tvary
  • slovné spojenia, ktoré vzniknú len pospájaním slov bez akejkoľvek inej zmeny (napr. špeciálna žabia jednotka -> speciální žabí jednotka)
Keď sa odstráni väčšina tohoto balastu, tak sa dostaneme k reálnym číslam. Aktuálne má vyčistená verzia tohoto slovníku približne 82 tisíc dvojíc (cca 1.1 prekladu na slovenské slovo). Tento vyčistený slovník dostal kódové označenie ŽUMPA, pretože ešte stále obsahuje (minimálne) niekoľko stoviek dvojíc, ktoré tam nemajú, čo robiť. Bohužiaľ, nič lepšie nie je na obzore a tak teraz pracujem na tvorbe nového slovníku (ktorý stále nemá rozumné meno).

Slovníky na internete

Na internete sa mi podarilo nájsť dva česko-slovenské slovníky. Na stránke Slovákov žijúcich v Prahe (www.somvprahe.cz) sa nachádza elektronická verzia Slovensko-český a česko-slovenský slovník na cesty (Magdaléna Feifičová, Vladimír Němec, ISBN 80-85853-66-3). Tento slovník obsahuje 6780 slovníkových hesiel (zrejme dokopy, pretože to má 144 strán malého formátu). Druhý sa nachádza na stránke, ktorá združuje viacero slobodných (GNU/FDL-GPL) slovníkov. Medzi nich patrí aj česko-slovenský slovník, bohužiaľ všetky ich slovníky majú spolu len 28tisíc dvojíc (tj. vrátane slovensko-anglického, slovensko-nemeckého, ...).

Intro

Práve som vytvoril svoj druhý blog (ak sa ráta aj môj občasník, tak tretí). Občasník je úplne mišmaš, ktorý píšem hlavne pre seba a existujúci blog o linuxe a príbuzných veciach je na abclinuxu.cz Tento blog by sa mal zameriavať na všetko zaujímavé, čo sa bude (aspoň okrajovo) týkať strojového prekladu.

Zaujímam sa o strojový preklad medzi blízkymi jazykmi (najmä čeština-slovenčina) , ale ak sa stretnem s niečím iným zaujímavým, tak by som sa to snažil neobchádzať. Verím, že za nejaký ten rok sa mi podarí vytvoriť prekladač, ktorý bude schopný FAHQMT (Fully-Automatic Human-Quality Machine Translation). K tomu mám zatiaľ dosť ďaleko :)