piatok 18. januára 2008

Zase tie slovníky

Včera sa mi podarilo odovzdať tézy dizertačnej práce. To znamená, že momentálne nemám žiaden skorý deadline a môžem robiť všakovaké zaujímavé veci. Začal som sa opäť venovať slovníkom, a to takým, ktoré dokážem generovať. Je jasné, že takéto niečo nebude nikdy fungovať pre slovenčinu a čínštinu, ale s češtinou by to mohlo byť lepšie. A ono to aj skutočne lepšie je :)

Celý postup som prezentoval na konferencii Slovko 2007, z ktorej je k voľne dostupný zborník. Tak len v skratke. Základné ingrediencie sú zoznamy slov v oboch jazykoch (len základné tvary), doplnené o ručne napísané pravidlá, Levenshteinova vzdialenosť (zrejme by ju bolo fajn doplniť aj do slovenskej wikipédie) a jej upravená verzia. Pomocou pravidiel spravíme zo slovenských slov kandidátov na české slová a ak je to málo, tak nájdeme medzi českými slovami to najpodobnejšie. Tá posledná časť patrí asi medzi tie najkomplikovanejšie, ale bohužiaľ sa mi ešte žiadne fakt dobré riešenie nepodarilo nájsť :( Verím, že moje posledné nápady s využitím korpusov by mohli priniesť ovocie. Dnes som sa, ale hral so slovinsko-srbským slovníkom, ktorý mi poslal Jernej. Použil som rovnaké metódy (kvôli tomu som prepisoval svoje skripty ešte pred Vianocami), akurát tie pravidlá som vymýšlal ja. Čo nie je práve výhra, keďže neviem srbsky a slovinsky :) ale zopár som ich trafil.

Baseline ukazuje omnoho vyššie pokrytie ako pre češtinu a slovenčinu (36.7% vs 18.4%), ale zato s nižšou presnosťou (90.2% vs 99.3%). Aj keď možno je to len kvalitou slovníka. Zajtra sa pokúsim o trošku presnejšie vyhodnotenie. Budovanie slovníku pár hodín trvá.

Žiadne komentáre: