sobota 22. novembra 2008

Trdlo News #01

Už štvrtý krát mi padol Firefox pri písaní tohoto zápisku a začína ma to štvať (aj napriek priebežnému ukladaniu mi tam zase nič neostalo). Posledný týždeň som pracoval na frameworku Trdlo a podarilo sa mi nájsť pár drobných, ale podstatných chýb. V novej verzii budú dve zásadné novinky, ktoré by mohli byť užitočné.
Odkaz
Prvou je využitie existujúceho slovníku, aby sa ku známym slovám už nehľadali ekvivalenty. Ak by sme mali nediferenčný slovník, tak by sme ho pripojili presne sem :) Samozrejme, že takýto slovník nemáme.

Ale máme druhú novinku, ktorá nám ho vytvorí. Niečo podobné česko-slovenskému slovníku sa dá získať z názvov článkov z wikipédie. Vezmeme celú wikipédiu v zdrojovom jazyku (sk) a nájdeme odkazy vedúce na cieľový jazyk (cs). Pre istotu však vezmeme len jednoslovné výrazy a slová, ktoré sa neprekladajú rovnako, pretože tie nám neprinesú žiadnu novú informáciu (takéto slová nájdeme vždy). Následne získame ~3000 párov slov, ktoré sa pri použitom slovenskom wordliste prejavia v pokrytí 1550 slov (~2%). Keďže očakávame, že takýto slovník má veľmi vysokú presnosť, tak ho zaradíme na prvé miesto. Po vypočítaní nových slovníkov sa dostávame do situácie, že reálne zlepšenie predstavuje asi 200 slov. Všetky ostatné slová by sme našli pomocou existujúcich metód.

Treťou novinkou, ktorá sa ukázala ako nepoužiteľná je spraviť prienik medzi slovami, ktoré získame prácou nad celými slovami a prácou nad spoluhláskami (v danom slove). Tu sa ukázalo, že výsledok je menej kvalitný :( Ak rátame aj pokus s wikipédiu, tak to sú dve slepé cesty na tento týždeň.