štvrtok 24. apríla 2008

Nedočkavosť

Síce som si chcel dať pár dní pauzu, ale nepodarilo sa :) Takže rovno včera som sa pustil do druhej fázy. Upravil som program, tak aby akceptoval časť značky zadanú nie ako reťazec, ale ako regulárny výraz. To znamená, že sa to už dá používať aj na hádanie značiek. Samozrejme, že by to chcelo viac vzorov, ale zatiaľ to potrebujem len na dva pády pri predložkách. Existujú síce predložky s tromi pádmi, ale výskyty sú celkom o ničom.

Prepočítal som predložky o, na, pred, vo (pôvodne som myslel, že tam mám aj v; takže to až zajtra). Predložky pred a vo (500K a 700K výskytov) priniesli rapídny nárast preklepov v nespracovanej časti (15-20%) a zhruba 800 nových prídavných mien. Predložka o ich dala 2 tisíc a pri predložke na (~4M) ich na mňa čaká ďalších takmer 6 tisíc. Posledná veľká predložka, ktorá ostáva je v (~5M).

Začal som písať článok na konferenciu, ale príliš sa mi do toho nechce. Takže očakávam, že keď sa vyspím, tak sa pokúsim využiť vzory na tvorbu vzťahov medzi slovami (stupňovanie, negácia). Toto by teoreticky nemal byť žiaden väčší problém, ale človek nikdy nevie. Omnoho väčší problém mi robí prefixácia, pretože mi je jasné, že minimálne číselné prefixy by sa mali dať nejako skladať. Na strane druhej to znamená povedať, že popisovať morfológiu čisto cez systém vzorov je chobotina. Ledaže by som to popísal vzorom :)

Žiadne komentáre: