sobota 19. apríla 2008

Prídavné mená v korpuse - koniec teoretizovania

Dnes som prišiel na to, že všetko je úplne inak ako som si myslel. Podarilo sa mi objaviť chybu v metóde single, ktorá sa prejavovala v prípade, že slovo malo síce len jednu možnosť lemma:vzor, ale opakovala sa (rozdiel bol v gramatickej značke). Okamžite sa prejavilo, že nemám ošetrené prípady pre vzor dub s poslednou dlhou slabikou (tie sa pletú s prídavnými menami). Vďaka Michalovi sa podarilo nahodiť nové Ubuntu na tri asterie (Xeon 2Ghz, 4GB). Na nich dokážem reálne dosahovať rýchlosť okolo 80 tisíc konkordancií za minútu, tj. do pol hodiny mám aj tú najfrekventovanejšiu predložku :)

Potom som sa pustil do pridávania slov do centrálnej databázy. Aktuálne je v nej 14 tisíc kandidátov na prídavné mená a za správne je označených okolo 95%. Nesprávne sa nevymazávajú, ale sa len označia, takže ich nemusím prechádzať pri každej predložke. Zatiaľ som sa sústredil len na 'skutočné' prídavné mená, tj. vzory pekný, cudzí a vtáčí. Vzor otcov si nechávam do rezervy, pretože to všetko by malo byť odvodené od podstatných mien. Najbližším cieľom je skontrolovať aj zvyšných ~7 tisíc kandidátov na prídavné mená. Na porovnanie, slovenský ispell má necelých 15 'skutočných' prídavných mien, SSJČ obsahuje 30 tisíc značiek príd. zo 120 tisíc slov. Normálne slovníky, vrátane SSJČ, majú v skutočnosti tých prídavných mien viac, pretože ispell (a zatiaľ ani ja) nespája stupňovanie pod jednu lemmu.

Žiadne komentáre: