piatok 18. apríla 2008

Hľadanie v korpuse IV

Moja pracovná nálada stále nepoľavuje a pretože už za sebou začínam vidieť reálne výsledky, tak to snáď ešte chvíľku vydrží. Ale pekne po poriadku. Po včerajšom neúspechu s inštaláciou Ubuntu (fakt divný problém s DHCP) a úspešnom návrate môjho počítača z reklamácie som sa vrátil k predložkám.

Podarilo sa mi vytvoriť nové vzory alchýmia a aféra, ktoré odfiltrovali najčastejšie včerajśie chyby. Pôvodne som myslel, že budem potrebovať aj vzor dub (resp. nejaký jeho podvzor), ale takéto slová padli pod vzor aféra. Čo síce nie je správne, ale vzory pre podstatné mená slúžia momentálne len na hľadanie konfliktov a neočakávam, že dávajú stopercentne korektné výsledky. So vzorom alchýmia bol ešte ten problém, źe som testoval len prvý rozklad slova na hlásky a keďže tam vzniklo ia, tak to nepasovalo s poslednou hláskou, ktorá mala byť a.

Po týchto úpravach som zase všetko pregeneroval, vypadlo toho o kúsok menej ako naposledy, ale podľa mňa sa výrazne zvýšila kvalita. Pri metóde single ubudlo ~tisíc kandidátov a pri metóde intersect (tá
kompilikovanejšia, čo dáva viac výsledkov) to kleslo o ~2500 výsledných priradení lemma:vzor. Pre vzory prídavných mien nám toho ubudlo viac ako pribudlo, kvôli novým vzorom, takže aktuálne čísla pre single sú 12 tisíc a pre intersect 41 tisíc (tu už máme zlúčené aj malé a veľké písmená)

Aby som si overil kvalitu výsledných dát, tak som výsledky pre predložku cez (single) prešiel ručne. Do vzoru vtáčí nám nepatrilo nič, do vzoru cudzí nám patrilo 41 slov a všetky boli správne. Najväčšia skupina patrila do vzoru pekný. Z nich som vybral tie, ktoré začínajú aj malým písmenom, to preto aby som sa vyhol vlastným menám. Týchto slov som mal 2281 a z nich som za pofidérne označil 75 (3.2%), takéto slová sú buď preklepy, alebo som si nebol istý či sú správne (napr. zhluknutý, elektornický). V každom prípade, takúto chybovosť považujem za prijateľnú a môžem sa pustiť do overovania aj zvyšných desiatich tisíc prídavných mien :)

Zo včerajšieho todo listu ubudli: oprava vzorov a prejdenie pár tisíc slov, čo bolo viacmenej nahradené za prejdenie všetkých slov :) takže som si príliš nepomohol.

Žiadne komentáre: