nedeľa 8. júna 2008

Článok: Automatic Lexical Acquisition from Raw Corpora

Nakoniec sa mi úspešne podarilo zložiť SDZ a tak sa možem viac venovať užitočnejšej práci. Nedávno sa mi dostal článok Automatic Lexical Acquisition from Raw Corpora: An Application to Russian. Cieľ je veľmi podobný ako u mňa. Z neoznačkovaného korpusu vytiahnuť čo sa dá.

Morfologické pravidlá sú zapisané ako regulárne výrazy s tým, že sa kladú podmienky na tvar v korpuse; transformácia na základný tvar s využitím toho, čo sa získalo v reg. výraze tj. je možné vkladať znak (názve - názov) a nepotrebujeme tvoriť nové vzory ako v ajke. V podstate celý systém je popísaný len týmito pravidlami a vzory v tradičnom chápaní nie sú. Konflikty riešia veľmi jednoducho, odstránia takéto pravidlá. V podstate veľmi podobne som to riešil aj ja s prídavnými menami. Pri podstatných menách sa mi zdá, že to nepojde len tak využiť, pretože ten prekryv je výrazne väčší. Celý pokus u nich prebiehal na korpuse, ktorý obsahoval len korektné tvary (aby to šlo overovať) a jednalo sa vlastne len o zoznam slovných tvarov.

Pekný sa mi zdal akurát ten nápad s regulárnymi výrazmi a zrušenie vzorov. Na druhej strane sa mi zdá, že moj nápad s extrakciou je omnoho sofistikovanejší :) Či už použitím komplikovanejšieho formalizmu na vzory, ale aj pripravovanej extrakcie v prípade konfliktov.

Žiadne komentáre: