nedeľa 4. mája 2008

Zhrnutie: Prídavné mená z korpusu

Písanie článku som nakoniec vzdal, pretože sa mi nechcelo :( Ale, aby som nezabudol na dôležité fakty, tak ich uvediem sem.

Hľadal som prídavné mená, ktoré sa nachádzajú za predložkami v aktuálnej verzii SNK. Celkovo som spracoval 21,5 milióna konkordancií, z ktorých som získal 38632 kandidátov na prídavné mená (tj. vzor cudzí, páví, pekný). Prechádzal som postupne predložku za predložkou a vytváral morfologickú databázu (lema : vzor, kde lema je najbližší základ napr. najkľudnejší), žiadne vzťahy medzi slovami som zatiaľ nehľadal. Označoval som slová ako preklepy, alebo české slová. Niekedy to určite nebolo objektívne a preto sú v databázi aj nesprávne slová (akurát označené). V úvode sa chybovosť pohybovala okolo 5%, ale so zväčšujúcou morfologickou databázou sa toto číslo (zhruba od 20.000 kandidátov) zväčšovalo. Pri poslednej predložke 'v' (5.3 mil) to narástlo až na takmer 50%, zisk už len asi tisíc nových prídavných mien. Tj. táto metóda nám toho bez zlepšenia už o veľa viac nedá. Zlepšovať sa určite dá metóda, ktorá vyberá z možných lemát to správne. K tomu, či by to ešte malo zmysel sa dostanem.

Korektných prídavných mien v databázi: 34662 (89.7%)
Nekorektných prídavných mien v databázi: 3970 (10.3%)

Hlavné zdroje problémov sú: preklepy, slová bez diakritiky, české slová a nevyriešené konflikty s podstatnými menami mužského rodu s poslednou slabikou dlhou (napr. areály, generály). Reálne sa dajú riešiť len tie konflikty a preklepy sa dajú nachádzať poloautomaticky [bohužiaľ tam obvykle padne aj veľa správnych slov].

Porovnanie výsledkov s existujúcimi databázami. Porovnávať sa dá s PSP, KSSJ a slovenským ispellom. Keďže zdrojové dáta mám len z ispellu (a len ten má podobné chápanie lemy), tak porovnanie s ním. Ispell pozná 14.694 prídavných mien, Langusta ich má 34.662. Pri správnych slovách sa prekrývame v 10.120 prípadoch (69%). 84 slov z langusty (0.5%) má ispell medzi korektnými, niektoré z nich sú nesprávne v ispelli, väčšina z nich v languste [opravím, keď bude fungovať elektronický KSSJ; a pošlem bugreport do ispellu].

Keďže z neoznačkovaného korpusu sa nedá príliš povedať, že ktoré slová sú prídavné mená, tak som si vytiahol najfrekventovanejšie slová, ktoré končia na -ný (tj. budú to prídavné mená v základnom tvare). Pri TOP100 nepoznám len jedno slovo, zlý, pretože sa kontroluje dĺžka poslednej slabiky kmeňa a tú tam nenájde. Pri TOP1000 sa nenájde 22 slov (z toho je 9 preklepov). Pri TOP10.000 sa nenájde 734 slov (z toho je preklepov ~118). Pokrytie (bez preklepov) sa pohybuje na úrovniach 99%, 98.7%, 93.7%. Pri takto vysokých číslach je otázne, či vymýšlať nejaké komplikovanejšie metódy :) Očakávam, že pri podstatných menách, to bude nutné, ale radšej sa nimi začnem zaoberať až vtedy, keď to bude treba.