streda 16. apríla 2008

Hľadanie v korpuse III

Do systému na hľadanie slov za predložkami (asi by si zaslúžil nejaké rozumné meno) som pridal vzor vysvedčenie (balenie - balení) a vzor ulica (abstrakcia - abstrakcií; genitív plurálu chýba). Taktiež som pridal predložky s veľkým výskytom, ktoré sa viažu s jedným pádom: od, do, s/so, z/zo, ... To znamená, že surových dát mám viac než dosť. Ak zanedbáme slová priradené k vzorom ulica a vysvedčenie, kde nemáme na výber a padne tam aj to, čo tam nepatrí, tak nám zostane zhruba 40 tisíc prídavných mien (pekný, cudzí, vtáčí, otcov).

Pôvodne som si veľmi pekne vymyslel pravidlo, ktoré bolo postavené na tom, že drvivá väčšina slov má jedno lemma. Ukázalo sa, že to bola dosť naivná predstava :) Idea bola taká, že ak pre daný slovný tvar bolo niekoľko kandidátskych dvojíc lemma:vzor, tak som našiel ďalšie slovné tvary, ktoré obsahovali tento lemma:vzor a spravil prienik. Dá sa povedať, že to aj tak trochu funguje, pretože bez toho by sme získali len asi 15 tisíc prídavných mien. Ale IMHO nám tých chýb pribudne až príliš. Preto bola táto varianta zahodená a lemma:vzor určím len vtedy ak je práve jedna takáto dvojica. Ten zbytok bude použiteľný na nejaké overovanie. Príklad slova, ktoré to kazí:


akreditovaním : akreditovanie : vysvedčenie
akreditovaním : akreditovaní : vtáčí
akreditovanou : akreditovaní : vtáčí
akreditovanou : akreditovaný : pekný
akreditovanými : akreditovaný : pekný


Z toho dostanem akreditovaný:pekný a akreditovaní:vtáčí. Na spôsob ako z toho dostať akreditovanie:vysvedčenie bez zapisovania explicitných pravidiel sa mi zatiaľ nepodarilo prísť.

Ak si zoberieme ten osekaný 15tisícový výstup, tak sa mi podarilo nájsť nasledovné chyby:
  • alchýmí:[vtáčí], kardiológí:[vtáčí] (tj. problém so vzorom: malo by patriť pod ulicu)
  • chýbajúce dĺžne a mäkčene: afganský:[pekný], afgánsky:[pekný] (tj. problém vstupných dát)
  • preklepy: atký:[pekný], agenúry:[pekný]
  • aféry:[pekný], agentúry:pekný (tj. chýba vzor: žena s dlhou poslednou slabikou)
Do úvahy som nebral slová, ktorým bol určený vzor pre podstatné mená, pretože tam bude treba tých konfliktov riešiť omnoho viac.

Taktiež sa mi podarilo napísať aj skript, ktorý overí prídavné mená voči slovám, ktoré sú v slovenskej databáze ispellu. Ten obsahuje 14tisíc prídavných mien, prekryv s mojimi je 9224 resp. 4682 (zo 40 tisíc resp. 15 tisíc).

Medzi ďalšie plány patria:
  • oprava vzorov
  • spájanie podobných slov do zhlukov (ročný, dvojročný, ...) a ich popis
  • vyhľadávanie stupňovania, negácie
  • slová, ktoré sa líšia len v diakritike (obvykle preklep)
  • výber slov s rozumnou frekvenciou (zatiaľ neviem koľko je rozumná a ani ako to vlastne merať)
  • prejsť a označiť +/- aspoň pár tisíc prídavných mien

Žiadne komentáre: