utorok 22. apríla 2008

Koniec prvej etapy práce s prídavnými menami

Dnes sa mi podarilo prejsť aj posledné prídavné mená (predložka s, vzor pekný) z prvej etapy. V nej som sa zameral na prídavné mená (bez vzoru otcov/matkin, ktorý sa v podstate tvorí automaticky), ktoré sa spájajú s niektorou z jednopádových predložiek. Takže krátke zhrnutie: 27940 kandidátov na dvojicu lemma:vzor, z nich bolo správnych 26104 (podľa mňa, ale skutočné čísla budú asi dosť podobné) = ~93.5%. Chybovosť sa od počiatku pohybovala na úrovni päť percent a stúpať začala až v poslednej tretine. Predpokladám, že pri dopĺňaní ďalších slov to bude ešte rásť. Prekrývanie s ispellom v slovách, ktoré sú správne podľa oboch je 8970 slov tj. pozná 33% mojich slov. Ja nepoznám okolo šesťtisíc jeho slov, to znamená že priestor na zlepšovanie je aj u mňa :)

Prvú etapu som zavŕšil tým, že som presťahoval projekt z ~/tmp/predlozky na /nlp/projekty/langusta. V druhej etape sa chcem zamerať hneď na niekoľko vecí:
  • predložky, ktoré sa viažu s dvoma pádmi (~10 miliónov výskytov)
  • vzťahy medzi predložkami (negácia a stupňovanie)
  • rozmýšlam nad prefixami, ale to by som skôr nechal na neskôr
Na konci tejto fázy by som mal mať pokrytých dostatok prídavných mien. Aby som zlepšil svoju efektivitu, tak sa pokúsim zapojiť do opravovania ispell (s mojími korektnými slovami). Najbližších pár dní si, ale od predložiek oddýchnem a budem sa snažiť robiť niečo iné.

Žiadne komentáre: