Locked History Actions

Diff for "Tager Concraft z Morfeuszem 2"

Differences between revisions 4 and 5
Revision 4 as of 2018-03-22 14:47:38
Size: 2495
Comment:
Revision 5 as of 2018-03-22 14:48:44
Size: 2485
Comment:
Deletions are marked like this. Additions are marked like this.
Line 17: Line 17:
kolumny 1 i 2 to numery wierzchołków grafu Morfeusza dla danego segmentu (jego początek i koniec),
kolumna 3 — wykładnik formy,
kolumna 4 — lemat,
kolumna 5 — znacznik fleksyjny,
kolumna 6 — pospolitość (wartość z Morfeusza, na razie tylko przepisywana, niewykorzystywana przy tagowaniu),
kolumna 7 — kwalifikatory (jw.),
kolumna 8 — prawdopodobieństwo przypisane przez Concrafta danej interpretacji,
kolumna 9 — ta kolumna w danych wyjściowych jest zawsze pusta, bywa wypełniona tylko w danych treningowych,
kolumna 10 — znacznik końca zdania przypisywany przez Concrafta,
kolumna 11 — disamb, czyli interpretacja wybrana przez Concrafta (zwykle tożsama z interpretacją o najwyższym prawdopodobieństwie z kolumny 8, ale w przypadku niejednoznacznej segmentacji nie musi tak być).
 * kolumny 1 i 2 to numery wierzchołków grafu Morfeusza dla danego segmentu (jego początek i koniec),
 * kolumna 3 — wykładnik formy,
 * kolumna 4 — lemat,
 * kolumna 5 — znacznik fleksyjny,
 * kolumna 6 — pospolitość (wartość z Morfeusza, na razie tylko przepisywana, niewykorzystywana przy tagowaniu),
 * kolumna 7 — kwalifikatory (jw.),
 * kolumna 8 — prawdopodobieństwo przypisane przez Concrafta danej interpretacji,
 * kolumna 9 — ta kolumna w danych wyjściowych jest zawsze pusta, bywa wypełniona tylko w danych treningowych,
 * kolumna 10 — znacznik końca zdania przypisywany przez Concrafta,
 * kolumna 11 — disamb, czyli interpretacja wybrana przez Concrafta (zwykle tożsama z interpretacją o najwyższym prawdopodobieństwie z kolumny 8, ale w przypadku niejednoznacznej segmentacji nie musi tak być).

Bardzo zły tager

W załączeniu można znaleźć roboczą wersję Concrafta pracującego z Morfeuszem 2 i bez Macy.

Paczka zawiera kompilat Concrafta dla Ubuntu 16.04 i wytrenowany model. Żeby działało, trzeba mieć w systemie zainstalowanego Morfeusza 2 SGJP włącznie z modułem pythonowym. Analizę odpala się skryptem o wdzięcznej nazwie tageruj.py. Na jego podstawie można wywnioskować, jak powinny wyglądać dane do tagowania. Generalnie Concraft wchodzi na dane w takiej postaci, jaka wychodzi z Morfeusza 2, zapisanej w postaci kolumn rozdzielonych tabulatorami. Zwracamy uwagę, że skompresowany model ma 128MB wielkości i po wywołaniu skryptu upływa długa chwila, podczas której Concraft go ładuje. Proszę się nie zniechęcać. Skrypt przyjmuje plain tekst — jedna linia = jeden akapit. Skrypt zakłada, że Concraft i model leżą w bieżącym katalogu (ale łatwo to w nim zmienić).

Accuracy mamy około 90%. To jest na razie trenowane na danych NKJP1M w przybliżony sposób przypasowanych do wyników Morfeusza 2, co sprawia że dane treningowe są nie do końca ujednoznacznione. Ta sytuacja będzie się stopniowo zmieniać, a wyniki — poprawiać (miejmy nadzieję). Stay tuned.

Bieżącej wersji nie należy traktować zbyt serio!

Jeżeli ktoś chce, żeby działało na Windows lub Makintoszu, potrzebujemy odważnego posiadacza odpowiedniego systemu, który podejmie próbę kompilacji Concrafta.

Format danych

Kolumnowy, rozdzielony tabulatorami, wspólny dla wejścia i wyjścia Concrafta:

  • kolumny 1 i 2 to numery wierzchołków grafu Morfeusza dla danego segmentu (jego początek i koniec),
  • kolumna 3 — wykładnik formy,
  • kolumna 4 — lemat,
  • kolumna 5 — znacznik fleksyjny,
  • kolumna 6 — pospolitość (wartość z Morfeusza, na razie tylko przepisywana, niewykorzystywana przy tagowaniu),
  • kolumna 7 — kwalifikatory (jw.),
  • kolumna 8 — prawdopodobieństwo przypisane przez Concrafta danej interpretacji,
  • kolumna 9 — ta kolumna w danych wyjściowych jest zawsze pusta, bywa wypełniona tylko w danych treningowych,
  • kolumna 10 — znacznik końca zdania przypisywany przez Concrafta,
  • kolumna 11 — disamb, czyli interpretacja wybrana przez Concrafta (zwykle tożsama z interpretacją o najwyższym prawdopodobieństwie z kolumny 8, ale w przypadku niejednoznacznej segmentacji nie musi tak być).