Locked History Actions

Diff for "Składnica"

Differences between revisions 17 and 19 (spanning 2 versions)
Revision 17 as of 2011-11-28 17:18:54
Size: 3710
Comment:
Revision 19 as of 2011-12-06 15:01:34
Size: 3738
Comment:
Deletions are marked like this. Additions are marked like this.
Line 12: Line 12:
 * Słownik walencyjny: [todo]
Line 18: Line 19:
 * Lasy w „naszym” formacie XML: [[attachment:zrobione110922.tar.bz2]]  * Lasy w „naszym” formacie XML: [[attachment:Składnica-frazowa-0.5.tar.bz2]]
Line 28: Line 29:
 * Składnica Zależnościowa obejmuje 7500 struktur zależnościowych automatycznie przekonwertowanych z ręcznie ujednoznacznionych drzew składnikowych: [[attachment:zrobione110922_dependencyStructures.conll.tar.bz2|Składnica Zależnościowa]].  * Składnica Zależnościowa obejmuje 7500 struktur zależnościowych automatycznie przekonwertowanych z ręcznie ujednoznacznionych drzew składnikowych: [[attachment:Skladnica-zaleznosciowa.conll.tar.bz2|Składnica Zależnościowa]].

Składnica — bank drzew składniowych (w trakcie powstawania)

Pliki mają charakter ulotny. Przed zastosowaniem ich do czegoś poważniejszego niż pobieżny ogląd należy zapytać Marcina Wolińskiego, czy nie ma nowszej wersji. Po zakończeniu projektu wyniki zostaną udostępnione, najprawdopodobniej na GPL. Na razie nie należy ich upubliczniać ze względu na niedoskonałość.

Wyniki projektu

Gramatyka

System Dendrarium

Składnica frazowa

  • Lasy w „naszym” formacie XML: Składnica-frazowa-0.5.tar.bz2

    • Pliki w tym formacie zawierają wszystkie drzewa wygenerowane przez parser, drzewo wybrane przez dendrologów jest oznaczone atrybutami.
  • Drzewa w formacie Tiger XML: SkładnicaFrazowa-TigerXML.xml.bz2

    • Ten format reprezentuje tylko drzewa wybrane przez dendrologów (po jednym na zdanie).
  • Obraz płyty dla Windows ze Składnicą i wyszukiwarką Tiger Search gotową do pracy: Tiger-Skladnica.iso

    • Program Tiger Search uruchamia się automatycznie po wetknięciu płyty do napędu.
  • Będzie jeszcze wyszukiwarka sieciowa, jak zainstalujemy.

Składnica zależnościowa

  • Składnica Zależnościowa obejmuje 7500 struktur zależnościowych automatycznie przekonwertowanych z ręcznie ujednoznacznionych drzew składnikowych: Składnica Zależnościowa.

  • Struktury zależnościowe mają postać grafów skierowanych z wierzchołkami reprezentującymi tokeny w zdaniu (plus korzeń ROOT), krawędziami reprezentującymi binarne relacje zależnościowe pomiędzy tokenami (nadrzędnik -- podrzędnik) oraz etykietami na krawędziach wskazującymi typ relacji zależnościowej (Polskie typy relacji zależnościowych). Wierzchołki mają przypisany indeks odpowiadający pozycji tokena w zdaniu, przy czym ROOT ma zawsze indeks 0.

  • Konwersja jest w pełni automatycznym i jednoznacznym procesem. Reguły konwersji bazują na morfosyntaktycznych informacjach, kategoriach fraz i typach reguł składnikowych zakodowanych w drzewach składnikowych. W znacznej części fraz składnikowych zostały wyróżnione elementy główne, co ułatwiło konwersję. Dla pozostałych przypadków zostały zdefiniowane heurystyki wyboru nadrzędnika.
  • Drzewa składnikowe są zakodowane w formacie CoNLL (Buchholz i Marsi, 2006). Wybór formatu został podytkowany przez dostępne systemy parsujące i akceptowane przez nie formaty. W formacie CoNLL dla każdego tokena zostały zakodowane następujące informacje: indeks (ID), forma ortogragiczna/znak interpunkcyjny (FORM), forma podstawowa (LEMMA), 'ogólna' część mowy (CPOSTAG), 'szczegółowa' część mowy (POSTAG), zbiór cech morfosyntaktycznych (FEATS), indeks nadrzędnika (HEAD) oraz typ relacji zależnościowej (DEPREL).

  • Drzewa składnikowe można oglądać przy użyciu ogólnie dostępnego narzędzia do ewaluacji parserów zależnościowych MaltEval z wbudowanym modułem wizualizacji struktur zależnościowych. Wywołanie:

    • java -jar sciezkaDoMaltEval/MaltEval.jar -v 1 -g sciezkaDoRozpakowanegoBanku/zrobione110922_dependencyStructures.conll