Revision 24 as of 2011-12-07 18:07:26

Clear message
Locked History Actions

Składnica

Składnica — bank drzew składniowych

Wszystkie wymienione zasoby zostały udostępnione na licencji GPLv3.

Wyniki projektu

Gramatyka

System Dendrarium

Składnica frazowa

  • Lasy w „naszym” formacie XML: Składnica-frazowa-0.5.tar.bz2

    • Pliki w tym formacie zawierają wszystkie drzewa wygenerowane przez parser, drzewo wybrane przez dendrologów jest oznaczone atrybutami.
  • Drzewa w formacie Tiger XML: Składnica-frazowa-0.5-TigerXML.xml.gz

    • Ten format reprezentuje tylko drzewa wybrane przez dendrologów (po jednym na zdanie).
  • Obraz płyty dla Windows ze Składnicą i wyszukiwarką Tiger Search gotową do pracy: Skladnica-frazowa+TigerSearch.iso.bz2

    • Program Tiger Search uruchamia się automatycznie po wetknięciu płyty do napędu.
  • Będzie jeszcze wyszukiwarka sieciowa, jak zainstalujemy.

Składnica zależnościowa

  • Składnica Zależnościowa obejmuje 7500 struktur zależnościowych automatycznie przekonwertowanych z ręcznie ujednoznacznionych drzew składnikowych: Składnica Zależnościowa.

  • Struktury zależnościowe mają postać grafów skierowanych z wierzchołkami reprezentującymi tokeny w zdaniu (plus korzeń ROOT), krawędziami reprezentującymi binarne relacje zależnościowe pomiędzy tokenami (nadrzędnik -- podrzędnik) oraz etykietami na krawędziach wskazującymi typ relacji zależnościowej (Polskie typy relacji zależnościowych). Wierzchołki mają przypisany indeks odpowiadający pozycji tokena w zdaniu, przy czym ROOT ma zawsze indeks 0.

  • Konwersja jest w pełni automatycznym i jednoznacznym procesem. Reguły konwersji bazują na morfosyntaktycznych informacjach, kategoriach fraz i typach reguł składnikowych zakodowanych w drzewach składnikowych. W znacznej części fraz składnikowych zostały wyróżnione elementy główne, co ułatwiło konwersję. Dla pozostałych przypadków zostały zdefiniowane heurystyki wyboru nadrzędnika.
  • Drzewa składnikowe są zakodowane w formacie CoNLL (Buchholz i Marsi, 2006). Wybór formatu został podytkowany przez dostępne systemy parsujące i akceptowane przez nie formaty. W formacie CoNLL dla każdego tokena zostały zakodowane następujące informacje: indeks (ID), forma ortogragiczna/znak interpunkcyjny (FORM), forma podstawowa (LEMMA), 'ogólna' część mowy (CPOSTAG), 'szczegółowa' część mowy (POSTAG), zbiór cech morfosyntaktycznych (FEATS), indeks nadrzędnika (HEAD) oraz typ relacji zależnościowej (DEPREL).

  • Drzewa składnikowe można oglądać przy użyciu ogólnie dostępnego narzędzia do ewaluacji parserów zależnościowych MaltEval z wbudowanym modułem wizualizacji struktur zależnościowych. Wywołanie:

    • java -jar sciezkaDoMaltEval/MaltEval.jar -v 1 -g sciezkaDoRozpakowanegoBanku/zrobione110922_dependencyStructures.conll