Locked History Actions

Diff for "Składnica"

Differences between revisions 23 and 24
Revision 23 as of 2011-12-07 18:00:07
Size: 3740
Comment:
Revision 24 as of 2011-12-07 18:07:26
Size: 3474
Comment:
Deletions are marked like this. Additions are marked like this.
Line 3: Line 3:
= Składnica — bank drzew składniowych (w trakcie powstawania) = = Składnica — bank drzew składniowych =
Line 5: Line 5:
Pliki mają charakter ulotny. Przed zastosowaniem ich do czegoś poważniejszego niż pobieżny ogląd należy zapytać Marcina Wolińskiego, czy nie ma nowszej wersji. Po zakończeniu projektu wyniki zostaną udostępnione, najprawdopodobniej na GPL. Na razie nie należy ich upubliczniać ze względu na niedoskonałość.
Wszystkie wymienione zasoby zostały udostępnione na licencji GPLv3.
Line 23: Line 22:
 * Obraz płyty dla Windows ze Składnicą i wyszukiwarką Tiger Search gotową do pracy: [[attachment:Tiger-Skladnica.iso]]  * Obraz płyty dla Windows ze Składnicą i wyszukiwarką Tiger Search gotową do pracy: [[attachment:Skladnica-frazowa+TigerSearch.iso.bz2]]

Składnica — bank drzew składniowych

Wszystkie wymienione zasoby zostały udostępnione na licencji GPLv3.

Wyniki projektu

Gramatyka

System Dendrarium

Składnica frazowa

  • Lasy w „naszym” formacie XML: Składnica-frazowa-0.5.tar.bz2

    • Pliki w tym formacie zawierają wszystkie drzewa wygenerowane przez parser, drzewo wybrane przez dendrologów jest oznaczone atrybutami.
  • Drzewa w formacie Tiger XML: Składnica-frazowa-0.5-TigerXML.xml.gz

    • Ten format reprezentuje tylko drzewa wybrane przez dendrologów (po jednym na zdanie).
  • Obraz płyty dla Windows ze Składnicą i wyszukiwarką Tiger Search gotową do pracy: Skladnica-frazowa+TigerSearch.iso.bz2

    • Program Tiger Search uruchamia się automatycznie po wetknięciu płyty do napędu.
  • Będzie jeszcze wyszukiwarka sieciowa, jak zainstalujemy.

Składnica zależnościowa

  • Składnica Zależnościowa obejmuje 7500 struktur zależnościowych automatycznie przekonwertowanych z ręcznie ujednoznacznionych drzew składnikowych: Składnica Zależnościowa.

  • Struktury zależnościowe mają postać grafów skierowanych z wierzchołkami reprezentującymi tokeny w zdaniu (plus korzeń ROOT), krawędziami reprezentującymi binarne relacje zależnościowe pomiędzy tokenami (nadrzędnik -- podrzędnik) oraz etykietami na krawędziach wskazującymi typ relacji zależnościowej (Polskie typy relacji zależnościowych). Wierzchołki mają przypisany indeks odpowiadający pozycji tokena w zdaniu, przy czym ROOT ma zawsze indeks 0.

  • Konwersja jest w pełni automatycznym i jednoznacznym procesem. Reguły konwersji bazują na morfosyntaktycznych informacjach, kategoriach fraz i typach reguł składnikowych zakodowanych w drzewach składnikowych. W znacznej części fraz składnikowych zostały wyróżnione elementy główne, co ułatwiło konwersję. Dla pozostałych przypadków zostały zdefiniowane heurystyki wyboru nadrzędnika.
  • Drzewa składnikowe są zakodowane w formacie CoNLL (Buchholz i Marsi, 2006). Wybór formatu został podytkowany przez dostępne systemy parsujące i akceptowane przez nie formaty. W formacie CoNLL dla każdego tokena zostały zakodowane następujące informacje: indeks (ID), forma ortogragiczna/znak interpunkcyjny (FORM), forma podstawowa (LEMMA), 'ogólna' część mowy (CPOSTAG), 'szczegółowa' część mowy (POSTAG), zbiór cech morfosyntaktycznych (FEATS), indeks nadrzędnika (HEAD) oraz typ relacji zależnościowej (DEPREL).

  • Drzewa składnikowe można oglądać przy użyciu ogólnie dostępnego narzędzia do ewaluacji parserów zależnościowych MaltEval z wbudowanym modułem wizualizacji struktur zależnościowych. Wywołanie:

    • java -jar sciezkaDoMaltEval/MaltEval.jar -v 1 -g sciezkaDoRozpakowanegoBanku/zrobione110922_dependencyStructures.conll