Locked History Actions

Diff for "Składnica"

Differences between revisions 4 and 24 (spanning 20 versions)
Revision 4 as of 2011-03-14 22:42:03
Size: 278
Editor: MichalLenart
Comment:
Revision 24 as of 2011-12-07 18:07:26
Size: 3474
Comment:
Deletions are marked like this. Additions are marked like this.
Line 1: Line 1:
## page was renamed from Treebank
Line 2: Line 3:
Tutaj wstawię bieżący stan drzew i Świgrę 2, jak ktoś mi wyjaśni, jak ograniczyć dostęp do tej strony do ZIL. = Składnica — bank drzew składniowych =
Line 4: Line 5:
Zresztą co mi tam, zrobione do dziś drzewa są w załączniku: [[attachment:zrobione110314.tar.bz2]]. Wszystkie wymienione zasoby zostały udostępnione na licencji GPLv3.

== Wyniki projektu ==

=== Gramatyka ===
 * Robocza wersja GFJP2: [[attachment:swigra_pre2.0.140.zip]]
 * Słownik walencyjny: [todo]

=== System Dendrarium ===
 * Kod źródłowy systemu (licencja GPL): [[http://sourceforge.net/projects/dendrarium/]]

=== Składnica frazowa ===

 * Lasy w „naszym” formacie XML: [[attachment:Składnica-frazowa-0.5.tar.bz2]]
   Pliki w tym formacie zawierają wszystkie drzewa wygenerowane przez parser, drzewo wybrane przez dendrologów jest oznaczone atrybutami.
 * Drzewa w formacie Tiger XML: [[attachment:Składnica-frazowa-0.5-TigerXML.xml.gz]]
   Ten format reprezentuje tylko drzewa wybrane przez dendrologów (po jednym na zdanie).
 * Obraz płyty dla Windows ze Składnicą i wyszukiwarką Tiger Search gotową do pracy: [[attachment:Skladnica-frazowa+TigerSearch.iso.bz2]]
   Program Tiger Search uruchamia się automatycznie po wetknięciu płyty do napędu.
 * Będzie jeszcze wyszukiwarka sieciowa, jak zainstalujemy.

=== Składnica zależnościowa ===
 
 * Składnica Zależnościowa obejmuje 7500 struktur zależnościowych automatycznie przekonwertowanych z ręcznie ujednoznacznionych drzew składnikowych: [[attachment:Skladnica-zaleznosciowa-0.5.tar.bz2|Składnica Zależnościowa]].
 * Struktury zależnościowe mają postać grafów skierowanych z wierzchołkami reprezentującymi tokeny w zdaniu (plus korzeń ROOT), krawędziami reprezentującymi binarne relacje zależnościowe pomiędzy tokenami (nadrzędnik -- podrzędnik) oraz etykietami na krawędziach wskazującymi typ relacji zależnościowej ([[http://zil.ipipan.waw.pl/Składnica/FunkcjeZaleznosciowe|Polskie typy relacji zależnościowych]]). Wierzchołki mają przypisany indeks odpowiadający pozycji tokena w zdaniu, przy czym ROOT ma zawsze indeks 0.
 * Konwersja jest w pełni automatycznym i jednoznacznym procesem. Reguły konwersji bazują na morfosyntaktycznych informacjach, kategoriach fraz i typach reguł składnikowych zakodowanych w drzewach składnikowych. W znacznej części fraz składnikowych zostały wyróżnione elementy główne, co ułatwiło konwersję. Dla pozostałych przypadków zostały zdefiniowane heurystyki wyboru nadrzędnika.
 * Drzewa składnikowe są zakodowane w formacie CoNLL [[http://citeseer.ist.psu.edu/viewdoc/download;jsessionid=F5C9135E3B3F121BFCD2B9F7B9DE7F1C?doi=10.1.1.128.7511&rep=rep1&type=pdf|(Buchholz i Marsi, 2006)]]. Wybór formatu został podytkowany przez dostępne systemy parsujące i akceptowane przez nie formaty. W formacie CoNLL dla każdego tokena zostały zakodowane następujące informacje: indeks (ID), forma ortogragiczna/znak interpunkcyjny (FORM), forma podstawowa (LEMMA), 'ogólna' część mowy (CPOSTAG), 'szczegółowa' część mowy (POSTAG), zbiór cech morfosyntaktycznych (FEATS), indeks nadrzędnika (HEAD) oraz typ relacji zależnościowej (DEPREL).
 * Drzewa składnikowe można oglądać przy użyciu ogólnie dostępnego narzędzia do ewaluacji parserów zależnościowych [[http://w3.msi.vxu.se/users/jni/malteval|MaltEval]] z wbudowanym modułem wizualizacji struktur zależnościowych. Wywołanie:
   java -jar sciezkaDoMaltEval/MaltEval.jar -v 1 -g sciezkaDoRozpakowanegoBanku/zrobione110922_dependencyStructures.conll

Składnica — bank drzew składniowych

Wszystkie wymienione zasoby zostały udostępnione na licencji GPLv3.

Wyniki projektu

Gramatyka

System Dendrarium

Składnica frazowa

  • Lasy w „naszym” formacie XML: Składnica-frazowa-0.5.tar.bz2

    • Pliki w tym formacie zawierają wszystkie drzewa wygenerowane przez parser, drzewo wybrane przez dendrologów jest oznaczone atrybutami.
  • Drzewa w formacie Tiger XML: Składnica-frazowa-0.5-TigerXML.xml.gz

    • Ten format reprezentuje tylko drzewa wybrane przez dendrologów (po jednym na zdanie).
  • Obraz płyty dla Windows ze Składnicą i wyszukiwarką Tiger Search gotową do pracy: Skladnica-frazowa+TigerSearch.iso.bz2

    • Program Tiger Search uruchamia się automatycznie po wetknięciu płyty do napędu.
  • Będzie jeszcze wyszukiwarka sieciowa, jak zainstalujemy.

Składnica zależnościowa

  • Składnica Zależnościowa obejmuje 7500 struktur zależnościowych automatycznie przekonwertowanych z ręcznie ujednoznacznionych drzew składnikowych: Składnica Zależnościowa.

  • Struktury zależnościowe mają postać grafów skierowanych z wierzchołkami reprezentującymi tokeny w zdaniu (plus korzeń ROOT), krawędziami reprezentującymi binarne relacje zależnościowe pomiędzy tokenami (nadrzędnik -- podrzędnik) oraz etykietami na krawędziach wskazującymi typ relacji zależnościowej (Polskie typy relacji zależnościowych). Wierzchołki mają przypisany indeks odpowiadający pozycji tokena w zdaniu, przy czym ROOT ma zawsze indeks 0.

  • Konwersja jest w pełni automatycznym i jednoznacznym procesem. Reguły konwersji bazują na morfosyntaktycznych informacjach, kategoriach fraz i typach reguł składnikowych zakodowanych w drzewach składnikowych. W znacznej części fraz składnikowych zostały wyróżnione elementy główne, co ułatwiło konwersję. Dla pozostałych przypadków zostały zdefiniowane heurystyki wyboru nadrzędnika.
  • Drzewa składnikowe są zakodowane w formacie CoNLL (Buchholz i Marsi, 2006). Wybór formatu został podytkowany przez dostępne systemy parsujące i akceptowane przez nie formaty. W formacie CoNLL dla każdego tokena zostały zakodowane następujące informacje: indeks (ID), forma ortogragiczna/znak interpunkcyjny (FORM), forma podstawowa (LEMMA), 'ogólna' część mowy (CPOSTAG), 'szczegółowa' część mowy (POSTAG), zbiór cech morfosyntaktycznych (FEATS), indeks nadrzędnika (HEAD) oraz typ relacji zależnościowej (DEPREL).

  • Drzewa składnikowe można oglądać przy użyciu ogólnie dostępnego narzędzia do ewaluacji parserów zależnościowych MaltEval z wbudowanym modułem wizualizacji struktur zależnościowych. Wywołanie:

    • java -jar sciezkaDoMaltEval/MaltEval.jar -v 1 -g sciezkaDoRozpakowanegoBanku/zrobione110922_dependencyStructures.conll