Locked History Actions

Diff for "Składnica"

Differences between revisions 24 and 25
Revision 24 as of 2011-12-07 18:07:26
Size: 3474
Comment:
Revision 25 as of 2011-12-12 16:55:35
Size: 4580
Comment:
Deletions are marked like this. Additions are marked like this.
Line 1: Line 1:
## page was renamed from Treebank
Line 5: Line 4:
Na niniejszej stronie zebrano wyniki projektu badawczego N N104 224735
''Budowa banku drzew składniowych dla języka polskiego z wykorzystaniem
automatycznej analizy składniowej'' finansowanego w latach 2008–2011 przez Ministerstwo Nauki i Szkolnictwa Wyższego.
Line 7: Line 10:
== Wyniki projektu ==

=== Gramatyka ===
 * Robocza wersja GFJP2: [[attachment:swigra_pre2.0.140.zip]]
 * Słownik walencyjny: [todo]

=== System Dendrarium ===
 * Kod źródłowy systemu (licencja GPL): [[http://sourceforge.net/projects/dendrarium/]]
== Składnica ==
Line 18: Line 14:
 * Lasy w „naszym” formacie XML: [[attachment:Składnica-frazowa-0.5.tar.bz2]] Podstawowym zasobem jest bank składnikowych drzew składniowych ''Składnica frazowa''
w wersji 0.5. Bank powstał poprzez automatyczną analizę 20 000 zdań polskich za pomocą
analizatora ''Świgra''. Analizator ten dla danego zdania generuje drzewa reprezentujące wszystkie możliwe (według jego gramatyki) rozbiory składniowe. Z tych zbiorów drzew językoznawcy (nazywani dendrologami) wybierali dla każdego zdania jedno właściwe drzewo. Drzewa dla 8227 zdań zostały
uznane za poprawne przez dendrologów. Pozostałe z rozpatrywanych zdań zostały sklasyfikowane pod względem poprawności i powodów odrzucenia przez parser. Najważniejszą z tak
wydzielonych klas zdań odrzuconych są wypowiedzenia bez centrum finitywnego, których
opis językoznawczy będzie przedmiotem osobnych badań.


 * Lasy składnikowe formacie XML: [[attachment:Składnica-frazowa-0.5.tar.bz2]]
Line 22: Line 26:


=== Składnica zależnościowa ===
 
''Składnica zależnościowa'' jest wynikiem automatycznej konwersji ręcznie ujednoznacznionych drzew składnikowych na struktury zależnościowe.

Struktury zależnościowe mają postać grafów skierowanych z wierzchołkami reprezentującymi tokeny w zdaniu (plus sztuczny korzeń), krawędziami reprezentującymi binarne relacje zależnościowe pomiędzy tokenami (nadrzędnik -- podrzędnik) oraz etykietami na krawędziach wskazującymi typ relacji zależnościowej ([[http://zil.ipipan.waw.pl/Składnica/FunkcjeZaleznosciowe|Typy relacji zależnościowych w Składnicy zależnościowej]]). Wierzchołki mają przypisany indeks odpowiadający pozycji tokenu w zdaniu, przy czym korzeń ma zawsze indeks 0.

Konwersja jest procesem w pełni automatycznym i jednoznacznym. Reguły konwersji bazują na informacjach morfosyntaktycznych, kategoriach fraz i symbolach reguł zakodowanych w drzewach składnikowych. W znacznej części fraz składnikowych zostały wyróżnione elementy główne, co ułatwiło konwersję. Dla pozostałych przypadków zostały zdefiniowane heurystyki wyboru nadrzędnika.

Drzewa składnikowe są zakodowane w formacie CoNLL [[http://citeseer.ist.psu.edu/viewdoc/download;jsessionid=F5C9135E3B3F121BFCD2B9F7B9DE7F1C?doi=10.1.1.128.7511&rep=rep1&type=pdf|(Buchholz i Marsi, 2006)]]. Wybór formatu został podytkowany przez dostępne systemy parsujące i akceptowane przez nie formaty. W formacie CoNLL dla każdego tokenu zostały zakodowane następujące informacje: indeks (ID), forma ortogragiczna/znak interpunkcyjny (FORM), forma podstawowa (LEMMA), 'ogólna' część mowy (CPOSTAG), 'szczegółowa' część mowy (POSTAG), zbiór cech morfosyntaktycznych (FEATS), indeks nadrzędnika (HEAD) oraz typ relacji zależnościowej (DEPREL).

 * Struktury zależnościowe w formacie CONLL: [[attachment:Składnica-zależnościowa-0.5.conll.gz]]

== Wyszukiwarki ==
Line 26: Line 46:
=== Składnica zależnościowa ===
 
 * Składnica Zależnościowa obejmuje 7500 struktur zależnościowych automatycznie przekonwertowanych z ręcznie ujednoznacznionych drzew składnikowych: [[attachment:Skladnica-zaleznosciowa-0.5.tar.bz2|Składnica Zależnościowa]].
 * Struktury zależnościowe mają postać grafów skierowanych z wierzchołkami reprezentującymi tokeny w zdaniu (plus korzeń ROOT), krawędziami reprezentującymi binarne relacje zależnościowe pomiędzy tokenami (nadrzędnik -- podrzędnik) oraz etykietami na krawędziach wskazującymi typ relacji zależnościowej ([[http://zil.ipipan.waw.pl/Składnica/FunkcjeZaleznosciowe|Polskie typy relacji zależnościowych]]). Wierzchołki mają przypisany indeks odpowiadający pozycji tokena w zdaniu, przy czym ROOT ma zawsze indeks 0.
 * Konwersja jest w pełni automatycznym i jednoznacznym procesem. Reguły konwersji bazują na morfosyntaktycznych informacjach, kategoriach fraz i typach reguł składnikowych zakodowanych w drzewach składnikowych. W znacznej części fraz składnikowych zostały wyróżnione elementy główne, co ułatwiło konwersję. Dla pozostałych przypadków zostały zdefiniowane heurystyki wyboru nadrzędnika.
 * Drzewa składnikowe są zakodowane w formacie CoNLL [[http://citeseer.ist.psu.edu/viewdoc/download;jsessionid=F5C9135E3B3F121BFCD2B9F7B9DE7F1C?doi=10.1.1.128.7511&rep=rep1&type=pdf|(Buchholz i Marsi, 2006)]]. Wybór formatu został podytkowany przez dostępne systemy parsujące i akceptowane przez nie formaty. W formacie CoNLL dla każdego tokena zostały zakodowane następujące informacje: indeks (ID), forma ortogragiczna/znak interpunkcyjny (FORM), forma podstawowa (LEMMA), 'ogólna' część mowy (CPOSTAG), 'szczegółowa' część mowy (POSTAG), zbiór cech morfosyntaktycznych (FEATS), indeks nadrzędnika (HEAD) oraz typ relacji zależnościowej (DEPREL).
Line 34: Line 48:


== Gramatyka ==
 * Robocza wersja GFJP2: [[attachment:swigra_pre2.0.140.zip]]
 * Słownik walencyjny: [todo]

== System Dendrarium ==
 * Kod źródłowy systemu (licencja GPL): [[http://sourceforge.net/projects/dendrarium/]]

Składnica — bank drzew składniowych

Na niniejszej stronie zebrano wyniki projektu badawczego N N104 224735 Budowa banku drzew składniowych dla języka polskiego z wykorzystaniem automatycznej analizy składniowej finansowanego w latach 2008–2011 przez Ministerstwo Nauki i Szkolnictwa Wyższego.

Wszystkie wymienione zasoby zostały udostępnione na licencji GPLv3.

Składnica

Składnica frazowa

Podstawowym zasobem jest bank składnikowych drzew składniowych Składnica frazowa w wersji 0.5. Bank powstał poprzez automatyczną analizę 20 000 zdań polskich za pomocą analizatora Świgra. Analizator ten dla danego zdania generuje drzewa reprezentujące wszystkie możliwe (według jego gramatyki) rozbiory składniowe. Z tych zbiorów drzew językoznawcy (nazywani dendrologami) wybierali dla każdego zdania jedno właściwe drzewo. Drzewa dla 8227 zdań zostały uznane za poprawne przez dendrologów. Pozostałe z rozpatrywanych zdań zostały sklasyfikowane pod względem poprawności i powodów odrzucenia przez parser. Najważniejszą z tak wydzielonych klas zdań odrzuconych są wypowiedzenia bez centrum finitywnego, których opis językoznawczy będzie przedmiotem osobnych badań.

  • Lasy składnikowe formacie XML: Składnica-frazowa-0.5.tar.bz2

    • Pliki w tym formacie zawierają wszystkie drzewa wygenerowane przez parser, drzewo wybrane przez dendrologów jest oznaczone atrybutami.
  • Drzewa w formacie Tiger XML: Składnica-frazowa-0.5-TigerXML.xml.gz

    • Ten format reprezentuje tylko drzewa wybrane przez dendrologów (po jednym na zdanie).

Składnica zależnościowa

Składnica zależnościowa jest wynikiem automatycznej konwersji ręcznie ujednoznacznionych drzew składnikowych na struktury zależnościowe.

Struktury zależnościowe mają postać grafów skierowanych z wierzchołkami reprezentującymi tokeny w zdaniu (plus sztuczny korzeń), krawędziami reprezentującymi binarne relacje zależnościowe pomiędzy tokenami (nadrzędnik -- podrzędnik) oraz etykietami na krawędziach wskazującymi typ relacji zależnościowej (Typy relacji zależnościowych w Składnicy zależnościowej). Wierzchołki mają przypisany indeks odpowiadający pozycji tokenu w zdaniu, przy czym korzeń ma zawsze indeks 0.

Konwersja jest procesem w pełni automatycznym i jednoznacznym. Reguły konwersji bazują na informacjach morfosyntaktycznych, kategoriach fraz i symbolach reguł zakodowanych w drzewach składnikowych. W znacznej części fraz składnikowych zostały wyróżnione elementy główne, co ułatwiło konwersję. Dla pozostałych przypadków zostały zdefiniowane heurystyki wyboru nadrzędnika.

Drzewa składnikowe są zakodowane w formacie CoNLL (Buchholz i Marsi, 2006). Wybór formatu został podytkowany przez dostępne systemy parsujące i akceptowane przez nie formaty. W formacie CoNLL dla każdego tokenu zostały zakodowane następujące informacje: indeks (ID), forma ortogragiczna/znak interpunkcyjny (FORM), forma podstawowa (LEMMA), 'ogólna' część mowy (CPOSTAG), 'szczegółowa' część mowy (POSTAG), zbiór cech morfosyntaktycznych (FEATS), indeks nadrzędnika (HEAD) oraz typ relacji zależnościowej (DEPREL).

Wyszukiwarki

  • Obraz płyty dla Windows ze Składnicą i wyszukiwarką Tiger Search gotową do pracy: Skladnica-frazowa+TigerSearch.iso.bz2

    • Program Tiger Search uruchamia się automatycznie po wetknięciu płyty do napędu.
  • Będzie jeszcze wyszukiwarka sieciowa, jak zainstalujemy.
  • Drzewa składnikowe można oglądać przy użyciu ogólnie dostępnego narzędzia do ewaluacji parserów zależnościowych MaltEval z wbudowanym modułem wizualizacji struktur zależnościowych. Wywołanie:

    • java -jar sciezkaDoMaltEval/MaltEval.jar -v 1 -g sciezkaDoRozpakowanegoBanku/zrobione110922_dependencyStructures.conll

Gramatyka

System Dendrarium