Locked History Actions

Diff for "Składnica"

Differences between revisions 1 and 28 (spanning 27 versions)
Revision 1 as of 2011-03-14 17:13:15
Size: 120
Comment:
Revision 28 as of 2011-12-12 17:49:56
Size: 8417
Comment:
Deletions are marked like this. Additions are marked like this.
Line 1: Line 1:
Tutaj wstawię bieżący stan drzew i Świgrę 2, jak ktoś mi wyjaśni, jak ograniczyć dostęp do tej strony do ZIL. #acl ZILGroup:read,write,delete,revert,admin All:
= Składnica — bank drzew składniowych =

Na niniejszej stronie zebrano wyniki projektu badawczego N N104 224735
''Budowa banku drzew składniowych dla języka polskiego z wykorzystaniem
automatycznej analizy składniowej'' finansowanego w latach 2008–2011 przez Ministerstwo Nauki i Szkolnictwa Wyższego.

Wszystkie wymienione zasoby zostały udostępnione na licencji GPLv3.

||<:tablewidth="100%"> ~+→[[http://britten.ipipan.waw.pl:8000/ui.xhtml|Wyszukiwarka drzew składniowych]]+~ ||


== Składnica ==

=== Składnica frazowa ===

Podstawowym zasobem jest bank składnikowych drzew składniowych ''Składnica frazowa''
w wersji 0.5. Bank powstał poprzez automatyczną analizę 20 000 zdań polskich za pomocą
analizatora ''Świgra''. Analizator ten dla danego zdania generuje drzewa reprezentujące wszystkie możliwe (według jego gramatyki) rozbiory składniowe. Z tych zbiorów drzew językoznawcy (nazywani dendrologami) wybierali dla każdego zdania jedno właściwe drzewo. Drzewa dla 8227 zdań zostały
uznane za poprawne przez dendrologów. Pozostałe z rozpatrywanych zdań zostały sklasyfikowane pod względem poprawności i powodów odrzucenia przez parser. Najważniejszą z tak
wydzielonych klas zdań odrzuconych są wypowiedzenia bez centrum finitywnego, których
opis językoznawczy będzie przedmiotem osobnych badań.


 * Lasy składnikowe w plikach XML: [[attachment:Składnica-frazowa-0.5.tar.bz2]]
   Pliki zawierają wszystkie drzewa wygenerowane przez parser, drzewo wybrane przez dendrologów jest oznaczone atrybutami.
 * Drzewa w formacie Tiger XML: [[attachment:Składnica-frazowa-0.5-TigerXML.xml.gz]]
   Ten format reprezentuje tylko drzewa wybrane przez dendrologów (po jednym na zdanie).


=== Składnica zależnościowa ===
 
''Składnica zależnościowa'' jest wynikiem automatycznej konwersji ręcznie ujednoznacznionych drzew składnikowych na struktury zależnościowe.

Struktury zależnościowe mają postać grafów skierowanych z wierzchołkami reprezentującymi tokeny w zdaniu (plus sztuczny korzeń), krawędziami reprezentującymi binarne relacje zależnościowe pomiędzy tokenami (nadrzędnik -- podrzędnik) oraz etykietami na krawędziach wskazującymi typ relacji zależnościowej ([[http://zil.ipipan.waw.pl/Składnica/FunkcjeZaleznosciowe|Typy relacji zależnościowych w Składnicy zależnościowej]]). Wierzchołki mają przypisany indeks odpowiadający pozycji tokenu w zdaniu, przy czym korzeń ma zawsze indeks 0.

Konwersja jest procesem w pełni automatycznym i jednoznacznym. Reguły konwersji bazują na informacjach morfosyntaktycznych, kategoriach fraz i symbolach reguł zakodowanych w drzewach składnikowych. W znacznej części fraz składnikowych zostały wyróżnione elementy główne, co ułatwiło konwersję. Dla pozostałych przypadków zostały zdefiniowane heurystyki wyboru nadrzędnika.

Drzewa składnikowe są zakodowane w formacie CoNLL [[http://citeseer.ist.psu.edu/viewdoc/download;jsessionid=F5C9135E3B3F121BFCD2B9F7B9DE7F1C?doi=10.1.1.128.7511&rep=rep1&type=pdf|(Buchholz i Marsi, 2006)]]. Wybór formatu został podytkowany przez dostępne systemy parsujące i akceptowane przez nie formaty. W formacie CoNLL dla każdego tokenu zostały zakodowane następujące informacje: indeks (ID), forma ortogragiczna/znak interpunkcyjny (FORM), forma podstawowa (LEMMA), 'ogólna' część mowy (CPOSTAG), 'szczegółowa' część mowy (POSTAG), zbiór cech morfosyntaktycznych (FEATS), indeks nadrzędnika (HEAD) oraz typ relacji zależnościowej (DEPREL).

 * Struktury zależnościowe w formacie CoNLL: [[attachment:Składnica-zależnościowa-0.5.conll.gz]]

== Wyszukiwarki ==

=== Wyszukiwarka sieciowa ===

W projekcie opracowaliśmy wyszukiwarkę działającą na serwerze internetowym i pozwalającą na zadawanie zapytań przez sieć. Dzięki temu można zapoznać się z bankiem drzew bez
instalowania żadnego oprogramowania (wymagana jest tylko przeglądarka WWW Firefox).
Unikalną cechą opracowanej wyszukiwarki jest możliwość zadawania pytań nie tylko o wierzchołki drzew wybranych przez językoznawców, ale o wszystkie wierzchołki drzew stworzonych przez analizator automatyczny. Jest to bardzo użyteczne dla badania konsekwencji
ekspertów w dokonywanych wyborach.

 * [[http://britten.ipipan.waw.pl:8000/ui.xhtml|Wyszukiwarka sieciowa]]
 * Kod źródłowy wyszukiwarki sieciowej: [[http://github.com/balrog-kun/forestsearch]]
 * Kopia lokalna: [[attachment:Wyszukiwarka-drzew-sieciowa.tar.gz]]

=== Tiger Search ===

Dzięki wykonanej konwersji ''Składnicy frazowej'' na format TigerXML, można korzystać również z tej wyszukiwarki. Użytkownikom Windows proponujemy gotową płytę CD zawierającą program i dane ''Składnicy frazowej''. Program Tiger Search uruchamia się automatycznie po umieszczeniu płyty w napędzie. Użytkownicy innych systemów powinni zainstalować program Tiger Search samodzielnie i załadować ''Składnicę'' w programie TIGERRegistry. Po wykonaniu tych dwóch kroków ''Składnica'' będzie widoczna w programie TIGERSearch.

 * Obraz płyty dla Windows ze Składnicą i wyszukiwarką Tiger Search gotową do pracy: [[attachment:Składnica-frazowa-0.5+TigerSearch.iso.bz2]]
 * Wersja instalacyjna [[http://www.ims.uni-stuttgart.de/projekte/TIGER/TIGERSearch/download/|Tiger Search]]
 * ''Składnica frazowa'' w formacie Tiger XML (j.w.): [[attachment:Składnica-frazowa-0.5-TigerXML.xml.gz]]

=== MaltEval ===

Drzewa zależnościowe można oglądać przy użyciu ogólnie dostępnego narzędzia do ewaluacji parserów zależnościowych [[http://w3.msi.vxu.se/users/jni/malteval|MaltEval]] z wbudowanym modułem wizualizacji struktur zależnościowych. Wywołanie:
{{{java -jar …/MaltEval.jar -v 1 -g …/Składnica-zależnościowa-0.5.conll}}}


 * Wersja instalacyjna [[http://w3.msi.vxu.se/users/jni/malteval|MaltEval]]

== Parser Świgra ==

Ważnym wynikiem projektu jest nowa wersja analizatora składniowego ''Świgra'' pracująca na
nowej gramatyce formalnej. Gramatyka programu wywodzi się z ''Gramatyki formalnej języka
polskiego'' Marka Świdzińskiego (1992), jednak na potrzeby projektu została ona w istotnym
stopniu przebudowana. Struktura generowanych drzew składniowych jest znacząco prostsza,
bardziej czytelna i bardziej intuicyjna. Zostało także opisanych wiele zjawisk nieuwzględnio-
nych we wcześniejszej gramatyce: współrzędnie złożone frazy nominalne i przymiotnikowe,
konstrukcje zawierające formy liczebnikowe, wymagania składniowe form rzeczownikowych
i przymiotnikowych, konstrukcje z partykułami. Uwzględnione zostało wiele nietypowości
pojawiających się w tekstach polskich.

Elementem bardzo istotnym dla jakości drzew składniowych wygenerowanych przez analizator automatyczny jest słownik walencyjny. W programie Świgra stosowany jest słownik opracowany w roku 1998 przez Marka Świdzińskiego. Słownik ten został uzupełniony
o najczęstsze czasowniki występujące w konstruowanym banku drzew. W wyniku tego ¾
wystąpień czasowników w badanym korpusie udało się przypisać ramę walencyjną (dla pozostałych stosowana jest przy analizie permisywna ramka domyślna).


 * ''Świgra'' wersja 1.5: [[attachment:Świgra_1.5.zip]]
 * Słownik walencyjny analizatora: [[attachment:Słownik-walencyjny.txt.gz]]

== System Dendrarium ==

Wybór i weryfikacja drzew składniowych były dokonywane przez językoznawców za pomocą stworzonego w projekcie systemu Dendrarium. Jest to aplikacja sieciowa pozwalająca na
pracę poprzez standardową przeglądarkę WWW. Drzewa składniowe dla każdego zdania są
oceniane niezależnie przez dwóch ekspertów, a w razie konfliktu rozstrzygnięć ostateczny
wybór jest dokonywany przez arbitra. Wyboru drzewa dokonuje się poprzez analizę tylko
tych wierzchołków, w których jest wiele możliwości interpretacyjnych. Gdy zostanie wyodrębnione jedno kompletne drzewo, jest ono przedstawiane do weryfikacji. Istotną funkcją
systemu jest konfrontowanie już opracowanych drzew z drzewami generowanymi przez nowsze wersje używanej gramatyki.

 * Kod źródłowy systemu (licencja GPL): [[http://sourceforge.net/projects/dendrarium/]]
 * Kopia lokalna: [[attachment:Dendrarium.tar.gz]]

Składnica — bank drzew składniowych

Na niniejszej stronie zebrano wyniki projektu badawczego N N104 224735 Budowa banku drzew składniowych dla języka polskiego z wykorzystaniem automatycznej analizy składniowej finansowanego w latach 2008–2011 przez Ministerstwo Nauki i Szkolnictwa Wyższego.

Wszystkie wymienione zasoby zostały udostępnione na licencji GPLv3.

Wyszukiwarka drzew składniowych

Składnica

Składnica frazowa

Podstawowym zasobem jest bank składnikowych drzew składniowych Składnica frazowa w wersji 0.5. Bank powstał poprzez automatyczną analizę 20 000 zdań polskich za pomocą analizatora Świgra. Analizator ten dla danego zdania generuje drzewa reprezentujące wszystkie możliwe (według jego gramatyki) rozbiory składniowe. Z tych zbiorów drzew językoznawcy (nazywani dendrologami) wybierali dla każdego zdania jedno właściwe drzewo. Drzewa dla 8227 zdań zostały uznane za poprawne przez dendrologów. Pozostałe z rozpatrywanych zdań zostały sklasyfikowane pod względem poprawności i powodów odrzucenia przez parser. Najważniejszą z tak wydzielonych klas zdań odrzuconych są wypowiedzenia bez centrum finitywnego, których opis językoznawczy będzie przedmiotem osobnych badań.

  • Lasy składnikowe w plikach XML: Składnica-frazowa-0.5.tar.bz2

    • Pliki zawierają wszystkie drzewa wygenerowane przez parser, drzewo wybrane przez dendrologów jest oznaczone atrybutami.
  • Drzewa w formacie Tiger XML: Składnica-frazowa-0.5-TigerXML.xml.gz

    • Ten format reprezentuje tylko drzewa wybrane przez dendrologów (po jednym na zdanie).

Składnica zależnościowa

Składnica zależnościowa jest wynikiem automatycznej konwersji ręcznie ujednoznacznionych drzew składnikowych na struktury zależnościowe.

Struktury zależnościowe mają postać grafów skierowanych z wierzchołkami reprezentującymi tokeny w zdaniu (plus sztuczny korzeń), krawędziami reprezentującymi binarne relacje zależnościowe pomiędzy tokenami (nadrzędnik -- podrzędnik) oraz etykietami na krawędziach wskazującymi typ relacji zależnościowej (Typy relacji zależnościowych w Składnicy zależnościowej). Wierzchołki mają przypisany indeks odpowiadający pozycji tokenu w zdaniu, przy czym korzeń ma zawsze indeks 0.

Konwersja jest procesem w pełni automatycznym i jednoznacznym. Reguły konwersji bazują na informacjach morfosyntaktycznych, kategoriach fraz i symbolach reguł zakodowanych w drzewach składnikowych. W znacznej części fraz składnikowych zostały wyróżnione elementy główne, co ułatwiło konwersję. Dla pozostałych przypadków zostały zdefiniowane heurystyki wyboru nadrzędnika.

Drzewa składnikowe są zakodowane w formacie CoNLL (Buchholz i Marsi, 2006). Wybór formatu został podytkowany przez dostępne systemy parsujące i akceptowane przez nie formaty. W formacie CoNLL dla każdego tokenu zostały zakodowane następujące informacje: indeks (ID), forma ortogragiczna/znak interpunkcyjny (FORM), forma podstawowa (LEMMA), 'ogólna' część mowy (CPOSTAG), 'szczegółowa' część mowy (POSTAG), zbiór cech morfosyntaktycznych (FEATS), indeks nadrzędnika (HEAD) oraz typ relacji zależnościowej (DEPREL).

Wyszukiwarki

Wyszukiwarka sieciowa

W projekcie opracowaliśmy wyszukiwarkę działającą na serwerze internetowym i pozwalającą na zadawanie zapytań przez sieć. Dzięki temu można zapoznać się z bankiem drzew bez instalowania żadnego oprogramowania (wymagana jest tylko przeglądarka WWW Firefox). Unikalną cechą opracowanej wyszukiwarki jest możliwość zadawania pytań nie tylko o wierzchołki drzew wybranych przez językoznawców, ale o wszystkie wierzchołki drzew stworzonych przez analizator automatyczny. Jest to bardzo użyteczne dla badania konsekwencji ekspertów w dokonywanych wyborach.

Dzięki wykonanej konwersji Składnicy frazowej na format TigerXML, można korzystać również z tej wyszukiwarki. Użytkownikom Windows proponujemy gotową płytę CD zawierającą program i dane Składnicy frazowej. Program Tiger Search uruchamia się automatycznie po umieszczeniu płyty w napędzie. Użytkownicy innych systemów powinni zainstalować program Tiger Search samodzielnie i załadować Składnicę w programie TIGERRegistry. Po wykonaniu tych dwóch kroków Składnica będzie widoczna w programie TIGERSearch.

MaltEval

Drzewa zależnościowe można oglądać przy użyciu ogólnie dostępnego narzędzia do ewaluacji parserów zależnościowych MaltEval z wbudowanym modułem wizualizacji struktur zależnościowych. Wywołanie: java -jar …/MaltEval.jar -v 1 -g …/Składnica-zależnościowa-0.5.conll

Parser Świgra

Ważnym wynikiem projektu jest nowa wersja analizatora składniowego Świgra pracująca na nowej gramatyce formalnej. Gramatyka programu wywodzi się z Gramatyki formalnej języka polskiego Marka Świdzińskiego (1992), jednak na potrzeby projektu została ona w istotnym stopniu przebudowana. Struktura generowanych drzew składniowych jest znacząco prostsza, bardziej czytelna i bardziej intuicyjna. Zostało także opisanych wiele zjawisk nieuwzględnio- nych we wcześniejszej gramatyce: współrzędnie złożone frazy nominalne i przymiotnikowe, konstrukcje zawierające formy liczebnikowe, wymagania składniowe form rzeczownikowych i przymiotnikowych, konstrukcje z partykułami. Uwzględnione zostało wiele nietypowości pojawiających się w tekstach polskich.

Elementem bardzo istotnym dla jakości drzew składniowych wygenerowanych przez analizator automatyczny jest słownik walencyjny. W programie Świgra stosowany jest słownik opracowany w roku 1998 przez Marka Świdzińskiego. Słownik ten został uzupełniony o najczęstsze czasowniki występujące w konstruowanym banku drzew. W wyniku tego ¾ wystąpień czasowników w badanym korpusie udało się przypisać ramę walencyjną (dla pozostałych stosowana jest przy analizie permisywna ramka domyślna).

System Dendrarium

Wybór i weryfikacja drzew składniowych były dokonywane przez językoznawców za pomocą stworzonego w projekcie systemu Dendrarium. Jest to aplikacja sieciowa pozwalająca na pracę poprzez standardową przeglądarkę WWW. Drzewa składniowe dla każdego zdania są oceniane niezależnie przez dwóch ekspertów, a w razie konfliktu rozstrzygnięć ostateczny wybór jest dokonywany przez arbitra. Wyboru drzewa dokonuje się poprzez analizę tylko tych wierzchołków, w których jest wiele możliwości interpretacyjnych. Gdy zostanie wyodrębnione jedno kompletne drzewo, jest ono przedstawiane do weryfikacji. Istotną funkcją systemu jest konfrontowanie już opracowanych drzew z drzewami generowanymi przez nowsze wersje używanej gramatyki.