Składnica — bank drzew składniowych
Na niniejszej stronie zebrano wyniki projektu badawczego N N104 224735 Budowa banku drzew składniowych dla języka polskiego z wykorzystaniem automatycznej analizy składniowej finansowanego w latach 2008–2011 przez Ministerstwo Nauki i Szkolnictwa Wyższego.
Wszystkie wymienione zasoby zostały udostępnione na licencji GPLv3.
Składnica
Składnica frazowa
Podstawowym zasobem jest bank składnikowych drzew składniowych Składnica frazowa w wersji 0.5. Bank powstał poprzez automatyczną analizę 20 000 zdań polskich za pomocą analizatora Świgra. Analizator ten dla danego zdania generuje drzewa reprezentujące wszystkie możliwe (według jego gramatyki) rozbiory składniowe. Z tych zbiorów drzew językoznawcy (nazywani dendrologami) wybierali dla każdego zdania jedno właściwe drzewo. Drzewa dla 8227 zdań zostały uznane za poprawne przez dendrologów. Pozostałe z rozpatrywanych zdań zostały sklasyfikowane pod względem poprawności i powodów odrzucenia przez parser. Najważniejszą z tak wydzielonych klas zdań odrzuconych są wypowiedzenia bez centrum finitywnego, których opis językoznawczy będzie przedmiotem osobnych badań.
Lasy składnikowe w plikach XML: Składnica-frazowa-0.5.tar.bz2
- Pliki zawierają wszystkie drzewa wygenerowane przez parser, drzewo wybrane przez dendrologów jest oznaczone atrybutami.
Drzewa w formacie Tiger XML: Składnica-frazowa-0.5-TigerXML.xml.gz
- Ten format reprezentuje tylko drzewa wybrane przez dendrologów (po jednym na zdanie).
Składnica zależnościowa
Składnica zależnościowa jest wynikiem automatycznej konwersji ręcznie ujednoznacznionych drzew składnikowych na struktury zależnościowe.
Struktury zależnościowe mają postać grafów skierowanych z wierzchołkami reprezentującymi tokeny w zdaniu (plus sztuczny korzeń), krawędziami reprezentującymi binarne relacje zależnościowe pomiędzy tokenami (nadrzędnik – podrzędnik) oraz etykietami na krawędziach wskazującymi typ relacji zależnościowej (Typy relacji zależnościowych w Składnicy zależnościowej). Wierzchołki mają przypisany indeks odpowiadający pozycji tokenu w zdaniu, przy czym korzeń ma zawsze indeks 0.
Konwersja jest procesem w pełni automatycznym i jednoznacznym. Reguły konwersji bazują na informacjach morfosyntaktycznych, kategoriach fraz i symbolach reguł zakodowanych w drzewach składnikowych. W znacznej części fraz składnikowych zostały wyróżnione elementy główne, co ułatwiło konwersję. Dla pozostałych przypadków zostały zdefiniowane heurystyki wyboru nadrzędnika.
Drzewa składnikowe są zakodowane w formacie CoNLL (Buchholz i Marsi, 2006). Wybór formatu został podytkowany przez dostępne systemy parsujące i akceptowane przez nie formaty. W formacie CoNLL dla każdego tokenu zostały zakodowane następujące informacje: indeks (ID), forma ortogragiczna/znak interpunkcyjny (FORM), forma podstawowa (LEMMA), 'ogólna' część mowy (CPOSTAG), 'szczegółowa' część mowy (POSTAG), zbiór cech morfosyntaktycznych (FEATS), indeks nadrzędnika (HEAD) oraz typ relacji zależnościowej (DEPREL).
Struktury zależnościowe w formacie CoNLL: Składnica-zależnościowa-0.5.conll.gz
Wyszukiwarki
Wyszukiwarka sieciowa
W projekcie opracowaliśmy wyszukiwarkę działającą na serwerze internetowym i pozwalającą na zadawanie zapytań przez sieć. Dzięki temu można zapoznać się z bankiem drzew bez instalowania żadnego oprogramowania (wymagana jest tylko przeglądarka WWW Firefox). Unikalną cechą opracowanej wyszukiwarki jest możliwość zadawania pytań nie tylko o wierzchołki drzew wybranych przez językoznawców, ale o wszystkie wierzchołki drzew stworzonych przez analizator automatyczny. Jest to bardzo użyteczne dla badania konsekwencji ekspertów w dokonywanych wyborach.
Kod źródłowy wyszukiwarki sieciowej: http://github.com/balrog-kun/forestsearch
Kopia lokalna: Wyszukiwarka-drzew-sieciowa.tar.gz
Tiger Search
Dzięki wykonanej konwersji Składnicy frazowej na format TigerXML, można korzystać również z tej wyszukiwarki. Użytkownikom Windows proponujemy gotową płytę CD zawierającą program i dane Składnicy frazowej. Program Tiger Search uruchamia się automatycznie po umieszczeniu płyty w napędzie. Użytkownicy innych systemów powinni zainstalować program Tiger Search samodzielnie i załadować Składnicę w programie TIGERRegistry. Po wykonaniu tych dwóch kroków Składnica będzie widoczna w programie TIGERSearch.
Obraz płyty dla Windows ze Składnicą i wyszukiwarką Tiger Search gotową do pracy: Składnica-frazowa-0.5+TigerSearch.iso.bz2
Wersja instalacyjna Tiger Search
Składnica frazowa w formacie Tiger XML (j.w.): Składnica-frazowa-0.5-TigerXML.xml.gz
Skrypt konwertujący pliki Składnicy frazowej na format Tiger: forest2tiger.py
MaltEval
Drzewa zależnościowe można oglądać przy użyciu ogólnie dostępnego narzędzia do ewaluacji parserów zależnościowych MaltEval z wbudowanym modułem wizualizacji struktur zależnościowych. Wywołanie: java -jar …/MaltEval.jar -v 1 -g …/Składnica-zależnościowa-0.5.conll
Wersja instalacyjna MaltEval
Parser Świgra
Ważnym wynikiem projektu jest nowa wersja analizatora składniowego Świgra pracująca na nowej gramatyce formalnej. Gramatyka programu wywodzi się z Gramatyki formalnej języka polskiego Marka Świdzińskiego (1992), jednak na potrzeby projektu została ona w istotnym stopniu przebudowana. Struktura generowanych drzew składniowych jest znacząco prostsza, bardziej czytelna i bardziej intuicyjna. Zostało także opisanych wiele zjawisk nieuwzględnionych we wcześniejszej gramatyce: współrzędnie złożone frazy nominalne i przymiotnikowe, konstrukcje zawierające formy liczebnikowe, wymagania składniowe form rzeczownikowych i przymiotnikowych, konstrukcje z partykułami. Uwzględnione zostało wiele nietypowości pojawiających się w tekstach polskich.
Elementem bardzo istotnym dla jakości drzew składniowych wygenerowanych przez analizator automatyczny jest słownik walencyjny. W programie Świgra stosowany jest słownik opracowany w roku 1998 przez Marka Świdzińskiego. Słownik ten został uzupełniony o najczęstsze czasowniki występujące w konstruowanym banku drzew. W wyniku tego ¾ wystąpień czasowników w badanym korpusie udało się przypisać ramę walencyjną (dla pozostałych stosowana jest przy analizie permisywna ramka domyślna).
Świgra wersja 1.5: Świgra_1.5.zip
Słownik walencyjny analizatora: Słownik-walencyjny.txt.gz
System Dendrarium
Wybór i weryfikacja drzew składniowych były dokonywane przez językoznawców za pomocą stworzonego w projekcie systemu Dendrarium. Jest to aplikacja sieciowa pozwalająca na pracę poprzez standardową przeglądarkę WWW. Drzewa składniowe dla każdego zdania są oceniane niezależnie przez dwóch ekspertów, a w razie konfliktu rozstrzygnięć ostateczny wybór jest dokonywany przez arbitra. Wyboru drzewa dokonuje się poprzez analizę tylko tych wierzchołków, w których jest wiele możliwości interpretacyjnych. Gdy zostanie wyodrębnione jedno kompletne drzewo, jest ono przedstawiane do weryfikacji. Istotną funkcją systemu jest konfrontowanie już opracowanych drzew z drzewami generowanymi przez nowsze wersje używanej gramatyki.
Kod źródłowy systemu (licencja GPL): http://sourceforge.net/projects/dendrarium/
Kopia lokalna: Dendrarium.tar.gz