Locked History Actions

Składnica

Składnica — a Polish treebank

The following page presents the results of the research project N N104 224735 Construction of a treebank for Polish using machine parsing, financed by the Ministry of Science and Higher Education in 2008-2011.

All listed resources have been made available under the GPLv3 license.

Treebank search engine

Składnica

Składnica frazowa — constituency treebank

The primary resource presented is the constituency treebank (Składnica frazowa), version 0.5. The treebank is a result of parsing 20,000 Polish sentences with the syntactic parser Świgra. For every sentence, the parser generates all possible syntactic parse trees predicted by the rules of its grammar. Within the Dendrarium system, a single correct parse tree has been selected for each sentence by linguists (termed "dendrologists"). Dendrologists have established parse trees for 8,227 sentences to be correct. Other sentences under consideration have undergone classification on the basis of their (un)grammaticality and reasons for their rejection by the parser. The largest class among the rejected sentences consists of utterances with no finite verb. Their analysis of which will be a subject of separate research.

Składnica zależnościowa — dependency treebank

The dependency treebank (Składnica zależnościowa), version 0.5, is a result of an automatic conversion of manually disambiguated constituency trees into dependency structures.

Dependency structures take shape of directed graphs with nodes representing tokens in the sentence (plus an artificial root node), edges representing binary dependency relations between tokens (head - dependent) and edge labels marking the type of dependency relation involved (Polish Dependency Relation Types). Nodes contain indices corresponding to the position of the token within the sentence, with the root always indexed as 0.

The conversion is an entirely automatic and unambiguous process. Conversion rules have been based on morphosyntactic information, syntactic categories of phrases, and parsing rule references encoded within constituency trees. The majority of constituency trees contain specified syntactic centres, which made conversion easier. For other cases, heuristics were constructed in order to select the head.

Dependency trees are encoded in the CoNLL format (Buchholz i Marsi, 2006). The choice of the format was guided by existing available parsing systems and the formats they accept. In the CoNLL format, each token encodes the following information: index (ID), orthographic form/punctuation mark (FORM), base form (LEMMA), coarse-grained part of speech (CPOSTAG), fine-grained part of speech (POSTAG), morphosyntactic features (FEATS), head index (HEAD) and type of dependency relation (DEPREL).

Search engines

Online search engine

The project also involved the creation of a treebank search engine hosted on a web server and allowing for online queries. This makes searching the treebank possible without installing any additional software (the only requirement is the Firefox browser). A unique feature of the engine is the ability to search not only for disambiguated nodes selected by linguists, but for all tree nodes created by the parser. This makes it useful for evaluating dendrologists' decisions.

The conversion of the constituency treebank to the TigerXML format has made this option available as well. We suggest Windows users to obtain a CD containing the program and the constituency treebank data. Tiger Search will boot up automatically after inserting the CD in the drive. Users running other operating systems should install the Tiger Search program manually and load the treebank in TIGERRegistry. After these steps, the treebank (Składnica) will become visible in TIGERSearch.

MaltEval

Dependency trees can be viewed with the publicly available tool for evaluating dependency parsers MaltEval, containing a built-in module for visualisation of dependency structures. Call: java -jar …/MaltEval.jar -v 1 -g …/Składnica-zależnościowa-0.5.conll


Składnica — bank drzew składniowych

Na niniejszej stronie zebrano wyniki projektu badawczego N N104 224735 Budowa banku drzew składniowych dla języka polskiego z wykorzystaniem automatycznej analizy składniowej finansowanego w latach 2008–2011 przez Ministerstwo Nauki i Szkolnictwa Wyższego.

Wszystkie wymienione zasoby zostały udostępnione na licencji GPLv3.

Wyszukiwarka drzew składniowych

Składnica

Składnica frazowa

Podstawowym zasobem jest bank składnikowych drzew składniowych Składnica frazowa w wersji 0.5. Bank powstał poprzez automatyczną analizę 20 000 zdań polskich za pomocą analizatora Świgra. Analizator ten dla danego zdania generuje drzewa reprezentujące wszystkie możliwe (według jego gramatyki) rozbiory składniowe. Z tych zbiorów drzew językoznawcy (nazywani dendrologami) wybierali dla każdego zdania jedno właściwe drzewo w systemie Dendrarium. Drzewa dla 8227 zdań zostały uznane za poprawne przez dendrologów. Pozostałe z rozpatrywanych zdań zostały sklasyfikowane pod względem poprawności i powodów odrzucenia przez parser. Najważniejszą z tak wydzielonych klas zdań odrzuconych są wypowiedzenia bez centrum finitywnego, których opis językoznawczy będzie przedmiotem osobnych badań.

Składnica zależnościowa

Składnica zależnościowa w wersji 0.5 jest wynikiem automatycznej konwersji ręcznie ujednoznacznionych drzew składnikowych na struktury zależnościowe.

Struktury zależnościowe mają postać grafów skierowanych z wierzchołkami reprezentującymi tokeny w zdaniu (plus sztuczny korzeń), krawędziami reprezentującymi binarne relacje zależnościowe pomiędzy tokenami (nadrzędnik – podrzędnik) oraz etykietami na krawędziach wskazującymi typ relacji zależnościowej (Polish Dependency Relation Types). Wierzchołki mają przypisany indeks odpowiadający pozycji tokenu w zdaniu, przy czym korzeń ma zawsze indeks 0.

Konwersja jest procesem w pełni automatycznym i jednoznacznym. Reguły konwersji bazują na informacjach morfosyntaktycznych, kategoriach fraz i symbolach reguł zakodowanych w drzewach składnikowych. W znacznej części fraz składnikowych zostały wyróżnione elementy główne, co ułatwiło konwersję. Dla pozostałych przypadków zostały zdefiniowane heurystyki wyboru nadrzędnika.

Drzewa składnikowe są zakodowane w formacie CoNLL (Buchholz i Marsi, 2006). Wybór formatu został podytkowany przez dostępne systemy parsujące i akceptowane przez nie formaty. W formacie CoNLL dla każdego tokenu zostały zakodowane następujące informacje: indeks (ID), forma ortograficzna/znak interpunkcyjny (FORM), forma podstawowa (LEMMA), 'ogólna' część mowy (CPOSTAG), 'szczegółowa' część mowy (POSTAG), zbiór cech morfosyntaktycznych (FEATS), indeks nadrzędnika (HEAD) oraz typ relacji zależnościowej (DEPREL).

Wyszukiwarki

Wyszukiwarka sieciowa

W projekcie opracowaliśmy wyszukiwarkę działającą na serwerze internetowym i pozwalającą na zadawanie zapytań przez sieć. Dzięki temu można zapoznać się z bankiem drzew bez instalowania żadnego oprogramowania (wymagana jest tylko przeglądarka WWW Firefox). Unikalną cechą opracowanej wyszukiwarki jest możliwość zadawania pytań nie tylko o wierzchołki drzew wybranych przez językoznawców, ale o wszystkie wierzchołki drzew stworzonych przez analizator automatyczny. Jest to bardzo użyteczne dla badania konsekwencji ekspertów w dokonywanych wyborach.

Tiger Search

Dzięki wykonanej konwersji Składnicy frazowej na format TigerXML, można korzystać również z tej wyszukiwarki. Użytkownikom Windows proponujemy gotową płytę CD zawierającą program i dane Składnicy frazowej. Program Tiger Search uruchamia się automatycznie po umieszczeniu płyty w napędzie. Użytkownicy innych systemów powinni zainstalować program Tiger Search samodzielnie i załadować Składnicę w programie TIGERRegistry. Po wykonaniu tych dwóch kroków Składnica będzie widoczna w programie TIGERSearch.

MaltEval

Drzewa zależnościowe można oglądać przy użyciu ogólnie dostępnego narzędzia do ewaluacji parserów zależnościowych MaltEval z wbudowanym modułem wizualizacji struktur zależnościowych. Wywołanie: java -jar …/MaltEval.jar -v 1 -g …/Składnica-zależnościowa-0.5.conll

Polish data for shared task: automatic_pos_morph_v2.zip