Locked History Actions

Świgra

Świgra parser

The following page presents a new version of the syntactic parser Świgra, operating with a new formal grammar. The parser's grammar derives from the Marek Świdziński's Formal Grammar of Polish (Świdziński 1992, Gramatyka formalna języka polskiego), albeit with substantial modifications. The structure of generated parse trees is much simpler, more readable, and more intuitive. It also describes a number of phenomena not described the earlier grammar: coordinate nominal and adjectival phrases, constructions involving numeral forms, argument structures of nominal and adjectival forms, constructions involving particles. A number of peculiarities present in Polish texts have been accounted for.

A very important component responsible for the quality of trees generated by the automatic parser is its valence dictionary. Świgra uses Marek Świdziński's valence dictionary (1998). The dictionary has been expanded with the most frequent verbs appearing in the constructed treebank. Due to this, 3 in 4 verbs in the analysed corpus have been provided with valence frames (in the analysis of the remainder, a default, permissive frame has been used).


Parser Świgra

Niniejsza strona prezentuje nową wersję analizatora składniowego Świgra pracującą na nowej gramatyce formalnej. Gramatyka programu wywodzi się z Gramatyki formalnej języka polskiego Marka Świdzińskiego (1992), jednak na potrzeby projektu została ona w istotnym stopniu przebudowana. Struktura generowanych drzew składniowych jest znacząco prostsza, bardziej czytelna i bardziej intuicyjna. Zostało także opisanych wiele zjawisk nieuwzględnionych we wcześniejszej gramatyce: współrzędnie złożone frazy nominalne i przymiotnikowe, konstrukcje zawierające formy liczebnikowe, wymagania składniowe form rzeczownikowych i przymiotnikowych, konstrukcje z partykułami. Uwzględnione zostało wiele nietypowości pojawiających się w tekstach polskich.

Elementem bardzo istotnym dla jakości drzew składniowych wygenerowanych przez analizator automatyczny jest słownik walencyjny. W programie Świgra stosowany jest słownik opracowany w roku 1998 przez Marka Świdzińskiego. Słownik ten został uzupełniony o najczęstsze czasowniki występujące w konstruowanym banku drzew. W wyniku tego ¾ wystąpień czasowników w badanym korpusie udało się przypisać ramę walencyjną (dla pozostałych stosowana jest przy analizie permisywna ramka domyślna).