Size: 8584
Comment:
|
Size: 6173
Comment:
|
Deletions are marked like this. | Additions are marked like this. |
Line 37: | Line 37: |
Struktury zależnościowe mają postać grafów skierowanych z wierzchołkami reprezentującymi tokeny w zdaniu (plus sztuczny korzeń), krawędziami reprezentującymi binarne relacje zależnościowe pomiędzy tokenami (nadrzędnik – podrzędnik) oraz etykietami na krawędziach wskazującymi typ relacji zależnościowej ([[http://zil.ipipan.waw.pl/Składnica/FunkcjeZaleznosciowe|Polish Dependency Relation Types]]). Wierzchołki mają przypisany indeks odpowiadający pozycji tokenu w zdaniu, przy czym korzeń ma zawsze indeks 0. | Struktury zależnościowe mają postać grafów skierowanych z wierzchołkami reprezentującymi tokeny w zdaniu (plus sztuczny korzeń), krawędziami reprezentującymi binarne relacje zależnościowe pomiędzy tokenami (nadrzędnik – podrzędnik) oraz etykietami na krawędziach wskazującymi typ relacji zależnościowej ([[http://zil.ipipan.waw.pl/FunkcjeZaleznosciowe|Polish Dependency Relation Types]]). Wierzchołki mają przypisany indeks odpowiadający pozycji tokenu w zdaniu, przy czym korzeń ma zawsze indeks 0. |
Line 74: | Line 74: |
== Parser Świgra == Ważnym wynikiem projektu jest nowa wersja analizatora składniowego ''Świgra'' pracująca na nowej gramatyce formalnej. Gramatyka programu wywodzi się z ''Gramatyki formalnej języka polskiego'' Marka Świdzińskiego (1992), jednak na potrzeby projektu została ona w istotnym stopniu przebudowana. Struktura generowanych drzew składniowych jest znacząco prostsza, bardziej czytelna i bardziej intuicyjna. Zostało także opisanych wiele zjawisk nieuwzględnionych we wcześniejszej gramatyce: współrzędnie złożone frazy nominalne i przymiotnikowe, konstrukcje zawierające formy liczebnikowe, wymagania składniowe form rzeczownikowych i przymiotnikowych, konstrukcje z partykułami. Uwzględnione zostało wiele nietypowości pojawiających się w tekstach polskich. Elementem bardzo istotnym dla jakości drzew składniowych wygenerowanych przez analizator automatyczny jest słownik walencyjny. W programie Świgra stosowany jest słownik opracowany w roku 1998 przez Marka Świdzińskiego. Słownik ten został uzupełniony o najczęstsze czasowniki występujące w konstruowanym banku drzew. W wyniku tego ¾ wystąpień czasowników w badanym korpusie udało się przypisać ramę walencyjną (dla pozostałych stosowana jest przy analizie permisywna ramka domyślna). * ''Świgra'' wersja 1.5: [[attachment:Świgra_1.5.zip]] * Słownik walencyjny analizatora: [[attachment:Słownik-walencyjny.txt.gz]] == System Dendrarium == Wybór i weryfikacja drzew składniowych były dokonywane przez językoznawców za pomocą stworzonego w projekcie systemu Dendrarium. Jest to aplikacja sieciowa pozwalająca na pracę poprzez standardową przeglądarkę WWW. Drzewa składniowe dla każdego zdania są oceniane niezależnie przez dwóch ekspertów, a w razie konfliktu rozstrzygnięć ostateczny wybór jest dokonywany przez arbitra. Wyboru drzewa dokonuje się poprzez analizę tylko tych wierzchołków, w których jest wiele możliwości interpretacyjnych. Gdy zostanie wyodrębnione jedno kompletne drzewo, jest ono przedstawiane do weryfikacji. Istotną funkcją systemu jest konfrontowanie już opracowanych drzew z drzewami generowanymi przez nowsze wersje używanej gramatyki. * Kod źródłowy systemu (licencja GPL): [[http://sourceforge.net/projects/dendrarium/]] * Kopia lokalna: [[attachment:Dendrarium.tar.gz]] |
Składnica — bank drzew składniowych
Na niniejszej stronie zebrano wyniki projektu badawczego N N104 224735 Budowa banku drzew składniowych dla języka polskiego z wykorzystaniem automatycznej analizy składniowej finansowanego w latach 2008–2011 przez Ministerstwo Nauki i Szkolnictwa Wyższego.
Wszystkie wymienione zasoby zostały udostępnione na licencji GPLv3.
Składnica
Składnica frazowa
Podstawowym zasobem jest bank składnikowych drzew składniowych Składnica frazowa w wersji 0.5. Bank powstał poprzez automatyczną analizę 20 000 zdań polskich za pomocą analizatora Świgra. Analizator ten dla danego zdania generuje drzewa reprezentujące wszystkie możliwe (według jego gramatyki) rozbiory składniowe. Z tych zbiorów drzew językoznawcy (nazywani dendrologami) wybierali dla każdego zdania jedno właściwe drzewo. Drzewa dla 8227 zdań zostały uznane za poprawne przez dendrologów. Pozostałe z rozpatrywanych zdań zostały sklasyfikowane pod względem poprawności i powodów odrzucenia przez parser. Najważniejszą z tak wydzielonych klas zdań odrzuconych są wypowiedzenia bez centrum finitywnego, których opis językoznawczy będzie przedmiotem osobnych badań.
Lasy składnikowe w plikach XML: Składnica-frazowa-0.5.tar.bz2
- Pliki zawierają wszystkie drzewa wygenerowane przez parser, drzewo wybrane przez dendrologów jest oznaczone atrybutami.
Schemat XML dla plików Składnicy frazowej: Składnica-frazowa.xsd
Drzewa w formacie Tiger XML: Składnica-frazowa-0.5-TigerXML.xml.gz
- Ten format reprezentuje tylko drzewa wybrane przez dendrologów (po jednym na zdanie).
Składnica zależnościowa
Składnica zależnościowa w wersji 0.5 jest wynikiem automatycznej konwersji ręcznie ujednoznacznionych drzew składnikowych na struktury zależnościowe.
Struktury zależnościowe mają postać grafów skierowanych z wierzchołkami reprezentującymi tokeny w zdaniu (plus sztuczny korzeń), krawędziami reprezentującymi binarne relacje zależnościowe pomiędzy tokenami (nadrzędnik – podrzędnik) oraz etykietami na krawędziach wskazującymi typ relacji zależnościowej (Polish Dependency Relation Types). Wierzchołki mają przypisany indeks odpowiadający pozycji tokenu w zdaniu, przy czym korzeń ma zawsze indeks 0.
Konwersja jest procesem w pełni automatycznym i jednoznacznym. Reguły konwersji bazują na informacjach morfosyntaktycznych, kategoriach fraz i symbolach reguł zakodowanych w drzewach składnikowych. W znacznej części fraz składnikowych zostały wyróżnione elementy główne, co ułatwiło konwersję. Dla pozostałych przypadków zostały zdefiniowane heurystyki wyboru nadrzędnika.
Drzewa składnikowe są zakodowane w formacie CoNLL (Buchholz i Marsi, 2006). Wybór formatu został podytkowany przez dostępne systemy parsujące i akceptowane przez nie formaty. W formacie CoNLL dla każdego tokenu zostały zakodowane następujące informacje: indeks (ID), forma ortogragiczna/znak interpunkcyjny (FORM), forma podstawowa (LEMMA), 'ogólna' część mowy (CPOSTAG), 'szczegółowa' część mowy (POSTAG), zbiór cech morfosyntaktycznych (FEATS), indeks nadrzędnika (HEAD) oraz typ relacji zależnościowej (DEPREL).
Struktury zależnościowe w formacie CoNLL: Składnica-zależnościowa-0.5.conll.gz
Wyszukiwarki
Wyszukiwarka sieciowa
W projekcie opracowaliśmy wyszukiwarkę działającą na serwerze internetowym i pozwalającą na zadawanie zapytań przez sieć. Dzięki temu można zapoznać się z bankiem drzew bez instalowania żadnego oprogramowania (wymagana jest tylko przeglądarka WWW Firefox). Unikalną cechą opracowanej wyszukiwarki jest możliwość zadawania pytań nie tylko o wierzchołki drzew wybranych przez językoznawców, ale o wszystkie wierzchołki drzew stworzonych przez analizator automatyczny. Jest to bardzo użyteczne dla badania konsekwencji ekspertów w dokonywanych wyborach.
Kod źródłowy wyszukiwarki sieciowej: http://github.com/balrog-kun/forestsearch
Kopia lokalna: Wyszukiwarka-drzew-sieciowa.tar.gz
Tiger Search
Dzięki wykonanej konwersji Składnicy frazowej na format TigerXML, można korzystać również z tej wyszukiwarki. Użytkownikom Windows proponujemy gotową płytę CD zawierającą program i dane Składnicy frazowej. Program Tiger Search uruchamia się automatycznie po umieszczeniu płyty w napędzie. Użytkownicy innych systemów powinni zainstalować program Tiger Search samodzielnie i załadować Składnicę w programie TIGERRegistry. Po wykonaniu tych dwóch kroków Składnica będzie widoczna w programie TIGERSearch.
Obraz płyty dla Windows ze Składnicą i wyszukiwarką Tiger Search gotową do pracy: Składnica-frazowa-0.5+TigerSearch.iso.bz2
Wersja instalacyjna Tiger Search
Składnica frazowa w formacie Tiger XML (j.w.): Składnica-frazowa-0.5-TigerXML.xml.gz
Skrypt konwertujący pliki Składnicy frazowej na format Tiger: forest2tiger.py
MaltEval
Drzewa zależnościowe można oglądać przy użyciu ogólnie dostępnego narzędzia do ewaluacji parserów zależnościowych MaltEval z wbudowanym modułem wizualizacji struktur zależnościowych. Wywołanie: java -jar …/MaltEval.jar -v 1 -g …/Składnica-zależnościowa-0.5.conll
Wersja instalacyjna MaltEval