Differences between revisions 1 and 41 (spanning 40 versions)

Składnica — bank drzew składniowych

Na niniejszej stronie zebrano wyniki projektu badawczego N N104 224735 Budowa banku drzew składniowych dla języka polskiego z wykorzystaniem automatycznej analizy składniowej finansowanego w latach 2008–2011 przez Ministerstwo Nauki i Szkolnictwa Wyższego.

Wszystkie wymienione zasoby zostały udostępnione na licencji GPLv3.

→Wyszukiwarka drzew składniowych

Składnica

Składnica frazowa

Podstawowym zasobem jest bank składnikowych drzew składniowych Składnica frazowa w wersji 0.5. Bank powstał poprzez automatyczną analizę 20 000 zdań polskich za pomocą analizatora Świgra. Analizator ten dla danego zdania generuje drzewa reprezentujące wszystkie możliwe (według jego gramatyki) rozbiory składniowe. Z tych zbiorów drzew językoznawcy (nazywani dendrologami) wybierali dla każdego zdania jedno właściwe drzewo w systemie Dendrarium. Drzewa dla 8227 zdań zostały uznane za poprawne przez dendrologów. Pozostałe z rozpatrywanych zdań zostały sklasyfikowane pod względem poprawności i powodów odrzucenia przez parser. Najważniejszą z tak wydzielonych klas zdań odrzuconych są wypowiedzenia bez centrum finitywnego, których opis językoznawczy będzie przedmiotem osobnych badań.

Lasy składnikowe w plikach XML: Składnica-frazowa-0.5.tar.bz2
- Pliki zawierają wszystkie drzewa wygenerowane przez parser, drzewo wybrane przez dendrologów jest oznaczone atrybutami.
Schemat XML dla plików Składnicy frazowej: Składnica-frazowa.xsd
Drzewa w formacie Tiger XML: Składnica-frazowa-0.5-TigerXML.xml.gz
- Ten format reprezentuje tylko drzewa wybrane przez dendrologów (po jednym na zdanie).

Składnica zależnościowa

Składnica zależnościowa w wersji 0.5 jest wynikiem automatycznej konwersji ręcznie ujednoznacznionych drzew składnikowych na struktury zależnościowe.

Struktury zależnościowe mają postać grafów skierowanych z wierzchołkami reprezentującymi tokeny w zdaniu (plus sztuczny korzeń), krawędziami reprezentującymi binarne relacje zależnościowe pomiędzy tokenami (nadrzędnik – podrzędnik) oraz etykietami na krawędziach wskazującymi typ relacji zależnościowej (Polish Dependency Relation Types). Wierzchołki mają przypisany indeks odpowiadający pozycji tokenu w zdaniu, przy czym korzeń ma zawsze indeks 0.

Konwersja jest procesem w pełni automatycznym i jednoznacznym. Reguły konwersji bazują na informacjach morfosyntaktycznych, kategoriach fraz i symbolach reguł zakodowanych w drzewach składnikowych. W znacznej części fraz składnikowych zostały wyróżnione elementy główne, co ułatwiło konwersję. Dla pozostałych przypadków zostały zdefiniowane heurystyki wyboru nadrzędnika.

Drzewa składnikowe są zakodowane w formacie CoNLL (Buchholz i Marsi, 2006). Wybór formatu został podytkowany przez dostępne systemy parsujące i akceptowane przez nie formaty. W formacie CoNLL dla każdego tokenu zostały zakodowane następujące informacje: indeks (ID), forma ortogragiczna/znak interpunkcyjny (FORM), forma podstawowa (LEMMA), 'ogólna' część mowy (CPOSTAG), 'szczegółowa' część mowy (POSTAG), zbiór cech morfosyntaktycznych (FEATS), indeks nadrzędnika (HEAD) oraz typ relacji zależnościowej (DEPREL).

Struktury zależnościowe w formacie CoNLL: Składnica-zależnościowa-0.5.conll.gz

Wyszukiwarki

Wyszukiwarka sieciowa

W projekcie opracowaliśmy wyszukiwarkę działającą na serwerze internetowym i pozwalającą na zadawanie zapytań przez sieć. Dzięki temu można zapoznać się z bankiem drzew bez instalowania żadnego oprogramowania (wymagana jest tylko przeglądarka WWW Firefox). Unikalną cechą opracowanej wyszukiwarki jest możliwość zadawania pytań nie tylko o wierzchołki drzew wybranych przez językoznawców, ale o wszystkie wierzchołki drzew stworzonych przez analizator automatyczny. Jest to bardzo użyteczne dla badania konsekwencji ekspertów w dokonywanych wyborach.

Wyszukiwarka sieciowa
Kod źródłowy wyszukiwarki sieciowej: http://github.com/balrog-kun/forestsearch
Kopia lokalna: Wyszukiwarka-drzew-sieciowa.tar.gz

Tiger Search

Dzięki wykonanej konwersji Składnicy frazowej na format TigerXML, można korzystać również z tej wyszukiwarki. Użytkownikom Windows proponujemy gotową płytę CD zawierającą program i dane Składnicy frazowej. Program Tiger Search uruchamia się automatycznie po umieszczeniu płyty w napędzie. Użytkownicy innych systemów powinni zainstalować program Tiger Search samodzielnie i załadować Składnicę w programie TIGERRegistry. Po wykonaniu tych dwóch kroków Składnica będzie widoczna w programie TIGERSearch.

Obraz płyty dla Windows ze Składnicą i wyszukiwarką Tiger Search gotową do pracy: Składnica-frazowa-0.5+TigerSearch.iso.bz2
Wersja instalacyjna Tiger Search
Składnica frazowa w formacie Tiger XML (j.w.): Składnica-frazowa-0.5-TigerXML.xml.gz
Skrypt konwertujący pliki Składnicy frazowej na format Tiger: forest2tiger.py

MaltEval

Drzewa zależnościowe można oglądać przy użyciu ogólnie dostępnego narzędzia do ewaluacji parserów zależnościowych MaltEval z wbudowanym modułem wizualizacji struktur zależnościowych. Wywołanie: java -jar …/MaltEval.jar -v 1 -g …/Składnica-zależnościowa-0.5.conll

Wersja instalacyjna MaltEval

-  ⇤ ← Revision 1 as of 2011-03-14 17:13:15 → 
  Size: 120
  Editor: MarcinWolinski
  Comment:
+   ← Revision 41 as of 2013-01-29 10:56:31 → ⇥
  Size: 6199
  Editor: MarcinWolinski
  Comment:
-Deletions are marked like this.
+Additions are marked like this.
 Line 1:
-Tutaj wstawię bieżący stan drzew i Świgrę 2, jak ktoś mi wyjaśni, jak ograniczyć dostęp do tej strony do ZIL.
+#acl ZILGroup:read,write,delete,revert,admin All:read

= Składnica — bank drzew składniowych =

Na niniejszej stronie zebrano wyniki projektu badawczego N N104 224735
''Budowa banku drzew składniowych dla języka polskiego z wykorzystaniem
automatycznej analizy składniowej'' finansowanego w latach 2008–2011 przez Ministerstwo Nauki i Szkolnictwa Wyższego.

Wszystkie wymienione zasoby zostały udostępnione na licencji GPLv3.

||<:tablewidth="100%"> ~+→[[http://nlp.ipipan.waw.pl:8000/ui.xhtml|Wyszukiwarka drzew składniowych]]+~ ||


== Składnica ==

=== Składnica frazowa ===

Podstawowym zasobem jest bank składnikowych drzew składniowych ''Składnica frazowa''
w wersji 0.5. Bank powstał poprzez automatyczną analizę 20 000 zdań polskich za pomocą
analizatora [[Świgra]]. Analizator ten dla danego zdania generuje drzewa reprezentujące wszystkie możliwe (według jego gramatyki) rozbiory składniowe. Z tych zbiorów drzew językoznawcy (nazywani dendrologami) wybierali dla każdego zdania jedno właściwe drzewo w systemie [[Dendrarium]]. Drzewa dla 8227 zdań zostały
uznane za poprawne przez dendrologów. Pozostałe z rozpatrywanych zdań zostały sklasyfikowane pod względem poprawności i powodów odrzucenia przez parser. Najważniejszą z tak
wydzielonych klas zdań odrzuconych są wypowiedzenia bez centrum finitywnego, których
opis językoznawczy będzie przedmiotem osobnych badań.


 * Lasy składnikowe w plikach XML: [[attachment:Składnica-frazowa-0.5.tar.bz2]]
   Pliki zawierają wszystkie drzewa wygenerowane przez parser, drzewo wybrane przez dendrologów jest oznaczone atrybutami.
 * Schemat XML dla plików Składnicy frazowej: [[attachment:Składnica-frazowa.xsd]]
 * Drzewa w formacie Tiger XML: [[attachment:Składnica-frazowa-0.5-TigerXML.xml.gz]]
   Ten format reprezentuje tylko drzewa wybrane przez dendrologów (po jednym na zdanie).


=== Składnica zależnościowa ===
 
''Składnica zależnościowa'' w wersji 0.5 jest wynikiem automatycznej konwersji ręcznie ujednoznacznionych drzew składnikowych na struktury zależnościowe.

Struktury zależnościowe mają postać grafów skierowanych z wierzchołkami reprezentującymi tokeny w zdaniu (plus sztuczny korzeń), krawędziami reprezentującymi binarne relacje zależnościowe pomiędzy tokenami (nadrzędnik – podrzędnik) oraz etykietami na krawędziach wskazującymi typ relacji zależnościowej ([[http://zil.ipipan.waw.pl/FunkcjeZaleznosciowe|Polish Dependency Relation Types]]). Wierzchołki mają przypisany indeks odpowiadający pozycji tokenu w zdaniu, przy czym korzeń ma zawsze indeks 0.

Konwersja jest procesem w pełni automatycznym i jednoznacznym. Reguły konwersji bazują na informacjach morfosyntaktycznych, kategoriach fraz i symbolach reguł zakodowanych w drzewach składnikowych. W znacznej części fraz składnikowych zostały wyróżnione elementy główne, co ułatwiło konwersję. Dla pozostałych przypadków zostały zdefiniowane heurystyki wyboru nadrzędnika. 

Drzewa składnikowe są zakodowane w formacie CoNLL [[http://citeseer.ist.psu.edu/viewdoc/download;jsessionid=F5C9135E3B3F121BFCD2B9F7B9DE7F1C?doi=10.1.1.128.7511&rep=rep1&type=pdf|(Buchholz i Marsi, 2006)]]. Wybór formatu został podytkowany przez dostępne systemy parsujące i akceptowane przez nie formaty. W formacie CoNLL dla każdego tokenu zostały zakodowane następujące informacje: indeks (ID), forma ortogragiczna/znak interpunkcyjny (FORM), forma podstawowa (LEMMA), 'ogólna' część mowy (CPOSTAG), 'szczegółowa' część mowy (POSTAG), zbiór cech morfosyntaktycznych (FEATS), indeks nadrzędnika (HEAD) oraz typ relacji zależnościowej (DEPREL). 

 * Struktury zależnościowe w formacie CoNLL: [[attachment:Składnica-zależnościowa-0.5.conll.gz]]

== Wyszukiwarki ==

=== Wyszukiwarka sieciowa ===

W projekcie opracowaliśmy wyszukiwarkę działającą na serwerze internetowym i pozwalającą na zadawanie zapytań przez sieć. Dzięki temu można zapoznać się z bankiem drzew bez
instalowania żadnego oprogramowania (wymagana jest tylko przeglądarka WWW Firefox).
Unikalną cechą opracowanej wyszukiwarki jest możliwość zadawania pytań nie tylko o wierzchołki drzew wybranych przez językoznawców, ale o wszystkie wierzchołki drzew stworzonych przez analizator automatyczny. Jest to bardzo użyteczne dla badania konsekwencji
ekspertów w dokonywanych wyborach.

 * [[http://nlp.ipipan.waw.pl:8000/ui.xhtml|Wyszukiwarka sieciowa]]
 * Kod źródłowy wyszukiwarki sieciowej: [[http://github.com/balrog-kun/forestsearch]]
 * Kopia lokalna: [[attachment:Wyszukiwarka-drzew-sieciowa.tar.gz]]

=== Tiger Search ===

Dzięki wykonanej konwersji ''Składnicy frazowej'' na format TigerXML, można korzystać również z tej wyszukiwarki.  Użytkownikom Windows proponujemy gotową płytę CD zawierającą program i dane ''Składnicy frazowej''.  Program Tiger Search uruchamia się automatycznie po umieszczeniu płyty w napędzie.  Użytkownicy innych systemów powinni zainstalować program Tiger Search samodzielnie i załadować ''Składnicę'' w programie TIGERRegistry.  Po wykonaniu tych dwóch kroków ''Składnica'' będzie widoczna w programie TIGERSearch.

 * Obraz płyty dla Windows ze Składnicą i wyszukiwarką Tiger Search gotową do pracy: [[attachment:Składnica-frazowa-0.5+TigerSearch.iso.bz2]]
 * Wersja instalacyjna [[http://www.ims.uni-stuttgart.de/projekte/TIGER/TIGERSearch/download/|Tiger Search]]
 * ''Składnica frazowa'' w formacie Tiger XML (j.w.): [[attachment:Składnica-frazowa-0.5-TigerXML.xml.gz]] 
 * Skrypt konwertujący pliki Składnicy frazowej na format Tiger: [[attachment:forest2tiger.py]]

=== MaltEval ===

Drzewa zależnościowe można oglądać przy użyciu ogólnie dostępnego narzędzia do ewaluacji parserów zależnościowych [[http://w3.msi.vxu.se/users/jni/malteval|MaltEval]] z wbudowanym modułem wizualizacji struktur zależnościowych. Wywołanie: 
{{{java -jar …/MaltEval.jar -v 1 -g …/Składnica-zależnościowa-0.5.conll}}}


 * Wersja instalacyjna [[http://w3.msi.vxu.se/users/jni/malteval|MaltEval]]

Diff for "Składnica"

Menu