Spejd 0.8.3

Copyright (C) IPI PAN, 2007-2010. Wszelkie prawa zastrzeżone.
Spejd jest rozprowadzany na warunkach Powszechnej Licencji Publicznej
GNU (GNU GPL); patrz plik doc/gpl.txt

O PROGRAMIE

Spejd to Składniowy Parser (Ewidentnie Jednocześnie Dezambiguator). 

Spejd jest parserem powierzchniowym, umożliwiającym jednoczesne 
identyfikowanie konstrukcji składniowych i ujednoznacznianie wyników
analizy morfologicznej, opracowanym w Instytucie Podstaw Informatyki PAN.

Strona o Spejdzie:

http://nlp.ipipan.waw.pl/Spejd/

Ostatnie wersje:
0.8.4: bugfix
0.8.3: bugfix
0.8.2: bugfix
0.8.1:

Zmiany w porównaniu z ostatnią stabilną wersją programu obejmują między innymi:
- Zintegrowany z programem moduł przetwarzania czystego tekstu oraz 
  analizator morfosyntaktyczny Morfologik (http://morfologik.blogspot.com/). 
  Moduł przetwarzania czystego tekstu wymaga, aby pliki wejściowe posiadały 
  rozszerzenie .txt oraz kodowanie znaków określone przez parametr 
  inputEncoding w pliku konfiguracyjnym. Przetwarzanie czystego tekstu 
  określa parametr inputType (auto lub txt).
- Równoległe przetwarzanie (efekty widoczne na maszynach wieloprocesorowych).
  Liczba wątków przetwarzających określona jest parametrem maxThreads 
  w pliku konfiguracyjnym.
- Nieskomplikowany moduł korekty pisowni, a zwłaszcza braku polskich znaków
  diakrytycznych ("ogonków"). Listę przekształceń zawiera plik ogonkifier.ini.
- Zmiany opisane w doc/changes0_5.txt.

WYMAGANIA

Sun Java Runtime Environment w wersji 1.5 lub wyższej.

Uwaga: program może dać się uruchomić na alternatywnych
implementacjach Javy, jednak ze względu na różnice w implementacji
wyrażeń regularnych, nie możemy zagwarantować jego poprawnego
działania.

INSTALACJA

Wystarczy rozpakować plik z programem do dowolnie wybranego katalogu.

WYWOŁANIE PROGRAMU

java -jar spejd.jar sciezka [opcje]

Gdzie:

- sciezka - plik lub katalog zawierający pliki do przetworzenia w
  formacie XML CES (.xml) lub tekstowym (.txt); dodatkowo, parsowane
  bedą tylko pliki pasujące do wzorca zdefiniowanego w config.ini
  (parametr inputFiles); podkatalogi bedą sprawdzane rekurencyjnie).

- opcje - opcjonalny ciąg argumentów postaci zmienna=wartość; zmienne
  odpowiadają zmiennym z pliku config.ini, wartości przekazane jako
  parametr wywołania "nadpisują" konfigurację domyślną z pliku

Przykłady:

java -jar spejd.jar corpus nullAgreement=1
java -jar spejd.jar corpus rules=rules2.sr logDir=log2
java -jar spejd.jar corpus discardDeleted=true outputSuffix=.sh2.xml

WYNIKI

W przypadku plików xml, dla każdego podkatalogu, w którym znaleziony
zostanie plik.xml lub plik.xml.gz, tworzony jest plikSh.xml,
który stanowi kopię plik.xml z przydzielonymi identyfikatorami,
oznakowanymi wyrazami i grupami składniowymi.  W przypadku plików
tekstowych tworzony jest nowy plik xml.

W podkatalogu log generowane są ponadto następujące pliki:

rules.compiled - skompilowany zbiór reguł

rules.matched.csv - statystyki reguł: dla każdej reguły podawana jest
    liczba ukończonych (ewaluowanych do true) dopasowań, liczba
    dopasowań w ogóle, czas dopasowywania, czas ewaluacji, łączny czas

tagdict.ini - słowniczek tłumaczeniowy z tagsetu zdefiniowanego
    w pliku konfiguracyjnym na wewnętrzny format pozycyjny

DOKUMENTACJA

doc/spade.pdf      - artykuł o Spejdzie
doc/xcesAnaIPI.dtd - DTD wejściowego formatu plików
api/               - dokumentacja techniczna

PRZYKŁAD

./sample-morfeusz.cfg      - przykładowy tagset Morfeusza
./sample-morfologik.cfg    - przykładowy tagset Morfologika (wymagany dla plików tekstowych)
./rules.sr                 - przykładowy zbiór reguł
doc/morph.xml              - przykładowe wejście (XML) do parsera
doc/morphSh.xml            - przykładowe wyjście 
doc/display.*              - arkusze stylów i przykładowe wyjście

KONTAKT

Pytania, uwagi, nowe lepsze wersje Spejda można umieszczac na bugtrackerze
Spejda na sourceforge (link ze strony domowej).

