Projekt Dendrarium -- wizja
Dominika Pawlik, Karolina Sołtys, Piotr Achinger, Tomasz Badowski
Ważnym etapem tworzenia banku drzew składniowych dla języka polskiego
jest podejmowanie decyzji, które spośród wielu wygenerowanych przez
komputer drzew robioru danego zdania jest najbardziej
odpowiednie. Wybór ten musi być dokonywany przez wykwalifikowanego
pracownika. Proces ten ma na celu sporządzenie banku drzew rozbioru i
na skutek sprzężenia zwrotnego - wprowadzanie poprawek do
gramatyki. Nasz system -- Projekt Dendrarium -- będzie koordynował pracę grupy
lingwistów, przydzielając im fragmenty całego zadania, sygnalizował
przypadki braku zgodności i pozwalał na ich rozstrzyganie przez
użytkownika o wyższych uprawnieniach. Jednocześnie będzie ułatwiał
pracę nad pojedynczymi zdaniami, zadając ujednoznaczniające pytania
odnośnie cech strukturalnych właściwego drzewa rozbioru i umożliwiając
szybkie udzielanie odpowiedzi na nie za pomocą wygodnego
interfejsu. Aby optymalnie wykorzystywać czas pracy lingwisty,
Projekt Dendrarium stawia sobie za zadanie generowanie zestawów pytań
najszybciej prowadzących do uzyskania jednoznacznego wyniku. Projekt Dendrarium
powinien też dostosowywać się do zmian w gramatyce,
minimalizując przy tym utratę uprzednio wykonanej pracy.
Celem dokumentu jest analiza wymagań stawianych naszej aplikacji przez zleceniodawcę oraz scharakteryzowanie przyszłych użytkowników i zdefiniowanie ich potrzeb. Ponadto omówiono w nim własności produktu, wymagania dokumentacyjne oraz priorytety projektu i związane z nim ryzyko.
Dokument ten zawiera podstawowe informacje na temat funkcji i własności programu, bardziej szczegółowe informacje zostaną przedstawione w dalszym terminie.
- Zdanie -- fragment tekstu w języku naturalnym, zwykle
od wielkiej litery do kropki, stanowiący jednostkę dla automatycznej
analizy składniowej.
- Akapity -- spójne ciągi zdań pochodzące z większego
tekstu. Są to najmniejsze porcje pracy przydzielane użytkownikom.
- Gramatyka (formalna) -- sposób formalnego opisu języka
naturalnego (polskiego). W naszym systemie stosowana będzie
gramatyka wywodząca się od gramatyki formalnej Świdzińskiego
(opisanej w pracy [GFJP]), używana w programie Świgra.
- Parser (analizator składniowy) -- program generujący
dla danego zdania opis wszystkich możliwych struktur składniowych
dopuszczanych przez gramatykę.
- Drzewo rozbioru/analizy -- reprezentacja jednej
z możliwych struktur składniowych przypisanych zdaniu przez
gramatykę. W drzewie rozbioru w liściach są wyrazy, zaś węzły
wewnętrzne, etykietowane jednostkami składniowymi, symbolizują
syntaktyczne związki między nimi.
- Upakowany las (analiz) -- struktura grafowa
reprezentująca zbiorczo wszystkie możliwe drzewa rozbioru dla danego
zdania. Jest to postać wyników parsera, w jakiej będą one
wprowadzane do systemu.
- Zdanie sporne -- zdanie dla którego różni użytkownicy
wybrali różne rozbiory
- System -- docelowy, wdrożony projekt
Projekt Dendrarium jest skierowany do wąskiej grupy osób zatrudnionych w
projekcie tworzenia banku drzew składniowych dla języka polskiego.
Będzie umożliwiał
zastosowanie innej gramatyki,
więc po niewielkich modyfikacjach
będzie mógł zostać przystosowany do pracy nad innymi językami
fleksyjnymi i być może zaciekawi lingwistów i filologów z różnych
krajów. Może również służyć jako narzędzie pomocne w kształceniu studentów polonistyki i innych filologii.
- Naszym klientem jest projekt badawczy Ministerstwa Nauki
nr N N104 224735 ,,Budowa banku drzew składniowych dla języka
polskiego z wykorzystaniem automatycznej analizy składniowej''
realizowany w IPI PAN, reprezentowany przez
dr. Marcina Wolińskiego, członka Zespołu
Inżynierii Lingwistycznej Zakładu Sztucznej Inteligencji IPI PAN.
- Opiekunem naszego zespołu jest dr Robert Dąbrowski, prowadzący
grupę laboratoryjną z przedmiotu Zespołowy Projekt Programistyczny.
- Administrator -- nadzoruje poprawność działania Systemu, przy
ewentualnej awarii przywraca System do pełnej funkcjonalności, może
ustawiać uprawnienia użytkowników.
- Gramatycy -- mogą przeglądać wszystkie powstałe drzewa rozbioru wraz z komentarzami dendrologów
- Supergramatyk -- wprowadza do Systemu poprawne w aktualnej gramatyce charty dla obecnych w bazie zdań, udoskonala gramatykę
- Dendrolodzy -- wybierają zdania nad którymi pracują,
odpowiadają na pytania o rozbiór stawiane przez system. Mogą
sygnalizować błędy w zdaniu lub w gramatyce,
oglądać powstałe drzewo rozbioru, jak również wszystkie zatwierdzone drzewa w systemie,
oraz dodawać komentarze do wykonanej przez siebie pracy
nad rozbiorem.
- Superdendrolodzy -- użytkownicy rozstrzygający konflikt między
dendrologami. Decydują, który rozbiór jest prawidłowy, w przypadku,
gdy nie ma zgodności między dendrologami.
System będzie używany w przeglądarce Firefox.
- opis: realizują projekt
- odpowiedzialność: tworzą szczegółową i pełną
dokumentację oraz realizują projekt
- kryteria sukcesu: stworzenie w określonym czasie
Systemu zgodnego z wymaganiami określonymi przez klienta
- zaangażowanie:
- tworzenie dokumentacji
- tworzenie Systemu
- testowanie Systemu
- opis: specyfikuje pożądany projekt
- odpowiedzialność: zdefiniowanie funkcjonalności
Systemu, dostarczenie niezbędnych narzędzi
- kryteria sukcesu: otrzymanie w terminie produktu
spełniającego wymagania
- zaangażowanie:
- odpowiedzi na pytania dotyczące wizji i celu Systemu
- nadzorowanie prac nad Systemem
- testowanie Systemu
- opis: sprawuje nadzór nad wykonaniem projektu
- odpowiedzialność: nadzoruje projekt, testuje oraz
ocenia jego realizację
- kryteria sukcesu:
- zaangażowanie:
- służy radą i sugestią
- testuje System
- ocenia stopień realizacji projektu
- opis: administruje Systemem
- odpowiedzialność: funkcjonalność i bezpieczeństwo
Systemu
- kryteria sukcesu: utrzymanie funkcjonalnego i
bezpiecznego Systemu
- zaangażowanie:
- wstawianie pakietów zdań do bazy danych przy starcie systemu
- korygowanie skutków ewentualnych awarii
- nadawanie uprawnień użytkownikom
- opis: zarządza reakcją Systemu na zmiany gramatyki
- odpowiedzialność: wprowadzanie do Systemu poprawnych w aktualnej gramatyce chartów dla obecnych w bazie zdań
- kryteria sukcesu: udoskonalanie gramatyki
- zaangażowanie:
- wprowadzanie do Systemu poprawnych w aktualnej gramatyce chartów dla obecnych w bazie zdań
- inicjacja procesu reakcji Systemu na zmianę gramatyki
- opis:
użytkownik ten jest obserwatorem, mającym możliwość oglądania rozbiorów
zdań i komentarzy użytkowników o błędach
- kryteria sukcesu: udoskonalanie gramatyki
- zaangażowanie:
- możliwość oglądania rozbiorów zdań i komentarzy użytkowników o
błędach
- opis: wybieranie poprawnego drzewa rozbioru dla
wybranego zdania
- odpowiedzialność: wybranie poprawnego rozbioru
- kryteria sukcesu: stworzenie banku rozbiorów zdań
- zaangażowanie:
- wybór zdania do rozbioru
- odpowiedzi na pytania zadawane przez System
- przeglądanie powstałego rozbioru
- zatwierdzanie bądź odrzucanie rozbioru
- ponowna obróbka wybranego wcześniej zdania
- zgłoszenie błędnych lub niewłaściwych zdań, oraz dodanie komentarza
- opis: wybieranie poprawnego rozbioru zdania spornego,
które zostało niejednomyślnie rozłożone przez dendrologów, weryfikacja zdań oznaczonych przez dendrologów jako niewłaściwe
- odpowiedzialność: wybranie poprawnego robioru,
zgłaszanie błędów w przyjętej gramatyce
- kryteria sukcesu: wybranie poprawnego rozbioru
- zaangażowanie:
- wybór spornego zdania do sprawdzenia
- wybór rozbioru (bądź z wybranych przez dendrologów bądź przez
odpowiedzi na pytania zadawane przez System)
- zgłaszanie ewentualnych błędów w gramatyce i działaniu Systemu
- przechowywanie zdań (wraz z lasem nieaktywnym łuków w
chart-parserze) bez wybranego rozbioru, zdań z wybranym rozbiorem,
zdań (wraz z lasem nieaktywnym łuków w chart-parserze) w czasie
obróbki, spornych zdań ze sprzecznie wybranymi rozbiorami - wysoki
priorytet
- automatyczne przydzielanie fragmentów pracy do pracowników,
sygnalizacja niezgodności pomiędzy wybranymi przez nich drzewami
rozbioru - wysoki priorytet
- generowanie kolejnych zapytań o rozbiór dla konkretnego zdania -
wysoki priorytet
- wizualizacja powstałego drzewa rozbioru - średni priorytet
- możliwość wprowadzania zmian po modyfikacji gramatyki - średni
priorytet
System jest niezależnie działającą aplikacją wraz z bazą danych.
- dodawanie zdań -- umożliwia gramatykom dodawanie zdań do bazy
danych zdań
- modyfikowanie gramatyki -- dla gramatyków. Następuje wtedy
ponowne uruchomienie programów generujących drzewa rozbioru,
następnie Projekt Dendrarium uwzględnia odpowiedzi, których udzielili już
dedrologowie, pozostawia niezmienione zdania, dla których
rozbiór nadal jest znany, w przeciwnym razie sygnalizuje potrzebę
wznowienia pracy nad nimi
- wybor zdań -- umożliwia dendrologom wybranie zdania, którego
rozbioru będą poszukiwać
- panel do odpowiedzi na pytania o wybrane zdanie -- umożliwia
komunikację Projekt Dendrarium z dendrologiem (lub superdendrologiem). System
generuje kolejne pytania w formie wizualnej, zaś na podstawie
odpowiedzi udzielanych przez dendrologa oraz informacji
umieszczonych w bazie danych (nieaktywnych łuków w chart-parserze)
wybiera rozbiór
- zapisywanie i wznawianie pracy
- wybór rozbioru dla spornych zdań -- umożliwia superdendrologom
wybranie drzewa rozbioru zdania spośród drzew zaproponowanych przez
dendrologów, bądź przejście do panelu odpowiedzi na pytania dla
danego zdania
- zgłaszanie błędów w gramatyce
- dodawanie i przeglądanie komentarzy do zdań -- umożliwia dendrologom zgłoszenie swoich uwag związanych z przetwarzanym zdaniem
- wizualizacja drzewa rozbioru -- pozwala zobaczyć wybrany rozbiór
- panel administracyjny --
umożliwia kompleksowe zarządzanie Systemem
System będzie działał na platformie wyposażonej w przeglądarkę
Firefox.
Brak.
Planujemy udostępnić system na licencji GPL. Instalacji systemu na
serwerze WWW dokonują twórcy systemu.
Konto zakłada administrator Systemu.
Użytkownik po zalogowaniu się widzi listę możliwości. Różne grupy
użytkowników mają różne ekrany powitalne w zależności od uprawnień.
Użytkownik może wybrać jedną z paczek zdań,
nad którym już wcześniej pracował, bądź dostać od Systemu nowe.
System generuje kolejne pytania dotyczące rozbioru wybranego
zdania. Użytkownik na nie odpowiada. Na koncu widzi powstałe drzewo
rozbioru, które może zatwierdzić bądź odrzucić. Może też dodawać
komentarze do przetwarzanych zdań lub też odrzucić zdanie jako takie podając powód odrzucenia
W dowolnym miejscu użytkownik może zapisać swoją pracę, by powrócić do niej później.
Superdendrolog może dostać od Systemu zdanie sporne. Wybiera dla niego
odpowiedni rozbiór z zaproponowanych przez dendrologów bądź poprzez
odpowiedzi na pytania Systemu. Jeśli nie znalazł właściwego drzewa
rozbioru zaznacza ten fakt, co może sygnalizować potrzebę zmiany reguł gramatycznych.
Supergramatyk może wprowadzać do systemu nowe charty dla obecnych tam zdań i uruchamiać
proces reakcji Systemu na zmiany, polegający na wyszukaniu zdań do powtórnego przetworzenia.
Administrator może dodać nowych użytkowników i nadać im uprawnienia.
- bezpieczeństwo danych -- wyniki dotychczasowej pracy powinny
być dobrze zabezpieczone przed przypadkowymi błędami użytkownika.
- modularność -- program ma być złożony z części (modułów) o
określonych funkcjach i interfejsie, umożliwiających ich podmianę na
równoważne. Ułatwi to dokonywanie zmian w programie, np. modyfikacje
polegające na podmianie gramatyki na inną, ułatwi nam też podział
pracy.
- funkcjonalność -- program powinien mieć łatwy w obsłudze
interfejs, umożliwiający użytkownikom szybkie i wygodne wybieranie
właściwych drzew składniowych
- oszczędność pracy -- dokonywanie punktowych zmian, na przykład
usuwanie blędów powinno się odbywać bez utraty większej ilości
wyników pracy
- reużywalność -- program powinien posiadać szczegółową
dokumentację i przejrzysty kod, umożliwiające jego dalszy rozwój i
pielęgnację
Ryzyko spowodowane brakiem specjalistycznej wiedzy naszego zespołu z
zakresu inżynierii lingwistycznej uważamy za małe, ponieważ -- choć projekt
będzie wymagał znajomości kilku zaawansowanych pojęć z tej dyscypliny --
większość z nich zdążyliśmy już opanować.
Zagrożenie przekroczenia terminów oceniamy na średnie, ponieważ
projekt pomimo dużego rozmiaru jest skalowalny i jego pracochłonność
można dostosować do dostępnego czasu.
-
- GFJP
- Marek Świdziński. Gramatyka formalna
języka polskiego, Wydawnictwa Uniwersytetu Warszawskiego, 1992.
- MW
- Marcin Woliński, Komputerowa weryfikacja
gramatyki Świdzińskiego, Rozprawa doktorska, Instytut Podstaw
Informatyki PAN, Warszawa, grudzień 2004,
Projekt Dendrarium -- wizja
This document was generated using the
LaTeX2HTML translator Version 2002-2-1 (1.71)
Copyright © 1993, 1994, 1995, 1996,
Nikos Drakos,
Computer Based Learning Unit, University of Leeds.
Copyright © 1997, 1998, 1999,
Ross Moore,
Mathematics Department, Macquarie University, Sydney.
The command line arguments were:
latex2html -split 0 info.tex
The translation was initiated by Piotr Achinger on 2009-04-18
Piotr Achinger
2009-04-18