Seminarium „Przetwarzanie języka naturalnego” 2015–2016
Seminarium Zespołu Inżynierii Lingwistycznej w Instytucie Podstaw Informatyki Polskiej Akademii Nauk odbywa się nieregularnie w poniedziałki zwykle o godz. 10:15 w siedzibie IPI PAN (ul. Jana Kazimierza 5, Warszawa) i ma charakter otwarty. Poszczególne referaty ogłaszane są na Polskiej Liście Językoznawczej oraz na stronie Lingwistyka komputerowa na Facebooku. |
12 października 2015 |
Vincent Ng (Uniwersytet Teksasu w Dallas) |
Znaczący postęp w dziedzinie wykrywania koreferencji dokonał się w ostatnim czasie m.in. dzięki dostępności ręcznie anotowanych korpusów MUC, ACE i OntoNotes. Koreferencja jest jednak zjawiskiem trudniejszym niż uwzględniają to obecne modele anotacyjne. W trakcie wystąpienia autor zaprezentował jej stosunkowo mniej zbadane aspekty, stanowiące wyzwanie nie mniej ambitne niż wykrywanie koreferencji obiektowej: zadaniu Winograd Schema Challenge, identyfikacji anafory zerowej i koreferencji zdarzeniowej. |
26 października 2015 |
Wojciech Jaworski (Uniwersytet Warszawski) |
Autor zaprezentował powstający w ramach projektu CLARIN-PL parser składniowo-semantyczny, przedstawił, jak działa preprocesing realizowany w oparciu o analizator morfologiczny "Morfeusz", opisał zintegrowaną ze słownikiem walencyjnym „Walenty” gramatykę kategorialną języka polskiego, z której korzysta parser oraz przybliżył formalizm grafów semantycznych służący do reprezentowania znaczenia tekstów. Wspomniał też o algorytmie parsera i strategiach optymalizacyjnych zapewniających jego szybkie działanie i pozwalających w zwarty sposób reprezentować niejednoznaczne rozbiory składniowe i semantyczne. |
16 listopada 2015 |
Izabela Gatkowska (Uniwersytet Jagielloński) |
Empiryczna sieć powiązań leksykalnych jest wynikiem eksperymentu wykorzystującego ludzki mechanizm skojarzeniowy – badany podaje pierwszy wyraz, jaki przychodzi na myśl po zrozumieniu wyrazu bodźca. Badanie przeprowadzono cyklicznie, tj. wyrazy odpowiedzi uzyskane w cyklu pierwszym zostały użyte jako bodźce w cyklu drugim, co umożliwiło powstanie sieci semantycznej, która różni się od sieci budowanych z korpusów tekstowych, np. WORTSCHATZ oraz sieci budowanych ręcznie, np. WordNet. Uzyskane empirycznie powiązania pomiędzy wyrazami sieci mają kierunek i siłę powiązania. Zbiór powiązań wychodzących i przychodzących, w jakie wchodzi konkretny wyraz tworzy węzeł leksykalny sieci (podsieć). Sposób, w jaki sieć charakteryzuje znaczenia pokażemy na przykładzie powiązań zwrotnych, które są szczególnym przypadkiem zależności pomiędzy dwoma wyrazami występującymi w węźle leksykalnym. Jakościowa analiza powiązań zwrotnych wskazuje, iż znane językoznawstwu semantyczne relacje leksykalne, stosowane np. w słowniku WordNet, pozwalają zinterpretować tylko ok. 25% powiązań zwrotnych. Pozostałe powiązania można zinterpretować odwołując się do modelu opisu znaczenia zaproponowanego dla słownika FrameNet. Interpretacja jakościowa wszystkich powiązań występujących w węźle leksykalnym może pozwolić na badania porównawcze węzłów leksykalnych sieci zbudowanych eksperymentalnie dla różnych języków naturalnych, pozwala także na wyodrębnienie empirycznych modeli semantycznych obsługiwanych przez ten sam zestaw powiązań pomiędzy węzłami w sieci. |
30 listopada 2015 |
Dora Montagna (Universidad Autónoma de Madrid) |
Semantyczna reprezentacja hiszpańskiego czasownika polisemicznego |
Autorka zaprezentowała teoretyczny model reprezentacji semantycznej oparty na teorii generatywnego leksykonu Pustejovskiego. Celem propozycji jest stworzenie bazy do automatycznego określania znaczeń i nowego modelu opisu leksykograficznego. Model ten zastosowano do analizy produktywnego czasownika w języku hiszpańskim, zakładając hipotezę niedookreśloności słów, w celu ustalenia wzorców zastosowań semantycznych. |
7 grudnia 2015 |
Łukasz Kobyliński (Instytut Podstaw Informatyki PAN), Witold Kieraś (Uniwersytet Warszawski) |
Tagery morfosyntaktyczne języka polskiego – stan obecny i perspektywy na przyszłość |
W trakcie prezentacji omówione zostały zaproponowane dotychczas podejścia do automatycznego znakowania morfosyntaktycznego tekstów w języku polskim, z naciskiem na analizę działania narzędzi publicznie dostępnych i możliwych do wykorzystania w praktyce. Przeprowadzona została analiza ilościowa i jakościowa błędów popełnianych przez tagery wraz z dyskusją o możliwych przyczynach i sposobach rozwiązania tych problemów. Wyniki tagowania dla języka polskiego zostały skontrastowane z rezultatami otrzymywanymi dla innych języków europejskich. |
8 grudnia 2015 |
Salvador Pons Bordería (Universitat de València) |
Discourse Markers from a pragmatic perspective: The role of discourse units in defining functions |
One of the most disregarded aspects in the description of discourse markers is position. Notions such as "initial position" or "final position" are meaningless unless it can be specified with regard to what a DM is "initial" or "final". This presentation defended the idea that, for this question to be answered, appeal must be made to the notion of "discourse unit". Provided with a set of a) discourse units, and b) discourse positions, determining the function of a given DM is quasi-automatic. |
11 stycznia 2016 |
Małgorzata Marciniak, Agnieszka Mykowiecka, Piotr Rychlik (Instytut Podstaw Informatyki PAN) |
Ekstrakcja terminologii z tekstów w języku polskim – program TermoPL |
Na seminarium omówione zostały zagadnienia ekstrakcji terminologii z korpusów tekstów w języku polskim oraz przedstawiony program TermoPL, w którym zaimplementowane zostały zaproponowane rozwiązania. W omawianych pracach autorzy zastosowali metodę C-value, która ustala istotność terminów na podstawie ich częstości i liczby kontekstów. Metoda ta uwzględnia terminy zagnieżdżone – czyli takie, które są zawarte w dłuższych terminach. Niekiedy prowadzi to do ekstrakcji niepoprawnych semantycznie fraz (np. 'giełda papierów', 'USG jamy'). W celu eliminacji tego typu terminów zaproponowaliśmy metodę, która w procesie wyodrębniania zagnieżdżonych fraz kieruje się siłą powiązań między słowami. |
25 stycznia 2015 |
Wojciech Jaworski (Uniwersytet Warszawski) |
Parser składniowo-semantyczny dla języka polskiego: integracja z zasobami słownikowymi, parsowanie |
Podczas referatu autor opowiedział o integracji parsera składniowo semantycznego z SGJP, Polimorfem, Słowosiecią oraz Walentym. Przedstawił wstępne obserwacje dotyczące tego jaki wpływ na parsowanie ma uzupełnienie gramatyki o sprawdzanie preferencji selekcyjnych. Opisał też formalizm kategorialny służący do parsowania i przedstawił pokrótce, jak działa parser. |
22 lutego 2016 |
Witold Dyrka (Politechnika Wrocławska) |
W wystąpieniu autor przedstawi argumentację za traktowaniem sekwencji, względnie wyższych struktur białkowych, jako zdań w pewnym języku/językach. Następnie zaprezentuje kilka interesujących wyników (własnych i nie tylko) zastosowania ilościowych metod analizy tekstu oraz narzędzi lingwistyki formalnej (np. probabilistycznych gramatyk bezkontekstowych) do analizy białek. Wystąpienie zakończy się przedstawieniem planów dalszych prac w zakresie "lingwistyki białek" będące wstępem do dyskusji. |
22 lutego 2016 |
Zespół Inżynierii Lingwistycznej (Instytut Podstaw Informatyki PAN) |
Seminarium rozszerzone |
12:00–12:15: Ludzie, projekty, narzędzia analizy lingwistycznej |
12:15–12:45: Morfeusz 2: analizator i generator fleksyjny dla języka polskiego |
12:45–13:15: Toposław: Tworzenie słowników terminów wielowyrazowych |
13:15–13:45: Przerwa obiadowa |
13:45–14:15: TermoPL: Ekstrakcja terminologii z tekstów w języku polskim |
14:15–14:45: Walenty: Słownik walencyjny języka polskiego |
14:45–15:15: POLFIE: Gramatyka LFG dla języka polskiego |
7 marca 2016 |
Zbigniew Bronk (niezależny informatyk, współpracownik Zespołu Słownika Gramatycznego Języka Polskiego) |
JOD – znacznikowy język formalnego opisu polskiej deklinacji powstał w celu ścisłego opisania reguł i schematów odmiany rzeczowników i przymiotników w języku polskim. Pierwsze zastosowanie znalazł on przy opisie fleksji polskich nazwisk, z uwzględnieniem płci nosiciela lub nosicieli. Model ten jest podstawą działania „Automatu do odmiany nazwisk”. Referent omówi koncepcję języka i implementację jego interpretera oraz zaprezentuje edytor JOD i serwis internetowy „Automat do odmiany nazwisk”. |
21 marca 2016 |
Bartosz Zaborowski, Aleksander Zabłocki (Instytut Podstaw Informatyki PAN) |
Poliqarp2 na ostatniej prostej |
W ramach seminarium przedstawimy efekt naszej pracy z ostatnich trzech lat, czyli wyszukiwarkę korpusową Poliqarp 2. Zaprezentujemy zarówno stronę techniczną wyszukiwarki, jak i jej działanie widziane od strony użytkownika. Przypomnimy pokrótce model danych, na których operuje wyszukiwarka, budowę języka obsługiwanego przez nowego wykonawcę zapytań, jego siłę wyrazu, oraz różnice w stosunku do wcześniejszej wersji. Szczególną uwagę poświęcimy przy tym elementom dodanym bądź zmienionym w trakcie rozwoju projektu (obsługa modelu Składnicy i LFG, post-processing, lukry składniowe). Wśród technikaliów znajdzie się krótka prezentacja architektury narzędzia, ciekawostki związane z implementacją indeksów a także nietrywialne decyzje związane z obsługą danych wejściowych (w szczególności NKJP). Na zakończenie zaprezentujemy wstępne wyniki wydajności i odniesiemy je do wydajności starego Poliqarpa. |
4 kwietnia 2016 |
Aleksander Wawer (Instytut Podstaw Informatyki PAN) |
Identyfikacja przedmiotów opinii w języku polskim |
Streszczenie będzie dostępne wkrótce. |