Seminarium „Przetwarzanie języka naturalnego” 2015–2016

Seminarium Zespołu Inżynierii LingwistycznejInstytucie Podstaw Informatyki Polskiej Akademii Nauk odbywa się nieregularnie w poniedziałki zwykle o godz. 10:15 w siedzibie IPI PAN (ul. Jana Kazimierza 5, Warszawa) i ma charakter otwarty. Poszczególne referaty ogłaszane są na Polskiej Liście Językoznawczej oraz na stronie Lingwistyka komputerowa na Facebooku. Wszystkie nagrania dostępne są na kanale YouTube.

seminar-archive

12 października 2015

Vincent Ng (Uniwersytet Teksasu w Dallas)

Koreferencja w OntoNotes – i co dalej?  Wystąpienie w języku angielskim.

Znaczący postęp w dziedzinie wykrywania koreferencji dokonał się w ostatnim czasie m.in. dzięki dostępności ręcznie anotowanych korpusów MUC, ACE i OntoNotes. Koreferencja jest jednak zjawiskiem trudniejszym niż uwzględniają to obecne modele anotacyjne. W trakcie wystąpienia autor zaprezentował jej stosunkowo mniej zbadane aspekty, stanowiące wyzwanie nie mniej ambitne niż wykrywanie koreferencji obiektowej: zadaniu Winograd Schema Challenge, identyfikacji anafory zerowej i koreferencji zdarzeniowej.

26 października 2015

Wojciech Jaworski (Uniwersytet Warszawski)

Parser składniowo semantyczny dla języka polskiego  Wystąpienie w języku polskim.

Autor zaprezentował powstający w ramach projektu CLARIN-PL parser składniowo-semantyczny, przedstawił, jak działa preprocesing realizowany w oparciu o analizator morfologiczny "Morfeusz", opisał zintegrowaną ze słownikiem walencyjnym „Walenty” gramatykę kategorialną języka polskiego, z której korzysta parser oraz przybliżył formalizm grafów semantycznych służący do reprezentowania znaczenia tekstów. Wspomniał też o algorytmie parsera i strategiach optymalizacyjnych zapewniających jego szybkie działanie i pozwalających w zwarty sposób reprezentować niejednoznaczne rozbiory składniowe i semantyczne.

16 listopada 2015

Izabela Gatkowska (Uniwersytet Jagielloński)

Empiryczna sieć powiązań leksykalnych  Wystąpienie w języku polskim.

Empiryczna sieć powiązań leksykalnych jest wynikiem eksperymentu wykorzystującego ludzki mechanizm skojarzeniowy – badany podaje pierwszy wyraz, jaki przychodzi na myśl po zrozumieniu wyrazu bodźca. Badanie przeprowadzono cyklicznie, tj. wyrazy odpowiedzi uzyskane w cyklu pierwszym zostały użyte jako bodźce w cyklu drugim, co umożliwiło powstanie sieci semantycznej, która różni się od sieci budowanych z korpusów tekstowych, np. WORTSCHATZ oraz sieci budowanych ręcznie, np. WordNet. Uzyskane empirycznie powiązania pomiędzy wyrazami sieci mają kierunek i siłę powiązania. Zbiór powiązań wychodzących i przychodzących, w jakie wchodzi konkretny wyraz tworzy węzeł leksykalny sieci (podsieć). Sposób, w jaki sieć charakteryzuje znaczenia pokażemy na przykładzie powiązań zwrotnych, które są szczególnym przypadkiem zależności pomiędzy dwoma wyrazami występującymi w węźle leksykalnym. Jakościowa analiza powiązań zwrotnych wskazuje, iż znane językoznawstwu semantyczne relacje leksykalne, stosowane np. w słowniku WordNet, pozwalają zinterpretować tylko ok. 25% powiązań zwrotnych. Pozostałe powiązania można zinterpretować odwołując się do modelu opisu znaczenia zaproponowanego dla słownika FrameNet. Interpretacja jakościowa wszystkich powiązań występujących w węźle leksykalnym może pozwolić na badania porównawcze węzłów leksykalnych sieci zbudowanych eksperymentalnie dla różnych języków naturalnych, pozwala także na wyodrębnienie empirycznych modeli semantycznych obsługiwanych przez ten sam zestaw powiązań pomiędzy węzłami w sieci.

30 listopada 2015

Dora Montagna (Universidad Autónoma de Madrid)

Semantyczna reprezentacja hiszpańskiego czasownika polisemicznego  Wystąpienie w języku angielskim.

Autorka zaprezentowała teoretyczny model reprezentacji semantycznej oparty na teorii generatywnego leksykonu Pustejovskiego. Celem propozycji jest stworzenie bazy do automatycznego określania znaczeń i nowego modelu opisu leksykograficznego. Model ten zastosowano do analizy produktywnego czasownika w języku hiszpańskim, zakładając hipotezę niedookreśloności słów, w celu ustalenia wzorców zastosowań semantycznych.

7 grudnia 2015

Łukasz Kobyliński (Instytut Podstaw Informatyki PAN), Witold Kieraś (Uniwersytet Warszawski)

Tagery morfosyntaktyczne języka polskiego – stan obecny i perspektywy na przyszłość  Wystąpienie w języku polskim.

W trakcie prezentacji omówione zostały zaproponowane dotychczas podejścia do automatycznego znakowania morfosyntaktycznego tekstów w języku polskim, z naciskiem na analizę działania narzędzi publicznie dostępnych i możliwych do wykorzystania w praktyce. Przeprowadzona została analiza ilościowa i jakościowa błędów popełnianych przez tagery wraz z dyskusją o możliwych przyczynach i sposobach rozwiązania tych problemów. Wyniki tagowania dla języka polskiego zostały skontrastowane z rezultatami otrzymywanymi dla innych języków europejskich.

8 grudnia 2015

Salvador Pons Bordería (Universitat de València)

Discourse Markers from a pragmatic perspective: The role of discourse units in defining functions  Wystąpienie w języku angielskim.

One of the most disregarded aspects in the description of discourse markers is position. Notions such as "initial position" or "final position" are meaningless unless it can be specified with regard to what a DM is "initial" or "final". This presentation defended the idea that, for this question to be answered, appeal must be made to the notion of "discourse unit". Provided with a set of a) discourse units, and b) discourse positions, determining the function of a given DM is quasi-automatic.

11 stycznia 2016

Małgorzata Marciniak, Agnieszka Mykowiecka, Piotr Rychlik (Instytut Podstaw Informatyki PAN)

Ekstrakcja terminologii z tekstów w języku polskim – program TermoPL  Wystąpienie w języku polskim.

Na seminarium omówione zostały zagadnienia ekstrakcji terminologii z korpusów tekstów w języku polskim oraz przedstawiony program TermoPL, w którym zaimplementowane zostały zaproponowane rozwiązania. W omawianych pracach autorzy zastosowali metodę C-value, która ustala istotność terminów na podstawie ich częstości i liczby kontekstów. Metoda ta uwzględnia terminy zagnieżdżone – czyli takie, które są zawarte w dłuższych terminach. Niekiedy prowadzi to do ekstrakcji niepoprawnych semantycznie fraz (np. 'giełda papierów', 'USG jamy'). W celu eliminacji tego typu terminów zaproponowaliśmy metodę, która w procesie wyodrębniania zagnieżdżonych fraz kieruje się siłą powiązań między słowami.

25 stycznia 2015

Wojciech Jaworski (Uniwersytet Warszawski)

Parser składniowo-semantyczny dla języka polskiego: integracja z zasobami słownikowymi, parsowanie  Wystąpienie w języku polskim.

Podczas referatu autor opowiedział o integracji parsera składniowo semantycznego z SGJP, Polimorfem, Słowosiecią oraz Walentym. Przedstawił wstępne obserwacje dotyczące tego jaki wpływ na parsowanie ma uzupełnienie gramatyki o sprawdzanie preferencji selekcyjnych. Opisał też formalizm kategorialny służący do parsowania i przedstawił pokrótce, jak działa parser.

22 lutego 2016

Witold Dyrka (Politechnika Wrocławska)

Język(i) białek? – przesłanki, przyczynki i perspektywy  Wystąpienie w języku polskim.

W wystąpieniu autor przedstawił argumentację za traktowaniem sekwencji, względnie wyższych struktur białkowych, jako zdań w pewnym języku/językach. Następnie zaprezentował kilka interesujących wyników (własnych i nie tylko) zastosowania ilościowych metod analizy tekstu oraz narzędzi lingwistyki formalnej (np. probabilistycznych gramatyk bezkontekstowych) do analizy białek. Wystąpienie zakończyło przedstawienie planów dalszych prac w zakresie "lingwistyki białek" będące wstępem do dyskusji.

22 lutego 2016

Zespół Inżynierii Lingwistycznej (Instytut Podstaw Informatyki PAN)

Seminarium rozszerzone: prezentacja narzędzi Zespołu  Seria wystąpień w języku polskim.

12:00–12:15: Ludzie, projekty, narzędzia analizy lingwistycznej

12:15–12:45: Morfeusz 2: analizator i generator fleksyjny dla języka polskiego

12:45–13:15: Toposław: Tworzenie słowników terminów wielowyrazowych

13:15–13:45: Przerwa obiadowa

13:45–14:15: TermoPL: Ekstrakcja terminologii z tekstów w języku polskim

14:15–14:45: Walenty: Słownik walencyjny języka polskiego

14:45–15:15: POLFIE: Gramatyka LFG dla języka polskiego

7 marca 2016

Zbigniew Bronk (niezależny informatyk, współpracownik Zespołu Słownika Gramatycznego Języka Polskiego)

Znacznikowy język formalnego opisu polskiej deklinacji JOD  Wystąpienie w języku polskim.

JOD – znacznikowy język formalnego opisu polskiej deklinacji powstał w celu ścisłego opisania reguł i schematów odmiany rzeczowników i przymiotników w języku polskim. Pierwsze zastosowanie znalazł on przy opisie fleksji polskich nazwisk, z uwzględnieniem płci nosiciela lub nosicieli. Model ten jest podstawą działania „Automatu do odmiany nazwisk”. Referent omówił koncepcję języka i implementację jego interpretera oraz zaprezentował edytor JOD i serwis internetowy „Automat do odmiany nazwisk”.

21 marca 2016

Bartosz Zaborowski, Aleksander Zabłocki (Instytut Podstaw Informatyki PAN)

Poliqarp2 na ostatniej prostej  Wystąpienie w języku polskim.

W ramach seminarium autorzy przedstawili efekt swojej pracy z ostatnich trzech lat, czyli wyszukiwarkę korpusową Poliqarp 2: jej stronę techniczną i działanie widziane od strony użytkownika. Przypomnieli pokrótce model danych, na których operuje wyszukiwarka, budowę języka obsługiwanego przez nowego wykonawcę zapytań, jego siłę wyrazu, oraz różnice w stosunku do wcześniejszej wersji. Szczególną uwagę poświęcili elementom dodanym bądź zmienionym w trakcie rozwoju projektu (obsługa modelu Składnicy i LFG, post-processing, lukry składniowe). Wśród technikaliów znalazła się krótka prezentacja architektury narzędzia, ciekawostki związane z implementacją indeksów, a także nietrywialne decyzje związane z obsługą danych wejściowych (w szczególności NKJP). Na zakończenie zaprezentowane zostały wstępne wyniki wydajności i ich odniesienie do wydajności starego Poliqarpa.

4 kwietnia 2016

Aleksander Wawer (Instytut Podstaw Informatyki PAN)

Identyfikacja przedmiotów opinii w języku polskim  Wystąpienie w języku polskim.

Seminarium prezentowało rezultaty grantu NCN zakończonego w styczniu 2016 r. Przedstawiono trzy zasoby, powstałe w związku z projektem: oznaczony wydźwiękiem i przedmiotami opinii bank drzew zależnościowych pochodzący z korpusu recenzji produktów, fragment Składnicy zależnościowej oraz zbiór tweetów. Omówiono eksperymenty nad automatycznym rozpoznawaniem przedmiotów opinii. Obejmują one wykorzystanie dwóch metod analizy składniowej: zależnościowej oraz powierzchniowej, a także metody hybrydowe, w których wyniki analizy składniowej wykorzystywane są przez modele statystyczne (np. CRF).

21 kwietnia 2016

Magdalena Derwojedowa (Uniwersytet Warszawski)

„Tem lepiej, ale jest to interes miljonowy i traktujemy go poważnie” – 1000 razy po 1000 słów w 5 częściach  Wystąpienie w języku polskim.

W wystąpieniu Autorzy przedstawili milionowy korpus roboczy projektu „Automatyczna analiza fleksyjna polszczyzny XIX wieku” (DEC-2012/07/B/HS2/00570). Omówili jego strukturę, stylistyczne, czasowe i geograficzne zróżnicowanie próbek oraz charakterystykę fleksyjną na tle własności opisywanych w literaturze przedmiotu (prace I. Bajerowej).

9 maja 2016

Daniel Janus (Rebased.pl)

Od nieustrukturyzowanych danych do przeszukiwalnego korpusu bogatego w metadane: Skyscraper, P4, Smyrna  Wystąpienie w języku polskim.

Wystąpienie dotyczyło narzędzi ułatwiających konstrukcję własnych zbiorów danych, w szczególności korpusów. Omówiona została biblioteka Skyscraper, umożliwiająca ekstrakcję ustrukturyzowanych danych z całych witryn WWW, oraz program Smyrna, konkordancer dla języka polskiego z obsługą metadanych. Przedstawiono również przygotowany z użyciem tych narzędzi zbiór danych o nazwie Polish Parliamentary Proceedings Processor (PPPP lub P4), obejmujący m.in. uaktualniany na bieżąco korpus stenogramów sejmowych. Sporo miejsca poświęcono rozwiązaniom technicznym zastosowanym w prezentowanych narzędziach.

19 maja 2016

Kamil Kędzia, Konrad Krulikowski (Uniwersytet Warszawski)

Generowanie szablonów parafraz dla języka polskiego przy użyciu korpusu równoległego  Wystąpienie w języku polskim.

W ramach projektu CLARIN-PL przygotowano oprogramowanie służące generowaniu parafraz dla języka polskiego. Jego twórcy zaprezentują jego działanie na wybranych przykładach. Przybliżą również wykorzystaną metodę zespołu Ganitkevitch i in. (2013), która posłużyła jej autorom do stworzenia ogólnodostępnego zasobu Paraphrase Database (PPDB). Omówią także jej rozszerzenie służące do znajdowania szablonów parafraz, czy zastosowane podejście do wyzwań charakterystycznych dla języka polskiego. Dodatkowo przedstawią sposób mierzenia jakości parafraz.

23 maja 2016

Damir Ćavar (Indiana University)

The Free Linguistic Environment  Wystąpienie w języku angielskim.

The Free Linguistic Environment (FLE) started as a project to develop an open and free platform for white-box modeling and grammar engineering, i.e. development of natural language morphologies, prosody, syntax, and semantic processing components that are for example based on theoretical frameworks like two-level morphology, Lexical Functional Grammar (LFG), Glue Semantics, and similar. FLE provides a platform that makes use of some classical algorithms and also new approaches based on Weighted Finite State Transducer models to enable probabilistic modeling and parsing at all linguistic levels. Currently its focus is to provide a platform that is compatible with LFG and an extended version of it, one that we call Probabilistic Lexical Functional Grammar (PLFG). This probabilistic modeling can apply to the c(onstituent) -structure component, i.e. a Context Free Grammar (CFG) backbone can be extended by a Probabilistic Context Free Grammar (PCFG). Probabilities in PLFG can also be associated with structural representations and corresponding f(unctional feature)-structures or semantic properties, i.e. structural and functional properties and their relations can be modeled using weights that can represent probabilities or other forms of complex scores or metrics. In addition to these extensions of the LFG-framework, FLE provides also an open platform for experimenting with algorithms for semantic processing or analyses based on (probabilistic) lexical analyses, c- and f-structures, or similar such representations. Its architecture is extensible to cope with different frameworks, e.g. dependency grammar, optimality theory based approaches, and many more.

6 czerwca 2016

Karol Opara (Instytut Badań Systemowych Polskiej Akademii Nauk)

Rymy częstochowskie w poezji polskiej – ujęcie ilościowe  Wystąpienie w języku polskim.

Fleksyjny charakter języka polskiego powoduje, że tak samo odmienione części mowy mają zazwyczaj jednobrzmiące końcówki. Umożliwia to łatwe tworzenie dużej liczby rymujących się ze sobą wyrazów nazywanych rymami częstochowskimi (albo gramatycznymi). W referacie przedstawiono wyniki badania jakości i finezji warsztatu poetyckiego różnych polskich twórców opartej na komputerowym wyliczaniu udziału rymów częstochowskich w ich liryce. Zaprezentowano metodę automatycznego wykrywania rymów, wydobywania z tekstu informacji o charakterze statystycznym oraz nowe, „literackie” kryterium doboru liczności próbki do testów statystycznych. Przedstawiono też ranking warsztatu poetyckiego różnych liryków polskich.