Seminarium „Przetwarzanie języka naturalnego” 2015–2016

Seminarium Zespołu Inżynierii Lingwistycznej w Instytucie Podstaw Informatyki Polskiej Akademii Nauk odbywa się nieregularnie w poniedziałki zwykle o godz. 10:15 w siedzibie IPI PAN (ul. Jana Kazimierza 5, Warszawa) i ma charakter otwarty. Poszczególne referaty ogłaszane są na Polskiej Liście Językoznawczej oraz na stronie Lingwistyka komputerowa na Facebooku.

12 października 2015

Vincent Ng (Uniwersytet Teksasu w Dallas)

Koreferencja w OntoNotes – i co dalej?

Znaczący postęp w dziedzinie wykrywania koreferencji dokonał się w ostatnim czasie m.in. dzięki dostępności ręcznie anotowanych korpusów MUC, ACE i OntoNotes. Koreferencja jest jednak zjawiskiem trudniejszym niż uwzględniają to obecne modele anotacyjne. W trakcie wystąpienia przyjrzymy się jej stosunkowo mniej zbadanym aspektom, stanowiącymi wyzwanie nie mniej ambitne niż wykrywanie koreferencji obiektowej: zadaniu Winograd Schema Challenge, identyfikacji anafory zerowej i koreferencji zdarzeniowej.

26 października 2015

Wojciech Jaworski (Uniwersytet Warszawski)

Parser składniowo semantyczny dla języka polskiego

Autor zaprezentuje powstający w ramach projektu CLARIN-PL parser składniowo-semantyczny, przedstawi, jak działa preprocesing realizowany w oparciu o analizator morfologiczny "Morfeusz", opisze zintegrowaną ze słownikiem walencyjnym „Walenty” gramatykę kategorialną języka polskiego, z której korzysta parser oraz przybliży formalizm grafów semantycznych służący do reprezentowania znaczenia tekstów. Wspomni też o algorytmie parsera i strategiach optymalizacyjnych zapewniających jego szybkie działanie i pozwalających w zwarty sposób reprezentować niejednoznaczne rozbiory składniowe i semantyczne.

16 listopada 2015

Izabela Gatkowska (Uniwersytet Jagielloński)

Empiryczna sieć powiązań leksykalnych

Empiryczna sieć powiązań leksykalnych jest wynikiem eksperymentu wykorzystującego ludzki mechanizm skojarzeniowy – badany podaje pierwszy wyraz, jaki przychodzi na myśl po zrozumieniu wyrazu bodźca. Badanie przeprowadzono cyklicznie, tj. wyrazy odpowiedzi uzyskane w cyklu pierwszym zostały użyte jako bodźce w cyklu drugim, co umożliwiło powstanie sieci semantycznej, która różni się od sieci budowanych z korpusów tekstowych, np. WORTSCHATZ oraz sieci budowanych ręcznie, np. WordNet. Uzyskane empirycznie powiązania pomiędzy wyrazami sieci mają kierunek i siłę powiązania. Zbiór powiązań wychodzących i przychodzących, w jakie wchodzi konkretny wyraz tworzy węzeł leksykalny sieci (podsieć). Sposób, w jaki sieć charakteryzuje znaczenia pokażemy na przykładzie powiązań zwrotnych, które są szczególnym przypadkiem zależności pomiędzy dwoma wyrazami występującymi w węźle leksykalnym. Jakościowa analiza powiązań zwrotnych wskazuje, iż znane językoznawstwu semantyczne relacje leksykalne, stosowane np. w słowniku WordNet, pozwalają zinterpretować tylko ok. 25% powiązań zwrotnych. Pozostałe powiązania można zinterpretować odwołując się do modelu opisu znaczenia zaproponowanego dla słownika FrameNet. Interpretacja jakościowa wszystkich powiązań występujących w węźle leksykalnym może pozwolić na badania porównawcze węzłów leksykalnych sieci zbudowanych eksperymentalnie dla różnych języków naturalnych, pozwala także na wyodrębnienie empirycznych modeli semantycznych obsługiwanych przez ten sam zestaw powiązań pomiędzy węzłami w sieci.

30 listopada 2015

Dora Montagna (Universidad Autónoma de Madrid)

Semantyczna reprezentacja hiszpańskiego czasownika polisemicznego

Autorka zaprezentuje teoretyczny model reprezentacji semantycznej, oparty na teorii generatywnego leksykonu Pustejovskiego. Celem propozycji jest stworzenie bazy do automatycznego określania znaczeń i nowego modelu opisu leksykograficznego. Model ten zastosowano do analizy produktywnego czasownika w języku hiszpańskim, zakładając hipotezę niedookreśloności słów, w celu ustalenia wzorców zastosowań semantycznych.

7 grudnia 2015

Łukasz Kobyliński (Instytut Podstaw Informatyki PAN), Witold Kieraś (Uniwersytet Warszawski)

Tagery morfosyntaktyczne języka polskiego – stan obecny i perspektywy na przyszłość

W trakcie prezentacji omówione zostaną zaproponowane dotychczas podejścia do automatycznego znakowania morfosyntaktycznego tekstów w języku polskim, z naciskiem na analizę działania narzędzi publicznie dostępnych i możliwych do wykorzystania w praktyce. Przeprowadzona zostanie analiza ilościowa i jakościowa błędów popełnianych przez tagery, wraz z dyskusją o możliwych przyczynach i sposobach rozwiązania tych problemów. Wyniki tagowania dla języka polskiego zostaną skontrastowane z rezultatami otrzymywanymi dla innych języków europejskich.

8 grudnia 2015

Salvador Pons Bordería (Universitat de València) – UWAGA: wykład odbędzie się o godzinie 11:00.

Discourse Markers from a pragmatic perspective: The role of discourse units in defining functions

One of the most disregarded aspects in the description of discourse markers is position. Notions such as "initial position" or "final position" are meaningless unless it can be specified with regard to what a DM is "initial" or "final". This presentation will defend the idea that, for this question to be answered, appeal must be made to the notion of "discourse unit". Provided with a set of a) discourse units, and b) discourse positions, determining the function of a given DM is quasi-automatic.

11 stycznia 2016

Małgorzata Marciniak, Agnieszka Mykowiecka, Piotr Rychlik (Instytut Podstaw Informatyki PAN)

O ekstrakcji terminologii (tytuł roboczy)

Streszczenie będzie dostępne wkrótce.

25 stycznia 2015

Wojciech Jaworski (Uniwersytet Warszawski)

Tytuł wystąpienia będzie dostępny wkrótce.

Streszczenie będzie dostępne wkrótce.

22 lutego 2016

Witold Dyrka (Politechnika Wrocławska) – UWAGA: wykład odbędzie się o godzinie 11:00.

Tytuł wystąpienia będzie dostępny wkrótce.

Streszczenie będzie dostępne wkrótce.

Archiwum seminariów z lat 2000-2015.

seminarium-archiwum

Menu

Seminarium „Przetwarzanie języka naturalnego” 2015–2016