Differences between revisions 87 and 88

Seminarium „Przetwarzanie języka naturalnego” 2015–2016

Seminarium Zespołu Inżynierii Lingwistycznej w Instytucie Podstaw Informatyki Polskiej Akademii Nauk odbywa się nieregularnie w poniedziałki zwykle o godz. 10:15 w siedzibie IPI PAN (ul. Jana Kazimierza 5, Warszawa) i ma charakter otwarty. Poszczególne referaty ogłaszane są na Polskiej Liście Językoznawczej oraz na stronie Lingwistyka komputerowa na Facebooku.

12 października 2015

Vincent Ng (Uniwersytet Teksasu w Dallas)

Koreferencja w OntoNotes – i co dalej?

Znaczący postęp w dziedzinie wykrywania koreferencji dokonał się w ostatnim czasie m.in. dzięki dostępności ręcznie anotowanych korpusów MUC, ACE i OntoNotes. Koreferencja jest jednak zjawiskiem trudniejszym niż uwzględniają to obecne modele anotacyjne. W trakcie wystąpienia przyjrzymy się jej stosunkowo mniej zbadanym aspektom, stanowiącymi wyzwanie nie mniej ambitne niż wykrywanie koreferencji obiektowej: zadaniu Winograd Schema Challenge, identyfikacji anafory zerowej i koreferencji zdarzeniowej.

26 października 2015

Wojciech Jaworski (Uniwersytet Warszawski)

Parser składniowo semantyczny dla języka polskiego

Autor zaprezentuje powstający w ramach projektu CLARIN-PL parser składniowo-semantyczny, przedstawi, jak działa preprocesing realizowany w oparciu o analizator morfologiczny "Morfeusz", opisze zintegrowaną ze słownikiem walencyjnym „Walenty” gramatykę kategorialną języka polskiego, z której korzysta parser oraz przybliży formalizm grafów semantycznych służący do reprezentowania znaczenia tekstów. Wspomni też o algorytmie parsera i strategiach optymalizacyjnych zapewniających jego szybkie działanie i pozwalających w zwarty sposób reprezentować niejednoznaczne rozbiory składniowe i semantyczne.

16 listopada 2015

Izabela Gatkowska (Uniwersytet Jagielloński)

Empiryczna sieć powiązań leksykalnych

Empiryczna sieć powiązań leksykalnych jest wynikiem eksperymentu wykorzystującego ludzki mechanizm skojarzeniowy – badany podaje pierwszy wyraz, jaki przychodzi na myśl po zrozumieniu wyrazu bodźca. Badanie przeprowadzono cyklicznie, tj. wyrazy odpowiedzi uzyskane w cyklu pierwszym zostały użyte jako bodźce w cyklu drugim, co umożliwiło powstanie sieci semantycznej, która różni się od sieci budowanych z korpusów tekstowych, np. WORTSCHATZ oraz sieci budowanych ręcznie, np. WordNet. Uzyskane empirycznie powiązania pomiędzy wyrazami sieci mają kierunek i siłę powiązania. Zbiór powiązań wychodzących i przychodzących, w jakie wchodzi konkretny wyraz tworzy węzeł leksykalny sieci (podsieć). Sposób, w jaki sieć charakteryzuje znaczenia pokażemy na przykładzie powiązań zwrotnych, które są szczególnym przypadkiem zależności pomiędzy dwoma wyrazami występującymi w węźle leksykalnym. Jakościowa analiza powiązań zwrotnych wskazuje, iż znane językoznawstwu semantyczne relacje leksykalne, stosowane np. w słowniku WordNet, pozwalają zinterpretować tylko ok. 25% powiązań zwrotnych. Pozostałe powiązania można zinterpretować odwołując się do modelu opisu znaczenia zaproponowanego dla słownika FrameNet. Interpretacja jakościowa wszystkich powiązań występujących w węźle leksykalnym może pozwolić na badania porównawcze węzłów leksykalnych sieci zbudowanych eksperymentalnie dla różnych języków naturalnych, pozwala także na wyodrębnienie empirycznych modeli semantycznych obsługiwanych przez ten sam zestaw powiązań pomiędzy węzłami w sieci.

30 listopada 2015

Dora Montagna (Universidad Autónoma de Madrid)

Semantyczna reprezentacja hiszpańskiego czasownika polisemicznego

Autorka zaprezentuje teoretyczny model reprezentacji semantycznej, oparty na teorii generatywnego leksykonu Pustejovskiego. Celem propozycji jest stworzenie bazy do automatycznego określania znaczeń i nowego modelu opisu leksykograficznego. Model ten zastosowano do analizy produktywnego czasownika w języku hiszpańskim, zakładając hipotezę niedookreśloności słów, w celu ustalenia wzorców zastosowań semantycznych.

7 grudnia 2015

Łukasz Kobyliński (Instytut Podstaw Informatyki PAN), Witold Kieraś (Uniwersytet Warszawski)

Tagery morfosyntaktyczne języka polskiego – stan obecny i perspektywy na przyszłość

W trakcie prezentacji omówione zostaną zaproponowane dotychczas podejścia do automatycznego znakowania morfosyntaktycznego tekstów w języku polskim, z naciskiem na analizę działania narzędzi publicznie dostępnych i możliwych do wykorzystania w praktyce. Przeprowadzona zostanie analiza ilościowa i jakościowa błędów popełnianych przez tagery, wraz z dyskusją o możliwych przyczynach i sposobach rozwiązania tych problemów. Wyniki tagowania dla języka polskiego zostaną skontrastowane z rezultatami otrzymywanymi dla innych języków europejskich.

8 grudnia 2015

Salvador Pons Bordería (Universitat de València)

Discourse Markers from a pragmatic perspective: The role of discourse units in defining functions

One of the most disregarded aspects in the description of discourse markers is position. Notions such as "initial position" or "final position" are meaningless unless it can be specified with regard to what a DM is "initial" or "final". This presentation will defend the idea that, for this question to be answered, appeal must be made to the notion of "discourse unit". Provided with a set of a) discourse units, and b) discourse positions, determining the function of a given DM is quasi-automatic.

11 stycznia 2016

Małgorzata Marciniak, Agnieszka Mykowiecka, Piotr Rychlik (Instytut Podstaw Informatyki PAN)

Ekstrakcja terminologii z tekstów w języku polskim – program TermoPL

Na seminarium omówimy zagadnienia ekstrakcji terminologii z korpusów tekstów w języku polskim oraz przedstawimy program TermoPL, w którym zaimplementowane zostały zaproponowane rozwiązania. W omawianych pracach stosujemy metodę C-value, która ustala istotność terminów na podstawie ich częstości i liczby kontekstów. Metoda ta uwzględnia terminy zagnieżdżone – czyli takie, które są zawarte w dłuższych terminach. Niekiedy prowadzi to do ekstrakcji niepoprawnych semantycznie fraz (np. 'giełda papierów', 'USG jamy'). W celu eliminacji tego typu terminów zaproponowaliśmy metodę, która w procesie wyodrębniania zagnieżdżonych fraz kieruje się siłą powiązań między słowami.

25 stycznia 2015

Wojciech Jaworski (Uniwersytet Warszawski)

Tytuł wystąpienia i streszczenie zostaną podane w późniejszym terminie.

22 lutego 2016

Witold Dyrka (Politechnika Wrocławska) – UWAGA: wykład odbędzie się o godzinie 11:00.

Tytuł wystąpienia i streszczenie zostaną podane w późniejszym terminie.

7 marca 2016

Zbigniew Bronk (niezależny informatyk, współpracownik Zespołu Słownika Gramatycznego Języka Polskiego)

Znacznikowy język formalnego opisu polskiej deklinacji JOD

JOD – znacznikowy język formalnego opisu polskiej deklinacji powstał w celu ścisłego opisania reguł i schematów odmiany rzeczowników i przymiotników w języku polskim. Pierwsze zastosowanie znalazł on przy opisie fleksji polskich nazwisk, z uwzględnieniem płci nosiciela lub nosicieli. Model ten jest podstawą działania „Automatu do odmiany nazwisk”. Referent omówi koncepcję języka i implementację jego interpretera oraz zaprezentuje edytor JOD i serwis internetowy „Automat do odmiany nazwisk”.

Archiwum seminariów z lat 2000-2015.

-  ⇤ ← Revision 87 as of 2015-12-21 14:29:55 → 
  Size: 11383
  Editor: MaciejOgrodniczuk
  Comment:
+   ← Revision 88 as of 2016-01-12 12:50:50 → ⇥
  Size: 11301
  Editor: MaciejOgrodniczuk
  Comment:
-Deletions are marked like this.
+Additions are marked like this.
 Line 37:
-||<style="border:0;padding-left:30px;padding-bottom:0px">'''Małgorzata Marciniak, Agnieszka Mykowiecka, Piotr Rychlik''' (Instytut Podstaw Informatyki PAN) – '''UWAGA: wykład odbędzie się o godzinie 13:00 w ramach Seminarium Instytutu Podstaw Informatyki PAN.'''||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''Ekstrakcja terminologii z tekstów w języku polskim – program TermoPL''' &#160;{{attachment:icon-pl.gif|Wystąpienie w języku polskim.}}||
+||<style="border:0;padding-left:30px;padding-bottom:0px">'''Małgorzata Marciniak, Agnieszka Mykowiecka, Piotr Rychlik''' (Instytut Podstaw Informatyki PAN)||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''[[attachment:2016-01-11.pdf|Ekstrakcja terminologii z tekstów w języku polskim – program TermoPL]]''' &#160;{{attachment:icon-pl.gif|Wystąpienie w języku polskim.}}||

Diff for "seminarium-archiwum"

Menu

Seminarium „Przetwarzanie języka naturalnego” 2015–2016