Locked History Actions

Diff for "seminarium"

Differences between revisions 284 and 395 (spanning 111 versions)
Revision 284 as of 2018-10-16 09:58:25
Size: 13306
Comment:
Revision 395 as of 2019-09-11 12:09:54
Size: 7675
Comment:
Deletions are marked like this. Additions are marked like this.
Line 3: Line 3:
= Seminarium „Przetwarzanie języka naturalnego” 201819 = = Seminarium „Przetwarzanie języka naturalnego” 201920 =
Line 7: Line 7:
||<style="border:0;padding-top:5px;padding-bottom:5px">'''1 października 2018'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Janusz S. Bień''' (Katedra Lingwistyki Formalnej UW, prof. emeryt)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=mOYzwpjTAf4|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2018-10-01.pdf|Elektroniczne indeksy leksykograficzne]]''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Omówione zostaną indeksy do zasobów leksykograficznych dostępnych w Internecie w formacie !DjVu. Indeksy takie mogą być przeglądane, modyfikowane i tworzone za pomocą swobodnego (dostępnego bezpłatnie na otwartej licencji) programu djview4poliqarp — zostanie przedstawiona geneza i historia tego programu. W programie tym obsługa indeksów została pierwotnie wprowadzona na potrzeby indeksu haseł do XIX-wiecznego słownika Lindego, ale może być wykorzystywana również do innych zasobów, jak to zostanie pokazane na przykładach. Zostaną w szczególności zademonstrowane — po raz pierwszy publicznie — ulepszenia wprowadzone do programu w ostatnich miesiącach.||
||<style="border:0;padding-top:5px;padding-bottom:5px">'''23 września 2019'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Igor Boguslavsky''' (Institute for Information Transmission Problems, Russian Academy of Sciences / Universidad Politécnica de Madrid)||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Semantic analysis based on inference''' &#160;{{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:5px">I will present a semantic analyzer SemETAP, which is a module of a linguistic processor ETAP designed to perform analysis and generation of NL texts. We proceed from the assumption that the depth of understanding is determined by the number and quality of inferences we can draw from the text. Extensive use of background knowledge and inferences permits to extract implicit information.||
||<style="border:0;padding-left:30px;padding-bottom:0px">Salient features of SemETAP include: ||
||<style="border:0;padding-left:30px;padding-bottom:0px"><ul><li>knowledge base contains both linguistic and background knowledge;</li></ul>||
||<style="border:0;padding-left:30px;padding-bottom:0px">– inference types include strict entailments and plausible expectations; ||
||<style="border:0;padding-left:30px;padding-bottom:0px">– words and concepts of the ontology may be supplied with explicit decompositions for inference purposes; ||
||<style="border:0;padding-left:30px;padding-bottom:0px">– two levels of semantic structure are distinguished. Basic semantic structure (BSemS) interprets the text in terms of ontological elements. Enhanced semantic structure (EnSemS) extends BSemS by means of a series of inferences; ||
||<style="border:0;padding-left:30px;padding-bottom:15px">– a new logical formalism Etalog is developed in which all inference rules are written.||
Line 12: Line 18:
||<style="border:0;padding-top:5px;padding-bottom:5px">'''15 października 2018'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Wojciech Jaworski, Szymon Rutkowski''' (Uniwersytet Warszawski)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=SbPAdmRmW08|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2018-10-15.pdf|Wielowarstwowy regułowy model fleksji języka polskiego]]''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Referat poświęcony będzie wielowarstwowemu modelowi fleksji języka polskiego. Model opracowany został na podstawie haseł pochodzących ze Słownika Gramatycznego Języka Polskiego; nie korzysta z koncepcji paradygmatu odmiany. Model składa się z trzech warstw ręcznie opracowanych reguł: „warstwy ortograficzno-fonetycznej” konwertującej segment do reprezentacji odzwierciedlającej prawidłowości morfologiczne języka, „warstwy analitycznej” generującej lemat oraz określającej afiksy oraz „warstwy interpretacji” nadającej interpretację morfosyntaktyczną na podstawie wykrytych afiksów. Model dostarcza wiedzę o języku [[http://eniam.nlp.ipipan.waw.pl/morphology.html|analizatorowi morfologicznemu]] zaopatrzonemu w funkcję odgadywania lematów i interpretacji morfosyntaktycznych dla form nie należących do słownika (ang. guesser). Drugim zastosowaniem jest [[http://eniam.nlp.ipipan.waw.pl/morphology2.html|generowanie form słów]] na podstawie lematu i interpretacji morfosyntaktycznej. Podczas referatu poruszone zostanie również zagadnienie dezambiguacji wyników dostarczanych przez analizator morfologiczny. Wersja demonstracyjna programu dostępna jest w Internecie.||
||<style="border:0;padding-top:5px;padding-bottom:5px">'''7 października 2019''' (UWAGA: seminarium połączone z instytutowym; odbędzie się wyjątkowo o 13:00!)||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Tomasz Stanisz''' (Instytut Fizyki Jądrowej PAN)||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''Tytuł wystąpienia zostanie podany wkrótce''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Streszczenie wystąpienia zostanie podane wkrótce.||
Line 17: Line 23:
||<style="border:0;padding-top:5px;padding-bottom:5px">'''29 października 2018'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Jakub Waszczuk''' (Uniwersytet Heinricha Heinego w Düsseldorfie)||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''Integrating multiword expression in syntactic parsing using A* and discriminative modeling methods''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">During the seminar I will present two different approaches to identifying verbal multiword expressions (VMWEs) in coordination with syntactic parsing. The first approach consists in promoting MWEs in A* TAG (tree-adjoining grammar) parsing. It assumes that potential MWE candidates are pre-identified prior to parsing (e.g., as a result of MWE-aware supertagging). The experiments performed on Składnica showed that this strategy allows to significantly prune the parser's search space with little loss in syntactic parsing accuracy. In the second approach, VMWE identification is deferred to a post-processing phase in which (dependency) parsing results are already determined. VMWE identification is then reduced to the problem of dependency tree labeling, where one of two labels (MWE or not-MWE) must be predicted for each node in the dependency tree. A system based on this approach, using multiclass logistic regression for tree labeling, ranked 1st in the closed track of the PARSEME shared task 2018. A part of the talk will be also dedicated to Concraft-pl 2.0, the new version of a morphosyntactic tagger for Polish based on conditional random fields. Concraft-pl 2.0 performs morphosyntactic segmentation as a by-product of disambiguation, which allows to use it directly on the segmentation graphs provided by Morfeusz. This is in contrast with other existing taggers for Polish, which either neglect the problem of segmentation or rely on heuristics to perform it in a pre-processing stage.||
||<style="border:0;padding-top:5px;padding-bottom:5px">'''18 listopada 2019'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Alexander Rosen''' (Uniwersytet Karola w Pradze)||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''Tytuł wystąpienia zostanie podany wkrótce''' &#160;{{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Streszczenie wystąpienia zostanie podane wkrótce.||
Line 22: Line 28:
||<style="border:0;padding-top:5px;padding-bottom:5px">'''5 listopada 2018'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Jakub Kozakoszczak''' (Uniwersytet Warszawski / Uniwersytet Heinricha Heinego w Düsseldorfie)||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''Zawsze od rana do środy — semantyka i normalizacja quasi-okresowych określeń czasu w języku polskim''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Standardowo, wyrażenia takie jak „Januarys” lub „Fridays” są interpretowane w językach reprezentacji wiedzy czasowej jako plastry (slices) kolekcji czasowych drugiego stopnia, czyli np. wszystkie piąte elementy siedmioelementowych ciągów dni wyrównanych z ciągiem tygodni kalendarzowych. W wystąpieniu przedstawię wynik prac nad normalizacją najczęstszych polskich wyrażeń quasi-okresowych dla potrzeb systemu rezerwacyjnego. W części językoznawczej przedstawię argumenty przeciwko tłumaczeniu wyrażeń typu „piątki” na „piąte dni tygodnia” i testy semantyczne na proste klasy quasi-okresowości. W części formalnej zaproponuję rozszerzenie istniejących rozwiązań o reprezentację intensjonalnych operatorów quasi-okresowych „od”, „do”, „przed” i „po” obciętych do argumentów, dla których są monotoniczne. W części implementacyjnej zaprezentuję algorytm leniwego wyliczania uogólnionego przecięcia kolekcji.||
||<style="border:0;padding-top:5px;padding-bottom:5px">'''21 listopada 2019'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Alexander Rosen''' (Uniwersytet Karola w Pradze)||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''Tytuł wystąpienia zostanie podany wkrótce''' &#160;{{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Streszczenie wystąpienia zostanie podane wkrótce.||
Line 27: Line 33:
||<style="border:0;padding-top:5px;padding-bottom:5px">'''19 listopada 2018'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Daniel Zeman''' (Instytut Lingwistyki Formalnej i Stosowanej, Uniwersytet Karola w Pradze)||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''Tytuł wystąpienia będzie dostępny wkrótce''' &#160;{{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Streszczenie wystąpienia zostanie udostępnione w późniejszym terminie.||

||<style="border:0;padding-top:5px;padding-bottom:5px">'''3 grudnia 2018'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Ekaterina Lapshinova-Koltunski''' (Uniwersytet Kraju Saary)||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''Analiza i anotacja koreferencji na potrzeby lingwistyki kontrastywnej i translatoryki''' &#160;{{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Podczas wykładu opowiem o trwających pracach nad analizą koreferencji w kontekście wielojęzycznym. Przedstawię dwa podejścia do analizy zjawisk koreferencyjnych: (1) teoretyczne, gdy na podstawie wiedzy lingwistycznej definiujemy kategorie językowe i używamy ich do stworzenia anotowanego korpusu, który można wykorzystać albo do dalszej analizy lingwistycznej, albo jako dane treningowe dla zastosowań NLP, (2) oparte na danych: w tym przypadku zaczynamy od zestawu płytkich cech naszym zdaniem związanych z dyskursem, wyodrębniamy struktury z dużej ilości danych i analizujemy je z językowego punktu widzenia próbując opisać i wyjaśnić obserwowane zjawiska za pomocą istniejących teorii i gramatyk.||

||<style="border:0;padding-top:5px;padding-bottom:5px">'''7 stycznia 2019'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Adam Przepiórkowski''' (Instytut Podstaw Informatyki PAN / Uniwersytet Warszawski), '''Agnieszka Patejuk''' (Instytut Podstaw Informatyki PAN / Uniwersytet Oksfordzki)||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''Tytuł wystąpienia będzie dostępny wkrótce''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Streszczenie wystąpienia zostanie udostępnione w późniejszym terminie.||


||<style="border:0;padding-top:0px">Zapraszamy także do zapoznania się z [[http://nlp.ipipan.waw.pl/NLP-SEMINAR/previous-p.html|archiwum seminariów z lat 2000–15]] oraz [[http://zil.ipipan.waw.pl/seminarium-archiwum|listą wystąpień z lat 2015–18]].||
||<style="border:0;padding-top:0px">Zapraszamy także do zapoznania się z [[http://nlp.ipipan.waw.pl/NLP-SEMINAR/previous-p.html|archiwum seminariów z lat 2000–15]] oraz [[http://zil.ipipan.waw.pl/seminarium-archiwum|listą wystąpień z lat 2015–19]].||
Line 48: Line 38:
- 23 września: Igor Boguslavsky
- 7 października: Tomasz Stanisz o stylometrii (akurat jestem w Brukseli)
Line 49: Line 41:
Na pewno:
– 17 grudnia: odbiory?
– 7 stycznia: Adam P.?
– 21 stycznia: Marek Łaziński, Michał Woźniak
– (ferie: 28 stycznia – 10 lutego)
– 11 lutego:
– 25 lutego:
– 11 marca:
– 25 marca:
– 8 kwietnia:
– (21 kwietnia: Poniedziałek Wielkanocny)
– 29 kwietnia: (uwaga: tydzień z majówką)
– 13 maja:
– (17–19 maja: LTC w Poznaniu, więc ew. 20 maja można kogoś namówić na przyjazd przy okazji)
– 27 maja: Magda Zawisławska o SYNAMECIE
– (2–7 czerwca: NAACL w Minneapolis)
– 10 czerwca:
- 21 października: ?

- 4 listopada: ? (jestem w Kuala Lumpur) – IBE, Grzegorz i Łukasz? ew. 2 grudnia

- 18 i 21 listopada: Alexander Rosen

- 2 grudnia

- 16 grudnia

- 13 stycznia
- 27 stycznia (ew. 20 stycznia i 3 lutego)

(10-23 lutego: ferie mazowieckie)

- 24 lutego: ?

- 9 marca
- 23 marca

- 6 kwietnia
(12-13 kwietnia: Wielkanoc)

- 20 kwietnia
- 4 maja

(LREC: 13–15 maja w Marsylii)

- 18 maja

- 1 czerwca
- 15 czerwca

Seminarium „Przetwarzanie języka naturalnego” 2019–20

Seminarium Zespołu Inżynierii LingwistycznejInstytucie Podstaw Informatyki Polskiej Akademii Nauk odbywa się nieregularnie w poniedziałki zwykle o godz. 10:15 w siedzibie IPI PAN (ul. Jana Kazimierza 5, Warszawa) i ma charakter otwarty. Poszczególne referaty ogłaszane są na Polskiej Liście Językoznawczej oraz na stronie Lingwistyka komputerowa na Facebooku. Wszystkie nagrania dostępne są na kanale YouTube.

seminar

23 września 2019

Igor Boguslavsky (Institute for Information Transmission Problems, Russian Academy of Sciences / Universidad Politécnica de Madrid)

Semantic analysis based on inference  Wystąpienie w języku angielskim.

I will present a semantic analyzer SemETAP, which is a module of a linguistic processor ETAP designed to perform analysis and generation of NL texts. We proceed from the assumption that the depth of understanding is determined by the number and quality of inferences we can draw from the text. Extensive use of background knowledge and inferences permits to extract implicit information.

Salient features of SemETAP include:

<ul><li>knowledge base contains both linguistic and background knowledge;</li></ul>

– inference types include strict entailments and plausible expectations;

– words and concepts of the ontology may be supplied with explicit decompositions for inference purposes;

– two levels of semantic structure are distinguished. Basic semantic structure (BSemS) interprets the text in terms of ontological elements. Enhanced semantic structure (EnSemS) extends BSemS by means of a series of inferences;

– a new logical formalism Etalog is developed in which all inference rules are written.

7 października 2019 (UWAGA: seminarium połączone z instytutowym; odbędzie się wyjątkowo o 13:00!)

Tomasz Stanisz (Instytut Fizyki Jądrowej PAN)

Tytuł wystąpienia zostanie podany wkrótce  Wystąpienie w języku polskim.

Streszczenie wystąpienia zostanie podane wkrótce.

18 listopada 2019

Alexander Rosen (Uniwersytet Karola w Pradze)

Tytuł wystąpienia zostanie podany wkrótce  Wystąpienie w języku angielskim.

Streszczenie wystąpienia zostanie podane wkrótce.

21 listopada 2019

Alexander Rosen (Uniwersytet Karola w Pradze)

Tytuł wystąpienia zostanie podany wkrótce  Wystąpienie w języku angielskim.

Streszczenie wystąpienia zostanie podane wkrótce.

Zapraszamy także do zapoznania się z archiwum seminariów z lat 2000–15 oraz listą wystąpień z lat 2015–19.