Locked History Actions

Diff for "seminarium"

Differences between revisions 2 and 302 (spanning 300 versions)
Revision 2 as of 2016-06-27 22:33:09
Size: 2232
Comment:
Revision 302 as of 2018-11-26 13:23:44
Size: 16138
Comment:
Deletions are marked like this. Additions are marked like this.
Line 3: Line 3:
= Seminarium „Przetwarzanie języka naturalnego” 20162017 = = Seminarium „Przetwarzanie języka naturalnego” 2018–19 =
Line 5: Line 5:
||<style="border:0;padding:0">Seminarium [[http://nlp.ipipan.waw.pl/|Zespołu Inżynierii Lingwistycznej]] w&nbsp;[[http://www.ipipan.waw.pl/|Instytucie Podstaw Informatyki]] [[http://www.pan.pl/|Polskiej Akademii Nauk]] odbywa się nieregularnie w&nbsp;poniedziałki zwykle o&nbsp;godz.&nbsp;10:15 w&nbsp;siedzibie IPI&nbsp;PAN (ul.&nbsp;Jana Kazimierza&nbsp;5, Warszawa) i&nbsp;ma charakter otwarty. Poszczególne referaty ogłaszane są na [[http://lists.nlp.ipipan.waw.pl/mailman/listinfo/ling|Polskiej Liście Językoznawczej]] oraz na stronie [[https://www.facebook.com/lingwistyka.komputerowa|Lingwistyka komputerowa]] na Facebooku. ||<style="border:0;padding-left:30px;">[[seminar|{{attachment:seminarium-archiwum/en.png}}]]|| ||<style="border:0;padding-bottom:10px">Seminarium [[http://nlp.ipipan.waw.pl/|Zespołu Inżynierii Lingwistycznej]] w&nbsp;[[http://www.ipipan.waw.pl/|Instytucie Podstaw Informatyki]] [[http://www.pan.pl/|Polskiej Akademii Nauk]] odbywa się nieregularnie w&nbsp;poniedziałki zwykle o&nbsp;godz.&nbsp;10:15 w&nbsp;siedzibie IPI&nbsp;PAN (ul.&nbsp;Jana Kazimierza&nbsp;5, Warszawa) i&nbsp;ma charakter otwarty. Poszczególne referaty ogłaszane są na [[http://lists.nlp.ipipan.waw.pl/mailman/listinfo/ling|Polskiej Liście Językoznawczej]] oraz na stronie [[https://www.facebook.com/lingwistyka.komputerowa|Lingwistyka komputerowa]] na Facebooku. Wszystkie nagrania dostępne są na [[https://www.youtube.com/channel/UC5PEPpMqjAr7Pgdvq0wRn0w|kanale YouTube]].||<style="border:0;padding-left:30px;">[[seminar|{{attachment:seminarium-archiwum/en.png}}]]||
Line 7: Line 7:
||<style="border:0;padding:0">Obecnie trwa przerwa wakacyjna – zapraszamy na następne wystąpienia w październiku oraz do zapoznania się z [[http://nlp.ipipan.waw.pl/NLP-SEMINAR/previous-p.html|archiwum seminariów z lat 2000-2015]] oraz [[http://zil.ipipan.waw.pl/seminarium-archiwum|listą wystąpień z roku 2015-16]].|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''1 października 2018'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Janusz S. Bień''' (Katedra Lingwistyki Formalnej UW, prof. emeryt)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=mOYzwpjTAf4|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2018-10-01.pdf|Elektroniczne indeksy leksykograficzne]]''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Omówione zostaną indeksy do zasobów leksykograficznych dostępnych w Internecie w formacie !DjVu. Indeksy takie mogą być przeglądane, modyfikowane i tworzone za pomocą swobodnego (dostępnego bezpłatnie na otwartej licencji) programu djview4poliqarp — zostanie przedstawiona geneza i historia tego programu. W programie tym obsługa indeksów została pierwotnie wprowadzona na potrzeby indeksu haseł do XIX-wiecznego słownika Lindego, ale może być wykorzystywana również do innych zasobów, jak to zostanie pokazane na przykładach. Zostaną w szczególności zademonstrowane — po raz pierwszy publicznie — ulepszenia wprowadzone do programu w ostatnich miesiącach.||
Line 9: Line 12:
##||<style="border:0;padding-top:5px;padding-bottom:5px">'''3 października 2016'''||
##||<style="border:0;padding-left:30px;padding-bottom:0px">'''?''' (Samsung Polska)||
##||<style="border:0;padding-left:30px;padding-bottom:5px">'''?''' &#160;{{attachment:icon-pl.gif|Wystąpienie w języku polskim.}}||
##||<style="border:0;padding-left:30px;padding-bottom:15px">Opis wystąpienia zostanie podany wkrótce.||
||<style="border:0;padding-top:5px;padding-bottom:5px">'''15 października 2018'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Wojciech Jaworski, Szymon Rutkowski''' (Uniwersytet Warszawski)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=SbPAdmRmW08|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2018-10-15.pdf|Wielowarstwowy regułowy model fleksji języka polskiego]]''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Referat poświęcony będzie wielowarstwowemu modelowi fleksji języka polskiego. Model opracowany został na podstawie haseł pochodzących ze Słownika Gramatycznego Języka Polskiego; nie korzysta z koncepcji paradygmatu odmiany. Model składa się z trzech warstw ręcznie opracowanych reguł: „warstwy ortograficzno-fonetycznej” konwertującej segment do reprezentacji odzwierciedlającej prawidłowości morfologiczne języka, „warstwy analitycznej” generującej lemat oraz określającej afiksy oraz „warstwy interpretacji” nadającej interpretację morfosyntaktyczną na podstawie wykrytych afiksów. Model dostarcza wiedzę o języku [[http://eniam.nlp.ipipan.waw.pl/morphology.html|analizatorowi morfologicznemu]] zaopatrzonemu w funkcję odgadywania lematów i interpretacji morfosyntaktycznych dla form nie należących do słownika (ang. guesser). Drugim zastosowaniem jest [[http://eniam.nlp.ipipan.waw.pl/morphology2.html|generowanie form słów]] na podstawie lematu i interpretacji morfosyntaktycznej. Podczas referatu poruszone zostanie również zagadnienie dezambiguacji wyników dostarczanych przez analizator morfologiczny. Wersja demonstracyjna programu dostępna jest w Internecie.||
Line 14: Line 17:
##||<style="border:0;padding-top:5px;padding-bottom:5px">'''17 października 2016'''||
##||<style="border:0;padding-left:30px;padding-bottom:0px">'''Adam Przepiórkowski, Jakub Kozakoszczak, Jan Winkowski, Daniel Ziembicki, Tadeusz Teleżyński''' (Instytut Podstaw Informatyki PAN, Uniwersytet Warszawski)||
##||<style="border:0;padding-left:30px;padding-bottom:5px">'''Korpus sformalizowanych kroków wynikania tekstowego''' &#160;{{attachment:icon-pl.gif|Wystąpienie w języku polskim.}}||
##||<style="border:0;padding-left:30px;padding-bottom:15px">Opis wystąpienia zostanie podany wkrótce.||
||<style="border:0;padding-top:5px;padding-bottom:5px">'''29 października 2018'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Jakub Waszczuk''' (Uniwersytet Heinricha Heinego w Düsseldorfie)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=zjGQRG2PNu0|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2018-10-29.pdf|Od tagowania morfoskładniowego do identyfikacji czasownikowych jednostek wielowyrazowych: podejście dyskryminatywne]]''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}} {{attachment:seminarium-archiwum/icon-en.gif|Slajdy w języku angielskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Pierwsza część referatu poświęcona została narzędziu Concraft-pl 2.0, nowej wersji morfoskładniowego tagera dla języka polskiego bazującego na warunkowych polach losowych. Concraft-pl 2.0 przeprowadza podział na słowa (tokenizację) w ramach ujednoznaczniania morfoskładniowego, co pozwala używać go bezpośrednio na grafach wyjściowych analizatora Morfeusz. Inne istniejące tagery dla języka polskiego albo ignorują ten problem, albo opierają się na heurystykach stosowanych przed fazą ujednoznaczniania. W drugiej części referatu przedstawiona została metoda automatycznej identyfikacji czasownikowych jednostek wielowyrazowych opierająca się na wynikach analizy zależnościowej. W tym podejściu identyfikacja sprowadza się do problemu etykietowania, w którym jedna z dwóch etykiet (MWE/not-MWE) musi zostać określona dla każdego wierzchołka drzewa zależnościowego. Do rozwiązania tego problemu wykorzystany został model warunkowych pól losowych dostosowany do drzewiastej struktury danych wejściowych. System oparty na tym podejściu uzyskał pierwsze miejsce w zamkniętej ścieżce konkursu PARSEME shared task 2018.||

||<style="border:0;padding-top:5px;padding-bottom:5px">'''5 listopada 2018'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Jakub Kozakoszczak''' (Uniwersytet Warszawski / Uniwersytet Heinricha Heinego w Düsseldorfie)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=sz7dGmf8p3k|{{attachment:seminarium-archiwum/youtube.png}}]] '''Zawsze od rana do środy — semantyka i normalizacja quasi-okresowych określeń czasu w języku polskim''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Standardowo, wyrażenia takie jak „Januarys” lub „Fridays” są interpretowane w językach reprezentacji wiedzy czasowej jako plastry (slices) kolekcji czasowych drugiego stopnia, czyli np. wszystkie piąte elementy siedmioelementowych ciągów dni wyrównanych z ciągiem tygodni kalendarzowych. W wystąpieniu przedstawię wynik prac nad normalizacją najczęstszych polskich wyrażeń quasi-okresowych dla potrzeb systemu rezerwacyjnego. W części językoznawczej przedstawię argumenty przeciwko tłumaczeniu wyrażeń typu „piątki” na „piąte dni tygodnia” i testy semantyczne na proste klasy quasi-okresowości. W części formalnej zaproponuję rozszerzenie istniejących rozwiązań o reprezentację intensjonalnych operatorów quasi-okresowych „od”, „do”, „przed” i „po” obciętych do argumentów, dla których są monotoniczne. W części implementacyjnej zaprezentuję algorytm leniwego wyliczania uogólnionego przecięcia kolekcji.||

||<style="border:0;padding-top:5px;padding-bottom:5px">'''19 listopada 2018'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Daniel Zeman''' (Instytut Lingwistyki Formalnej i Stosowanej, Uniwersytet Karola w Pradze)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=xUmZ8Mxcmg0|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2018-11-19.pdf|Universal Dependencies and the Slavic Languages]]''' &#160;{{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Przedstawię Universal Dependencies, ogólnoświatową inicjatywę mającą na celu udostępnienie wielojęzycznych korpusów zaanotowanych na poziomie morfologicznym i składniowym zgodnie z uniwersalnymi wytycznymi. Omówię koncepcję kluczowych argumentów (ang. core arguments), która jest jednym z fundamentów UD. W drugiej części wykładu skupię się na kilku interesujących problemach i wyzwaniach związanych z zastosowaniem Uniwersalnych Zależności w językach słowiańskich. Omówię przykłady z 12 języków słowiańskich reprezentowanych obecnie w UD, które pokazują, że nadal można poprawić spójność międzyjęzykową.||

||<style="border:0;padding-top:5px;padding-bottom:5px">'''3 grudnia 2018'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Ekaterina Lapshinova-Koltunski''' (Uniwersytet Kraju Saary)||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''Analiza i anotacja koreferencji na potrzeby lingwistyki kontrastywnej i translatoryki''' &#160;{{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Podczas wykładu opowiem o trwających pracach nad analizą koreferencji w kontekście wielojęzycznym. Przedstawię dwa podejścia do analizy zjawisk koreferencyjnych: (1) teoretyczne, gdy na podstawie wiedzy lingwistycznej definiujemy kategorie językowe i używamy ich do stworzenia anotowanego korpusu, który można wykorzystać albo do dalszej analizy lingwistycznej, albo jako dane treningowe dla zastosowań NLP, (2) oparte na danych: w tym przypadku zaczynamy od zestawu płytkich cech naszym zdaniem związanych z dyskursem, wyodrębniamy struktury z dużej ilości danych i analizujemy je z językowego punktu widzenia próbując opisać i wyjaśnić obserwowane zjawiska za pomocą istniejących teorii i gramatyk.||

||<style="border:0;padding-top:5px;padding-bottom:5px">'''7 stycznia 2019'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Adam Przepiórkowski''' (Instytut Podstaw Informatyki PAN / Uniwersytet Warszawski), '''Agnieszka Patejuk''' (Instytut Podstaw Informatyki PAN / Uniwersytet Oksfordzki)||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''Tytuł wystąpienia będzie dostępny wkrótce''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Streszczenie wystąpienia zostanie udostępnione w późniejszym terminie.||

||<style="border:0;padding-top:5px;padding-bottom:5px">'''14 stycznia 2019'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Agata Savary''' (Université François Rabelais Tours)||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''Tytuł wystąpienia będzie dostępny wkrótce''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}} {{attachment:seminarium-archiwum/icon-en.gif|Slajdy w języku angielskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Streszczenie wystąpienia zostanie udostępnione w późniejszym terminie.||

||<style="border:0;padding-top:5px;padding-bottom:5px">'''21 stycznia 2019'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Marek Łaziński''' (Uniwersytet Warszawski), '''Michał Woźniak''' (Uniwersytet Jagielloński) ||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''Tytuł wystąpienia będzie dostępny wkrótce''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Streszczenie wystąpienia zostanie udostępnione w późniejszym terminie.||

||<style="border:0;padding-top:5px;padding-bottom:5px">'''11 lutego 2019'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Anna Wróblewska''' (Politechnika Warszawska)||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''Tytuł wystąpienia będzie dostępny wkrótce''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Streszczenie wystąpienia zostanie udostępnione w późniejszym terminie.||

||<style="border:0;padding-top:5px;padding-bottom:5px">'''25 lutego 2019'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Jakub Dutkiewicz''' (Politechnika Poznańska)||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''Empirical research on medical information retrieval''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Streszczenie wystąpienia zostanie udostępnione w późniejszym terminie.||



||<style="border:0;padding-top:0px">Zapraszamy także do zapoznania się z [[http://nlp.ipipan.waw.pl/NLP-SEMINAR/previous-p.html|archiwum seminariów z lat 2000–15]] oraz [[http://zil.ipipan.waw.pl/seminarium-archiwum|listą wystąpień z lat 2015–18]].||


{{{#!wiki comment


Na pewno:
– 17 grudnia: odbiory?
(ferie: 28 stycznia – 10 lutego)
– 11 marca:
– 25 marca:
– 8 kwietnia:
(21 kwietnia: Poniedziałek Wielkanocny)
– 29 kwietnia: (uwaga: tydzień z majówką)
– 13 maja:
(17–19 maja: LTC w Poznaniu, więc ew. 20 maja można kogoś namówić na przyjazd przy okazji)
– 27 maja: Magda Zawisławska o SYNAMECIE
(2–7 czerwca: NAACL w Minneapolis)
– 10 czerwca:


Umówić się z Brylską, zapytać tę od okulografii, czy to jest PJN
Agnieszka Kwiatkowska – zobaczyć ten jej tekst, moze też coś opowie?
Ew. Kasia Brylska, Monika Płużyczka na seminarium? Marcin Napiórkowski z Karolem?
Maciej Karpiński
Demenko – dawno już ich nie było; można iść po kluczu HLT Days
Michał Marcińczuk

MTAS?
– NLP dla tekstów historycznych – Marcin/Witek? razem z KORBĄ, pokazać oba ręcznie znakowane korpusy i benchmarki na tagerach – maj,
– może Wrocław mógłby coś pokazać? – pisałem do Maćka P.

Krzysztof Wołk:
Gdyby w przyszłości była potrzeba pracuję nad NMT we współpracy z kolegą który pracuje w dolinie krzemowej. On też będąc w PL mógłby wystąpić lub wystąpić zdalnie. Zajmuję się sieciami neuronowymi w tym NMT wraz ze mną, opisowym generowaniem ruchów modeli 3D oraz generowaniem sztuki pisanej za pomocą sieci, klasyfikacją pochodzenia nazwisk za pomocą sieci I podobnymi tematami.

– jakieś wystąpienia PolEvalowe?
– Marcin, Witek: Chronofleks
– Krzysztof Wołk: NMT na subword units
– Piotrek Pęzik obiecał coś wygłosić
– Justyna Sarzyńska?
– Marcin Junczys-Dowmunt przy okazji świąt?

Tomek Dwojak i inni z https://zpjn.wmi.amu.edu.pl/seminar/?

||<style="border:0;padding-top:5px;padding-bottom:5px">'''12 DATA 2017''' ('''UWAGA: ''' wystąpienie odbędzie się o 13:00 w ramach [[https://ipipan.waw.pl/instytut/dzialalnosc-naukowa/seminaria/ogolnoinstytutowe|seminarium IPI PAN]])||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''OSOBA''' (AFILIACJA)||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''Tytuł zostanie udostępniony w najbliższym czasie''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Opis wystąpienia zostanie udostępniony wkrótce.||

||<style="border:0;padding-left:30px;padding-bottom:5px">'''[[attachment:seminarium-archiwum/201--.pdf|...]]''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}} {{attachment:seminarium-archiwum/icon-en.gif|Slajdy w języku angielskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">...||

}}}

Seminarium „Przetwarzanie języka naturalnego” 2018–19

Seminarium Zespołu Inżynierii LingwistycznejInstytucie Podstaw Informatyki Polskiej Akademii Nauk odbywa się nieregularnie w poniedziałki zwykle o godz. 10:15 w siedzibie IPI PAN (ul. Jana Kazimierza 5, Warszawa) i ma charakter otwarty. Poszczególne referaty ogłaszane są na Polskiej Liście Językoznawczej oraz na stronie Lingwistyka komputerowa na Facebooku. Wszystkie nagrania dostępne są na kanale YouTube.

seminar

1 października 2018

Janusz S. Bień (Katedra Lingwistyki Formalnej UW, prof. emeryt)

https://www.youtube.com/watch?v=mOYzwpjTAf4 Elektroniczne indeksy leksykograficzne  Wystąpienie w języku polskim.

Omówione zostaną indeksy do zasobów leksykograficznych dostępnych w Internecie w formacie DjVu. Indeksy takie mogą być przeglądane, modyfikowane i tworzone za pomocą swobodnego (dostępnego bezpłatnie na otwartej licencji) programu djview4poliqarp — zostanie przedstawiona geneza i historia tego programu. W programie tym obsługa indeksów została pierwotnie wprowadzona na potrzeby indeksu haseł do XIX-wiecznego słownika Lindego, ale może być wykorzystywana również do innych zasobów, jak to zostanie pokazane na przykładach. Zostaną w szczególności zademonstrowane — po raz pierwszy publicznie — ulepszenia wprowadzone do programu w ostatnich miesiącach.

15 października 2018

Wojciech Jaworski, Szymon Rutkowski (Uniwersytet Warszawski)

https://www.youtube.com/watch?v=SbPAdmRmW08 Wielowarstwowy regułowy model fleksji języka polskiego  Wystąpienie w języku polskim.

Referat poświęcony będzie wielowarstwowemu modelowi fleksji języka polskiego. Model opracowany został na podstawie haseł pochodzących ze Słownika Gramatycznego Języka Polskiego; nie korzysta z koncepcji paradygmatu odmiany. Model składa się z trzech warstw ręcznie opracowanych reguł: „warstwy ortograficzno-fonetycznej” konwertującej segment do reprezentacji odzwierciedlającej prawidłowości morfologiczne języka, „warstwy analitycznej” generującej lemat oraz określającej afiksy oraz „warstwy interpretacji” nadającej interpretację morfosyntaktyczną na podstawie wykrytych afiksów. Model dostarcza wiedzę o języku analizatorowi morfologicznemu zaopatrzonemu w funkcję odgadywania lematów i interpretacji morfosyntaktycznych dla form nie należących do słownika (ang. guesser). Drugim zastosowaniem jest generowanie form słów na podstawie lematu i interpretacji morfosyntaktycznej. Podczas referatu poruszone zostanie również zagadnienie dezambiguacji wyników dostarczanych przez analizator morfologiczny. Wersja demonstracyjna programu dostępna jest w Internecie.

29 października 2018

Jakub Waszczuk (Uniwersytet Heinricha Heinego w Düsseldorfie)

https://www.youtube.com/watch?v=zjGQRG2PNu0 Od tagowania morfoskładniowego do identyfikacji czasownikowych jednostek wielowyrazowych: podejście dyskryminatywne  Wystąpienie w języku polskim. Slajdy w języku angielskim.

Pierwsza część referatu poświęcona została narzędziu Concraft-pl 2.0, nowej wersji morfoskładniowego tagera dla języka polskiego bazującego na warunkowych polach losowych. Concraft-pl 2.0 przeprowadza podział na słowa (tokenizację) w ramach ujednoznaczniania morfoskładniowego, co pozwala używać go bezpośrednio na grafach wyjściowych analizatora Morfeusz. Inne istniejące tagery dla języka polskiego albo ignorują ten problem, albo opierają się na heurystykach stosowanych przed fazą ujednoznaczniania. W drugiej części referatu przedstawiona została metoda automatycznej identyfikacji czasownikowych jednostek wielowyrazowych opierająca się na wynikach analizy zależnościowej. W tym podejściu identyfikacja sprowadza się do problemu etykietowania, w którym jedna z dwóch etykiet (MWE/not-MWE) musi zostać określona dla każdego wierzchołka drzewa zależnościowego. Do rozwiązania tego problemu wykorzystany został model warunkowych pól losowych dostosowany do drzewiastej struktury danych wejściowych. System oparty na tym podejściu uzyskał pierwsze miejsce w zamkniętej ścieżce konkursu PARSEME shared task 2018.

5 listopada 2018

Jakub Kozakoszczak (Uniwersytet Warszawski / Uniwersytet Heinricha Heinego w Düsseldorfie)

https://www.youtube.com/watch?v=sz7dGmf8p3k Zawsze od rana do środy — semantyka i normalizacja quasi-okresowych określeń czasu w języku polskim  Wystąpienie w języku polskim.

Standardowo, wyrażenia takie jak „Januarys” lub „Fridays” są interpretowane w językach reprezentacji wiedzy czasowej jako plastry (slices) kolekcji czasowych drugiego stopnia, czyli np. wszystkie piąte elementy siedmioelementowych ciągów dni wyrównanych z ciągiem tygodni kalendarzowych. W wystąpieniu przedstawię wynik prac nad normalizacją najczęstszych polskich wyrażeń quasi-okresowych dla potrzeb systemu rezerwacyjnego. W części językoznawczej przedstawię argumenty przeciwko tłumaczeniu wyrażeń typu „piątki” na „piąte dni tygodnia” i testy semantyczne na proste klasy quasi-okresowości. W części formalnej zaproponuję rozszerzenie istniejących rozwiązań o reprezentację intensjonalnych operatorów quasi-okresowych „od”, „do”, „przed” i „po” obciętych do argumentów, dla których są monotoniczne. W części implementacyjnej zaprezentuję algorytm leniwego wyliczania uogólnionego przecięcia kolekcji.

19 listopada 2018

Daniel Zeman (Instytut Lingwistyki Formalnej i Stosowanej, Uniwersytet Karola w Pradze)

https://www.youtube.com/watch?v=xUmZ8Mxcmg0 Universal Dependencies and the Slavic Languages  Wystąpienie w języku angielskim.

Przedstawię Universal Dependencies, ogólnoświatową inicjatywę mającą na celu udostępnienie wielojęzycznych korpusów zaanotowanych na poziomie morfologicznym i składniowym zgodnie z uniwersalnymi wytycznymi. Omówię koncepcję kluczowych argumentów (ang. core arguments), która jest jednym z fundamentów UD. W drugiej części wykładu skupię się na kilku interesujących problemach i wyzwaniach związanych z zastosowaniem Uniwersalnych Zależności w językach słowiańskich. Omówię przykłady z 12 języków słowiańskich reprezentowanych obecnie w UD, które pokazują, że nadal można poprawić spójność międzyjęzykową.

3 grudnia 2018

Ekaterina Lapshinova-Koltunski (Uniwersytet Kraju Saary)

Analiza i anotacja koreferencji na potrzeby lingwistyki kontrastywnej i translatoryki  Wystąpienie w języku angielskim.

Podczas wykładu opowiem o trwających pracach nad analizą koreferencji w kontekście wielojęzycznym. Przedstawię dwa podejścia do analizy zjawisk koreferencyjnych: (1) teoretyczne, gdy na podstawie wiedzy lingwistycznej definiujemy kategorie językowe i używamy ich do stworzenia anotowanego korpusu, który można wykorzystać albo do dalszej analizy lingwistycznej, albo jako dane treningowe dla zastosowań NLP, (2) oparte na danych: w tym przypadku zaczynamy od zestawu płytkich cech naszym zdaniem związanych z dyskursem, wyodrębniamy struktury z dużej ilości danych i analizujemy je z językowego punktu widzenia próbując opisać i wyjaśnić obserwowane zjawiska za pomocą istniejących teorii i gramatyk.

7 stycznia 2019

Adam Przepiórkowski (Instytut Podstaw Informatyki PAN / Uniwersytet Warszawski), Agnieszka Patejuk (Instytut Podstaw Informatyki PAN / Uniwersytet Oksfordzki)

Tytuł wystąpienia będzie dostępny wkrótce  Wystąpienie w języku polskim.

Streszczenie wystąpienia zostanie udostępnione w późniejszym terminie.

14 stycznia 2019

Agata Savary (Université François Rabelais Tours)

Tytuł wystąpienia będzie dostępny wkrótce  Wystąpienie w języku polskim. Slajdy w języku angielskim.

Streszczenie wystąpienia zostanie udostępnione w późniejszym terminie.

21 stycznia 2019

Marek Łaziński (Uniwersytet Warszawski), Michał Woźniak (Uniwersytet Jagielloński)

Tytuł wystąpienia będzie dostępny wkrótce  Wystąpienie w języku polskim.

Streszczenie wystąpienia zostanie udostępnione w późniejszym terminie.

11 lutego 2019

Anna Wróblewska (Politechnika Warszawska)

Tytuł wystąpienia będzie dostępny wkrótce  Wystąpienie w języku polskim.

Streszczenie wystąpienia zostanie udostępnione w późniejszym terminie.

25 lutego 2019

Jakub Dutkiewicz (Politechnika Poznańska)

Empirical research on medical information retrieval  Wystąpienie w języku polskim.

Streszczenie wystąpienia zostanie udostępnione w późniejszym terminie.

Zapraszamy także do zapoznania się z archiwum seminariów z lat 2000–15 oraz listą wystąpień z lat 2015–18.