Size: 2232
Comment:
|
Size: 31606
Comment:
|
Deletions are marked like this. | Additions are marked like this. |
Line 3: | Line 3: |
= Seminarium „Przetwarzanie języka naturalnego” 2016–2017 = | = Seminarium „Przetwarzanie języka naturalnego” 2018–19 = |
Line 5: | Line 5: |
||<style="border:0;padding:0">Seminarium [[http://nlp.ipipan.waw.pl/|Zespołu Inżynierii Lingwistycznej]] w [[http://www.ipipan.waw.pl/|Instytucie Podstaw Informatyki]] [[http://www.pan.pl/|Polskiej Akademii Nauk]] odbywa się nieregularnie w poniedziałki zwykle o godz. 10:15 w siedzibie IPI PAN (ul. Jana Kazimierza 5, Warszawa) i ma charakter otwarty. Poszczególne referaty ogłaszane są na [[http://lists.nlp.ipipan.waw.pl/mailman/listinfo/ling|Polskiej Liście Językoznawczej]] oraz na stronie [[https://www.facebook.com/lingwistyka.komputerowa|Lingwistyka komputerowa]] na Facebooku. ||<style="border:0;padding-left:30px;">[[seminar|{{attachment:seminarium-archiwum/en.png}}]]|| | ||<style="border:0;padding-bottom:10px">Seminarium [[http://nlp.ipipan.waw.pl/|Zespołu Inżynierii Lingwistycznej]] w [[http://www.ipipan.waw.pl/|Instytucie Podstaw Informatyki]] [[http://www.pan.pl/|Polskiej Akademii Nauk]] odbywa się nieregularnie w poniedziałki zwykle o godz. 10:15 w siedzibie IPI PAN (ul. Jana Kazimierza 5, Warszawa) i ma charakter otwarty. Poszczególne referaty ogłaszane są na [[http://lists.nlp.ipipan.waw.pl/mailman/listinfo/ling|Polskiej Liście Językoznawczej]] oraz na stronie [[https://www.facebook.com/lingwistyka.komputerowa|Lingwistyka komputerowa]] na Facebooku. Wszystkie nagrania dostępne są na [[https://www.youtube.com/channel/UC5PEPpMqjAr7Pgdvq0wRn0w|kanale YouTube]].||<style="border:0;padding-left:30px;">[[seminar|{{attachment:seminarium-archiwum/en.png}}]]|| |
Line 7: | Line 7: |
||<style="border:0;padding:0">Obecnie trwa przerwa wakacyjna – zapraszamy na następne wystąpienia w październiku oraz do zapoznania się z [[http://nlp.ipipan.waw.pl/NLP-SEMINAR/previous-p.html|archiwum seminariów z lat 2000-2015]] oraz [[http://zil.ipipan.waw.pl/seminarium-archiwum|listą wystąpień z roku 2015-16]].|| | ||<style="border:0;padding-top:5px;padding-bottom:5px">'''1 października 2018'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Janusz S. Bień''' (Katedra Lingwistyki Formalnej UW, prof. emeryt)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=mOYzwpjTAf4|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2018-10-01.pdf|Elektroniczne indeksy leksykograficzne]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Omówione zostaną indeksy do zasobów leksykograficznych dostępnych w Internecie w formacie !DjVu. Indeksy takie mogą być przeglądane, modyfikowane i tworzone za pomocą swobodnego (dostępnego bezpłatnie na otwartej licencji) programu djview4poliqarp — zostanie przedstawiona geneza i historia tego programu. W programie tym obsługa indeksów została pierwotnie wprowadzona na potrzeby indeksu haseł do XIX-wiecznego słownika Lindego, ale może być wykorzystywana również do innych zasobów, jak to zostanie pokazane na przykładach. Zostaną w szczególności zademonstrowane — po raz pierwszy publicznie — ulepszenia wprowadzone do programu w ostatnich miesiącach.|| |
Line 9: | Line 12: |
##||<style="border:0;padding-top:5px;padding-bottom:5px">'''3 października 2016'''|| ##||<style="border:0;padding-left:30px;padding-bottom:0px">'''?''' (Samsung Polska)|| ##||<style="border:0;padding-left:30px;padding-bottom:5px">'''?'''  {{attachment:icon-pl.gif|Wystąpienie w języku polskim.}}|| ##||<style="border:0;padding-left:30px;padding-bottom:15px">Opis wystąpienia zostanie podany wkrótce.|| |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''15 października 2018'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Wojciech Jaworski, Szymon Rutkowski''' (Uniwersytet Warszawski)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=SbPAdmRmW08|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2018-10-15.pdf|Wielowarstwowy regułowy model fleksji języka polskiego]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Referat poświęcony będzie wielowarstwowemu modelowi fleksji języka polskiego. Model opracowany został na podstawie haseł pochodzących ze Słownika Gramatycznego Języka Polskiego; nie korzysta z koncepcji paradygmatu odmiany. Model składa się z trzech warstw ręcznie opracowanych reguł: „warstwy ortograficzno-fonetycznej” konwertującej segment do reprezentacji odzwierciedlającej prawidłowości morfologiczne języka, „warstwy analitycznej” generującej lemat oraz określającej afiksy oraz „warstwy interpretacji” nadającej interpretację morfosyntaktyczną na podstawie wykrytych afiksów. Model dostarcza wiedzę o języku [[http://eniam.nlp.ipipan.waw.pl/morphology.html|analizatorowi morfologicznemu]] zaopatrzonemu w funkcję odgadywania lematów i interpretacji morfosyntaktycznych dla form nie należących do słownika (ang. guesser). Drugim zastosowaniem jest [[http://eniam.nlp.ipipan.waw.pl/morphology2.html|generowanie form słów]] na podstawie lematu i interpretacji morfosyntaktycznej. Podczas referatu poruszone zostanie również zagadnienie dezambiguacji wyników dostarczanych przez analizator morfologiczny. Wersja demonstracyjna programu dostępna jest w Internecie.|| |
Line 14: | Line 17: |
##||<style="border:0;padding-top:5px;padding-bottom:5px">'''17 października 2016'''|| ##||<style="border:0;padding-left:30px;padding-bottom:0px">'''Adam Przepiórkowski, Jakub Kozakoszczak, Jan Winkowski, Daniel Ziembicki, Tadeusz Teleżyński''' (Instytut Podstaw Informatyki PAN, Uniwersytet Warszawski)|| ##||<style="border:0;padding-left:30px;padding-bottom:5px">'''Korpus sformalizowanych kroków wynikania tekstowego'''  {{attachment:icon-pl.gif|Wystąpienie w języku polskim.}}|| ##||<style="border:0;padding-left:30px;padding-bottom:15px">Opis wystąpienia zostanie podany wkrótce.|| |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''29 października 2018'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Jakub Waszczuk''' (Uniwersytet Heinricha Heinego w Düsseldorfie)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=zjGQRG2PNu0|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2018-10-29.pdf|Od tagowania morfoskładniowego do identyfikacji czasownikowych jednostek wielowyrazowych: podejście dyskryminatywne]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}} {{attachment:seminarium-archiwum/icon-en.gif|Slajdy w języku angielskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Pierwsza część referatu poświęcona została narzędziu Concraft-pl 2.0, nowej wersji morfoskładniowego tagera dla języka polskiego bazującego na warunkowych polach losowych. Concraft-pl 2.0 przeprowadza podział na słowa (tokenizację) w ramach ujednoznaczniania morfoskładniowego, co pozwala używać go bezpośrednio na grafach wyjściowych analizatora Morfeusz. Inne istniejące tagery dla języka polskiego albo ignorują ten problem, albo opierają się na heurystykach stosowanych przed fazą ujednoznaczniania. W drugiej części referatu przedstawiona została metoda automatycznej identyfikacji czasownikowych jednostek wielowyrazowych opierająca się na wynikach analizy zależnościowej. W tym podejściu identyfikacja sprowadza się do problemu etykietowania, w którym jedna z dwóch etykiet (MWE/not-MWE) musi zostać określona dla każdego wierzchołka drzewa zależnościowego. Do rozwiązania tego problemu wykorzystany został model warunkowych pól losowych dostosowany do drzewiastej struktury danych wejściowych. System oparty na tym podejściu uzyskał pierwsze miejsce w zamkniętej ścieżce konkursu PARSEME shared task 2018.|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''5 listopada 2018'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Jakub Kozakoszczak''' (Uniwersytet Warszawski / Uniwersytet Heinricha Heinego w Düsseldorfie)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=sz7dGmf8p3k|{{attachment:seminarium-archiwum/youtube.png}}]] '''Zawsze od rana do środy — semantyka i normalizacja quasi-okresowych określeń czasu w języku polskim'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Standardowo, wyrażenia takie jak „Januarys” lub „Fridays” są interpretowane w językach reprezentacji wiedzy czasowej jako plastry (slices) kolekcji czasowych drugiego stopnia, czyli np. wszystkie piąte elementy siedmioelementowych ciągów dni wyrównanych z ciągiem tygodni kalendarzowych. W wystąpieniu przedstawię wynik prac nad normalizacją najczęstszych polskich wyrażeń quasi-okresowych dla potrzeb systemu rezerwacyjnego. W części językoznawczej przedstawię argumenty przeciwko tłumaczeniu wyrażeń typu „piątki” na „piąte dni tygodnia” i testy semantyczne na proste klasy quasi-okresowości. W części formalnej zaproponuję rozszerzenie istniejących rozwiązań o reprezentację intensjonalnych operatorów quasi-okresowych „od”, „do”, „przed” i „po” obciętych do argumentów, dla których są monotoniczne. W części implementacyjnej zaprezentuję algorytm leniwego wyliczania uogólnionego przecięcia kolekcji.|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''19 listopada 2018'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Daniel Zeman''' (Instytut Lingwistyki Formalnej i Stosowanej, Uniwersytet Karola w Pradze)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=xUmZ8Mxcmg0|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2018-11-19.pdf|Universal Dependencies i języki słowiańskie]]'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Przedstawię Universal Dependencies, ogólnoświatową inicjatywę mającą na celu udostępnienie wielojęzycznych korpusów zaanotowanych na poziomie morfologicznym i składniowym zgodnie z uniwersalnymi wytycznymi. Omówię koncepcję kluczowych argumentów (ang. core arguments), która jest jednym z fundamentów UD. W drugiej części wykładu skupię się na kilku interesujących problemach i wyzwaniach związanych z zastosowaniem Uniwersalnych Zależności w językach słowiańskich. Omówię przykłady z 12 języków słowiańskich reprezentowanych obecnie w UD, które pokazują, że nadal można poprawić spójność międzyjęzykową.|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''3 grudnia 2018'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Ekaterina Lapshinova-Koltunski''' (Uniwersytet Kraju Saary)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=UQ_6dDNEw8E|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2018-12-03.pdf|Analiza i anotacja koreferencji na potrzeby lingwistyki kontrastywnej i translatoryki]]'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Podczas wykładu opowiem o trwających pracach nad analizą koreferencji w kontekście wielojęzycznym. Przedstawię dwa podejścia do analizy zjawisk koreferencyjnych: (1) teoretyczne, gdy na podstawie wiedzy lingwistycznej definiujemy kategorie językowe i używamy ich do stworzenia anotowanego korpusu, który można wykorzystać albo do dalszej analizy lingwistycznej, albo jako dane treningowe dla zastosowań NLP, (2) oparte na danych: w tym przypadku zaczynamy od zestawu płytkich cech naszym zdaniem związanych z dyskursem, wyodrębniamy struktury z dużej ilości danych i analizujemy je z językowego punktu widzenia próbując opisać i wyjaśnić obserwowane zjawiska za pomocą istniejących teorii i gramatyk.|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''7 stycznia 2019'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Adam Przepiórkowski''' (Instytut Podstaw Informatyki PAN / Uniwersytet Warszawski), '''Agnieszka Patejuk''' (Instytut Podstaw Informatyki PAN / Uniwersytet Oksfordzki)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''[[attachment:seminarium-archiwum/2019-01-07.pdf|Enhanced Universal Dependencies]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}} {{attachment:seminarium-archiwum/icon-en.gif|Slajdy w języku angielskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Celem referatu jest prezentacja dwóch nurtów naszych prac związanych z Universal Dependencies (UD), czyli ze standardem znakowania składniowego korpusów tekstów (http://universaldependencies.org/). Pierwszy nurt dotyczy opracowania nowego banku drzew języka polskiego, w pełni wykorzystującego obecną rozszerzoną wersję standardu. Korpus ten jest wynikiem konwersji wcześniejszego ‘banku drzew’, zawierającego znakowanie zgodne z teorią Lexical Functional Grammar, a więc nie tylko drzewa składnikowe, ale także struktury funkcyjne. W referacie omówiony zostanie proces konwersji, a także wynik tego procesu, czyli uzyskany bank drzew języka polskiego. Drugi nurt prac dotyczy natomiast podstaw standardu UD, a szczególnie pewnych jego niespójności i braków, które zidentyfikowaliśmy w trakcie tworzenia polskiego korpusu zgodnego z tym standardem. Skupimy się tutaj na dwóch obszarach, które są szczególnie problematyczne w omawianym standardzie, a mianowicie na odróżnieniu funkcji gramatycznych ‘pierwszorzędnych’ (ang. core) i ‘drugorzędnych’ (ang. oblique) – w zamierzeniu twórców standardu rozróżnienie to miało zastąpić (lecz nie do końca zastępuje) dychotomię argument/modyfikator – oraz na koordynacji, czyli zjawisku trudnym dla wszystkich podejść zależnościowych.|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''14 stycznia 2019'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Agata Savary''' (Université François Rabelais Tours)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''[[attachment:seminarium-archiwum/2019-01-14.pdf|Dosłowne interpretacje jednostek wielowyrazowych: analiza ilościowa i jakościowa]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}} {{attachment:seminarium-archiwum/icon-en.gif|Slajdy w języku angielskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Jednostki wielowyrazowe (ang. multiword expressions), takie jak „wyciągnąć nogi” (umrzeć), „wziąć udział” czy „bać się”, to związki frazeologiczne odznaczające się nieregularnymi własnościami na poziomie słownictwa, składni, a przede wszystkim semantyki. Są one istotnym wyzwaniem m.in. dla modelowania języka i dla lingwistyki komputerowej z uwagi na ich niekompozycyjne znaczenie, tzn. niemożność ustalenia znaczenia danego wyrażenia w sposób regularny na bazie znaczeń jego pojedynczych składników i zachodzących między nimi związków składniowych. Dodatkowo wyrażenia takie cechuje możliwość występowania zarówno w znaczeniu przenośnym jak i dosłownym (np. „wyciągnął nogi” w sensie „zmarł”, w opozycji do „położył się na trawie i wyciągnął nogi”). Dosłownym interpretacjom jednostek wielowyrazowych poświęcono szereg prac z dziedziny psycholingwistyki, lingwistyki i przetwarzania języka naturalnego, jednak zjawisko to nie zostało jak dotąd precyzyjne zdefiniowane ani poddane analizie ilościowej. Na tym seminarium zaproponuję definicję dosłownej interpretacji jednostki wielowyrazowej w oparciu m.in. o jej składnię. Zaprezentuję też analizę jakościową i ilościową tego zjawiska dla języka polskiego oraz dla 4 innych typologicznie odległych języków: baskijskiego, greckiego, niemieckiego i portugalskiego. Wyniki tego studium, przeprowadzonego na bazie korpusu wielojęzycznego sieci naukowej [[http://www.parseme.eu|PARSEME]], wskazują m.in. na rzadkość użycia jednostek wielowyrazowych w ich znaczeniach dosłownych. Pokażę również, jakiego typu ograniczenia morfologiczne i składniowe niektórych jednostek wielowyrazowych pozwalają odróżnić ich interpretacje metaforyczne od dosłownych oraz, przeciwnie, jakie ich wystąpienia cechuje daleko idąca niejednoznaczność.|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''21 stycznia 2019'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Marek Łaziński''' (Uniwersytet Warszawski), '''Michał Woźniak''' (Uniwersytet Jagielloński) || ||<style="border:0;padding-left:30px;padding-bottom:5px">'''[[attachment:seminarium-archiwum/2019-01-21.pdf|Aspekt czasownika w słownikach i korpusach. Jak i po co tagować pary aspektowe?]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:5px">W referacie przedstawione zostaną zasady tagowania par aspektowych w nowym Korpusie polsko-niemieckim Uniwersytetu Warszawskiego i Uniwersytetu Gutenberga w Moguncji. Zanim to uczynimy, przyjrzymy się nieuporządkowanym informacjom o aspekcie czasownika w najważniejszych polskich słownikach oraz w NKJP. Dotychczasowe tagowanie aspektu w korpusach słowiańskich ogranicza się do jednego tokenu, tymczasem aspekt jest kategorią parzystą i warto rozpatrywać go w ramach par czasownikowych. Zakładamy, że jest to możliwe we wszystkich korpusach języków słowiańskich, w tym w NKJP, choć trzeba się zgodzić na pewne uproszczenia. Projekt informacji aspektowej w korpusie składa się z 3 części:|| ||<style="border:0;padding-left:30px">1. Tag 1 powtarza informację aspektową z NKJP, uzupełniając ją o wartość „dwuaspektowy”, poprawiając błędy i rozdzielając dokonaność/niedokonaność parzystą (pisać-napisać) od nieparzystej (stać, runąć).|| ||<style="border:0;padding-left:30px">2. Tag 2 określa morfologiczny wyznacznik aspektu w ramach pary: prefiks, sufiks lub supletywizm morfemów.|| ||<style="border:0;padding-left:30px">3. Tag 3 odnosi do pary aspektowej.|| ||<style="border:0;padding-left:30px;padding-top:5px;padding-bottom:15px">Przypisanie tagów odbywa się na podstawie listy i nie uwzględnia faktu, że czasownik potencjalnie parzysty może być także użyty jako ''imperfectivum tantum'', np. „długopis cienko pisze”. W wypadku trójek aspektowych, np. ''tworzyć:stworzyć:stwarzać'' oraz alternatywnych odpowiedników ''dk'' w zależności od znaczenia, np. ''malować:pomalować/namalować'' korpus zaznacza każde przypisanie do potencjalnej pary. Czasownik stworzyć jest przypisany do par ''tworzyć:stworzyć'' i ''stwarzać:stworzyć'' (tylko w pierwszym wypadku wyznacznikiem aspektu jest prefiks), czasownik ''malować'' do par ''malować:pomalować'' i ''malować:namalować''. Mimo niejednoznaczności odniesienia do par otamowany wstępnie korpus pozwala uzyskać wiarygodną informację o zachowaniu kategorii, także w ujęciu porównawczym słowiańsko-niesłowiańskim. W referacie przedstawimy wyniki wstępnego określenia profilu gramatycznego czasowników ''dk'' i ''ndk'' z par prefiksalnych i sufiksalnych.|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''11 lutego 2019'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Anna Wróblewska''' (Applica / Politechnika Warszawska), '''Filip Graliński''' (Applica / Uniwersytet Adama Mickiewicza)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=tZ_rkR7XqRY|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2019-02-11.pdf|Rozumienie modeli uczenia maszynowego opartych na tekście – rozpoznawanie emocji i detekcja języka obraźliwego]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}} {{attachment:seminarium-archiwum/icon-en.gif|Slajdy w języku angielskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">W jaki sposób radzimy sobie z problemami z modelowaniem tekstu w aplikacjach biznesowych? Przedstawimy prototypową architekturę do automatyzacji procesów w pracy z danymi tekstowymi oraz kilka przykładów użycia modeli uczenia maszynowego. Przypadki użycia będą dotyczyć m.in. wykrywania emocji i języka obraźliwego. Pokażemy również nasze narzędzie do analizy zbiorów danych i modeli.|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''28 lutego 2019'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Jakub Dutkiewicz''' (Politechnika Poznańska)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=Ap2zn8-RfWI|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2019-02-28.pdf|Empirical research on medical information retrieval]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}} {{attachment:seminarium-archiwum/icon-en.gif|Slajdy w języku angielskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Przedstawiamy wyniki i procedury ewaluacji konkursu bioCADDIE 2016 w zakresie wyszukiwania precyzyjnych danych medycznych. Nasze dobre wyniki wynikają użycia word embedding dla wyznaczenia słów rozszerzających zapytanie z odpowiednimi wagami. Ocena ponad 10000 dokumentów związana jest z dużym wysiłkiem. Ponad 10 lat temu została zaproponowana prosta metoda próbkowania w celu oszacowania średniej dokładności (AP) i znormalizowanego skumulowanego zysku informacyjnego (NDCG), w warunkach niekompletnych adnotacji. Aby ta metoda działała, liczba ocenionych dokumentów musi być stosunkowo duża. Takie warunki nie zostały spełnione w konkursie bioCADDIE 2016 i TREC PM 2017, 2018. Specyfika oceny bioCADDIE sprawia, że wyniki uzyskane po konkursie są niekompatybilne z uzyskanymi podczas konkursu. W bioCADDIE, w przypadku niektórych pytań nie było żadnego zaadnotowanego relewantnego dokumentu. Wyniki są silnie uzależnione od pozycji odcięcia. Jako efekt, uzyskana w bioCADDIE miara infAP jest słabo skorelowana z infNDCG, a różnica może wynieść do 0,15-0,20 wartości bezwzględnej. Proponujemy symulowane środowisko z właściwościami, które odzwierciedlają rzeczywiste systemy. W ramach symulacji wdrażamy szereg działań ewaluacyjnych i omawiamy użyteczność środków z częściowo przypisanymi do nich zbiorami dokumentów w odniesieniu do wielkości zbioru, liczby adnotowanych dokumentów i proporcji między liczbą relewantnych i nierelewantnych dokumentów. W szczególności koncentrujemy się na zachowaniu wyżej wymienionych AP i NDCG oraz ich estymowanych wersjach.|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''21 marca 2019'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Grzegorz Wojdyga''' (Instytut Podstaw Informatyki PAN)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''[[attachment:seminarium-archiwum/2019-03-21.pdf|Optymalizacja rozmiaru modeli językowych]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Podczas seminarium zostaną omówione wyniki pracy nad redukcją rozmiaru modeli językowych. Autor dokona przeglądu literatury na temat redukcji rozmiaru rekurencyjnych sieci neuronowych (pod kątem modeli językowych). Następnie zostaną przedstawione własne implementacje wraz z wynikami ewaluacji na różnych korpusach polskich i angielskich.|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''25 marca 2019'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Łukasz Dębowski''' (Instytut Podstaw Informatyki PAN)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=gIoI-A00Y7M|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2019-03-25.pdf|GPT-2 – kilka refleksji obserwatora]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">GPT-2 to najnowszy neuronowy statystyczny model języka autorstwa zespołu OpenAI. Statystyczny model języka to rozkład prawdopodobieństwa na tekstach, który może służyć do automatycznego generowania tekstów. W istocie GPT-2 okazał się zaskakująco dobrym generatorem semantycznie spójnych tekstów długości kilku akapitów, istotnie przesuwając granice tego, co uchodziło dotychczas za możliwe technicznie. Antycypując zastosowanie GPT-2 do generowania fake-newsów zespół OpenAI zdecydował się upublicznić tylko dziesięciokrotnie zredukowaną wersję modelu. W swoim wystąpieniu podzielę się refleksjami odnośnie GPT-2.|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''8 kwietnia 2019'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Agnieszka Wołk''' (Polsko-Japońska Akademia Technik Komputerowych i Instytut Badań Literackich PAN)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=QVrY4rRzMOI|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2019-04-08.pdf|Zastosowanie kolokacji językowych w badaniach ilościowych]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Celem prezentacji jest wsparcie ogromnego wysiłku niezbędnego do analizy kompetencji w zakresie frazeologicznego pisania poprzez opracowanie automatycznego narzędzia do oceny tekstów. Podejmowana jest próba zmierzenia zarówno biegłości w pisaniu w drugim języku (L2), jak i jakości tekstu. Technika !CollGram, która przeszukuje korpus referencyjny w celu określenia częstotliwości każdej pary (n-gramów) i oblicza wynik t-score oraz powiązane informacje. Jako korpus referencyjny posłużyliśmy się korpusem poziomu 3 współczesnego amerykańskiego języka angielskiego (COCA). Nasze rozwiązanie sprawdzało się w pisemnej ocenie i jest dostępne bezpłatnie jako serwis internetowy lub jako źródło dla innych badaczy. Przedstawiamy również, jak używać go jako narzędzi do wczesnego wykrywania depresji oraz stylometrii.|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''15 kwietnia 2019'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Alina Wróblewska''', '''Piotr Rybak''' (Instytut Podstaw Informatyki PAN)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=p-VldtRqvmg|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2019-04-15.pdf|Automatyczna analiza zależnościowa języka polskiego]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Parsowanie zależnościowe jest kluczowym problemem w zaawansowanych zadaniach NLP. Struktura predykatywno-argumentowa zakodowana w strukturach zależnościowych może wspierać tłumaczenie maszynowe, odpowiadanie na pytania, analizę wydźwięku itp. W prezentacji przedstawimy PDB – największy bank drzew zależnościowych dla języka polskiego, oraz COMBO – niezależny od języka system neuronowy do tagowania, analizy morfologicznej, lematyzacji i parsowania zależnościowego.|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''13 maja 2019'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Piotr Niewiński, Maria Pszona''' (Samsung R&D Polska), Aleksander Wawer (Instytut Podstaw Informatyki PAN) || ||<style="border:0;padding-left:30px;padding-bottom:5px">'''Samsung R&D Polska w konkursie !SemEval 2019'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:0px">Prezentacja będzie przedstawiała rozwiązania zgłoszone przez Samsung R&D Polska w konkursie !SemEval 2019. Uzyskały one drugie miejsce w dwóch różnych zadaniach konkursu.|| ||<style="border:0;padding-left:30px;padding-bottom:0px">1. Weryfikacja faktów na forach internetowych|| ||<style="border:0;padding-left:30px;padding-bottom:0px">Przedstawimy system zaprojektowany w ramach konkursu !SemEval. Zadanie polegało na zaklasyfikowaniu pytań do jednej z trzech kategorii: OPINIA, FAKT lub ROZRYWKA. Przedstawimy rozwiązanie, które zajęło drugie miejsce: głęboko zregularyzowana rezydualna sieć neuronowa wykorzystująca embeddingi uzyskane przy pomocy enkodera Universal Sencence Encoder. Model ten porównamy z dwoma innymi zaproponowanymi architekturami opartymi o metody zespołowe (ensemble).|| ||<style="border:0;padding-left:30px;padding-bottom:0px">2. Deep-learningowy klasyfikator zdań obraźliwych|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Jak zdefiniować „obraźliwe treści”? Czym są „brzydkie słowa”? W naszej prezentacji omówimy trudności w określeniu tego, co obraźliwe, wulgarne i niepożądane w mediach społecznościowych (np. na Twitterze). Następnie zaprezentujemy nasz system zastosowany w zadaniach 5 i 6 !SemEval 2019 (w którym osiągnęliśmy drugie miejsce dla podzadania C zadania 6). Porównamy również osiągi naszego modelu z podejściami stanu techniki i przedstawimy, jak przewyższył on inne systemy dzięki zastosowaniu lingwistycznych obserwacji.|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''27 maja 2019'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Magdalena Zawisławska''' (Uniwersytet Warszawski)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''Polski korpus metafor synestezyjnych'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Streszczenie udostępnimy wkrótce.|| ||<style="border:0;padding-top:0px">Zapraszamy także do zapoznania się z [[http://nlp.ipipan.waw.pl/NLP-SEMINAR/previous-p.html|archiwum seminariów z lat 2000–15]] oraz [[http://zil.ipipan.waw.pl/seminarium-archiwum|listą wystąpień z lat 2015–18]].|| {{{#!wiki comment Na pewno: (21 kwietnia: Poniedziałek Wielkanocny) – 29 kwietnia: (uwaga: tydzień z majówką) – 13 maja: Ktoś z Samsunga po SemEvalu? (17–19 maja: LTC w Poznaniu, więc ew. 20 maja można kogoś namówić na przyjazd przy okazji) – 31 maja: PolEval (2–7 czerwca: NAACL w Minneapolis) – 10 czerwca: Tomasz Stanisz o stylometrii? wrzesień: Igor Boguslavsky 18 i 21 listopada: Alexander Rosen Umówić się z Brylską, zapytać tę od okulografii, czy to jest PJN Agnieszka Kwiatkowska – zobaczyć ten jej tekst, moze też coś opowie? Ew. Kasia Brylska, Monika Płużyczka na seminarium? Marcin Napiórkowski z Karolem? Maciej Karpiński Demenko – dawno już ich nie było; można iść po kluczu HLT Days Michał Marcińczuk MTAS? – NLP dla tekstów historycznych – Marcin/Witek? razem z KORBĄ, pokazać oba ręcznie znakowane korpusy i benchmarki na tagerach – maj, – może Wrocław mógłby coś pokazać? – pisałem do Maćka P. Krzysztof Wołk: Gdyby w przyszłości była potrzeba pracuję nad NMT we współpracy z kolegą który pracuje w dolinie krzemowej. On też będąc w PL mógłby wystąpić lub wystąpić zdalnie. Zajmuję się sieciami neuronowymi w tym NMT wraz ze mną, opisowym generowaniem ruchów modeli 3D oraz generowaniem sztuki pisanej za pomocą sieci, klasyfikacją pochodzenia nazwisk za pomocą sieci I podobnymi tematami. – jakieś wystąpienia PolEvalowe? – Marcin, Witek: Chronofleks – Krzysztof Wołk: NMT na subword units – Piotrek Pęzik obiecał coś wygłosić – Justyna Sarzyńska? – Marcin Junczys-Dowmunt przy okazji świąt? Tomek Dwojak i inni z https://zpjn.wmi.amu.edu.pl/seminar/? ||<style="border:0;padding-top:5px;padding-bottom:5px">'''12 DATA 2017''' ('''UWAGA: ''' wystąpienie odbędzie się o 13:00 w ramach [[https://ipipan.waw.pl/instytut/dzialalnosc-naukowa/seminaria/ogolnoinstytutowe|seminarium IPI PAN]])|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''OSOBA''' (AFILIACJA)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''Tytuł zostanie udostępniony w najbliższym czasie'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Opis wystąpienia zostanie udostępniony wkrótce.|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''[[attachment:seminarium-archiwum/201--.pdf|...]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}} {{attachment:seminarium-archiwum/icon-en.gif|Slajdy w języku angielskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">...|| }}} |
Seminarium „Przetwarzanie języka naturalnego” 2018–19
Seminarium Zespołu Inżynierii Lingwistycznej w Instytucie Podstaw Informatyki Polskiej Akademii Nauk odbywa się nieregularnie w poniedziałki zwykle o godz. 10:15 w siedzibie IPI PAN (ul. Jana Kazimierza 5, Warszawa) i ma charakter otwarty. Poszczególne referaty ogłaszane są na Polskiej Liście Językoznawczej oraz na stronie Lingwistyka komputerowa na Facebooku. Wszystkie nagrania dostępne są na kanale YouTube. |
1 października 2018 |
Janusz S. Bień (Katedra Lingwistyki Formalnej UW, prof. emeryt) |
Omówione zostaną indeksy do zasobów leksykograficznych dostępnych w Internecie w formacie DjVu. Indeksy takie mogą być przeglądane, modyfikowane i tworzone za pomocą swobodnego (dostępnego bezpłatnie na otwartej licencji) programu djview4poliqarp — zostanie przedstawiona geneza i historia tego programu. W programie tym obsługa indeksów została pierwotnie wprowadzona na potrzeby indeksu haseł do XIX-wiecznego słownika Lindego, ale może być wykorzystywana również do innych zasobów, jak to zostanie pokazane na przykładach. Zostaną w szczególności zademonstrowane — po raz pierwszy publicznie — ulepszenia wprowadzone do programu w ostatnich miesiącach. |
15 października 2018 |
Wojciech Jaworski, Szymon Rutkowski (Uniwersytet Warszawski) |
Referat poświęcony będzie wielowarstwowemu modelowi fleksji języka polskiego. Model opracowany został na podstawie haseł pochodzących ze Słownika Gramatycznego Języka Polskiego; nie korzysta z koncepcji paradygmatu odmiany. Model składa się z trzech warstw ręcznie opracowanych reguł: „warstwy ortograficzno-fonetycznej” konwertującej segment do reprezentacji odzwierciedlającej prawidłowości morfologiczne języka, „warstwy analitycznej” generującej lemat oraz określającej afiksy oraz „warstwy interpretacji” nadającej interpretację morfosyntaktyczną na podstawie wykrytych afiksów. Model dostarcza wiedzę o języku analizatorowi morfologicznemu zaopatrzonemu w funkcję odgadywania lematów i interpretacji morfosyntaktycznych dla form nie należących do słownika (ang. guesser). Drugim zastosowaniem jest generowanie form słów na podstawie lematu i interpretacji morfosyntaktycznej. Podczas referatu poruszone zostanie również zagadnienie dezambiguacji wyników dostarczanych przez analizator morfologiczny. Wersja demonstracyjna programu dostępna jest w Internecie. |
29 października 2018 |
Jakub Waszczuk (Uniwersytet Heinricha Heinego w Düsseldorfie) |
|
Pierwsza część referatu poświęcona została narzędziu Concraft-pl 2.0, nowej wersji morfoskładniowego tagera dla języka polskiego bazującego na warunkowych polach losowych. Concraft-pl 2.0 przeprowadza podział na słowa (tokenizację) w ramach ujednoznaczniania morfoskładniowego, co pozwala używać go bezpośrednio na grafach wyjściowych analizatora Morfeusz. Inne istniejące tagery dla języka polskiego albo ignorują ten problem, albo opierają się na heurystykach stosowanych przed fazą ujednoznaczniania. W drugiej części referatu przedstawiona została metoda automatycznej identyfikacji czasownikowych jednostek wielowyrazowych opierająca się na wynikach analizy zależnościowej. W tym podejściu identyfikacja sprowadza się do problemu etykietowania, w którym jedna z dwóch etykiet (MWE/not-MWE) musi zostać określona dla każdego wierzchołka drzewa zależnościowego. Do rozwiązania tego problemu wykorzystany został model warunkowych pól losowych dostosowany do drzewiastej struktury danych wejściowych. System oparty na tym podejściu uzyskał pierwsze miejsce w zamkniętej ścieżce konkursu PARSEME shared task 2018. |
19 listopada 2018 |
Daniel Zeman (Instytut Lingwistyki Formalnej i Stosowanej, Uniwersytet Karola w Pradze) |
Przedstawię Universal Dependencies, ogólnoświatową inicjatywę mającą na celu udostępnienie wielojęzycznych korpusów zaanotowanych na poziomie morfologicznym i składniowym zgodnie z uniwersalnymi wytycznymi. Omówię koncepcję kluczowych argumentów (ang. core arguments), która jest jednym z fundamentów UD. W drugiej części wykładu skupię się na kilku interesujących problemach i wyzwaniach związanych z zastosowaniem Uniwersalnych Zależności w językach słowiańskich. Omówię przykłady z 12 języków słowiańskich reprezentowanych obecnie w UD, które pokazują, że nadal można poprawić spójność międzyjęzykową. |
3 grudnia 2018 |
Ekaterina Lapshinova-Koltunski (Uniwersytet Kraju Saary) |
|
Podczas wykładu opowiem o trwających pracach nad analizą koreferencji w kontekście wielojęzycznym. Przedstawię dwa podejścia do analizy zjawisk koreferencyjnych: (1) teoretyczne, gdy na podstawie wiedzy lingwistycznej definiujemy kategorie językowe i używamy ich do stworzenia anotowanego korpusu, który można wykorzystać albo do dalszej analizy lingwistycznej, albo jako dane treningowe dla zastosowań NLP, (2) oparte na danych: w tym przypadku zaczynamy od zestawu płytkich cech naszym zdaniem związanych z dyskursem, wyodrębniamy struktury z dużej ilości danych i analizujemy je z językowego punktu widzenia próbując opisać i wyjaśnić obserwowane zjawiska za pomocą istniejących teorii i gramatyk. |
7 stycznia 2019 |
Adam Przepiórkowski (Instytut Podstaw Informatyki PAN / Uniwersytet Warszawski), Agnieszka Patejuk (Instytut Podstaw Informatyki PAN / Uniwersytet Oksfordzki) |
Celem referatu jest prezentacja dwóch nurtów naszych prac związanych z Universal Dependencies (UD), czyli ze standardem znakowania składniowego korpusów tekstów (http://universaldependencies.org/). Pierwszy nurt dotyczy opracowania nowego banku drzew języka polskiego, w pełni wykorzystującego obecną rozszerzoną wersję standardu. Korpus ten jest wynikiem konwersji wcześniejszego ‘banku drzew’, zawierającego znakowanie zgodne z teorią Lexical Functional Grammar, a więc nie tylko drzewa składnikowe, ale także struktury funkcyjne. W referacie omówiony zostanie proces konwersji, a także wynik tego procesu, czyli uzyskany bank drzew języka polskiego. Drugi nurt prac dotyczy natomiast podstaw standardu UD, a szczególnie pewnych jego niespójności i braków, które zidentyfikowaliśmy w trakcie tworzenia polskiego korpusu zgodnego z tym standardem. Skupimy się tutaj na dwóch obszarach, które są szczególnie problematyczne w omawianym standardzie, a mianowicie na odróżnieniu funkcji gramatycznych ‘pierwszorzędnych’ (ang. core) i ‘drugorzędnych’ (ang. oblique) – w zamierzeniu twórców standardu rozróżnienie to miało zastąpić (lecz nie do końca zastępuje) dychotomię argument/modyfikator – oraz na koordynacji, czyli zjawisku trudnym dla wszystkich podejść zależnościowych. |
14 stycznia 2019 |
Agata Savary (Université François Rabelais Tours) |
Dosłowne interpretacje jednostek wielowyrazowych: analiza ilościowa i jakościowa |
Jednostki wielowyrazowe (ang. multiword expressions), takie jak „wyciągnąć nogi” (umrzeć), „wziąć udział” czy „bać się”, to związki frazeologiczne odznaczające się nieregularnymi własnościami na poziomie słownictwa, składni, a przede wszystkim semantyki. Są one istotnym wyzwaniem m.in. dla modelowania języka i dla lingwistyki komputerowej z uwagi na ich niekompozycyjne znaczenie, tzn. niemożność ustalenia znaczenia danego wyrażenia w sposób regularny na bazie znaczeń jego pojedynczych składników i zachodzących między nimi związków składniowych. Dodatkowo wyrażenia takie cechuje możliwość występowania zarówno w znaczeniu przenośnym jak i dosłownym (np. „wyciągnął nogi” w sensie „zmarł”, w opozycji do „położył się na trawie i wyciągnął nogi”). Dosłownym interpretacjom jednostek wielowyrazowych poświęcono szereg prac z dziedziny psycholingwistyki, lingwistyki i przetwarzania języka naturalnego, jednak zjawisko to nie zostało jak dotąd precyzyjne zdefiniowane ani poddane analizie ilościowej. Na tym seminarium zaproponuję definicję dosłownej interpretacji jednostki wielowyrazowej w oparciu m.in. o jej składnię. Zaprezentuję też analizę jakościową i ilościową tego zjawiska dla języka polskiego oraz dla 4 innych typologicznie odległych języków: baskijskiego, greckiego, niemieckiego i portugalskiego. Wyniki tego studium, przeprowadzonego na bazie korpusu wielojęzycznego sieci naukowej PARSEME, wskazują m.in. na rzadkość użycia jednostek wielowyrazowych w ich znaczeniach dosłownych. Pokażę również, jakiego typu ograniczenia morfologiczne i składniowe niektórych jednostek wielowyrazowych pozwalają odróżnić ich interpretacje metaforyczne od dosłownych oraz, przeciwnie, jakie ich wystąpienia cechuje daleko idąca niejednoznaczność. |
21 stycznia 2019 |
Marek Łaziński (Uniwersytet Warszawski), Michał Woźniak (Uniwersytet Jagielloński) |
Aspekt czasownika w słownikach i korpusach. Jak i po co tagować pary aspektowe? |
W referacie przedstawione zostaną zasady tagowania par aspektowych w nowym Korpusie polsko-niemieckim Uniwersytetu Warszawskiego i Uniwersytetu Gutenberga w Moguncji. Zanim to uczynimy, przyjrzymy się nieuporządkowanym informacjom o aspekcie czasownika w najważniejszych polskich słownikach oraz w NKJP. Dotychczasowe tagowanie aspektu w korpusach słowiańskich ogranicza się do jednego tokenu, tymczasem aspekt jest kategorią parzystą i warto rozpatrywać go w ramach par czasownikowych. Zakładamy, że jest to możliwe we wszystkich korpusach języków słowiańskich, w tym w NKJP, choć trzeba się zgodzić na pewne uproszczenia. Projekt informacji aspektowej w korpusie składa się z 3 części: |
1. Tag 1 powtarza informację aspektową z NKJP, uzupełniając ją o wartość „dwuaspektowy”, poprawiając błędy i rozdzielając dokonaność/niedokonaność parzystą (pisać-napisać) od nieparzystej (stać, runąć). |
2. Tag 2 określa morfologiczny wyznacznik aspektu w ramach pary: prefiks, sufiks lub supletywizm morfemów. |
3. Tag 3 odnosi do pary aspektowej. |
Przypisanie tagów odbywa się na podstawie listy i nie uwzględnia faktu, że czasownik potencjalnie parzysty może być także użyty jako imperfectivum tantum, np. „długopis cienko pisze”. W wypadku trójek aspektowych, np. tworzyć:stworzyć:stwarzać oraz alternatywnych odpowiedników dk w zależności od znaczenia, np. malować:pomalować/namalować korpus zaznacza każde przypisanie do potencjalnej pary. Czasownik stworzyć jest przypisany do par tworzyć:stworzyć i stwarzać:stworzyć (tylko w pierwszym wypadku wyznacznikiem aspektu jest prefiks), czasownik malować do par malować:pomalować i malować:namalować. Mimo niejednoznaczności odniesienia do par otamowany wstępnie korpus pozwala uzyskać wiarygodną informację o zachowaniu kategorii, także w ujęciu porównawczym słowiańsko-niesłowiańskim. W referacie przedstawimy wyniki wstępnego określenia profilu gramatycznego czasowników dk i ndk z par prefiksalnych i sufiksalnych. |
11 lutego 2019 |
Anna Wróblewska (Applica / Politechnika Warszawska), Filip Graliński (Applica / Uniwersytet Adama Mickiewicza) |
|
W jaki sposób radzimy sobie z problemami z modelowaniem tekstu w aplikacjach biznesowych? Przedstawimy prototypową architekturę do automatyzacji procesów w pracy z danymi tekstowymi oraz kilka przykładów użycia modeli uczenia maszynowego. Przypadki użycia będą dotyczyć m.in. wykrywania emocji i języka obraźliwego. Pokażemy również nasze narzędzie do analizy zbiorów danych i modeli. |
28 lutego 2019 |
Jakub Dutkiewicz (Politechnika Poznańska) |
Przedstawiamy wyniki i procedury ewaluacji konkursu bioCADDIE 2016 w zakresie wyszukiwania precyzyjnych danych medycznych. Nasze dobre wyniki wynikają użycia word embedding dla wyznaczenia słów rozszerzających zapytanie z odpowiednimi wagami. Ocena ponad 10000 dokumentów związana jest z dużym wysiłkiem. Ponad 10 lat temu została zaproponowana prosta metoda próbkowania w celu oszacowania średniej dokładności (AP) i znormalizowanego skumulowanego zysku informacyjnego (NDCG), w warunkach niekompletnych adnotacji. Aby ta metoda działała, liczba ocenionych dokumentów musi być stosunkowo duża. Takie warunki nie zostały spełnione w konkursie bioCADDIE 2016 i TREC PM 2017, 2018. Specyfika oceny bioCADDIE sprawia, że wyniki uzyskane po konkursie są niekompatybilne z uzyskanymi podczas konkursu. W bioCADDIE, w przypadku niektórych pytań nie było żadnego zaadnotowanego relewantnego dokumentu. Wyniki są silnie uzależnione od pozycji odcięcia. Jako efekt, uzyskana w bioCADDIE miara infAP jest słabo skorelowana z infNDCG, a różnica może wynieść do 0,15-0,20 wartości bezwzględnej. Proponujemy symulowane środowisko z właściwościami, które odzwierciedlają rzeczywiste systemy. W ramach symulacji wdrażamy szereg działań ewaluacyjnych i omawiamy użyteczność środków z częściowo przypisanymi do nich zbiorami dokumentów w odniesieniu do wielkości zbioru, liczby adnotowanych dokumentów i proporcji między liczbą relewantnych i nierelewantnych dokumentów. W szczególności koncentrujemy się na zachowaniu wyżej wymienionych AP i NDCG oraz ich estymowanych wersjach. |
21 marca 2019 |
Grzegorz Wojdyga (Instytut Podstaw Informatyki PAN) |
Podczas seminarium zostaną omówione wyniki pracy nad redukcją rozmiaru modeli językowych. Autor dokona przeglądu literatury na temat redukcji rozmiaru rekurencyjnych sieci neuronowych (pod kątem modeli językowych). Następnie zostaną przedstawione własne implementacje wraz z wynikami ewaluacji na różnych korpusach polskich i angielskich. |
25 marca 2019 |
Łukasz Dębowski (Instytut Podstaw Informatyki PAN) |
GPT-2 to najnowszy neuronowy statystyczny model języka autorstwa zespołu OpenAI. Statystyczny model języka to rozkład prawdopodobieństwa na tekstach, który może służyć do automatycznego generowania tekstów. W istocie GPT-2 okazał się zaskakująco dobrym generatorem semantycznie spójnych tekstów długości kilku akapitów, istotnie przesuwając granice tego, co uchodziło dotychczas za możliwe technicznie. Antycypując zastosowanie GPT-2 do generowania fake-newsów zespół OpenAI zdecydował się upublicznić tylko dziesięciokrotnie zredukowaną wersję modelu. W swoim wystąpieniu podzielę się refleksjami odnośnie GPT-2. |
8 kwietnia 2019 |
Agnieszka Wołk (Polsko-Japońska Akademia Technik Komputerowych i Instytut Badań Literackich PAN) |
Celem prezentacji jest wsparcie ogromnego wysiłku niezbędnego do analizy kompetencji w zakresie frazeologicznego pisania poprzez opracowanie automatycznego narzędzia do oceny tekstów. Podejmowana jest próba zmierzenia zarówno biegłości w pisaniu w drugim języku (L2), jak i jakości tekstu. Technika CollGram, która przeszukuje korpus referencyjny w celu określenia częstotliwości każdej pary (n-gramów) i oblicza wynik t-score oraz powiązane informacje. Jako korpus referencyjny posłużyliśmy się korpusem poziomu 3 współczesnego amerykańskiego języka angielskiego (COCA). Nasze rozwiązanie sprawdzało się w pisemnej ocenie i jest dostępne bezpłatnie jako serwis internetowy lub jako źródło dla innych badaczy. Przedstawiamy również, jak używać go jako narzędzi do wczesnego wykrywania depresji oraz stylometrii. |
15 kwietnia 2019 |
Alina Wróblewska, Piotr Rybak (Instytut Podstaw Informatyki PAN) |
Parsowanie zależnościowe jest kluczowym problemem w zaawansowanych zadaniach NLP. Struktura predykatywno-argumentowa zakodowana w strukturach zależnościowych może wspierać tłumaczenie maszynowe, odpowiadanie na pytania, analizę wydźwięku itp. W prezentacji przedstawimy PDB – największy bank drzew zależnościowych dla języka polskiego, oraz COMBO – niezależny od języka system neuronowy do tagowania, analizy morfologicznej, lematyzacji i parsowania zależnościowego. |
13 maja 2019 |
Piotr Niewiński, Maria Pszona (Samsung R&D Polska), Aleksander Wawer (Instytut Podstaw Informatyki PAN) |
Samsung R&D Polska w konkursie SemEval 2019 |
Prezentacja będzie przedstawiała rozwiązania zgłoszone przez Samsung R&D Polska w konkursie SemEval 2019. Uzyskały one drugie miejsce w dwóch różnych zadaniach konkursu. |
1. Weryfikacja faktów na forach internetowych |
Przedstawimy system zaprojektowany w ramach konkursu SemEval. Zadanie polegało na zaklasyfikowaniu pytań do jednej z trzech kategorii: OPINIA, FAKT lub ROZRYWKA. Przedstawimy rozwiązanie, które zajęło drugie miejsce: głęboko zregularyzowana rezydualna sieć neuronowa wykorzystująca embeddingi uzyskane przy pomocy enkodera Universal Sencence Encoder. Model ten porównamy z dwoma innymi zaproponowanymi architekturami opartymi o metody zespołowe (ensemble). |
2. Deep-learningowy klasyfikator zdań obraźliwych |
Jak zdefiniować „obraźliwe treści”? Czym są „brzydkie słowa”? W naszej prezentacji omówimy trudności w określeniu tego, co obraźliwe, wulgarne i niepożądane w mediach społecznościowych (np. na Twitterze). Następnie zaprezentujemy nasz system zastosowany w zadaniach 5 i 6 SemEval 2019 (w którym osiągnęliśmy drugie miejsce dla podzadania C zadania 6). Porównamy również osiągi naszego modelu z podejściami stanu techniki i przedstawimy, jak przewyższył on inne systemy dzięki zastosowaniu lingwistycznych obserwacji. |
27 maja 2019 |
Magdalena Zawisławska (Uniwersytet Warszawski) |
Polski korpus metafor synestezyjnych |
Streszczenie udostępnimy wkrótce. |
Zapraszamy także do zapoznania się z archiwum seminariów z lat 2000–15 oraz listą wystąpień z lat 2015–18. |