Size: 24754
Comment:
|
Size: 36765
Comment:
|
Deletions are marked like this. | Additions are marked like this. |
Line 1: | Line 1: |
## page was renamed from seminarium-archiwum | |
Line 3: | Line 2: |
= Seminarium „Przetwarzanie języka naturalnego” 2018–19 = ||<style="border:0;padding-bottom:10px">Seminarium [[http://nlp.ipipan.waw.pl/|Zespołu Inżynierii Lingwistycznej]] w [[http://www.ipipan.waw.pl/|Instytucie Podstaw Informatyki]] [[http://www.pan.pl/|Polskiej Akademii Nauk]] odbywa się nieregularnie w poniedziałki zwykle o godz. 10:15 w siedzibie IPI PAN (ul. Jana Kazimierza 5, Warszawa) i ma charakter otwarty. Poszczególne referaty ogłaszane są na [[http://lists.nlp.ipipan.waw.pl/mailman/listinfo/ling|Polskiej Liście Językoznawczej]] oraz na stronie [[https://www.facebook.com/lingwistyka.komputerowa|Lingwistyka komputerowa]] na Facebooku. Wszystkie nagrania dostępne są na [[https://www.youtube.com/channel/UC5PEPpMqjAr7Pgdvq0wRn0w|kanale YouTube]].||<style="border:0;padding-left:30px;">[[seminar|{{attachment:seminarium-archiwum/en.png}}]]|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''1 października 2018'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Janusz S. Bień''' (Katedra Lingwistyki Formalnej UW, prof. emeryt)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=mOYzwpjTAf4|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2018-10-01.pdf|Elektroniczne indeksy leksykograficzne]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Omówione zostaną indeksy do zasobów leksykograficznych dostępnych w Internecie w formacie !DjVu. Indeksy takie mogą być przeglądane, modyfikowane i tworzone za pomocą swobodnego (dostępnego bezpłatnie na otwartej licencji) programu djview4poliqarp — zostanie przedstawiona geneza i historia tego programu. W programie tym obsługa indeksów została pierwotnie wprowadzona na potrzeby indeksu haseł do XIX-wiecznego słownika Lindego, ale może być wykorzystywana również do innych zasobów, jak to zostanie pokazane na przykładach. Zostaną w szczególności zademonstrowane — po raz pierwszy publicznie — ulepszenia wprowadzone do programu w ostatnich miesiącach.|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''15 października 2018'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Wojciech Jaworski, Szymon Rutkowski''' (Uniwersytet Warszawski)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=SbPAdmRmW08|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2018-10-15.pdf|Wielowarstwowy regułowy model fleksji języka polskiego]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Referat poświęcony będzie wielowarstwowemu modelowi fleksji języka polskiego. Model opracowany został na podstawie haseł pochodzących ze Słownika Gramatycznego Języka Polskiego; nie korzysta z koncepcji paradygmatu odmiany. Model składa się z trzech warstw ręcznie opracowanych reguł: „warstwy ortograficzno-fonetycznej” konwertującej segment do reprezentacji odzwierciedlającej prawidłowości morfologiczne języka, „warstwy analitycznej” generującej lemat oraz określającej afiksy oraz „warstwy interpretacji” nadającej interpretację morfosyntaktyczną na podstawie wykrytych afiksów. Model dostarcza wiedzę o języku [[http://eniam.nlp.ipipan.waw.pl/morphology.html|analizatorowi morfologicznemu]] zaopatrzonemu w funkcję odgadywania lematów i interpretacji morfosyntaktycznych dla form nie należących do słownika (ang. guesser). Drugim zastosowaniem jest [[http://eniam.nlp.ipipan.waw.pl/morphology2.html|generowanie form słów]] na podstawie lematu i interpretacji morfosyntaktycznej. Podczas referatu poruszone zostanie również zagadnienie dezambiguacji wyników dostarczanych przez analizator morfologiczny. Wersja demonstracyjna programu dostępna jest w Internecie.|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''29 października 2018'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Jakub Waszczuk''' (Uniwersytet Heinricha Heinego w Düsseldorfie)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=zjGQRG2PNu0|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2018-10-29.pdf|Od tagowania morfoskładniowego do identyfikacji czasownikowych jednostek wielowyrazowych: podejście dyskryminatywne]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}} {{attachment:seminarium-archiwum/icon-en.gif|Slajdy w języku angielskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Pierwsza część referatu poświęcona została narzędziu Concraft-pl 2.0, nowej wersji morfoskładniowego tagera dla języka polskiego bazującego na warunkowych polach losowych. Concraft-pl 2.0 przeprowadza podział na słowa (tokenizację) w ramach ujednoznaczniania morfoskładniowego, co pozwala używać go bezpośrednio na grafach wyjściowych analizatora Morfeusz. Inne istniejące tagery dla języka polskiego albo ignorują ten problem, albo opierają się na heurystykach stosowanych przed fazą ujednoznaczniania. W drugiej części referatu przedstawiona została metoda automatycznej identyfikacji czasownikowych jednostek wielowyrazowych opierająca się na wynikach analizy zależnościowej. W tym podejściu identyfikacja sprowadza się do problemu etykietowania, w którym jedna z dwóch etykiet (MWE/not-MWE) musi zostać określona dla każdego wierzchołka drzewa zależnościowego. Do rozwiązania tego problemu wykorzystany został model warunkowych pól losowych dostosowany do drzewiastej struktury danych wejściowych. System oparty na tym podejściu uzyskał pierwsze miejsce w zamkniętej ścieżce konkursu PARSEME shared task 2018.|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''5 listopada 2018'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Jakub Kozakoszczak''' (Uniwersytet Warszawski / Uniwersytet Heinricha Heinego w Düsseldorfie)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=sz7dGmf8p3k|{{attachment:seminarium-archiwum/youtube.png}}]] '''Zawsze od rana do środy — semantyka i normalizacja quasi-okresowych określeń czasu w języku polskim'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Standardowo, wyrażenia takie jak „Januarys” lub „Fridays” są interpretowane w językach reprezentacji wiedzy czasowej jako plastry (slices) kolekcji czasowych drugiego stopnia, czyli np. wszystkie piąte elementy siedmioelementowych ciągów dni wyrównanych z ciągiem tygodni kalendarzowych. W wystąpieniu przedstawię wynik prac nad normalizacją najczęstszych polskich wyrażeń quasi-okresowych dla potrzeb systemu rezerwacyjnego. W części językoznawczej przedstawię argumenty przeciwko tłumaczeniu wyrażeń typu „piątki” na „piąte dni tygodnia” i testy semantyczne na proste klasy quasi-okresowości. W części formalnej zaproponuję rozszerzenie istniejących rozwiązań o reprezentację intensjonalnych operatorów quasi-okresowych „od”, „do”, „przed” i „po” obciętych do argumentów, dla których są monotoniczne. W części implementacyjnej zaprezentuję algorytm leniwego wyliczania uogólnionego przecięcia kolekcji.|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''19 listopada 2018'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Daniel Zeman''' (Instytut Lingwistyki Formalnej i Stosowanej, Uniwersytet Karola w Pradze)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=xUmZ8Mxcmg0|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2018-11-19.pdf|Universal Dependencies i języki słowiańskie]]'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Przedstawię Universal Dependencies, ogólnoświatową inicjatywę mającą na celu udostępnienie wielojęzycznych korpusów zaanotowanych na poziomie morfologicznym i składniowym zgodnie z uniwersalnymi wytycznymi. Omówię koncepcję kluczowych argumentów (ang. core arguments), która jest jednym z fundamentów UD. W drugiej części wykładu skupię się na kilku interesujących problemach i wyzwaniach związanych z zastosowaniem Uniwersalnych Zależności w językach słowiańskich. Omówię przykłady z 12 języków słowiańskich reprezentowanych obecnie w UD, które pokazują, że nadal można poprawić spójność międzyjęzykową.|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''3 grudnia 2018'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Ekaterina Lapshinova-Koltunski''' (Uniwersytet Kraju Saary)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=UQ_6dDNEw8E|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2018-12-03.pdf|Analiza i anotacja koreferencji na potrzeby lingwistyki kontrastywnej i translatoryki]]'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Podczas wykładu opowiem o trwających pracach nad analizą koreferencji w kontekście wielojęzycznym. Przedstawię dwa podejścia do analizy zjawisk koreferencyjnych: (1) teoretyczne, gdy na podstawie wiedzy lingwistycznej definiujemy kategorie językowe i używamy ich do stworzenia anotowanego korpusu, który można wykorzystać albo do dalszej analizy lingwistycznej, albo jako dane treningowe dla zastosowań NLP, (2) oparte na danych: w tym przypadku zaczynamy od zestawu płytkich cech naszym zdaniem związanych z dyskursem, wyodrębniamy struktury z dużej ilości danych i analizujemy je z językowego punktu widzenia próbując opisać i wyjaśnić obserwowane zjawiska za pomocą istniejących teorii i gramatyk.|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''7 stycznia 2019'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Adam Przepiórkowski''' (Instytut Podstaw Informatyki PAN / Uniwersytet Warszawski), '''Agnieszka Patejuk''' (Instytut Podstaw Informatyki PAN / Uniwersytet Oksfordzki)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''[[attachment:seminarium-archiwum/2019-01-07.pdf|Enhanced Universal Dependencies]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}} {{attachment:seminarium-archiwum/icon-en.gif|Slajdy w języku angielskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Celem referatu jest prezentacja dwóch nurtów naszych prac związanych z Universal Dependencies (UD), czyli ze standardem znakowania składniowego korpusów tekstów (http://universaldependencies.org/). Pierwszy nurt dotyczy opracowania nowego banku drzew języka polskiego, w pełni wykorzystującego obecną rozszerzoną wersję standardu. Korpus ten jest wynikiem konwersji wcześniejszego ‘banku drzew’, zawierającego znakowanie zgodne z teorią Lexical Functional Grammar, a więc nie tylko drzewa składnikowe, ale także struktury funkcyjne. W referacie omówiony zostanie proces konwersji, a także wynik tego procesu, czyli uzyskany bank drzew języka polskiego. Drugi nurt prac dotyczy natomiast podstaw standardu UD, a szczególnie pewnych jego niespójności i braków, które zidentyfikowaliśmy w trakcie tworzenia polskiego korpusu zgodnego z tym standardem. Skupimy się tutaj na dwóch obszarach, które są szczególnie problematyczne w omawianym standardzie, a mianowicie na odróżnieniu funkcji gramatycznych ‘pierwszorzędnych’ (ang. core) i ‘drugorzędnych’ (ang. oblique) – w zamierzeniu twórców standardu rozróżnienie to miało zastąpić (lecz nie do końca zastępuje) dychotomię argument/modyfikator – oraz na koordynacji, czyli zjawisku trudnym dla wszystkich podejść zależnościowych.|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''14 stycznia 2019'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Agata Savary''' (Université François Rabelais Tours)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''[[attachment:seminarium-archiwum/2019-01-14.pdf|Dosłowne interpretacje jednostek wielowyrazowych: analiza ilościowa i jakościowa]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}} {{attachment:seminarium-archiwum/icon-en.gif|Slajdy w języku angielskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Jednostki wielowyrazowe (ang. multiword expressions), takie jak „wyciągnąć nogi” (umrzeć), „wziąć udział” czy „bać się”, to związki frazeologiczne odznaczające się nieregularnymi własnościami na poziomie słownictwa, składni, a przede wszystkim semantyki. Są one istotnym wyzwaniem m.in. dla modelowania języka i dla lingwistyki komputerowej z uwagi na ich niekompozycyjne znaczenie, tzn. niemożność ustalenia znaczenia danego wyrażenia w sposób regularny na bazie znaczeń jego pojedynczych składników i zachodzących między nimi związków składniowych. Dodatkowo wyrażenia takie cechuje możliwość występowania zarówno w znaczeniu przenośnym jak i dosłownym (np. „wyciągnął nogi” w sensie „zmarł”, w opozycji do „położył się na trawie i wyciągnął nogi”). Dosłownym interpretacjom jednostek wielowyrazowych poświęcono szereg prac z dziedziny psycholingwistyki, lingwistyki i przetwarzania języka naturalnego, jednak zjawisko to nie zostało jak dotąd precyzyjne zdefiniowane ani poddane analizie ilościowej. Na tym seminarium zaproponuję definicję dosłownej interpretacji jednostki wielowyrazowej w oparciu m.in. o jej składnię. Zaprezentuję też analizę jakościową i ilościową tego zjawiska dla języka polskiego oraz dla 4 innych typologicznie odległych języków: baskijskiego, greckiego, niemieckiego i portugalskiego. Wyniki tego studium, przeprowadzonego na bazie korpusu wielojęzycznego sieci naukowej [[http://www.parseme.eu|PARSEME]], wskazują m.in. na rzadkość użycia jednostek wielowyrazowych w ich znaczeniach dosłownych. Pokażę również, jakiego typu ograniczenia morfologiczne i składniowe niektórych jednostek wielowyrazowych pozwalają odróżnić ich interpretacje metaforyczne od dosłownych oraz, przeciwnie, jakie ich wystąpienia cechuje daleko idąca niejednoznaczność.|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''21 stycznia 2019'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Marek Łaziński''' (Uniwersytet Warszawski), '''Michał Woźniak''' (Uniwersytet Jagielloński) || ||<style="border:0;padding-left:30px;padding-bottom:5px">'''[[attachment:seminarium-archiwum/2019-01-21.pdf|Aspekt czasownika w słownikach i korpusach. Jak i po co tagować pary aspektowe?]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:5px">W referacie przedstawione zostaną zasady tagowania par aspektowych w nowym Korpusie polsko-niemieckim Uniwersytetu Warszawskiego i Uniwersytetu Gutenberga w Moguncji. Zanim to uczynimy, przyjrzymy się nieuporządkowanym informacjom o aspekcie czasownika w najważniejszych polskich słownikach oraz w NKJP. Dotychczasowe tagowanie aspektu w korpusach słowiańskich ogranicza się do jednego tokenu, tymczasem aspekt jest kategorią parzystą i warto rozpatrywać go w ramach par czasownikowych. Zakładamy, że jest to możliwe we wszystkich korpusach języków słowiańskich, w tym w NKJP, choć trzeba się zgodzić na pewne uproszczenia. Projekt informacji aspektowej w korpusie składa się z 3 części:|| ||<style="border:0;padding-left:30px">1. Tag 1 powtarza informację aspektową z NKJP, uzupełniając ją o wartość „dwuaspektowy”, poprawiając błędy i rozdzielając dokonaność/niedokonaność parzystą (pisać-napisać) od nieparzystej (stać, runąć).|| ||<style="border:0;padding-left:30px">2. Tag 2 określa morfologiczny wyznacznik aspektu w ramach pary: prefiks, sufiks lub supletywizm morfemów.|| ||<style="border:0;padding-left:30px">3. Tag 3 odnosi do pary aspektowej.|| ||<style="border:0;padding-left:30px;padding-top:5px;padding-bottom:15px">Przypisanie tagów odbywa się na podstawie listy i nie uwzględnia faktu, że czasownik potencjalnie parzysty może być także użyty jako ''imperfectivum tantum'', np. „długopis cienko pisze”. W wypadku trójek aspektowych, np. ''tworzyć:stworzyć:stwarzać'' oraz alternatywnych odpowiedników ''dk'' w zależności od znaczenia, np. ''malować:pomalować/namalować'' korpus zaznacza każde przypisanie do potencjalnej pary. Czasownik stworzyć jest przypisany do par ''tworzyć:stworzyć'' i ''stwarzać:stworzyć'' (tylko w pierwszym wypadku wyznacznikiem aspektu jest prefiks), czasownik ''malować'' do par ''malować:pomalować'' i ''malować:namalować''. Mimo niejednoznaczności odniesienia do par otamowany wstępnie korpus pozwala uzyskać wiarygodną informację o zachowaniu kategorii, także w ujęciu porównawczym słowiańsko-niesłowiańskim. W referacie przedstawimy wyniki wstępnego określenia profilu gramatycznego czasowników ''dk'' i ''ndk'' z par prefiksalnych i sufiksalnych.|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''11 lutego 2019'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Anna Wróblewska''' (Applica / Politechnika Warszawska), '''Filip Graliński''' (Applica / Uniwersytet Adama Mickiewicza)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=tZ_rkR7XqRY|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2019-02-11.pdf|Rozumienie modeli uczenia maszynowego opartych na tekście – rozpoznawanie emocji i detekcja języka obraźliwego]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}} {{attachment:seminarium-archiwum/icon-en.gif|Slajdy w języku angielskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">W jaki sposób radzimy sobie z problemami z modelowaniem tekstu w aplikacjach biznesowych? Przedstawimy prototypową architekturę do automatyzacji procesów w pracy z danymi tekstowymi oraz kilka przykładów użycia modeli uczenia maszynowego. Przypadki użycia będą dotyczyć m.in. wykrywania emocji i języka obraźliwego. Pokażemy również nasze narzędzie do analizy zbiorów danych i modeli.|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''28 lutego 2019''' (uwaga, seminarium wyjątkowo w czwartek!) || ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Jakub Dutkiewicz''' (Politechnika Poznańska)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''Empirical research on medical information retrieval'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Przedstawiamy wyniki i procedury ewaluacji konkursu bioCADDIE 2016 w zakresie wyszukiwania precyzyjnych danych medycznych. Nasze dobre wyniki wynikają użycia word embedding dla wyznaczenia słów rozszerzających zapytanie z odpowiednimi wagami. Ocena ponad 10000 dokumentów związana jest z dużym wysiłkiem. Ponad 10 lat temu została zaproponowana prosta metoda próbkowania w celu oszacowania średniej dokładności (AP) i znormalizowanego skumulowanego zysku informacyjnego (NDCG), w warunkach niekompletnych adnotacji. Aby ta metoda działała, liczba ocenionych dokumentów musi być stosunkowo duża. Takie warunki nie zostały spełnione w konkursie bioCADDIE 2016 i TREC PM 2017, 2018. Specyfika oceny bioCADDIE sprawia, że wyniki uzyskane po konkursie są niekompatybilne z uzyskanymi podczas konkursu. W bioCADDIE, w przypadku niektórych pytań nie było żadnego zaadnotowanego relewantnego dokumentu. Wyniki są silnie uzależnione od pozycji odcięcia. Jako efekt, uzyskana w bioCADDIE miara infAP jest słabo skorelowana z infNDCG, a różnica może wynieść do 0,15-0,20 wartości bezwzględnej. Proponujemy symulowane środowisko z właściwościami, które odzwierciedlają rzeczywiste systemy. W ramach symulacji wdrażamy szereg działań ewaluacyjnych i omawiamy użyteczność środków z częściowo przypisanymi do nich zbiorami dokumentów w odniesieniu do wielkości zbioru, liczby adnotowanych dokumentów i proporcji między liczbą relewantnych i nierelewantnych dokumentów. W szczególności koncentrujemy się na zachowaniu wyżej wymienionych AP i NDCG oraz ich estymowanych wersjach.|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''25 marca 2019'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Łukasz Dębowski''' (Instytut Podstaw Informatyki PAN)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''GPT-2'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Streszczenie wystąpienia zostanie udostępnione w późniejszym terminie.|| ||<style="border:0;padding-top:0px">Zapraszamy także do zapoznania się z [[http://nlp.ipipan.waw.pl/NLP-SEMINAR/previous-p.html|archiwum seminariów z lat 2000–15]] oraz [[http://zil.ipipan.waw.pl/seminarium-archiwum|listą wystąpień z lat 2015–18]].|| |
= Seminarium „Przetwarzanie języka naturalnego” 2024–25 = ||<style="border:0;padding-bottom:10px">Seminarium [[http://nlp.ipipan.waw.pl/|Zespołu Inżynierii Lingwistycznej]] w [[http://www.ipipan.waw.pl/|Instytucie Podstaw Informatyki]] [[http://www.pan.pl/|Polskiej Akademii Nauk]] odbywa się średnio co 2 tygodnie, zwykle w poniedziałki o godz. 10:15 (niekiedy online – prosimy o korzystanie z linku przy tytule wystąpienia) i ma charakter otwarty. Poszczególne referaty ogłaszane są na [[http://lists.nlp.ipipan.waw.pl/mailman/listinfo/ling|Polskiej Liście Językoznawczej]] oraz na stronie [[https://www.facebook.com/lingwistyka.komputerowa|Lingwistyka komputerowa]] na Facebooku. Nagrania wystąpień dostępne są na [[https://www.youtube.com/ipipan|kanale YouTube]].||<style="border:0;padding-left:30px;">[[seminar|{{attachment:seminarium-archiwum/en.png}}]]|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''7 października 2023'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Janusz S. Bień''' (profesor emeritus Uniwersytetu Warszawskiego) || ||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Identyfikacja czcionek w XVI-wiecznych drukach. Analiza przypadku'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienia w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Przetwarzanie tekstów wymaga ich zakodowania w odpowiednim standardzie, aktualnie praktyczne jedyną opcją jest standard Unicode. Niektóre czcionki stosowane w starodrukach są już uwzględnione w tym standardzie, niektóre sa dostępne w specjalistycznych fontach za pomocą tzw. funkcji zecerskich. Niektóre czcionki, opisane w monumentalnym dziele „[[https://polona.pl/preview/2177789b-4c73-48ae-ab76-f33d7f6f2070}Polonia Typographica Saeculi Sedecimi]]”, nie maja jednak swoich odpowiedników w standardzie. W referacie omówię kilka takich czcionek.|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''16 października 2023'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Konrad Wojtasik''', '''Vadim Shishkin''', '''Kacper Wołowiec''', '''Arkadiusz Janz''', '''Maciej Piasecki''' (Politechnika Wrocławska)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''[[attachment:seminarium-archiwum/2023-10-16.pdf|Ewaluacja i trenowanie modeli do wyszukiwania informacji w ustawieniu zero-shot dla różnych domen dokumentów]]'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Przeszukiwanie dużych kolekcji dokumentów w celu odnalezienia interesujących nas informacji jest niezwykle ważnym kierunkiem badawczym w dziedzinie przetwarzania języka naturalnego. Jest to kluczowy komponent w systemach odpowiadania na pytania, gdzie często model odpowiadający korzysta z informacji zawartych w bazie danych z aktualną wiedzą. Pozwala to nie tylko na aktualizację wiedzy, na podstawie której system odpowiada na zapytania użytkownika, ale również ogranicza jego halucynacje. Aktualnie modele do wyszukiwania informacji są sieciami neuronowymi i wymagają dużych zasobów uczących do ich wytrenowania. Przez wiele lat, metody dopasowania leksykalnego jak BM25, osiągały lepsze wyniki niż wytrenowane modele, jednak aktualne architektury i rozległe zbiory danych pozwalają na prześcignięcie leksykalnych rozwiązań. W prezentacji przedstawię dostępne zbiory służące do ewaluacji i trenowania aktualnych architektur do wyszukiwania informacji w kolekcjach dokumentów z różnych domen, jak i kierunki rozwoju na przyszłość.|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''30 października 2023'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Agnieszka Faleńska''' (Uniwersytet w Stuttgarcie)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''[[attachment:seminarium-archiwum/2023-10-30.pdf|Steps towards Bias-Aware NLP Systems]]'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:5px">Dla wielu, systemy przetwarzania języka naturalnego (NLP) stały się codziennością. Ich zastosowania sięgają od automatycznego tłumaczenia dokumentów po asystentów osobistych obsługiwanych głosem. W ostatnich latach, ten rosnący wpływ narzędzi AI na życie ludzi wywołuje znaczące obawy dotyczące możliwych szkód, jakie mogą one wyrządzić.|| ||<style="border:0;padding-left:30px;padding-bottom:15px">W tej prezentacji rozpocznę od przedstawienia kilku przykładów takich szkodliwych zachowań i omówię ich potencjalne źródła. Będę argumentować, że problemy związane z uprzedzeniami w modelach NLP powinny być rozwiązywane poprzez rozwijanie naszego zrozumienia ich źródeł językowych. Następnie prezentacja skoncentruje się na trzech powszechnie używanych źródłach danych: Wikipedii, tekstach instruktażowych i forum dyskusyjnym. Poprzez te przykłady pokażę, że niezależnie od perspektywy (czy mówimy o kimś, do kogoś, czy jako ktoś), subtelne uprzedzenia są obecne we wszystkich tych zbiorach danych i mogą przyczynić się do szkodliwych efektów modeli NLP.|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''13 listopada 2023'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Piotr Rybak''' (Instytut Podstaw Informatyki PAN)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''[[attachment:seminarium-archiwum/2023-11-13.pdf|Najnowsze postępy w rozwoju systemów do odpowiadania na pytania w języku polskim]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}} {{attachment:seminarium-archiwum/icon-en.gif|Slajdy po angielsku.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Mimo że odpowiadanie na pytania (ang. ''Question Answering'') jest jednym z popularniejszych zagadnień przetwarzania języka naturalnego, to do niedawna było ono praktycznie nieobecne w polskim środowisku naukowym. Ostatnie lata przyniosły jednak rozkwit prac związanych z tym tematem. Podczas tego wystąpienia opowiem na czym polega zagadnienie odpowiadania na pytania, jak działają obecne systemy rozwiązujące ten problem, a także jakie zbiory danych oraz modele są dostępne dla języka polskiego. W szczególności opowiem o zasobach tworzonych w IPI PAN, czyli zbiorach danych [[https://huggingface.co/datasets/ipipan/polqa|PolQA]] i [[https://huggingface.co/datasets/ipipan/maupqa|MAUPQA]] oraz modelu [[https://huggingface.co/ipipan/silver-retriever-base-v1|Silver Retriever]]. Na koniec wskażę dalsze kierunki prac, które wciąż pozostają otwarte jeśli chodzi o odpowiadanie na pytania w języku polskim.|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''11 grudnia 2023''' (seria krótkich wystąpień autorstwa badaczy z Coventry University)|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Xiaorui Jiang''', '''Opeoluwa Akinseloyin''', '''Vasile Palade''' (Coventry University)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''[[attachment:seminarium-archiwum/2023-12-11-1.pdf|Towards More Human-Effortless Systematic Review Automation]]'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w jęz. angielskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:10px">Systematic literature review (SLR) is the standard tool for synthesising medical and clinical evidence from the ocean of publications. SLR is extremely expensive. SLR is extremely expensive. AI can play a significant role in automating the SLR process, such as for citation screening, i.e., the selection of primary studies-based title and abstract. [[http://systematicreviewtools.com/|Some tools exist]], but they suffer from tremendous obstacles, including lack of trust. In addition, a specific characteristic of systematic review, which is the fact that each systematic review is a unique dataset and starts with no annotation, makes the problem even more challenging. In this study, we present some seminal but initial efforts on utilising the transfer learning and zero-shot learning capabilities of pretrained language models and large language models to solve or alleviate this challenge. Preliminary results are to be reported.|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Kacper Sówka''' (Coventry University)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''[[attachment:seminarium-archiwum/2023-12-11-2.pdf|Attack Tree Generation Using Machine Learning]]'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w jęz. angielskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:10px">My research focuses on applying machine learning and NLP to the problem of cybersecurity attack modelling. This is done by generating "attack tree" models using public cybersecurity datasets (CVE) and training a siamese neural network to predict the relationship between individual cybersecurity vulnerabilities using a DistilBERT encoder fine-tuned using Masked Language Modelling.|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Xiaorui Jiang''' (Coventry University)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''[[attachment:seminarium-archiwum/2023-12-11-3.pdf|Towards Semantic Science Citation Index]]'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w jęz. angielskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:10px">It is a difficult task to understand and summarise the development of scientific research areas. This task is especially cognitively demanding for postgraduate students and early-career researchers, of the whose main jobs is to identify such developments by reading a large amount of literature. Will AI help? We believe so. This short talk summarises some recent initial work on extracting the semantic backbone of a scientific area through the synergy of natural language processing and network analysis, which is believed to serve a certain type of discourse models for summarisation (in future work). As a small step from it, the second part of the talk introduces how comparison citations are utilised to improve multi-document summarisation of scientific papers.|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Xiaorui Jiang''', '''Alireza Daneshkhah''' (Coventry University)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''[[attachment:seminarium-archiwum/2023-12-11-4.pdf|Natural Language Processing for Automated Triaging at NHS]]'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w jęz. angielskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15x">In face of a post-COVID global economic slowdown and aging society, the primary care units in the National Healthcare Services (NHS) are receiving increasingly higher pressure, resulting in delays and errors in healthcare and patient management. AI can play a significant role in alleviating this investment-requirement discrepancy, especially in the primary care settings. A large portion of clinical diagnosis and management can be assisted with AI tools for automation and reduce delays. This short presentation reports the initial studies worked with an NHS partner on developing NLP-based solutions for the automation of clinical intention classification (to save more time for better patient treatment and management) and an early alert application for Gout Flare prediction from chief complaints (to avoid delays in patient treatment and management).|| ||<style="border:0;padding-top:15px;padding-bottom:5px">'''8 stycznia 2024'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Danijel Korzinek''' (Polsko-Japońska Akademia Technik Komputerowych)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''[[attachment:seminarium-archiwum/2024-01-08.pdf|ParlaSpeech – Tworzenie wielkoskalowych korpusów mowy w projekcie ParlaMint]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie po polsku.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Celem tego podprojektu było opracowanie procesów i stworzenie narzędzi pozwalających na powiązanie tekstowych korpusów stworzonych w ramach projektu [[https://www.clarin.eu/parlamint|ParlaMint]] z odpowiadającymi im materiałami audio i wideo dostępnymi w Internecie. Zadanie to było oczywiście bardziej złożone niż się to może intuicyjnie wydawać i jego powodzenie było uzależnione w największej mierze od poprawnego dopasowania bardzo długiego nagrania audio (kilkanaście godzin, czyli cały dzień pracy parlamentu) do odpowiadającego mu transkryptu, wraz ze wszystkimi błędami i niedokładnościami w dopasowaniu i kolejności występującymi między tymi dwoma modalnościami. Projekt został stworzony w oparciu o całkowicie otwarte oprogramowanie i modele, które są dostępne w publicznym repozytorium i mogą być zastosowane do innych projektów o podobnym zakresie wymagań. Na obecną chwile, wspomnianymi narzędziami w pełni opracowano korpusy w dwóch językach (polski i chorwacki), ale więcej jest tworzonych w tej chwili.|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''12 lutego 2024'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Tsimur Hadeliya''', '''Dariusz Kajtoch''' (Allegro ML Research)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''[[attachment:seminarium-archiwum/2024-02-12.pdf|Ewaluacja i analiza uczenia kontekstowego dla zadania klasyfikacji w języku polskim]]'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie po angielsku.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">With the advent of language models such as ChatGPT, we are witnessing a paradigm shift in the way we approach natural language processing tasks. Instead of training a model from scratch, we can now solve tasks by designing appropriate prompts and choosing suitable demonstrations as input to a generative model. This approach, known as in-context learning (ICL), has shown remarkable capabilities for classification tasks in the English language . In this presentation, we will investigate how different language models perform on Polish classification tasks using the ICL approach. We will explore the effectiveness of various models, including multilingual and large-scale models, and compare their results with existing solutions. Through a comprehensive evaluation and analysis, we aim to gain insights into the strengths and limitations of this approach for Polish classification tasks. Our findings will shed light on the potential of ICL for the Polish language. We will discuss challenges and opportunities, and propose directions for future work.|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''29 lutego 2024'''|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''Seminarium wyjazdowe: Warsztat „Analiza danych parlamentarnych”'''|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''Wprowadzenie'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">12:00–12:10: '''Powitanie'''|| ||<style="border:0;padding-left:30px;padding-bottom:10px">12:10–12:40: '''[[attachment:seminarium-archiwum/2024-02-29-1.pdf|Korpus Dyskursu Parlamentarnego i korpus ParlaMint]]''' (Maciej Ogrodniczuk)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''Zgłoszenia konkursowe'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">12:40–13:00: '''[[attachment:seminarium-archiwum/2024-02-29-2.pdf|Aplikacja do analizy sentymentu wypowiedzi parlamentarzystów RP]]''' (Bartłomiej Klimowski)|| ||<style="border:0;padding-left:30px;padding-bottom:0px">13:00–13:20: '''[[attachment:seminarium-archiwum/2024-02-29-3.pdf|Analiza dynamiki emocji w debatach parlamentarnych o wojnie w Ukrainie]]''' (Konrad Kiljan i Ewelina Gajewska)|| ||<style="border:0;padding-left:30px;padding-bottom:10px">13:20–13:40: '''[[attachment:seminarium-archiwum/2024-02-29-4.pdf|Język wrażliwy na płeć (gender-fair language) w polskim parlamencie: badanie korpusowe debat parlamentarnych w korpusie ParlaMint]]''' (Aleksandra Tomaszewska i Anna Jamka)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''Wykład na zaproszenie'''|| ||<style="border:0;padding-left:30px;padding-bottom:10px">14:00–15:00: '''[[attachment:seminarium-archiwum/2024-02-29-5.pdf|Zmiany w polszczyźnie ostatnich stu lat w zwierciadle debat parlamentarnych]]''' (Marek Łaziński)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''Dyskusja panelowa'''|| ||<style="border:0;padding-left:30px;padding-bottom:10px">15:00–15:45: '''Przetwarzanie danych parlamentarnych: co dalej?''' (Członkowie Kapituły Konkursu)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''Zakończenie'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">15:45–15:50: '''Wręczenie dyplomów'''|| ||<style="border:0;padding-left:30px;padding-bottom:15px">15:50–16:00: '''Podsumowanie warsztatu'''|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''25 marca 2024'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Piotr Przybyła''' (Uniwersytet Pompeu Fabry / Instytut Podstaw Informatyki PAN)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''[[attachment:seminarium-archiwum/2024-03-25.pdf|Czy klasyfikatory wiarygodności tekstu są odporne na działania antagonistyczne?]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Automatyczne klasyfikatory tekstu wykorzystuje się szeroko do pomocy w moderowaniu platform udostępniających treści generowane przez użytkowników, szczególnie sieci społecznościowych. Mogą być one używane do odsiewania treści nieprzyjaznych, dezinformujących, manipulujących lub wprost nielegalnych. Jednak trzeba wziąć pod uwagę, że autorzy takich tekstów często mają silną motywację do ich rozpowszechniania i mogą próbować modyfikować oryginalną treść, aż znajdą takie sformułowanie, które przedostanie się przez automatyczny filtr. Takie zmodyfikowane wersje oryginalnych danych, nazywane przykładami antagonistycznymi, odgrywają kluczową rolę w badaniu odporności modeli ML na ataki zmotywowanych aktorów. Wystąpienie będzie poświęcone systematycznej analizie tego problemu w kontekście wykrywania dezinformacji. Pokażę konkretne przykłady, gdzie podmiana pozornie nieistotnych słów powoduje zmianę decyzji klasyfikatora, jak również framework BODEGA do systematycznej oceny odporności modeli, wykorzystany również w zadaniu InCrediblAE na [[https://checkthat.gitlab.io/clef2024/task6/|warsztatach ewaluacyjnych CheckThat!]] na konferencji [[https://clef2024.imag.fr/|CLEF 2024]].|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''28 marca 2024'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Krzysztof Węcel''' (Uniwersytet Ekonomiczny w Poznaniu)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''[[attachment:seminarium-archiwum/2024-03-28.pdf|Wiarygodność informacji w kontekście procesu fact-checkingu]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Prezentacja będzie skupiała się na tematyce projektu !OpenFact, który jest odpowiedzią na problem fake newsów. W ramach projektu opracowujemy metody, które pozwalają na weryfikację wiarygodności informacji. W celu zapewnienia poprawności metodycznej bazujemy na procesie stosowanym przez agencje fact-checkingowe. Działania te opierają się na złożonych zbiorach danych, pozyskiwanych m.in. z !ClaimReview, Common Crawl czy poprzez monitoring mediów społecznościowych i ekstrakcję stwierdzeń z tekstów. Istotne jest również ocenianie informacji pod kątem jej wartości do weryfikacji (checkworthiness) oraz wiarygodności źródeł, których reputacja może wynikać z publikacji z !OpenAlex lub Crossref. Analiza stylometryczna pozwala na określenie autorstwa, a porównanie ludzkiej i maszynowej pracy otwiera nowe możliwości w wykrywaniu użycia sztucznej inteligencji. Używamy zarówno małych modeli językowych, jak i LLM uruchamianych zdalnie w różnych wariantach. Zbudowaliśmy duże zbiory stwierdzeń, które mogą służyć do weryfikacji nowych tekstów poprzez badanie podobieństwa semantycznego. Opisane są one dodatkowymi wciąż rozbudowywanymi metadanymi pozwalającymi na realizację różnych scenariuszy użycia.|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''25 kwietnia 2024'''|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Seminarium podsumowujące prace nad [[https://kwjp.pl|Korpusem Współczesnego Języka Polskiego (Dekada 2011–2020)]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wszystkie wystąpienia w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:0px">11:30–11:35: '''[[attachment:seminarium-archiwum/2024-04-25-1.pdf|O projekcie]]''' (Małgorzata Marciniak)|| ||<style="border:0;padding-left:30px;padding-bottom:0px">11:35–12:05: '''[[attachment:seminarium-archiwum/2024-04-25-2.pdf|Korpus Współczesnego Języka Polskiego, Dekada 2011−2020]]''' (Marek Łaziński)|| ||<style="border:0;padding-left:30px;padding-bottom:0px">12:05–12:35: '''[[attachment:seminarium-archiwum/2024-04-25-3.pdf|Znakowanie, lematyzacja, frekwencja]]''' (Witold Kieraś)|| ||<style="border:0;padding-left:30px;padding-bottom:0px">12:35–13:00: Przerwa kawowa|| ||<style="border:0;padding-left:30px;padding-bottom:0px">13:00–13:30: '''[[attachment:seminarium-archiwum/2024-04-25-4.pdf|Hybrydowa reprezentacja informacji składniowej]]''' (Marcin Woliński)|| ||<style="border:0;padding-left:30px;padding-bottom:15px">13:30–14:15: '''[[attachment:seminarium-archiwum/2024-04-25-5.pdf|Dyskusja o przyszłości korpusów]]'''|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''13 maja 2024'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Michal Křen''' (Uniwersytet Karola w Pradze)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''[[attachment:seminarium-archiwum/2024-05-13.pdf|Latest developments in the Czech National Corpus]]'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">The talk will give an overview of the Czech National Corpus (CNC) research infrastructure in all the main areas of its operation: corpus compilation, data annotation, application development and user support. Special attention will be paid to the variety of language corpora and user applications where CNC has recently seen a significant progress. In addition, it is the end-user web applications that shape the way linguists and other scholars think about the language data and how they can be utilized. The talk will conclude with an outline of future plans.|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''3 czerwca 2024''' (wystąpienie w ramach [[https://ipipan.waw.pl/instytut/dzialalnosc-naukowa/seminaria/ogolnoinstytutowe|seminarium IPI PAN]])|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Marcin Woliński''', '''Katarzyna Krasnowska-Kieraś''' (Instytut Podstaw Informatyki PAN)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''[[attachment:seminarium-archiwum/2024-06-03.pdf|Składnikowo-zależnościowe parsowanie języka naturalnego z wykorzystaniem sieci neuronowych]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie po polsku.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">W referacie przedstawimy autorską metodę automatycznej analizy składniowej (parsowania) języka naturalnego. W proponowanym podejściu struktury składniowe są wyrażane za pomocą kręgosłupów składniowych i ich powiązań, co pozwala jednocześnie wytwarzać dwa popularne typy reprezentacji: drzewa zależnościowe i składnikowe. Omówimy realizację tej metody w postaci zbioru klasyfikatorów nałożonych na wyjścia modelu językowego typu BERT. Testy algorytmu na danych polskich i niemieckich pokazały wysoką jakość uzyskiwanych wyników. Metoda została wykorzystana do wprowadzenia składniowej warstwy opisu w [[https://kwjp.pl|Korpusie Współczesnego Języka Polskiego]] opracowanym w IPI PAN.|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''4 lipca 2024'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Purificação Silvano''' (Uniwersytet w Porto)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''[[attachment:seminarium-archiwum/2024-07-04.pdf|Unifying Semantic Annotation with ISO 24617 for Narrative Extraction, Understanding and Visualisation]]'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">In this talk, I will present the successful application of Language resource management – Semantic annotation framework (ISO-24617) for representing semantic information in texts. Initially, I will introduce the harmonisation of five parts of ISO 24617 (1, 4, 7, 8, 9) into a comprehensive annotation scheme designed to represent semantic information pertaining to eventualities, times, participants, space, discourse relations and semantic roles. Subsequently, I will explore the applications of this annotation, specifically highlighting the [[https://text2story.inesctec.pt/|Text2Story]] and [[https://storysense.inesctec.pt/|StorySense]] projects, which focus on narrative extraction, understanding and visualisation of the journalistic text.|| ||<style="border:0;padding-top:15px">Zapraszamy także do zapoznania się z [[http://nlp.ipipan.waw.pl/NLP-SEMINAR/previous-p.html|archiwum seminariów z lat 2000–2015]] oraz [[http://zil.ipipan.waw.pl/seminarium-archiwum|listą wystąpień z lat 2015–2023]].|| |
Line 78: | Line 106: |
Na pewno: – 17 grudnia: odbiory? (ferie: 28 stycznia – 10 lutego) – 11 marca: – 25 marca: Łukasz Dębowski – 8 kwietnia: – 15 kwietnia: seminarium łączone – Alina z Piotrkiem i COMBO (21 kwietnia: Poniedziałek Wielkanocny) – 29 kwietnia: (uwaga: tydzień z majówką) – 13 maja: (17–19 maja: LTC w Poznaniu, więc ew. 20 maja można kogoś namówić na przyjazd przy okazji) – 27 maja: Magda Zawisławska o SYNAMECIE (2–7 czerwca: NAACL w Minneapolis) – 10 czerwca: |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''7 października 2023'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Uczestnicy konkursu PolEval 2024''' || ||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Planowana seria prezentacji uczestników zadań PolEvalowych'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienia w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Lista wystąpień będzie dostępna wkrótce.|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''11 marca 2024'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Mateusz Krubiński''' (Uniwersytet Karola w Pradze)|| ||<style="border:0;padding-left:30px;padding-bottom:15px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Tytuł wystąpienia podamy wkrótce'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-top:15px;padding-bottom:5px">'''8 stycznia 2024''' (prezentacja wyników projektu DARIAH.Lab)|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Zespół projektu DARIAH.Lab''' (Instytut Podstaw Informatyki PAN)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''Tytuł wystąpienia poznamy wkrótce'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie po polsku.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Streszczenie wystąpienia udostępnimy w najbliższym czasie.|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''3 października 2022'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''...''' (...)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Tytuł wystąpienia podamy wkrótce'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Opis wystąpienia udostępnimy już niedługo.|| WOLNE TERMINY: ATLAS: Explaining abstractive summarization - Emilia Wiśnios? Albo coś z NASK-owych tematów dot. przetwarzania prawa? Czy to jest to samo? ||<style="border:0;padding-bottom:10px">'''UWAGA''': ze względu na zakaz wstępu do IPI PAN dla osób niezatrudnionych w Instytucie, w stacjonarnej części seminarium mogą brać udział tylko pracownicy IPI PAN i prelegenci (także zewnętrzni). Dla pozostałych uczestników seminarium będzie transmitowane – prosimy o korzystanie z linku przy tytule wystąpienia.|| Uczestnicy Akcji COST CA18231: Multi3Generation: Multi-task, Multilingual, Multi-modal Language Generation: – Marcin PAPRZYCKI (marcin.paprzycki@ibspan.waw.pl) – Maria GANZHA (m.ganzha@mini.pw.edu.pl) – Katarzyna WASIELEWSKA-MICHNIEWSKA (katarzyna.wasielewska@ibspan.waw.pl) ||<style="border:0;padding-top:5px;padding-bottom:5px">'''6 czerwca 2022'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Paula Czarnowska''' (University of Cambridge)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://teams.microsoft.com/l/meetup-join/19%3a06de5a6d7ed840f0a53c26bf62c9ec18%40thread.tacv2/1643554817614?context=%7b%22Tid%22%3a%220425f1d9-16b2-41e3-a01a-0c02a63d13d6%22%2c%22Oid%22%3a%22f5f2c910-5438-48a7-b9dd-683a5c3daf1e%22%7d|{{attachment:seminarium-archiwum/teams.png}}]] '''Tytuł wystąpienia podamy wkrótce'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Opis wystąpienia udostępnimy już niedługo.|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''2 kwietnia 2020'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Stan Matwin''' (Dalhousie University)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''Efficient training of word embeddings with a focus on negative examples'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}} {{attachment:seminarium-archiwum/icon-en.gif|Slajdy po angielsku.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">This presentation is based on our [[https://pdfs.semanticscholar.org/1f50/db5786913b43f9668f997fc4c97d9cd18730.pdf|AAAI 2018]] and [[https://aaai.org/ojs/index.php/AAAI/article/view/4683|AAAI 2019]] papers on English word embeddings. In particular, we examine the notion of “negative examples”, the unobserved or insignificant word-context co-occurrences, in spectral methods. we provide a new formulation for the word embedding problem by proposing a new intuitive objective function that perfectly justifies the use of negative examples. With the goal of efficient learning of embeddings, we propose a kernel similarity measure for the latent space that can effectively calculate the similarities in high dimensions. Moreover, we propose an approximate alternative to our algorithm using a modified Vantage Point tree and reduce the computational complexity of the algorithm with respect to the number of words in the vocabulary. We have trained various word embedding algorithms on articles of Wikipedia with 2.3 billion tokens and show that our method outperforms the state-of-the-art in most word similarity tasks by a good margin. We will round up our discussion with some general thought s about the use of embeddings in modern NLP.|| na [[https://www.youtube.com/ipipan|kanale YouTube]]. on [[https://www.youtube.com/ipipan|YouTube]]. Nowe typy: Aleksandra Gabryszak (DFKI Berlin): – https://aclanthology.org/people/a/aleksandra-gabryszak/ – https://www.researchgate.net/profile/Aleksandra-Gabryszak – miała tekst na warsztacie First Computing Social Responsibility Workshop (http://www.lrec-conf.org/proceedings/lrec2022/workshops/CSRNLP1/index.html) na LREC-u 2022: http://www.lrec-conf.org/proceedings/lrec2022/workshops/CSRNLP1/pdf/2022.csrnlp1-1.5.pdf Marcin Junczys-Dowmunt przy okazji świąt? Adam Jatowt? Piotrek Pęzik? Wrocław? Kwantyfikatory? MARCELL? Może Piotrek z Bartkiem? |
Line 100: | Line 176: |
Michał Marcińczuk | |
Line 106: | Line 181: |
Krzysztof Wołk: Gdyby w przyszłości była potrzeba pracuję nad NMT we współpracy z kolegą który pracuje w dolinie krzemowej. On też będąc w PL mógłby wystąpić lub wystąpić zdalnie. Zajmuję się sieciami neuronowymi w tym NMT wraz ze mną, opisowym generowaniem ruchów modeli 3D oraz generowaniem sztuki pisanej za pomocą sieci, klasyfikacją pochodzenia nazwisk za pomocą sieci I podobnymi tematami. |
|
Line 110: | Line 182: |
– Marcin, Witek: Chronofleks – Krzysztof Wołk: NMT na subword units – Piotrek Pęzik obiecał coś wygłosić – Justyna Sarzyńska? – Marcin Junczys-Dowmunt przy okazji świąt? |
|
Line 117: | Line 184: |
Będzie na Data Science Summit: Using topic modeling for differentiation based on Polish parliament plus person Aleksander Nosarzewski Statistician @ Citi Artykuł o GPT napisał Mateusz Litwin: https://www.linkedin.com/in/mateusz-litwin-06b3a919/ W OpenAI jest jeszcze https://www.linkedin.com/in/jakub-pachocki/ i https://www.linkedin.com/in/szymon-sidor-98164044/ Text data can be an invaluable source of information. In particular, what, how often and in which way we talk about given subjects can tell a lot about us. Unfortunately, manual scrambling through huge text datasets can be a cumbersome task. Luckily, there is a class of unsupervised models - topic models, which can perform this task for us, with very little input from our side. I will present how to use Structural Topic Model (STM) - an enhancement over popular LDA to obtain some kind of measure of differences between given groups or agents of interest, based on an example of Polish parliamentary speeches and political parties. |
Seminarium „Przetwarzanie języka naturalnego” 2024–25
Seminarium Zespołu Inżynierii Lingwistycznej w Instytucie Podstaw Informatyki Polskiej Akademii Nauk odbywa się średnio co 2 tygodnie, zwykle w poniedziałki o godz. 10:15 (niekiedy online – prosimy o korzystanie z linku przy tytule wystąpienia) i ma charakter otwarty. Poszczególne referaty ogłaszane są na Polskiej Liście Językoznawczej oraz na stronie Lingwistyka komputerowa na Facebooku. Nagrania wystąpień dostępne są na kanale YouTube. |
7 października 2023 |
Janusz S. Bień (profesor emeritus Uniwersytetu Warszawskiego) |
|
Przetwarzanie tekstów wymaga ich zakodowania w odpowiednim standardzie, aktualnie praktyczne jedyną opcją jest standard Unicode. Niektóre czcionki stosowane w starodrukach są już uwzględnione w tym standardzie, niektóre sa dostępne w specjalistycznych fontach za pomocą tzw. funkcji zecerskich. Niektóre czcionki, opisane w monumentalnym dziele „https://polona.pl/preview/2177789b-4c73-48ae-ab76-f33d7f6f2070}Polonia Typographica Saeculi Sedecimi”, nie maja jednak swoich odpowiedników w standardzie. W referacie omówię kilka takich czcionek. |
16 października 2023 |
Konrad Wojtasik, Vadim Shishkin, Kacper Wołowiec, Arkadiusz Janz, Maciej Piasecki (Politechnika Wrocławska) |
|
Przeszukiwanie dużych kolekcji dokumentów w celu odnalezienia interesujących nas informacji jest niezwykle ważnym kierunkiem badawczym w dziedzinie przetwarzania języka naturalnego. Jest to kluczowy komponent w systemach odpowiadania na pytania, gdzie często model odpowiadający korzysta z informacji zawartych w bazie danych z aktualną wiedzą. Pozwala to nie tylko na aktualizację wiedzy, na podstawie której system odpowiada na zapytania użytkownika, ale również ogranicza jego halucynacje. Aktualnie modele do wyszukiwania informacji są sieciami neuronowymi i wymagają dużych zasobów uczących do ich wytrenowania. Przez wiele lat, metody dopasowania leksykalnego jak BM25, osiągały lepsze wyniki niż wytrenowane modele, jednak aktualne architektury i rozległe zbiory danych pozwalają na prześcignięcie leksykalnych rozwiązań. W prezentacji przedstawię dostępne zbiory służące do ewaluacji i trenowania aktualnych architektur do wyszukiwania informacji w kolekcjach dokumentów z różnych domen, jak i kierunki rozwoju na przyszłość. |
30 października 2023 |
Agnieszka Faleńska (Uniwersytet w Stuttgarcie) |
Dla wielu, systemy przetwarzania języka naturalnego (NLP) stały się codziennością. Ich zastosowania sięgają od automatycznego tłumaczenia dokumentów po asystentów osobistych obsługiwanych głosem. W ostatnich latach, ten rosnący wpływ narzędzi AI na życie ludzi wywołuje znaczące obawy dotyczące możliwych szkód, jakie mogą one wyrządzić. |
W tej prezentacji rozpocznę od przedstawienia kilku przykładów takich szkodliwych zachowań i omówię ich potencjalne źródła. Będę argumentować, że problemy związane z uprzedzeniami w modelach NLP powinny być rozwiązywane poprzez rozwijanie naszego zrozumienia ich źródeł językowych. Następnie prezentacja skoncentruje się na trzech powszechnie używanych źródłach danych: Wikipedii, tekstach instruktażowych i forum dyskusyjnym. Poprzez te przykłady pokażę, że niezależnie od perspektywy (czy mówimy o kimś, do kogoś, czy jako ktoś), subtelne uprzedzenia są obecne we wszystkich tych zbiorach danych i mogą przyczynić się do szkodliwych efektów modeli NLP. |
13 listopada 2023 |
Piotr Rybak (Instytut Podstaw Informatyki PAN) |
|
Mimo że odpowiadanie na pytania (ang. Question Answering) jest jednym z popularniejszych zagadnień przetwarzania języka naturalnego, to do niedawna było ono praktycznie nieobecne w polskim środowisku naukowym. Ostatnie lata przyniosły jednak rozkwit prac związanych z tym tematem. Podczas tego wystąpienia opowiem na czym polega zagadnienie odpowiadania na pytania, jak działają obecne systemy rozwiązujące ten problem, a także jakie zbiory danych oraz modele są dostępne dla języka polskiego. W szczególności opowiem o zasobach tworzonych w IPI PAN, czyli zbiorach danych PolQA i MAUPQA oraz modelu Silver Retriever. Na koniec wskażę dalsze kierunki prac, które wciąż pozostają otwarte jeśli chodzi o odpowiadanie na pytania w języku polskim. |
11 grudnia 2023 (seria krótkich wystąpień autorstwa badaczy z Coventry University) |
Xiaorui Jiang, Opeoluwa Akinseloyin, Vasile Palade (Coventry University) |
Systematic literature review (SLR) is the standard tool for synthesising medical and clinical evidence from the ocean of publications. SLR is extremely expensive. SLR is extremely expensive. AI can play a significant role in automating the SLR process, such as for citation screening, i.e., the selection of primary studies-based title and abstract. Some tools exist, but they suffer from tremendous obstacles, including lack of trust. In addition, a specific characteristic of systematic review, which is the fact that each systematic review is a unique dataset and starts with no annotation, makes the problem even more challenging. In this study, we present some seminal but initial efforts on utilising the transfer learning and zero-shot learning capabilities of pretrained language models and large language models to solve or alleviate this challenge. Preliminary results are to be reported. |
Kacper Sówka (Coventry University) |
My research focuses on applying machine learning and NLP to the problem of cybersecurity attack modelling. This is done by generating "attack tree" models using public cybersecurity datasets (CVE) and training a siamese neural network to predict the relationship between individual cybersecurity vulnerabilities using a DistilBERT encoder fine-tuned using Masked Language Modelling. |
Xiaorui Jiang (Coventry University) |
It is a difficult task to understand and summarise the development of scientific research areas. This task is especially cognitively demanding for postgraduate students and early-career researchers, of the whose main jobs is to identify such developments by reading a large amount of literature. Will AI help? We believe so. This short talk summarises some recent initial work on extracting the semantic backbone of a scientific area through the synergy of natural language processing and network analysis, which is believed to serve a certain type of discourse models for summarisation (in future work). As a small step from it, the second part of the talk introduces how comparison citations are utilised to improve multi-document summarisation of scientific papers. |
Xiaorui Jiang, Alireza Daneshkhah (Coventry University) |
In face of a post-COVID global economic slowdown and aging society, the primary care units in the National Healthcare Services (NHS) are receiving increasingly higher pressure, resulting in delays and errors in healthcare and patient management. AI can play a significant role in alleviating this investment-requirement discrepancy, especially in the primary care settings. A large portion of clinical diagnosis and management can be assisted with AI tools for automation and reduce delays. This short presentation reports the initial studies worked with an NHS partner on developing NLP-based solutions for the automation of clinical intention classification (to save more time for better patient treatment and management) and an early alert application for Gout Flare prediction from chief complaints (to avoid delays in patient treatment and management). |
8 stycznia 2024 |
Danijel Korzinek (Polsko-Japońska Akademia Technik Komputerowych) |
|
Celem tego podprojektu było opracowanie procesów i stworzenie narzędzi pozwalających na powiązanie tekstowych korpusów stworzonych w ramach projektu ParlaMint z odpowiadającymi im materiałami audio i wideo dostępnymi w Internecie. Zadanie to było oczywiście bardziej złożone niż się to może intuicyjnie wydawać i jego powodzenie było uzależnione w największej mierze od poprawnego dopasowania bardzo długiego nagrania audio (kilkanaście godzin, czyli cały dzień pracy parlamentu) do odpowiadającego mu transkryptu, wraz ze wszystkimi błędami i niedokładnościami w dopasowaniu i kolejności występującymi między tymi dwoma modalnościami. Projekt został stworzony w oparciu o całkowicie otwarte oprogramowanie i modele, które są dostępne w publicznym repozytorium i mogą być zastosowane do innych projektów o podobnym zakresie wymagań. Na obecną chwile, wspomnianymi narzędziami w pełni opracowano korpusy w dwóch językach (polski i chorwacki), ale więcej jest tworzonych w tej chwili. |
12 lutego 2024 |
Tsimur Hadeliya, Dariusz Kajtoch (Allegro ML Research) |
|
With the advent of language models such as ChatGPT, we are witnessing a paradigm shift in the way we approach natural language processing tasks. Instead of training a model from scratch, we can now solve tasks by designing appropriate prompts and choosing suitable demonstrations as input to a generative model. This approach, known as in-context learning (ICL), has shown remarkable capabilities for classification tasks in the English language . In this presentation, we will investigate how different language models perform on Polish classification tasks using the ICL approach. We will explore the effectiveness of various models, including multilingual and large-scale models, and compare their results with existing solutions. Through a comprehensive evaluation and analysis, we aim to gain insights into the strengths and limitations of this approach for Polish classification tasks. Our findings will shed light on the potential of ICL for the Polish language. We will discuss challenges and opportunities, and propose directions for future work. |
29 lutego 2024 |
Seminarium wyjazdowe: Warsztat „Analiza danych parlamentarnych” |
Wprowadzenie |
12:00–12:10: Powitanie |
12:10–12:40: Korpus Dyskursu Parlamentarnego i korpus ParlaMint (Maciej Ogrodniczuk) |
Zgłoszenia konkursowe |
12:40–13:00: Aplikacja do analizy sentymentu wypowiedzi parlamentarzystów RP (Bartłomiej Klimowski) |
13:00–13:20: Analiza dynamiki emocji w debatach parlamentarnych o wojnie w Ukrainie (Konrad Kiljan i Ewelina Gajewska) |
13:20–13:40: Język wrażliwy na płeć (gender-fair language) w polskim parlamencie: badanie korpusowe debat parlamentarnych w korpusie ParlaMint (Aleksandra Tomaszewska i Anna Jamka) |
Wykład na zaproszenie |
14:00–15:00: Zmiany w polszczyźnie ostatnich stu lat w zwierciadle debat parlamentarnych (Marek Łaziński) |
Dyskusja panelowa |
15:00–15:45: Przetwarzanie danych parlamentarnych: co dalej? (Członkowie Kapituły Konkursu) |
Zakończenie |
15:45–15:50: Wręczenie dyplomów |
15:50–16:00: Podsumowanie warsztatu |
25 marca 2024 |
Piotr Przybyła (Uniwersytet Pompeu Fabry / Instytut Podstaw Informatyki PAN) |
|
Automatyczne klasyfikatory tekstu wykorzystuje się szeroko do pomocy w moderowaniu platform udostępniających treści generowane przez użytkowników, szczególnie sieci społecznościowych. Mogą być one używane do odsiewania treści nieprzyjaznych, dezinformujących, manipulujących lub wprost nielegalnych. Jednak trzeba wziąć pod uwagę, że autorzy takich tekstów często mają silną motywację do ich rozpowszechniania i mogą próbować modyfikować oryginalną treść, aż znajdą takie sformułowanie, które przedostanie się przez automatyczny filtr. Takie zmodyfikowane wersje oryginalnych danych, nazywane przykładami antagonistycznymi, odgrywają kluczową rolę w badaniu odporności modeli ML na ataki zmotywowanych aktorów. Wystąpienie będzie poświęcone systematycznej analizie tego problemu w kontekście wykrywania dezinformacji. Pokażę konkretne przykłady, gdzie podmiana pozornie nieistotnych słów powoduje zmianę decyzji klasyfikatora, jak również framework BODEGA do systematycznej oceny odporności modeli, wykorzystany również w zadaniu InCrediblAE na warsztatach ewaluacyjnych CheckThat! na konferencji CLEF 2024. |
28 marca 2024 |
Krzysztof Węcel (Uniwersytet Ekonomiczny w Poznaniu) |
Prezentacja będzie skupiała się na tematyce projektu OpenFact, który jest odpowiedzią na problem fake newsów. W ramach projektu opracowujemy metody, które pozwalają na weryfikację wiarygodności informacji. W celu zapewnienia poprawności metodycznej bazujemy na procesie stosowanym przez agencje fact-checkingowe. Działania te opierają się na złożonych zbiorach danych, pozyskiwanych m.in. z ClaimReview, Common Crawl czy poprzez monitoring mediów społecznościowych i ekstrakcję stwierdzeń z tekstów. Istotne jest również ocenianie informacji pod kątem jej wartości do weryfikacji (checkworthiness) oraz wiarygodności źródeł, których reputacja może wynikać z publikacji z OpenAlex lub Crossref. Analiza stylometryczna pozwala na określenie autorstwa, a porównanie ludzkiej i maszynowej pracy otwiera nowe możliwości w wykrywaniu użycia sztucznej inteligencji. Używamy zarówno małych modeli językowych, jak i LLM uruchamianych zdalnie w różnych wariantach. Zbudowaliśmy duże zbiory stwierdzeń, które mogą służyć do weryfikacji nowych tekstów poprzez badanie podobieństwa semantycznego. Opisane są one dodatkowymi wciąż rozbudowywanymi metadanymi pozwalającymi na realizację różnych scenariuszy użycia. |
25 kwietnia 2024 |
|
11:30–11:35: O projekcie (Małgorzata Marciniak) |
11:35–12:05: Korpus Współczesnego Języka Polskiego, Dekada 2011−2020 (Marek Łaziński) |
12:05–12:35: Znakowanie, lematyzacja, frekwencja (Witold Kieraś) |
12:35–13:00: Przerwa kawowa |
13:00–13:30: Hybrydowa reprezentacja informacji składniowej (Marcin Woliński) |
13:30–14:15: Dyskusja o przyszłości korpusów |
13 maja 2024 |
Michal Křen (Uniwersytet Karola w Pradze) |
The talk will give an overview of the Czech National Corpus (CNC) research infrastructure in all the main areas of its operation: corpus compilation, data annotation, application development and user support. Special attention will be paid to the variety of language corpora and user applications where CNC has recently seen a significant progress. In addition, it is the end-user web applications that shape the way linguists and other scholars think about the language data and how they can be utilized. The talk will conclude with an outline of future plans. |
3 czerwca 2024 (wystąpienie w ramach seminarium IPI PAN) |
Marcin Woliński, Katarzyna Krasnowska-Kieraś (Instytut Podstaw Informatyki PAN) |
|
W referacie przedstawimy autorską metodę automatycznej analizy składniowej (parsowania) języka naturalnego. W proponowanym podejściu struktury składniowe są wyrażane za pomocą kręgosłupów składniowych i ich powiązań, co pozwala jednocześnie wytwarzać dwa popularne typy reprezentacji: drzewa zależnościowe i składnikowe. Omówimy realizację tej metody w postaci zbioru klasyfikatorów nałożonych na wyjścia modelu językowego typu BERT. Testy algorytmu na danych polskich i niemieckich pokazały wysoką jakość uzyskiwanych wyników. Metoda została wykorzystana do wprowadzenia składniowej warstwy opisu w Korpusie Współczesnego Języka Polskiego opracowanym w IPI PAN. |
4 lipca 2024 |
Purificação Silvano (Uniwersytet w Porto) |
|
In this talk, I will present the successful application of Language resource management – Semantic annotation framework (ISO-24617) for representing semantic information in texts. Initially, I will introduce the harmonisation of five parts of ISO 24617 (1, 4, 7, 8, 9) into a comprehensive annotation scheme designed to represent semantic information pertaining to eventualities, times, participants, space, discourse relations and semantic roles. Subsequently, I will explore the applications of this annotation, specifically highlighting the Text2Story and StorySense projects, which focus on narrative extraction, understanding and visualisation of the journalistic text. |
Zapraszamy także do zapoznania się z archiwum seminariów z lat 2000–2015 oraz listą wystąpień z lat 2015–2023. |