Locked History Actions

Diff for "seminarium"

Differences between revisions 881 and 1039 (spanning 158 versions)
Revision 881 as of 2024-09-24 10:34:06
Size: 14467
Comment:
Revision 1039 as of 2025-11-24 11:24:39
Size: 20612
Comment:
Deletions are marked like this. Additions are marked like this.
Line 2: Line 2:
= Seminarium „Przetwarzanie języka naturalnego” 2024–25 = = Seminarium „Przetwarzanie języka naturalnego” 2025–26 =
Line 4: Line 4:
||<style="border:0;padding-bottom:10px">Seminarium [[http://nlp.ipipan.waw.pl/|Zespołu Inżynierii Lingwistycznej]] w&nbsp;[[http://www.ipipan.waw.pl/|Instytucie Podstaw Informatyki]] [[http://www.pan.pl/|Polskiej Akademii Nauk]] odbywa się średnio co 2 tygodnie, zwykle w&nbsp;poniedziałki o&nbsp;godz.&nbsp;10:15 (niekiedy online – prosimy o korzystanie z linku przy tytule wystąpienia) i&nbsp;ma charakter otwarty. Poszczególne referaty ogłaszane są na [[http://lists.nlp.ipipan.waw.pl/mailman/listinfo/ling|Polskiej Liście Językoznawczej]] oraz na stronie [[https://www.facebook.com/lingwistyka.komputerowa|Lingwistyka komputerowa]] na Facebooku. Nagrania wystąpień dostępne są na [[https://www.youtube.com/ipipan|kanale YouTube]].||<style="border:0;padding-left:30px;">[[seminar|{{attachment:seminarium-archiwum/en.png}}]]|| ||<style="border:0;padding-bottom:10px">Nowa edycja seminarium [[http://nlp.ipipan.waw.pl/|Zespołu Inżynierii Lingwistycznej]] w&nbsp;[[http://www.ipipan.waw.pl/|Instytucie Podstaw Informatyki]] [[http://www.pan.pl/|Polskiej Akademii Nauk]] rozpocznie się w październiku 2025 r. Seminarium odbywa się średnio co 2 tygodnie, zwykle w&nbsp;poniedziałki o&nbsp;godz.&nbsp;10:15 (niekiedy online – prosimy o korzystanie z linku przy tytule wystąpienia) i&nbsp;ma charakter otwarty. Poszczególne referaty ogłaszane są na [[http://lists.nlp.ipipan.waw.pl/mailman/listinfo/ling|Polskiej Liście Językoznawczej]] oraz na stronie [[https://www.facebook.com/lingwistyka.komputerowa|Lingwistyka komputerowa]] na Facebooku. Nagrania wystąpień dostępne są na [[https://www.youtube.com/ipipan|kanale YouTube]].||<style="border:0;padding-left:30px;">[[seminar|{{attachment:seminarium-archiwum/en.png}}]]||
Line 6: Line 6:
||<style="border:0;padding-top:5px;padding-bottom:5px">'''7 października 2024'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Janusz S. Bień''' (profesor emeritus Uniwersytetu Warszawskiego) ||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Identyfikacja czcionek w XVI-wiecznych drukach. Analiza przypadku''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienia w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Przetwarzanie tekstów wymaga ich zakodowania w odpowiednim standardzie, aktualnie praktyczne jedyną opcją jest standard Unicode. Niektóre czcionki stosowane w starodrukach są już uwzględnione w tym standardzie, niektóre sa dostępne w specjalistycznych fontach za pomocą tzw. funkcji zecerskich. Niektóre czcionki, opisane w monumentalnym dziele „[[https://crispa.uw.edu.pl/object/files/754258/display/Default|Polonia Typographica Saeculi Sedecimi]]”, nie maja jednak swoich odpowiedników w standardzie. W referacie omówię kilka takich czcionek.||
||<style="border:0;padding-top:5px;padding-bottom:5px">'''15 września 2025'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Louis Esteve''' (Universite Paris-Saclay) ||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''[[attachment:seminarium-archiwum/2025-09-15.pdf|Diversity and dataset size – a quantitative perspective]]''' &#160;{{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">The field of Natural Language Processing (NLP) studies the abilities of computer systems to process and generate natural language, and has received increasing attention from the general population since the democratisation of generative and conversational models. However, behind the scenes, state-of-the-art NLP models are trained on ever-larger datasets, reaching trillions of tokens. It may be argued that the creation and use of such immense datasets is motivated by the idea that 'the larger the dataset, the more diverse it is', and that in turn 'if the training set is more diverse, it shall yield better models'. However, these statements thus far remain intuitions and need to be properly tested. To this end, this presentation will tackle methods and caveats of formal diversity quantification including limitations of the literature, a preliminary discussion on the link between diversity and dataset size, as well as their impact on downstream applications.||
Line 11: Line 11:
||<style="border:0;padding-top:5px;padding-bottom:5px">'''14 października 2024'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Alexander Rosen''' (Uniwersytet Karola w Pradze)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Lexical and syntactic variability of languages and text genres. A corpus-based study''' &#160;{{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Streszczenie wystąpienia pojawi się wkrótce.||
||<style="border:0;padding-top:5px;padding-bottom:5px">'''6 października 2025'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Stan Matwin''' (Dalhousie University / IPI PAN) ||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=hwBs4D7clls|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2025-10-06.pdf|Głębokie, wielopostaciowe uczenie się diagnozowania zaburzeń psychicznych z zapisów wywiadów klinicznych]]''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}&#160;{{attachment:seminarium-archiwum/icon-en.gif|Slajdy częściowo po angielsku.}}||||
||<style="border:0;padding-left:30px;padding-bottom:15px">Kluczowe cechy chorób psychicznych znajdują odzwierciedlenie w zapisach audio wywiadów klinicznych z pacjentami i ich rodzinami. Zbudowaliśmy metodę głębokiego uczenia się, która automatycznie wyodrębnia istotne cechy niezbędne do diagnozy chorób psychicznych (ADHD, depresji, choroby afektywnej dwubiegunowej i schizofrenii) z tego rodzaju wywiadów. Wykorzystujemy różnorodne, wstępnie wytrenowane modele do ekstrakcji reprezentacji zarówno z dźwiękowych segmentów tych wywiadów, jak i ich wersji tekstowych. Używamy kilku nowoczesnych technik reprezentacyjnych (embeddings). Stosujemy podejście Big Data eksplorując istniejące korpusy dźwiękowe i tekstowe adnotowane etykietami emocjonalnymi. Problem niedoboru adnotowanych danych rozwiązujemy za co pomocą parametrycznego dostrajania modelu (Parameter Efficient Fine-Tuning). Wszystkie te reprezentacje są następnie łączone w jedną formę wielopostaciowa. Do diagnozowania powyższych zaburzeń psychicznych stosujemy uczenie się przez kontrast oraz syntezę modeli za pomocą komitetu ekspertów (Mixture of Experts). Otrzymane wyniki pokazują że poprzez multimodalną analizę wywiadów klinicznych można diagnozować zaburzenia psychiczne z zadowalającą dokładnością (projekt prowadzony we współpracy z H. Naderi i R. Uherem).||
Line 16: Line 16:
||<style="border:0;padding-top:5px;padding-bottom:5px">'''4 listopada 2024'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Jakub Kozakoszczak''' (Deutsche Telekom)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''ZIML: Język znaczników anotacyjnych do łatwego dopasowywania regeksami''' &#160;{{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Streszczenie wystąpienia pojawi się w najbliższym czasie.||
||<style="border:0;padding-top:5px;padding-bottom:5px">'''20 października 2025'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Arkadiusz Modzelewski''' (Uniwersytet Padewski / Polsko-Japońska Akademia Technik Komputerowych)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=KNxm8Vt_wfw|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2025-10-20.pdf|Dezinformacja: zbiory danych, metody i ewaluacja modeli językowych]]''' &#160;{{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Jakich narzędzi językowych używają autorzy dezinformacji? Czy włączenie wiedzy o perswazji i intencjach może poprawić zdolność dużych modeli językowych do wykrywania dezinformacji? Jak skuteczne są modele LLM w identyfikowaniu dezinformacji w języku polskim i angielskim? W tym wykładzie przedstawię wyniki moich badań dotyczących dezinformacji, perswazji i intencji stojących za wprowadzającymi w błąd informacjami. Przedstawię jeden z największych polskich zbiorów danych dotyczących dezinformacji, a także nowatorski zbiór danych w języku angielskim. Oba zbiory zostały zaprojektowane w celu uchwycenia technik manipulacyjnych i intencji autorów dezinformacji. Opierając się na tych i innych zasobach, omówię skuteczność obecnych modeli LLM w wykrywaniu dezinformacji, perswazji i intencji oraz wskazuję obiecujące kierunki poprawy ich skuteczności w wykrywaniu dezinformacji.||
Line 21: Line 21:
||<style="border:0;padding-top:5px;padding-bottom:5px">'''21 listopada 2024'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Christian Chiarcos''' (Uniwersytet w Augsburgu)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Tytuł wystąpienia udostępnimy już niedługo''' &#160;{{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Treść streszczenia podamy po jej przekazaniu przez prelegenta.||
||<style="border:0;padding-top:5px;padding-bottom:5px">'''3 listopada 2025'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Gražina Korvel''' (Uniwersytet Wileński) ||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''[[attachment:seminarium-archiwum/2025-11-03.pdf|Tworzenie korpusów mowy dla języków o ograniczonych zasobach]]''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}&#160;{{attachment:seminarium-archiwum/icon-en.gif|Slajdy po angielsku.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Tworzenie różnorodnych, dobrze anotowanych korpusów mowy ma zasadnicze znaczenie dla modeli uczenia maszynowego. Podczas wystąpienia zostaną przedstawione podstawowe zagadnienia dotyczące anotacji korpusów mowy, ze szczególnym uwzględnieniem języka litewskiego. Omówiony zostanie projekt Wielkiego Litewskiego Korpusu Mowy (LIEPA-3), w tym strategia gromadzenia, anotacji i kontroli jakości danych, a także zapewnienia zrównoważonej reprezentacji dialektów, płci oraz grup wiekowych. Poruszone zostaną również kwestie etycznego gromadzenia danych i standaryzacji korpusów.||
Line 26: Line 26:
||<style="border:0;padding-top:5px;padding-bottom:5px">'''2 grudnia 2024'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Uczestnicy warsztatu PolEval 2024'''||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Prezentacja wyników warsztatu''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Treść streszczenia podamy po jej przekazaniu przez prelegenta.||
||<style="border:0;padding-top:5px;padding-bottom:5px">'''24 listopada 2025'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Jan Eliasz''', '''Mikołaj Langner''', '''Jan Kocoń''' (Politechnika Wrocławska) ||
||<style="border:0;padding-left:30px;padding-bottom:0px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''[[attachment:seminarium-archiwum/2025-11-24-1.pdf|Language, Culture, and Ideology: Personalizing Offensiveness Detection in Political Tweets with Reasoning LLMs]]''' &#160;{{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:5px">We investigate two complementary strategies for improving the reliability of Large Language Models in classification settings. First, we show that decomposing multi-label classification into a set of independent binary decisions offers clear practical advantages over structured output formulations: it substantially reduces parsing errors, works seamlessly with decoder-only architectures, and delivers faster inference when combined with prefix caching, without requiring any model retraining.||
||<style="border:0;padding-left:30px;padding-bottom:0px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''[[attachment:seminarium-archiwum/2025-11-24-2.pdf|Divide, Cache, Conquer. Dichotomic Prompting for Efficient Multi-Label LLM-Based Classfication]]''' &#160;{{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Second, we demonstrate that reasoning-enabled LLMs are markedly better at tasks requiring contextual sensitivity, such as offensive-language annotation. When prompted to adopt a specific role, reasoning models maintain that role more consistently and make more accurate, fine-grained judgments than their non-reasoning counterparts. Viewed together, these findings highlight a unifying principle: LLMs become both more efficient and more context-aware when their decision process is made more structured, whether through task decomposition or through explicit reasoning.||
Line 31: Line 33:
||<style="border:0;padding-top:5px;padding-bottom:5px">'''19 grudnia 2024'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Piotr Przybyła''' (Uniwersytet Pompeu Fabry / Instytut Podstaw Informatyki PAN)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Adaptacyjne ataki na klasyfikację wiarygodności z wykorzystaniem uczenia ze wzmocnieniem''' &#160;{{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Treść streszczenia podamy po jej przekazaniu przez prelegenta.||
||<style="border:0;padding-top:5px;padding-bottom:5px">'''1 grudnia 2025'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Filip Kucia''', '''Anna Wróblewska''', '''Bartosz Grabek''', '''Szymon Trochimiak''' (Politechnika Warszawska) ||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Jak uczynić muzea bardziej interaktywnymi? Studium przypadku „Artystycznego Chatbota”''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Streszczenie wystąpienia udostępnimy z najbliższym czasie.||
Line 36: Line 38:
||<style="border:0;padding-top:15px">Zapraszamy także do zapoznania się z [[http://nlp.ipipan.waw.pl/NLP-SEMINAR/previous-p.html|archiwum seminariów z lat 2000–2015]] oraz [[http://zil.ipipan.waw.pl/seminarium-archiwum|listą wystąpień z lat 2015–2023]].||

||<style="border:0;padding-top:15px">Zapraszamy także do zapoznania się z [[http://nlp.ipipan.waw.pl/NLP-SEMINAR/previous-p.html|archiwum seminariów z lat 2000–2015]] oraz [[http://zil.ipipan.waw.pl/seminarium-archiwum|listą wystąpień z lat 2015–2025]].||
Line 40: Line 44:
||<style="border:0;padding-top:5px;padding-bottom:5px">'''17 listopada 2025'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Marzena Karpińska''' (Microsoft) ||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''!OneRuler: testowanie wielojęzycznych modeli językowych na długim kontekście''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">W tym wystąpieniu przyjrzymy się jak dobrze modele językowe radzą sobie z wydobywaniem informacji z tekstów do 128 tysięcy tokenów (ok 100 tysięcy słów) w 26 językach, w tym po polsku. Wyniki eksperymentów wskazują, że wraz ze wzrostem długości kontekstu rosną różnice między językami o dużych i małych zasobach danych. Co zaskakujące, nawet minimalne zmiany w poleceniu (dodanie możliwości, że informacja nie istnieje) powodują znaczny spadek skuteczności, szczególnie przy dłuższych tekstach.||


Line 42: Line 53:
||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Planowana seria prezentacji uczestników zadań PolEvalowych''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienia w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Planowana seria prezentacji uczestników zadań PolEvalowych''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||

Seminarium „Przetwarzanie języka naturalnego” 2025–26

Nowa edycja seminarium Zespołu Inżynierii LingwistycznejInstytucie Podstaw Informatyki Polskiej Akademii Nauk rozpocznie się w październiku 2025 r. Seminarium odbywa się średnio co 2 tygodnie, zwykle w poniedziałki o godz. 10:15 (niekiedy online – prosimy o korzystanie z linku przy tytule wystąpienia) i ma charakter otwarty. Poszczególne referaty ogłaszane są na Polskiej Liście Językoznawczej oraz na stronie Lingwistyka komputerowa na Facebooku. Nagrania wystąpień dostępne są na kanale YouTube.

seminar

15 września 2025

Louis Esteve (Universite Paris-Saclay)

Diversity and dataset size – a quantitative perspective  Wystąpienie w języku angielskim.

The field of Natural Language Processing (NLP) studies the abilities of computer systems to process and generate natural language, and has received increasing attention from the general population since the democratisation of generative and conversational models. However, behind the scenes, state-of-the-art NLP models are trained on ever-larger datasets, reaching trillions of tokens. It may be argued that the creation and use of such immense datasets is motivated by the idea that 'the larger the dataset, the more diverse it is', and that in turn 'if the training set is more diverse, it shall yield better models'. However, these statements thus far remain intuitions and need to be properly tested. To this end, this presentation will tackle methods and caveats of formal diversity quantification including limitations of the literature, a preliminary discussion on the link between diversity and dataset size, as well as their impact on downstream applications.

6 października 2025

Stan Matwin (Dalhousie University / IPI PAN)

https://www.youtube.com/watch?v=hwBs4D7clls Głębokie, wielopostaciowe uczenie się diagnozowania zaburzeń psychicznych z zapisów wywiadów klinicznych  Wystąpienie w języku polskim. Slajdy częściowo po angielsku.

Kluczowe cechy chorób psychicznych znajdują odzwierciedlenie w zapisach audio wywiadów klinicznych z pacjentami i ich rodzinami. Zbudowaliśmy metodę głębokiego uczenia się, która automatycznie wyodrębnia istotne cechy niezbędne do diagnozy chorób psychicznych (ADHD, depresji, choroby afektywnej dwubiegunowej i schizofrenii) z tego rodzaju wywiadów. Wykorzystujemy różnorodne, wstępnie wytrenowane modele do ekstrakcji reprezentacji zarówno z dźwiękowych segmentów tych wywiadów, jak i ich wersji tekstowych. Używamy kilku nowoczesnych technik reprezentacyjnych (embeddings). Stosujemy podejście Big Data eksplorując istniejące korpusy dźwiękowe i tekstowe adnotowane etykietami emocjonalnymi. Problem niedoboru adnotowanych danych rozwiązujemy za co pomocą parametrycznego dostrajania modelu (Parameter Efficient Fine-Tuning). Wszystkie te reprezentacje są następnie łączone w jedną formę wielopostaciowa. Do diagnozowania powyższych zaburzeń psychicznych stosujemy uczenie się przez kontrast oraz syntezę modeli za pomocą komitetu ekspertów (Mixture of Experts). Otrzymane wyniki pokazują że poprzez multimodalną analizę wywiadów klinicznych można diagnozować zaburzenia psychiczne z zadowalającą dokładnością (projekt prowadzony we współpracy z H. Naderi i R. Uherem).

20 października 2025

Arkadiusz Modzelewski (Uniwersytet Padewski / Polsko-Japońska Akademia Technik Komputerowych)

https://www.youtube.com/watch?v=KNxm8Vt_wfw Dezinformacja: zbiory danych, metody i ewaluacja modeli językowych  Wystąpienie w języku angielskim.

Jakich narzędzi językowych używają autorzy dezinformacji? Czy włączenie wiedzy o perswazji i intencjach może poprawić zdolność dużych modeli językowych do wykrywania dezinformacji? Jak skuteczne są modele LLM w identyfikowaniu dezinformacji w języku polskim i angielskim? W tym wykładzie przedstawię wyniki moich badań dotyczących dezinformacji, perswazji i intencji stojących za wprowadzającymi w błąd informacjami. Przedstawię jeden z największych polskich zbiorów danych dotyczących dezinformacji, a także nowatorski zbiór danych w języku angielskim. Oba zbiory zostały zaprojektowane w celu uchwycenia technik manipulacyjnych i intencji autorów dezinformacji. Opierając się na tych i innych zasobach, omówię skuteczność obecnych modeli LLM w wykrywaniu dezinformacji, perswazji i intencji oraz wskazuję obiecujące kierunki poprawy ich skuteczności w wykrywaniu dezinformacji.

3 listopada 2025

Gražina Korvel (Uniwersytet Wileński)

Tworzenie korpusów mowy dla języków o ograniczonych zasobach  Wystąpienie w języku polskim. Slajdy po angielsku.

Tworzenie różnorodnych, dobrze anotowanych korpusów mowy ma zasadnicze znaczenie dla modeli uczenia maszynowego. Podczas wystąpienia zostaną przedstawione podstawowe zagadnienia dotyczące anotacji korpusów mowy, ze szczególnym uwzględnieniem języka litewskiego. Omówiony zostanie projekt Wielkiego Litewskiego Korpusu Mowy (LIEPA-3), w tym strategia gromadzenia, anotacji i kontroli jakości danych, a także zapewnienia zrównoważonej reprezentacji dialektów, płci oraz grup wiekowych. Poruszone zostaną również kwestie etycznego gromadzenia danych i standaryzacji korpusów.

24 listopada 2025

Jan Eliasz, Mikołaj Langner, Jan Kocoń (Politechnika Wrocławska)

http://zil.ipipan.waw.pl/seminarium-online Language, Culture, and Ideology: Personalizing Offensiveness Detection in Political Tweets with Reasoning LLMs  Wystąpienie w języku angielskim.

We investigate two complementary strategies for improving the reliability of Large Language Models in classification settings. First, we show that decomposing multi-label classification into a set of independent binary decisions offers clear practical advantages over structured output formulations: it substantially reduces parsing errors, works seamlessly with decoder-only architectures, and delivers faster inference when combined with prefix caching, without requiring any model retraining.

http://zil.ipipan.waw.pl/seminarium-online Divide, Cache, Conquer. Dichotomic Prompting for Efficient Multi-Label LLM-Based Classfication  Wystąpienie w języku angielskim.

Second, we demonstrate that reasoning-enabled LLMs are markedly better at tasks requiring contextual sensitivity, such as offensive-language annotation. When prompted to adopt a specific role, reasoning models maintain that role more consistently and make more accurate, fine-grained judgments than their non-reasoning counterparts. Viewed together, these findings highlight a unifying principle: LLMs become both more efficient and more context-aware when their decision process is made more structured, whether through task decomposition or through explicit reasoning.

1 grudnia 2025

Filip Kucia, Anna Wróblewska, Bartosz Grabek, Szymon Trochimiak (Politechnika Warszawska)

http://zil.ipipan.waw.pl/seminarium-online Jak uczynić muzea bardziej interaktywnymi? Studium przypadku „Artystycznego Chatbota”  Wystąpienie w języku polskim.

Streszczenie wystąpienia udostępnimy z najbliższym czasie.

Zapraszamy także do zapoznania się z archiwum seminariów z lat 2000–2015 oraz listą wystąpień z lat 2015–2025.