|
Size: 24861
Comment:
|
← Revision 1041 as of 2025-11-24 11:58:06 ⇥
Size: 22369
Comment:
|
| Deletions are marked like this. | Additions are marked like this. |
| Line 2: | Line 2: |
| = Seminarium „Przetwarzanie języka naturalnego” 2024–25 = | = Seminarium „Przetwarzanie języka naturalnego” 2025–26 = |
| Line 4: | Line 4: |
| ||<style="border:0;padding-bottom:10px">Seminarium [[http://nlp.ipipan.waw.pl/|Zespołu Inżynierii Lingwistycznej]] w [[http://www.ipipan.waw.pl/|Instytucie Podstaw Informatyki]] [[http://www.pan.pl/|Polskiej Akademii Nauk]] odbywa się średnio co 2 tygodnie, zwykle w poniedziałki o godz. 10:15 (niekiedy online – prosimy o korzystanie z linku przy tytule wystąpienia) i ma charakter otwarty. Poszczególne referaty ogłaszane są na [[http://lists.nlp.ipipan.waw.pl/mailman/listinfo/ling|Polskiej Liście Językoznawczej]] oraz na stronie [[https://www.facebook.com/lingwistyka.komputerowa|Lingwistyka komputerowa]] na Facebooku. Nagrania wystąpień dostępne są na [[https://www.youtube.com/ipipan|kanale YouTube]].||<style="border:0;padding-left:30px;">[[seminar|{{attachment:seminarium-archiwum/en.png}}]]|| | ||<style="border:0;padding-bottom:10px">Nowa edycja seminarium [[http://nlp.ipipan.waw.pl/|Zespołu Inżynierii Lingwistycznej]] w [[http://www.ipipan.waw.pl/|Instytucie Podstaw Informatyki]] [[http://www.pan.pl/|Polskiej Akademii Nauk]] rozpocznie się w październiku 2025 r. Seminarium odbywa się średnio co 2 tygodnie, zwykle w poniedziałki o godz. 10:15 (niekiedy online – prosimy o korzystanie z linku przy tytule wystąpienia) i ma charakter otwarty. Poszczególne referaty ogłaszane są na [[http://lists.nlp.ipipan.waw.pl/mailman/listinfo/ling|Polskiej Liście Językoznawczej]] oraz na stronie [[https://www.facebook.com/lingwistyka.komputerowa|Lingwistyka komputerowa]] na Facebooku. Nagrania wystąpień dostępne są na [[https://www.youtube.com/ipipan|kanale YouTube]].||<style="border:0;padding-left:30px;">[[seminar|{{attachment:seminarium-archiwum/en.png}}]]|| |
| Line 6: | Line 6: |
| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''7 października 2024'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Janusz S. Bień''' (profesor emeritus Uniwersytetu Warszawskiego) || ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=2mLYixXC_Hw|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2024-10-07.pdf|Identyfikacja czcionek w XVI-wiecznych drukach. Analiza przypadku]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienia w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Przetwarzanie tekstów wymaga ich zakodowania w odpowiednim standardzie, aktualnie praktyczne jedyną opcją jest standard Unicode. Niektóre czcionki stosowane w starodrukach są już uwzględnione w tym standardzie, niektóre są dostępne w specjalistycznych fontach za pomocą tzw. funkcji zecerskich. Niektóre czcionki, opisane w monumentalnym dziele „[[https://crispa.uw.edu.pl/object/files/754258/display/Default|Polonia Typographica Saeculi Sedecimi]]”, nie mają jednak swoich odpowiedników w standardzie. W referacie omówię kilka takich czcionek.|| |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''15 września 2025'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Louis Esteve''' (Universite Paris-Saclay) || ||<style="border:0;padding-left:30px;padding-bottom:5px">'''[[attachment:seminarium-archiwum/2025-09-15.pdf|Diversity and dataset size – a quantitative perspective]]'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">The field of Natural Language Processing (NLP) studies the abilities of computer systems to process and generate natural language, and has received increasing attention from the general population since the democratisation of generative and conversational models. However, behind the scenes, state-of-the-art NLP models are trained on ever-larger datasets, reaching trillions of tokens. It may be argued that the creation and use of such immense datasets is motivated by the idea that 'the larger the dataset, the more diverse it is', and that in turn 'if the training set is more diverse, it shall yield better models'. However, these statements thus far remain intuitions and need to be properly tested. To this end, this presentation will tackle methods and caveats of formal diversity quantification including limitations of the literature, a preliminary discussion on the link between diversity and dataset size, as well as their impact on downstream applications.|| |
| Line 11: | Line 11: |
| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''14 października 2024'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Alexander Rosen''' (Uniwersytet Karola w Pradze)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=E2ujmqt7Q2E|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2024-10-14.pdf|Lexical and syntactic variability of languages and text genres. A corpus-based study]]'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:5px">This study examines metrics of syntactic complexity (SC) and lexical diversity (LD) as tools for analyzing linguistic variation within and across languages. Using quantifiable measures based on cross-linguistically consistent (morpho)syntactic annotation ([[https://universaldependencies.org/|Universal Dependencies]]), the research utilizes parallel texts from a large multilingual corpus ([[https://wiki.korpus.cz/doku.php/en:cnk:intercorp:verze16ud|InterCorp]]). Six SC and two LD metrics – covering the length and embedding levels of nominal and clausal constituents, mean dependency distance (MDD), and sentence length – are applied as metadata for sentences and texts.|| ||<style="border:0;padding-left:30px;padding-bottom:5px">The presentation will address how these metrics can be visualized and incorporated into corpus queries, how they reflect structural differences across languages and text types, and whether SC and LD vary more across languages or text types. It will also consider the impact of language-specific annotation nuances and correlations among the measures. The analysis includes comparative examples from Polish, Czech, and other languages.|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Preliminary findings indicate higher SC in non-fiction compared to fiction across languages, with nominal and clausal metrics being dominant factors. The results suggest distinct patterns for MDD and sentence length, highlighting the impact of structural differences (e.g., analytic vs. synthetic morphology, dominant word-order patterns) and the influence of source text type and style.|| |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''6 października 2025'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Stan Matwin''' (Dalhousie University / IPI PAN) || ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=hwBs4D7clls|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2025-10-06.pdf|Głębokie, wielopostaciowe uczenie się diagnozowania zaburzeń psychicznych z zapisów wywiadów klinicznych]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}} {{attachment:seminarium-archiwum/icon-en.gif|Slajdy częściowo po angielsku.}}|||| ||<style="border:0;padding-left:30px;padding-bottom:15px">Kluczowe cechy chorób psychicznych znajdują odzwierciedlenie w zapisach audio wywiadów klinicznych z pacjentami i ich rodzinami. Zbudowaliśmy metodę głębokiego uczenia się, która automatycznie wyodrębnia istotne cechy niezbędne do diagnozy chorób psychicznych (ADHD, depresji, choroby afektywnej dwubiegunowej i schizofrenii) z tego rodzaju wywiadów. Wykorzystujemy różnorodne, wstępnie wytrenowane modele do ekstrakcji reprezentacji zarówno z dźwiękowych segmentów tych wywiadów, jak i ich wersji tekstowych. Używamy kilku nowoczesnych technik reprezentacyjnych (embeddings). Stosujemy podejście Big Data eksplorując istniejące korpusy dźwiękowe i tekstowe adnotowane etykietami emocjonalnymi. Problem niedoboru adnotowanych danych rozwiązujemy za co pomocą parametrycznego dostrajania modelu (Parameter Efficient Fine-Tuning). Wszystkie te reprezentacje są następnie łączone w jedną formę wielopostaciowa. Do diagnozowania powyższych zaburzeń psychicznych stosujemy uczenie się przez kontrast oraz syntezę modeli za pomocą komitetu ekspertów (Mixture of Experts). Otrzymane wyniki pokazują że poprzez multimodalną analizę wywiadów klinicznych można diagnozować zaburzenia psychiczne z zadowalającą dokładnością (projekt prowadzony we współpracy z H. Naderi i R. Uherem).|| |
| Line 18: | Line 16: |
| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''28 października 2024'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Rafał Jaworski''' (Uniwersytet im. Adama Mickiewicza w Poznaniu)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=52LZ976imBA|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2024-10-28.pdf|Zestaw algorytmów zrównoleglania i przechowywania wielojęzycznych zanurzeń słów na potrzeby obliczania prawdopodobieństwa tłumaczenia]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:5px">Podczas wystąpienia zreferuję moje badania naukowe z dziedziny przetwarzania języka naturalnego na potrzeby wspomagania tłumaczenia. Przedstawię w szczególności zestaw algorytmów ''Inter-language Vector Space'' służący do zrównoleglania zdań na poziomie słów i fraz wykorzystujących wielojęzyczne zanurzenia słów (''word embeddings'').|| ||<style="border:0;padding-left:30px;padding-bottom:5px">Pierwszą funkcją zestawu jest generowanie reprezentacji wektorowych słów. Są one generowane przy użyciu sieci neuronowej typu ''auto-encoder'' na podstawie danych tekstowych – korpusu tekstu. W ten sposób powstają słowniki wektorowe dla poszczególnych języków. Reprezentacje wektorowe słów znajdujących się w tych słownikach stanowią przestrzenie wektorowe, które różnią się pomiędzy językami.|| ||<style="border:0;padding-left:30px;padding-bottom:5px">Aby rozwiązać ten problem i uzyskać reprezentacje wektorowe słów, które byłyby porównywalne pomiędzy językami, stosuje się drugą funkcję zestawu ''Inter-language Vector Space''. Służy on do zrównoleglania przestrzeni wektorowych pomiędzy językami z wykorzystaniem macierzy transformacji obliczanych metodą rozkładu według wartości osobliwych. Macierz ta jest obliczana na podstawie homonimów, tj. słów pisanych identycznie w języku przestrzeni X oraz Y. Dodatkowo, w celach wspomagających stosowany jest słownik dwujęzyczny. Obliczona w ten sposób macierz transformacji pozwala na dostosowanie przestrzeni X w taki sposób, aby w maksymalny możliwy sposób pokrywała się z przestrzenią Y. || ||<style="border:0;padding-left:30px;padding-bottom:5px">Ostatnia funkcja zestawu jest odpowiedzialna za stworzenie wielojęzycznej przestrzeni wektorowej. Do przestrzeni tej najpierw dodawana jest w całości i bez modyfikacji przestrzeń wektorowa dla języka angielskiego. Następnie, dla każdej innej przestrzeni wektorowej obliczana jest najpierw macierz transformacji tej przestrzeni do przestrzeni angielskiej. Wektory nowej przestrzeni są mnożone przez tę macierz i w ten sposób stają się porównywalne z wektorami reprezentującymi słowa angielskie.|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Zestaw algorytmów ''Inter-language Vector Space'' znajduje zastosowanie w systemach wspomagania tłumaczenia, na przykład w autorskim algorytmie automatycznego transferu znaczników nietłumaczonych ze zdania źródłowego do docelowego.|| |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''20 października 2025'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Arkadiusz Modzelewski''' (Uniwersytet Padewski / Polsko-Japońska Akademia Technik Komputerowych)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=KNxm8Vt_wfw|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2025-10-20.pdf|Dezinformacja: zbiory danych, metody i ewaluacja modeli językowych]]'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Jakich narzędzi językowych używają autorzy dezinformacji? Czy włączenie wiedzy o perswazji i intencjach może poprawić zdolność dużych modeli językowych do wykrywania dezinformacji? Jak skuteczne są modele LLM w identyfikowaniu dezinformacji w języku polskim i angielskim? W tym wykładzie przedstawię wyniki moich badań dotyczących dezinformacji, perswazji i intencji stojących za wprowadzającymi w błąd informacjami. Przedstawię jeden z największych polskich zbiorów danych dotyczących dezinformacji, a także nowatorski zbiór danych w języku angielskim. Oba zbiory zostały zaprojektowane w celu uchwycenia technik manipulacyjnych i intencji autorów dezinformacji. Opierając się na tych i innych zasobach, omówię skuteczność obecnych modeli LLM w wykrywaniu dezinformacji, perswazji i intencji oraz wskazuję obiecujące kierunki poprawy ich skuteczności w wykrywaniu dezinformacji.|| |
| Line 27: | Line 21: |
| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''4 listopada 2024'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Jakub Kozakoszczak''' (Deutsche Telekom)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''[[attachment:seminarium-archiwum/2024-11-04.pdf|ZIML: Język znaczników anotacyjnych do łatwego dopasowywania regeksami]]'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:5px">Przeszukiwanie regeksami warstwy anotacyjnej tekstu reprezentowanej wplecionymi znacznikami wymaga budowania wzorców, które szybko stają się nieczytelne i nie do utrzymania. Zupełnie niemożliwe jest stosowanie warunków na odległości wewnątrz tekstu, wydłużonych przez obecność tagów. Anotacja wydrębniona poza tekst co prawda zachowuje odległości, ale jest niewidoczna dla regeksów.|| ||<style="border:0;padding-left:30px;padding-bottom:5px">Przedstawię język znaczników Zero Insertion Markup Language (ZIML), w którym każda kombinacja znaków i etykiet w zaanotowanym tekście jest reprezentowana przez pojedynczy „alloznak”, co zachowuje odległości wewnątrz dokumentu. Te same alloznaki wprowadzone są do regeksów w taki sposób, że zachowują pozycje dopasowań zwracanych przez standardowe silniki wyrażeń regularnych. W efekcie jedyną ingerencją w semantykę języka regeksów jest wzbogacenie jej o denotowanie etykiet przez dopasowanie alloznaków, które je reprezentują.|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Podam dowód poprawności tego przekształcenia i przedstawię implementację języka ZIML, w tym składnię dodawania odwołań do etykiet w treści wzorców. Omówię, w miarę możliwości czasowych, potencjalne zastosowania ZIML w językoznawstwie i przetwarzaniu języka naturalnego. Do zrozumienia prezentacji pomoże podstawowa wiedza na temat teorii modeli i wyszukiwania regeksami.|| |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''3 listopada 2025'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Gražina Korvel''' (Uniwersytet Wileński) || ||<style="border:0;padding-left:30px;padding-bottom:5px">'''[[attachment:seminarium-archiwum/2025-11-03.pdf|Tworzenie korpusów mowy dla języków o ograniczonych zasobach]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}} {{attachment:seminarium-archiwum/icon-en.gif|Slajdy po angielsku.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Tworzenie różnorodnych, dobrze anotowanych korpusów mowy ma zasadnicze znaczenie dla modeli uczenia maszynowego. Podczas wystąpienia zostaną przedstawione podstawowe zagadnienia dotyczące anotacji korpusów mowy, ze szczególnym uwzględnieniem języka litewskiego. Omówiony zostanie projekt Wielkiego Litewskiego Korpusu Mowy (LIEPA-3), w tym strategia gromadzenia, anotacji i kontroli jakości danych, a także zapewnienia zrównoważonej reprezentacji dialektów, płci oraz grup wiekowych. Poruszone zostaną również kwestie etycznego gromadzenia danych i standaryzacji korpusów.|| |
| Line 34: | Line 26: |
| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''21 listopada 2024'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Christian Chiarcos''' (Uniwersytet w Augsburgu)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=FxiOM5zAKo8|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2024-11-21.pdf|Aspects of Knowledge Representation for Discourse Relation Annotation]]'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Semantic technologies comprise a broad set of standards and technologies including aspects of knowledge representation, information management and computational inference. In this lecture, I will describe the application of knowledge representation standards to the realm of computational discourse, and especially, the annotation of discourse relations. In particular, this includes the formal modelling of discourse relations of different theoretical frameworks by means of modular, interlinked ontologies, the machine-readable edition of discourse marker inventories with !OntoLex and techniques for the induction of discourse marker inventories.|| |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''24 listopada 2025'''|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''Jan Eliasz''', '''Mikołaj Langner''', '''Jan Kocoń''' (Politechnika Wrocławska) || ||<style="border:0;padding-left:30px;padding-bottom:0px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''[[attachment:seminarium-archiwum/2025-11-24-1.pdf|Language, Culture, and Ideology: Personalizing Offensiveness Detection in Political Tweets with Reasoning LLMs]]'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:5px">We investigate two complementary strategies for improving the reliability of Large Language Models in classification settings. First, we show that decomposing multi-label classification into a set of independent binary decisions offers clear practical advantages over structured output formulations: it substantially reduces parsing errors, works seamlessly with decoder-only architectures, and delivers faster inference when combined with prefix caching, without requiring any model retraining.|| ||<style="border:0;padding-left:30px;padding-bottom:0px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''[[attachment:seminarium-archiwum/2025-11-24-2.pdf|Divide, Cache, Conquer. Dichotomic Prompting for Efficient Multi-Label LLM-Based Classfication]]'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Second, we demonstrate that reasoning-enabled LLMs are markedly better at tasks requiring contextual sensitivity, such as offensive-language annotation. When prompted to adopt a specific role, reasoning models maintain that role more consistently and make more accurate, fine-grained judgments than their non-reasoning counterparts. Viewed together, these findings highlight a unifying principle: LLMs become both more efficient and more context-aware when their decision process is made more structured, whether through task decomposition or through explicit reasoning.|| |
| Line 39: | Line 33: |
| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''2 grudnia 2024'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Uczestnicy konkursu !PolEval 2024''' (wyjątkowo o 12:00, by ułatwić przyjazd uczestnikom spoza Warszawy)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Prezentacja wyników konkursu'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienia w języku polskim.}}{{attachment:icon-en.gif|Slajdy po angielsku.}}|| ||<style="border:0;padding-left:30px;padding-bottom:0px">12:00–12:10: !PolEval 2024: powitanie (Łukasz Kobyliński) || ||<style="border:0;padding-left:30px;padding-bottom:0px">12:10–12:30: !PolEval 2024 Task 1: Reading Comprehension (Ryszard Tuora / Aleksandra Zwierzchowska) || ||<style="border:0;padding-left:30px;padding-bottom:0px">12:30–12:50: Optimizing LLMs for Polish Reading Comprehension: A Comparative Study of Ensemble and Unified Approaches (Krzysztof Wróbel) || ||<style="border:0;padding-left:30px;padding-bottom:0px">12:50–13:00: !PolEval 2024 Task 2: Emotion and Sentiment Recognition (Jan Kocoń, Bartłomiej Koptyra) || ||<style="border:0;padding-left:30px;padding-bottom:0px">13:00–13:30: Emotion and Sentiment Recognition in Polish Texts Using Large Language Models: A Winning Approach to !PolEval 2024 (Krzysztof Wróbel) || ||<style="border:0;padding-left:30px;padding-bottom:0px">13:30–14:00: Przerwa || ||<style="border:0;padding-left:30px;padding-bottom:0px">14:00–14:20: Ensemble as a Variance Reduction Method for Emotion and Sentiment Recognition (Tomasz Warzecha) || ||<style="border:0;padding-left:30px;padding-bottom:0px">14:20–14:40: Emotion and Sentiment Recognition using Ensemble Models (Jakub Kosterna) || ||<style="border:0;padding-left:30px;padding-bottom:0px">14:40–14:50: Zero-shot Approach Using Bielik LLM for Emotion Recognition in Polish (Paweł Cyrta) || ||<style="border:0;padding-left:30px;padding-bottom:0px">14:50–15:10: !PolEval 2024 Task 3: Polish Automatic Speech Recognition Challenge (Michał Junczyk, Iwona Christop, Piotr Pęzik) || ||<style="border:0;padding-left:30px;padding-bottom:0px">15:10–15:30: Augmenting Polish Automatic Speech Recognition System With Synthetic Data (Łukasz Bondaruk, Jakub Kubiak, Mateusz Czyżnikiewicz) || ||<style="border:0;padding-left:30px;padding-bottom:0px">15:30–15:40: Exploration of training Zipformer and E-Branchformer models with Polish language BIGOS dataset (Paweł Cyrta) || ||<style="border:0;padding-left:30px;padding-bottom:15px">15:40–16:00: !PolEval 2025 – co dalej? (panel dyskusyjny) || |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''1 grudnia 2025'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Filip Kucia''', '''Anna Wróblewska''', '''Bartosz Grabek''', '''Szymon Trochimiak''' (Politechnika Warszawska) || ||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Jak uczynić muzea bardziej interaktywnymi? Studium przypadku „Artystycznego Chatbota”'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Wystąpienie dotyczy wyzwań związanych z wdrażaniem chatbotów opartych na dużych modelach językowych (LLM) w publicznych przestrzeniach kultury, na przykładzie naszych doświadczeń z Artistic Chatbot – głosowym agentem konwersacyjnym użytym podczas miesięcznej wystawy sztuki w Akademii Sztuk Pięknych w Warszawie. Koncentrujemy się na dwóch powiązanych zagadnieniach: jak sprawić, by system odpowiadał na pytania dotyczące wielojęzycznej kolekcji artystycznej, oraz jak oceniać jakość tych odpowiedzi. Od strony technicznej omawiamy strategie budowy bazy wiedzy z obsługą wyszukiwania (retrieval-augmented) na podstawie różnorodnych, wielojęzykowych materiałów artystycznych związanych z wystawą oraz kompromisy między modelami działającymi w języku rodzimym a podejściami wykorzystującymi język pośredni i tłumaczenie. Z perspektywy projektowania interakcji przedstawiamy w pełni głosową konfigurację w przestrzeni galerii, w której zwiedzający podchodzą do mikrofonu i zwracają się do systemu za pomocą ustalonych wyrażeń wywołujących, bez użycia ekranów czy klawiatur. W dalszej części wystąpienia omawiamy analizę post factum tego wdrożenia. Na podstawie logów interakcji oraz badania z udziałem anotatorów, którzy ręcznie oceniają odpowiedzi systemu, porównujemy różne konfiguracje modeli i mechanizmów wyszukiwania pod względem dokładności faktograficznej, spójności i trafności względem tematyki wystawy. Studium to służy nam jako punkt wyjścia do dyskusji o tym, jak definiować i mierzyć „dobrą” odpowiedź w konwersacyjnej AI dla dziedzictwa kulturowego oraz w jaki sposób wybory dotyczące języka, tłumaczenia i interakcji głosowej powinny wpływać na przyszłe wdrożenia takich systemów w muzeach i galeriach.|| |
| Line 56: | Line 38: |
| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''19 grudnia 2024'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Piotr Przybyła''' (Uniwersytet Pompeu Fabry / Instytut Podstaw Informatyki PAN)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Adaptacyjne ataki na klasyfikację wiarygodności z wykorzystaniem uczenia ze wzmocnieniem'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">W trakcie prezentacji przedstawiony zostanie system XARELLO: generator przykładów antagonistycznych dla testowania odporności klasyfikacji tekstu, zbudowany na bazie uczenia ze wzmocnieniem. Rozwiązanie to jest adaptacyjne, ponieważ obserwuje sukcesy i porażki wykonywanych ataków i dostosowuje się do słabości klasyfikatora-ofiary. Taka procedura odzwierciedla długoterminowe i ustawiczne ataki, które są typowe dla aktorów rozprzestrzeniających dezinformację. Przedstawimy także wyniki ewaluacji pokazującej, że podejście adaptacyjne prowadzi do odnajdywania przykładów antagonistycznych o lepszej jakości i z mniejszą liczbą prób, szczególnie w atakach na duże modele językowe.|| |
|
| Line 61: | Line 39: |
| ||<style="border:0;padding-top:15px">Zapraszamy także do zapoznania się z [[http://nlp.ipipan.waw.pl/NLP-SEMINAR/previous-p.html|archiwum seminariów z lat 2000–2015]] oraz [[http://zil.ipipan.waw.pl/seminarium-archiwum|listą wystąpień z lat 2015–2023]].|| | ||<style="border:0;padding-top:15px">Zapraszamy także do zapoznania się z [[http://nlp.ipipan.waw.pl/NLP-SEMINAR/previous-p.html|archiwum seminariów z lat 2000–2015]] oraz [[http://zil.ipipan.waw.pl/seminarium-archiwum|listą wystąpień z lat 2015–2025]].|| |
| Line 65: | Line 44: |
| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''17 listopada 2025'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Marzena Karpińska''' (Microsoft) || ||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''!OneRuler: testowanie wielojęzycznych modeli językowych na długim kontekście'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">W tym wystąpieniu przyjrzymy się jak dobrze modele językowe radzą sobie z wydobywaniem informacji z tekstów do 128 tysięcy tokenów (ok 100 tysięcy słów) w 26 językach, w tym po polsku. Wyniki eksperymentów wskazują, że wraz ze wzrostem długości kontekstu rosną różnice między językami o dużych i małych zasobach danych. Co zaskakujące, nawet minimalne zmiany w poleceniu (dodanie możliwości, że informacja nie istnieje) powodują znaczny spadek skuteczności, szczególnie przy dłuższych tekstach.|| |
|
| Line 67: | Line 53: |
| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Planowana seria prezentacji uczestników zadań PolEvalowych'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienia w języku polskim.}}|| | ||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Planowana seria prezentacji uczestników zadań PolEvalowych'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| |
Seminarium „Przetwarzanie języka naturalnego” 2025–26
Nowa edycja seminarium Zespołu Inżynierii Lingwistycznej w Instytucie Podstaw Informatyki Polskiej Akademii Nauk rozpocznie się w październiku 2025 r. Seminarium odbywa się średnio co 2 tygodnie, zwykle w poniedziałki o godz. 10:15 (niekiedy online – prosimy o korzystanie z linku przy tytule wystąpienia) i ma charakter otwarty. Poszczególne referaty ogłaszane są na Polskiej Liście Językoznawczej oraz na stronie Lingwistyka komputerowa na Facebooku. Nagrania wystąpień dostępne są na kanale YouTube. |
15 września 2025 |
Louis Esteve (Universite Paris-Saclay) |
The field of Natural Language Processing (NLP) studies the abilities of computer systems to process and generate natural language, and has received increasing attention from the general population since the democratisation of generative and conversational models. However, behind the scenes, state-of-the-art NLP models are trained on ever-larger datasets, reaching trillions of tokens. It may be argued that the creation and use of such immense datasets is motivated by the idea that 'the larger the dataset, the more diverse it is', and that in turn 'if the training set is more diverse, it shall yield better models'. However, these statements thus far remain intuitions and need to be properly tested. To this end, this presentation will tackle methods and caveats of formal diversity quantification including limitations of the literature, a preliminary discussion on the link between diversity and dataset size, as well as their impact on downstream applications. |
6 października 2025 |
|
Stan Matwin (Dalhousie University / IPI PAN) |
|
|
|
Kluczowe cechy chorób psychicznych znajdują odzwierciedlenie w zapisach audio wywiadów klinicznych z pacjentami i ich rodzinami. Zbudowaliśmy metodę głębokiego uczenia się, która automatycznie wyodrębnia istotne cechy niezbędne do diagnozy chorób psychicznych (ADHD, depresji, choroby afektywnej dwubiegunowej i schizofrenii) z tego rodzaju wywiadów. Wykorzystujemy różnorodne, wstępnie wytrenowane modele do ekstrakcji reprezentacji zarówno z dźwiękowych segmentów tych wywiadów, jak i ich wersji tekstowych. Używamy kilku nowoczesnych technik reprezentacyjnych (embeddings). Stosujemy podejście Big Data eksplorując istniejące korpusy dźwiękowe i tekstowe adnotowane etykietami emocjonalnymi. Problem niedoboru adnotowanych danych rozwiązujemy za co pomocą parametrycznego dostrajania modelu (Parameter Efficient Fine-Tuning). Wszystkie te reprezentacje są następnie łączone w jedną formę wielopostaciowa. Do diagnozowania powyższych zaburzeń psychicznych stosujemy uczenie się przez kontrast oraz syntezę modeli za pomocą komitetu ekspertów (Mixture of Experts). Otrzymane wyniki pokazują że poprzez multimodalną analizę wywiadów klinicznych można diagnozować zaburzenia psychiczne z zadowalającą dokładnością (projekt prowadzony we współpracy z H. Naderi i R. Uherem). |
20 października 2025 |
Arkadiusz Modzelewski (Uniwersytet Padewski / Polsko-Japońska Akademia Technik Komputerowych) |
|
Jakich narzędzi językowych używają autorzy dezinformacji? Czy włączenie wiedzy o perswazji i intencjach może poprawić zdolność dużych modeli językowych do wykrywania dezinformacji? Jak skuteczne są modele LLM w identyfikowaniu dezinformacji w języku polskim i angielskim? W tym wykładzie przedstawię wyniki moich badań dotyczących dezinformacji, perswazji i intencji stojących za wprowadzającymi w błąd informacjami. Przedstawię jeden z największych polskich zbiorów danych dotyczących dezinformacji, a także nowatorski zbiór danych w języku angielskim. Oba zbiory zostały zaprojektowane w celu uchwycenia technik manipulacyjnych i intencji autorów dezinformacji. Opierając się na tych i innych zasobach, omówię skuteczność obecnych modeli LLM w wykrywaniu dezinformacji, perswazji i intencji oraz wskazuję obiecujące kierunki poprawy ich skuteczności w wykrywaniu dezinformacji. |
3 listopada 2025 |
Gražina Korvel (Uniwersytet Wileński) |
Tworzenie korpusów mowy dla języków o ograniczonych zasobach |
Tworzenie różnorodnych, dobrze anotowanych korpusów mowy ma zasadnicze znaczenie dla modeli uczenia maszynowego. Podczas wystąpienia zostaną przedstawione podstawowe zagadnienia dotyczące anotacji korpusów mowy, ze szczególnym uwzględnieniem języka litewskiego. Omówiony zostanie projekt Wielkiego Litewskiego Korpusu Mowy (LIEPA-3), w tym strategia gromadzenia, anotacji i kontroli jakości danych, a także zapewnienia zrównoważonej reprezentacji dialektów, płci oraz grup wiekowych. Poruszone zostaną również kwestie etycznego gromadzenia danych i standaryzacji korpusów. |
24 listopada 2025 |
Jan Eliasz, Mikołaj Langner, Jan Kocoń (Politechnika Wrocławska) |
|
We investigate two complementary strategies for improving the reliability of Large Language Models in classification settings. First, we show that decomposing multi-label classification into a set of independent binary decisions offers clear practical advantages over structured output formulations: it substantially reduces parsing errors, works seamlessly with decoder-only architectures, and delivers faster inference when combined with prefix caching, without requiring any model retraining. |
|
Second, we demonstrate that reasoning-enabled LLMs are markedly better at tasks requiring contextual sensitivity, such as offensive-language annotation. When prompted to adopt a specific role, reasoning models maintain that role more consistently and make more accurate, fine-grained judgments than their non-reasoning counterparts. Viewed together, these findings highlight a unifying principle: LLMs become both more efficient and more context-aware when their decision process is made more structured, whether through task decomposition or through explicit reasoning. |
Zapraszamy także do zapoznania się z archiwum seminariów z lat 2000–2015 oraz listą wystąpień z lat 2015–2025. |



