#acl +All:read Default
= Seminarium „Przetwarzanie języka naturalnego” 2025–26 =

||<style="border:0;padding-bottom:10px">Nowa edycja seminarium [[http://nlp.ipipan.waw.pl/|Zespołu Inżynierii Lingwistycznej]] w&nbsp;[[http://www.ipipan.waw.pl/|Instytucie Podstaw Informatyki]] [[http://www.pan.pl/|Polskiej Akademii Nauk]] rozpocznie się w październiku 2025 r. Seminarium odbywa się średnio co 2 tygodnie, zwykle w&nbsp;poniedziałki o&nbsp;godz.&nbsp;10:15 (niekiedy online – prosimy o korzystanie z linku przy tytule wystąpienia) i&nbsp;ma charakter otwarty. Poszczególne referaty ogłaszane są na [[http://lists.nlp.ipipan.waw.pl/mailman/listinfo/ling|Polskiej Liście Językoznawczej]] oraz na stronie [[https://www.facebook.com/lingwistyka.komputerowa|Lingwistyka komputerowa]] na Facebooku. Nagrania wystąpień dostępne są na [[https://www.youtube.com/ipipan|kanale YouTube]].||<style="border:0;padding-left:30px;">[[seminar|{{attachment:seminarium-archiwum/en.png}}]]||

||<style="border:0;padding-top:5px;padding-bottom:5px">'''15 września 2025'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Louis Esteve''' (Universite Paris-Saclay) ||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''[[attachment:seminarium-archiwum/2025-09-15.pdf|Diversity and dataset size – a quantitative perspective]]''' &#160;{{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">The field of Natural Language Processing (NLP) studies the abilities of computer systems to process and generate natural language, and has received increasing attention from the general population since the democratisation of generative and conversational models. However, behind the scenes, state-of-the-art NLP models are trained on ever-larger datasets, reaching trillions of tokens. It may be argued that the creation and use of such immense datasets is motivated by the idea that 'the larger the dataset, the more diverse it is', and that in turn 'if the training set is more diverse, it shall yield better models'. However, these statements thus far remain intuitions and need to be properly tested. To this end, this presentation will tackle methods and caveats of formal diversity quantification including limitations of the literature, a preliminary discussion on the link between diversity and dataset size, as well as their impact on downstream applications.||

||<style="border:0;padding-top:5px;padding-bottom:5px">'''6 października 2025'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Stan Matwin''' (Dalhousie University / IPI PAN) ||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=hwBs4D7clls|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2025-10-06.pdf|Głębokie, wielopostaciowe uczenie się diagnozowania zaburzeń psychicznych z zapisów wywiadów klinicznych]]''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}&#160;{{attachment:seminarium-archiwum/icon-en.gif|Slajdy częściowo po angielsku.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Kluczowe cechy chorób psychicznych znajdują odzwierciedlenie w zapisach audio wywiadów klinicznych z pacjentami i ich rodzinami. Zbudowaliśmy metodę głębokiego uczenia się, która automatycznie wyodrębnia istotne cechy niezbędne do diagnozy chorób psychicznych (ADHD, depresji, choroby afektywnej dwubiegunowej i schizofrenii) z tego rodzaju wywiadów. Wykorzystujemy różnorodne, wstępnie wytrenowane modele do ekstrakcji reprezentacji zarówno z dźwiękowych segmentów tych wywiadów, jak i ich wersji tekstowych. Używamy kilku nowoczesnych technik reprezentacyjnych (embeddings). Stosujemy podejście Big Data eksplorując istniejące korpusy dźwiękowe i tekstowe adnotowane etykietami emocjonalnymi. Problem niedoboru adnotowanych danych rozwiązujemy za co pomocą parametrycznego dostrajania  modelu (Parameter Efficient Fine-Tuning).  Wszystkie te reprezentacje są następnie łączone w jedną formę  wielopostaciowa. Do diagnozowania powyższych zaburzeń psychicznych stosujemy uczenie się przez kontrast oraz syntezę modeli za pomocą komitetu ekspertów (Mixture of Experts). Otrzymane wyniki pokazują  że poprzez multimodalną analizę wywiadów klinicznych można  diagnozować  zaburzenia psychiczne z zadowalającą dokładnością (projekt prowadzony we współpracy z H. Naderi i R. Uherem).||

||<style="border:0;padding-top:5px;padding-bottom:5px">'''20 października 2025'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Arkadiusz Modzelewski''' (Uniwersytet Padewski / Polsko-Japońska Akademia Technik Komputerowych)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=KNxm8Vt_wfw|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2025-10-20.pdf|Dezinformacja: zbiory danych, metody i ewaluacja modeli językowych]]''' &#160;{{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Jakich narzędzi językowych używają autorzy dezinformacji? Czy włączenie wiedzy o perswazji i intencjach może poprawić zdolność dużych modeli językowych do wykrywania dezinformacji? Jak skuteczne są modele LLM w identyfikowaniu dezinformacji w języku polskim i angielskim? W tym wykładzie przedstawię wyniki moich badań dotyczących dezinformacji, perswazji i intencji stojących za wprowadzającymi w błąd informacjami. Przedstawię jeden z największych polskich zbiorów danych dotyczących dezinformacji, a także nowatorski zbiór danych w języku angielskim. Oba zbiory zostały zaprojektowane w celu uchwycenia technik manipulacyjnych i intencji autorów dezinformacji. Opierając się na tych i innych zasobach, omówię skuteczność obecnych modeli LLM w wykrywaniu dezinformacji, perswazji i intencji oraz wskazuję obiecujące kierunki poprawy ich skuteczności w wykrywaniu dezinformacji.||

||<style="border:0;padding-top:5px;padding-bottom:5px">'''3 listopada 2025'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Gražina Korvel''' (Uniwersytet Wileński) ||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''[[attachment:seminarium-archiwum/2025-11-03.pdf|Tworzenie korpusów mowy dla języków o ograniczonych zasobach]]''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}&#160;{{attachment:seminarium-archiwum/icon-en.gif|Slajdy po angielsku.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Tworzenie różnorodnych, dobrze anotowanych korpusów mowy ma zasadnicze znaczenie dla modeli uczenia maszynowego. Podczas wystąpienia zostaną przedstawione podstawowe zagadnienia dotyczące anotacji korpusów mowy, ze szczególnym uwzględnieniem języka litewskiego. Omówiony zostanie projekt Wielkiego Litewskiego Korpusu Mowy (LIEPA-3), w tym strategia gromadzenia, anotacji i kontroli jakości danych, a także zapewnienia zrównoważonej reprezentacji dialektów, płci oraz grup wiekowych. Poruszone zostaną również kwestie etycznego gromadzenia danych i standaryzacji korpusów.||

||<style="border:0;padding-top:5px;padding-bottom:5px">'''24 listopada 2025'''||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''Jan Eliasz''', '''Mikołaj Langner''', '''Jan Kocoń''' (Politechnika Wrocławska) ||
||<style="border:0;padding-left:30px;padding-bottom:0px">[[https://www.youtube.com/watch?v=4inBbYUbFvA|{{attachment:seminarium-archiwum/youtube.png}}]]  '''[[attachment:seminarium-archiwum/2025-11-24-1.pdf|Language, Culture, and Ideology: Personalizing Offensiveness Detection in Political Tweets with Reasoning LLMs]]''' &#160;{{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:5px">We investigate two complementary strategies for improving the reliability of Large Language Models in classification settings. First, we show that decomposing multi-label classification into a set of independent binary decisions offers clear practical advantages over structured output formulations: it substantially reduces parsing errors, works seamlessly with decoder-only architectures, and delivers faster inference when combined with prefix caching, without requiring any model retraining.||
||<style="border:0;padding-left:30px;padding-bottom:0px">[[https://www.youtube.com/watch?v=DjIhTMfbfHM|{{attachment:seminarium-archiwum/youtube.png}}]]  '''[[attachment:seminarium-archiwum/2025-11-24-2.pdf|Divide, Cache, Conquer. Dichotomic Prompting for Efficient Multi-Label LLM-Based Classfication]]''' &#160;{{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Second, we demonstrate that reasoning-enabled LLMs are markedly better at tasks requiring contextual sensitivity, such as offensive-language annotation. When prompted to adopt a specific role, reasoning models maintain that role more consistently and make more accurate, fine-grained judgments than their non-reasoning counterparts. Viewed together, these findings highlight a unifying principle: LLMs become both more efficient and more context-aware when their decision process is made more structured, whether through task decomposition or through explicit reasoning.||

||<style="border:0;padding-top:5px;padding-bottom:5px">'''1 grudnia 2025'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Filip Kucia''', '''Anna Wróblewska''', '''Bartosz Grabek''', '''Szymon Trochimiak''' (Politechnika Warszawska) ||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''[[attachment:seminarium-archiwum/2025-12-01.pdf|Jak uczynić muzea bardziej interaktywnymi? Studium przypadku „Artystycznego Chatbota”]]''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Wystąpienie dotyczy wyzwań związanych z wdrażaniem chatbotów opartych na dużych modelach językowych (LLM) w publicznych przestrzeniach kultury, na przykładzie naszych doświadczeń z Artistic Chatbot – głosowym agentem konwersacyjnym użytym podczas miesięcznej wystawy sztuki w Akademii Sztuk Pięknych w Warszawie. Koncentrujemy się na dwóch powiązanych zagadnieniach: jak sprawić, by system odpowiadał na pytania dotyczące wielojęzycznej kolekcji artystycznej, oraz jak oceniać jakość tych odpowiedzi. Od strony technicznej omawiamy strategie budowy bazy wiedzy z obsługą wyszukiwania (retrieval-augmented) na podstawie różnorodnych, wielojęzykowych materiałów artystycznych związanych z wystawą oraz kompromisy między modelami działającymi w języku rodzimym a podejściami wykorzystującymi język pośredni i tłumaczenie. Z perspektywy projektowania interakcji przedstawiamy w pełni głosową konfigurację w przestrzeni galerii, w której zwiedzający podchodzą do mikrofonu i zwracają się do systemu za pomocą ustalonych wyrażeń wywołujących, bez użycia ekranów czy klawiatur. W dalszej części wystąpienia omawiamy analizę post factum tego wdrożenia. Na podstawie logów interakcji oraz badania z udziałem anotatorów, którzy ręcznie oceniają odpowiedzi systemu, porównujemy różne konfiguracje modeli i mechanizmów wyszukiwania pod względem dokładności faktograficznej, spójności i trafności względem tematyki wystawy. Studium to służy nam jako punkt wyjścia do dyskusji o tym, jak definiować i mierzyć „dobrą” odpowiedź w konwersacyjnej AI dla dziedzictwa kulturowego oraz w jaki sposób wybory dotyczące języka, tłumaczenia i interakcji głosowej powinny wpływać na przyszłe wdrożenia takich systemów w muzeach i galeriach.||

||<style="border:0;padding-top:5px;padding-bottom:5px">'''19 stycznia 2026'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Matteo Gioele Collu''' (Uniwersytet Padewski) ||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=7srClLH8xVs|{{attachment:seminarium-archiwum/youtube.png}}]]  '''[[attachment:seminarium-archiwum/2026-01-19.pdf|Do you trust your LLM? An introduction to Indirect Prompt Injection]]''' &#160;{{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">In this talk, I will introduce the vulnerabilities that enable indirect prompt injection attacks, where malicious instructions are hidden in external content and unknowingly executed by large language models. To illustrate the risks, I will present two case studies: the LLMail Inject competition, which demonstrated creative adversarial attacks, and an injection scenario targeting the peer review process.||

||<style="border:0;padding-top:5px;padding-bottom:5px">'''23 lutego 2026'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Grzegorz Chodak''' (Politechnika Wrocławska), '''Dariusz Tworzydło''' (Uniwersytet Warszawski) ||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''[[attachment:seminarium-archiwum/2026-02-23.pdf|Czy można przewidywać kryzysy wizerunkowe w organizacjach z pomocą sztucznej inteligencji - wyniki badań zrealizowanych w ramach projektu Crisis Detector]]''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Kryzysy wizerunkowe mogą doprowadzić do upadłości przedsiębiorstw lub zakończenia kariery polityków. Podczas wystąpienia pokazane zostaną wyniki badań dotyczące możliwości wykrywania kryzysów wizerunkowych w treściach medialnych z wykorzystaniem wielkich modeli językowych (LLMs). Omówione zostaną wyniki pokazujące, że LLMy potrafią z wysoką skutecznością rozpoznawać sygnały kryzysowe oraz klasyfikować kryzysy. Zaprezentowane zostaną także praktyczne możliwości budowy systemów wczesnego ostrzegania przed kryzysami wizerunkowymi.||

||<style="border:0;padding-top:5px;padding-bottom:5px">'''13 kwietnia 2026'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Iwona Christop''', '''Marek Kubis''' (Uniwersytet im. Adama Mickiewicza w Poznaniu) ||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=RPgyPCTcCzs|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2026-04-13.pdf|ART: Benchmark do oceny zdolności rozumowania na podstawie sygnału audio w multimodalnych modelach językowych]]''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Duże modele językowe integrują coraz więcej informacji z różnych modalności, w tym sygnałów audio. Istniejące benchmarki do oceny zdolności przetwarzania dźwięku koncentrują się jednak głównie na pojedynczych zadaniach, takich jak transkrypcja lub klasyfikacja. W rezultacie dostarczają one niewiele informacji na temat umiejętności modeli do łączenia różnych informacji w celu wnioskowania. Podczas wystąpienia przedstawimy Audio Reasoning Tasks (ART) – benchmark zaprojektowany do oceny zdolności rozumowania multimodalnych modeli językowych na podstawie sygnału audio. Zbiór zawiera zadania wymagające integracji informacji pochodzących z różnych aspektów nagrania. Omówimy, w jaki sposób zaprojektowano benchmark, i podzielimy się wynikami eksperymentów pokazujących, że obecne modele nadal mają ograniczone możliwości w zakresie rozumowania opartego na sygnale dźwiękowym.||

||<style="border:0;padding-top:5px;padding-bottom:5px">'''27 kwietnia 2026'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Łucja Biel''', '''Katarzyna Wasilewska''', '''Dariusz Koźbiał''' (Instytut Lingwistyki Stosowanej UW) ||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Analiza wielowymiarowa (MDA) polskiego Eurolektu i krajowych odmian języka administracyjnego: wymiary zróżnicowania''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Celem wystąpienia jest przedstawienie wyników pełnej analizy wielowymiarowej (''Multidimensional Analysis'', MDA) polskiego eurolektu w porównaniu z krajową odmianą języka administracyjnego. Eurolekt jest językową hybrydą, kształtowaną przez uwarunkowania instytucjonalne Unii Europejskiej, w tym wielojęzyczność i tłumaczenia. W badaniu zastosowano korpus obejmujący kluczowe gatunki komunikacji instytucjonalnej: akty prawne, wyroki, sprawozdania administracyjne oraz strony internetowe skierowane do obywateli. Analiza pozwoliła wyodrębnić cztery wymiary zróżnicowania (ang. ''variation''): 1) argumentacja vs. informacja, 2) angażujący instruktaż vs. zdystansowany autorytet, 3) preskryptywność vs. narracja oraz 4) bogactwo leksykalne. Wyniki wskazują na istotne różnice w stylach komunikacyjnych instytucji ponadnarodowych i krajowych. Akty prawne i orzeczenia UE cechują się większą preskryptywnością, siecią odesłań oraz argumentacyjnością w porównaniu z polskimi odpowiednikami. Strony internetowe instytucji unijnych wykazują niższy poziom angażowania odbiorcy oraz argumentacji, natomiast sprawozdania unijne charakteryzują się mniej zdystansowanym stylem. Uzyskane wyniki pozwalają zwizualizować zróżnicowanie gatunków instytucjonalnych, a także podobieństwa i różnice między komunikacją instytucjonalną na poziomie unijnym i krajowym, a tym samym lepiej zrozumieć specyfikę polskiego eurolektu.||

||<style="border:0;padding-top:5px;padding-bottom:5px">'''18 maja 2026''' (UWAGA: seminarium połączone z instytutowym odbędzie się wyjątkowo o godz. 12:00) ||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Maciej Ogrodniczuk''', '''Anna Latusek''', '''Alina Wróblewska''', '''Bartosz Żuk''' (Instytut Podstaw Informatyki PAN) ||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Universal Discourse: w stronę wielojęzycznego modelu relacji dyskursywnych''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Podczas wystąpienia przybliżymy założenia projektu [[http://udisc.org/|Universal Discourse]], którego celem jest stworzenie uniwersalnego, wielojęzycznego modelu opisu relacji dyskursywnych. Podstawą teoretyczną prac jest standard ISO 24617-8, służący jako punkt wyjścia do harmonizacji istniejących zasobów korpusowych. W pierwszej części omówimy problematykę segmentacji tekstu na jednostki dyskursywne. Przedstawimy analizę porównawczą różnych formalizmów (takich jak RST czy PDTB) oraz autorską, opartą na regułach heurystykę, która wykazuje wysoką spójność w wyznaczaniu granic jednostek na poziomie zdań składowych. Następnie zaprezentujemy proponowany wielowarstwowy model relacji. Skupimy się na autorskim drzewie decyzyjnym, które pozwala na systematyczną klasyfikację powiązań znaczeniowych (m.in. przyczynowych, warunkowych czy temporalnych). W ostatniej części przedstawimy stan prac nad rozwojem parserów dyskursu oraz wyniki pierwszych eksperymentów.||

||<style="border:0;padding-top:5px;padding-bottom:5px">'''25 maja 2026'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Piotr Przybyła''' (Uniwersytet Pompeu Fabry / Instytut Podstaw Informatyki PAN) ||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Tokenizacja z uwzględnieniem morfologii na przykładzie modelowania języka hiszpańskiego''' &#160;{{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">W czasie prezentacji spróbujemy rozstrzygnąć, w jakim stopniu uwzględnienie informacji morfologicznej może poprawić jakość podziału słów na tokeny i w konsekwencji modelowania języka. Skupimy się na przykładzie hiszpańskiego - języka o morfologii umiarkowanie fleksyjnej, w którym podział na podsłowa może się opierać o strukturę językową. Pokażę jak w miejsce prostych metod bazujących na surowych danych, jak BPE, można wytrenować tokenizator na podstawie słów podzielonych na granicach morfemów. Osiągnięcie tego celu wymaga kilku kroków z udziałem pół-nadzorowanego modelu segmentacji i ręcznie przygotowanych danych ewaluacyjnych. Uzyskany tokenizator może posłużyć do do wytrenowania modelu językowego typu BERT i oceny jego wydajności w kilku zadaniach. Uzyskane rezultaty wskazują na poprawę jakości w porównaniu ze standardowym tokenizatorem, potwierdzając naszą hipotezę o pożytecznym wpływie informacji tego typu na trenowanie modeli dla języków o bogatej morfologii.||

||<style="border:0;padding-top:5px;padding-bottom:5px">'''8 czerwca 2026'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Maciej Rapacz''', '''Aleksander Smywiński-Pohl''' (Akademia Górniczo-Hutnicza) ||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Tytuł zostanie podany wkrótce''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Streszczenie wystąpienia zostanie udostępnione w najbliższym czasie.||

||<style="border:0;padding-top:15px">Zapraszamy także do zapoznania się z [[http://nlp.ipipan.waw.pl/NLP-SEMINAR/previous-p.html|archiwum seminariów z lat 2000–2015]] oraz [[http://zil.ipipan.waw.pl/seminarium-archiwum|listą wystąpień z lat 2015–2025]].||

{{{#!wiki comment

||<style="border:0;padding-top:5px;padding-bottom:5px">'''17 listopada 2025'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Marzena Karpińska''' (Microsoft) ||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''!OneRuler: testowanie wielojęzycznych modeli językowych na długim kontekście''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">W tym wystąpieniu przyjrzymy się jak dobrze modele językowe radzą sobie z wydobywaniem informacji z tekstów do 128 tysięcy tokenów (ok 100 tysięcy słów) w 26 językach, w tym po polsku. Wyniki eksperymentów wskazują, że wraz ze wzrostem długości kontekstu rosną różnice między językami o dużych i małych zasobach danych. Co zaskakujące, nawet minimalne zmiany w poleceniu (dodanie możliwości, że informacja nie istnieje) powodują znaczny spadek skuteczności, szczególnie przy dłuższych tekstach.||



||<style="border:0;padding-top:5px;padding-bottom:5px">'''7 października 2023'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Uczestnicy konkursu PolEval 2024''' ||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Planowana seria prezentacji uczestników zadań PolEvalowych''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Lista wystąpień będzie dostępna wkrótce.||


||<style="border:0;padding-top:5px;padding-bottom:5px">'''11 marca 2024'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Mateusz Krubiński''' (Uniwersytet Karola w Pradze)||
||<style="border:0;padding-left:30px;padding-bottom:15px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Tytuł wystąpienia podamy wkrótce''' &#160;{{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku polskim.}}||



||<style="border:0;padding-top:15px;padding-bottom:5px">'''8 stycznia 2024''' (prezentacja wyników projektu DARIAH.Lab)||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Zespół projektu DARIAH.Lab''' (Instytut Podstaw Informatyki PAN)||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''Tytuł wystąpienia poznamy wkrótce''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie po polsku.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Streszczenie wystąpienia udostępnimy w najbliższym czasie.||


||<style="border:0;padding-top:5px;padding-bottom:5px">'''3 października 2022'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''...''' (...)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Tytuł wystąpienia podamy wkrótce''' &#160;{{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Opis wystąpienia udostępnimy już niedługo.||



WOLNE TERMINY:

ATLAS: Explaining abstractive summarization - Emilia Wiśnios? Albo coś z NASK-owych tematów dot. przetwarzania prawa? Czy to jest to samo?

||<style="border:0;padding-bottom:10px">'''UWAGA''': ze względu na zakaz wstępu do IPI PAN dla osób niezatrudnionych w Instytucie, w stacjonarnej części seminarium mogą brać udział tylko pracownicy IPI PAN i prelegenci (także zewnętrzni). Dla pozostałych uczestników seminarium będzie transmitowane – prosimy o korzystanie z linku przy tytule wystąpienia.||

Uczestnicy Akcji COST CA18231: Multi3Generation: Multi-task, Multilingual, Multi-modal Language Generation:
– Marcin PAPRZYCKI (marcin.paprzycki@ibspan.waw.pl)
– Maria GANZHA (m.ganzha@mini.pw.edu.pl)
– Katarzyna WASIELEWSKA-MICHNIEWSKA (katarzyna.wasielewska@ibspan.waw.pl)


||<style="border:0;padding-top:5px;padding-bottom:5px">'''6 czerwca 2022'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Paula Czarnowska''' (University of Cambridge)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://teams.microsoft.com/l/meetup-join/19%3a06de5a6d7ed840f0a53c26bf62c9ec18%40thread.tacv2/1643554817614?context=%7b%22Tid%22%3a%220425f1d9-16b2-41e3-a01a-0c02a63d13d6%22%2c%22Oid%22%3a%22f5f2c910-5438-48a7-b9dd-683a5c3daf1e%22%7d|{{attachment:seminarium-archiwum/teams.png}}]] '''Tytuł wystąpienia podamy wkrótce''' &#160;{{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Opis wystąpienia udostępnimy już niedługo.||



||<style="border:0;padding-top:5px;padding-bottom:5px">'''2 kwietnia 2020'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Stan Matwin''' (Dalhousie University)||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''Efficient training of word embeddings with a focus on negative examples''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}} {{attachment:seminarium-archiwum/icon-en.gif|Slajdy po angielsku.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">This presentation is based on our [[https://pdfs.semanticscholar.org/1f50/db5786913b43f9668f997fc4c97d9cd18730.pdf|AAAI 2018]] and [[https://aaai.org/ojs/index.php/AAAI/article/view/4683|AAAI 2019]] papers on English word embeddings. In particular, we examine the notion of “negative examples”, the unobserved or insignificant word-context co-occurrences, in spectral methods. we provide a new formulation for the word embedding problem by proposing a new intuitive objective function that perfectly justifies the use of negative examples. With the goal of efficient learning of embeddings, we propose a kernel similarity measure for the latent space that can effectively calculate the similarities in high dimensions. Moreover, we propose an approximate alternative to our algorithm using a modified Vantage Point tree and reduce the computational complexity of the algorithm with respect to the number of words in the vocabulary. We have trained various word embedding algorithms on articles of Wikipedia with 2.3 billion tokens and show that our method outperforms the state-of-the-art in most word similarity tasks by a good margin. We will round up our discussion with some general thought s about the use of embeddings in modern NLP.||

na [[https://www.youtube.com/ipipan|kanale YouTube]].
on [[https://www.youtube.com/ipipan|YouTube]].

Nowe typy:

Aleksandra Gabryszak (DFKI Berlin): 
– https://aclanthology.org/people/a/aleksandra-gabryszak/
– https://www.researchgate.net/profile/Aleksandra-Gabryszak
– miała tekst na warsztacie First Computing Social Responsibility Workshop (http://www.lrec-conf.org/proceedings/lrec2022/workshops/CSRNLP1/index.html) na LREC-u 2022: http://www.lrec-conf.org/proceedings/lrec2022/workshops/CSRNLP1/pdf/2022.csrnlp1-1.5.pdf

Marcin Junczys-Dowmunt przy okazji świąt?
Adam Jatowt?
Piotrek Pęzik? Wrocław?
Kwantyfikatory?
MARCELL? Może Piotrek z Bartkiem?

Umówić się z Brylską, zapytać tę od okulografii, czy to jest PJN
Agnieszka Kwiatkowska – zobaczyć ten jej tekst, moze też coś opowie?
Ew. Kasia Brylska, Monika Płużyczka na seminarium? Marcin Napiórkowski z Karolem?
Maciej Karpiński
Demenko – dawno już ich nie było; można iść po kluczu HLT Days

MTAS?
– NLP dla tekstów historycznych – Marcin/Witek? razem z KORBĄ, pokazać oba ręcznie znakowane korpusy i benchmarki na tagerach – maj,
– może Wrocław mógłby coś pokazać? – pisałem do Maćka P.

– jakieś wystąpienia PolEvalowe?

Tomek Dwojak i inni z https://zpjn.wmi.amu.edu.pl/seminar/? 

Będzie na Data Science Summit:

Using topic modeling for differentiation based on Polish parliament plus person
Aleksander Nosarzewski
Statistician @  Citi

Artykuł o GPT napisał Mateusz Litwin: https://www.linkedin.com/in/mateusz-litwin-06b3a919/
W OpenAI jest jeszcze https://www.linkedin.com/in/jakub-pachocki/
i https://www.linkedin.com/in/szymon-sidor-98164044/


Text data can be an invaluable source of information. In particular, what, how often and in which way we talk about given subjects can tell a lot about us. Unfortunately, manual scrambling through huge text datasets can be a cumbersome task. Luckily, there is a class of unsupervised models - topic models, which can perform this task for us, with very little input from our side. I will present how to use Structural Topic Model (STM) - an enhancement over popular LDA to obtain some kind of measure of differences between given groups or agents of interest, based on an example of Polish parliamentary speeches and political parties.



||<style="border:0;padding-top:5px;padding-bottom:5px">'''12 DATA 2017''' ('''UWAGA: ''' wystąpienie odbędzie się o 13:00 w ramach [[https://ipipan.waw.pl/instytut/dzialalnosc-naukowa/seminaria/ogolnoinstytutowe|seminarium IPI PAN]])||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''OSOBA''' (AFILIACJA)||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''Tytuł zostanie udostępniony w najbliższym czasie''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Opis wystąpienia zostanie udostępniony wkrótce.||

||<style="border:0;padding-left:30px;padding-bottom:5px">'''[[attachment:seminarium-archiwum/201--.pdf|...]]''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}} {{attachment:seminarium-archiwum/icon-en.gif|Slajdy w języku angielskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">...||

}}}