|
Size: 31599
Comment:
|
Size: 34374
Comment:
|
| Deletions are marked like this. | Additions are marked like this. |
| Line 2: | Line 2: |
| = Seminarium „Przetwarzanie języka naturalnego” 2021–22 = | = Seminarium „Przetwarzanie języka naturalnego” 2023–24 = |
| Line 4: | Line 4: |
| ||<style="border:0;padding-bottom:10px">Seminarium [[http://nlp.ipipan.waw.pl/|Zespołu Inżynierii Lingwistycznej]] w [[http://www.ipipan.waw.pl/|Instytucie Podstaw Informatyki]] [[http://www.pan.pl/|Polskiej Akademii Nauk]] odbywa się średnio co 2 tygodnie, zwykle w poniedziałki o godz. 10:15 (obecnie online – prosimy o korzystanie z linku przy tytule wystąpienia) i ma charakter otwarty. Poszczególne referaty ogłaszane są na [[http://lists.nlp.ipipan.waw.pl/mailman/listinfo/ling|Polskiej Liście Językoznawczej]] oraz na stronie [[https://www.facebook.com/lingwistyka.komputerowa|Lingwistyka komputerowa]] na Facebooku. Nagrania wystąpień dostępne są na [[https://www.youtube.com/ipipan|kanale YouTube]].||<style="border:0;padding-left:30px;">[[seminar|{{attachment:seminarium-archiwum/en.png}}]]|| | ||<style="border:0;padding-bottom:10px">Seminarium [[http://nlp.ipipan.waw.pl/|Zespołu Inżynierii Lingwistycznej]] w [[http://www.ipipan.waw.pl/|Instytucie Podstaw Informatyki]] [[http://www.pan.pl/|Polskiej Akademii Nauk]] odbywa się średnio co 2 tygodnie, zwykle w poniedziałki o godz. 10:15 (niekiedy online – prosimy o korzystanie z linku przy tytule wystąpienia) i ma charakter otwarty. Poszczególne referaty ogłaszane są na [[http://lists.nlp.ipipan.waw.pl/mailman/listinfo/ling|Polskiej Liście Językoznawczej]] oraz na stronie [[https://www.facebook.com/lingwistyka.komputerowa|Lingwistyka komputerowa]] na Facebooku. Nagrania wystąpień dostępne są na [[https://www.youtube.com/ipipan|kanale YouTube]].||<style="border:0;padding-left:30px;">[[seminar|{{attachment:seminarium-archiwum/en.png}}]]|| |
| Line 6: | Line 6: |
| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''11 października 2021''' (seminarium połączone z [[https://www.ipipan.waw.pl/instytut/dzialalnosc-naukowa/seminaria/ogolnoinstytutowe|instytutowym]]) || ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Adam Przepiórkowski''' (Instytut Podstaw Informatyki PAN, Uniwersytet Warszawski)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''[[attachment:seminarium-archiwum/2021-10-11.pdf|Kwantyfikatory a sprawa polska]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">O kwantyfikacji piszą prawie wszyscy semantycy i w prawie każdym tekście dotyczącym semantyki formalnej, lecz nikt i nigdy nie zaproponował pełnej analizy semantycznej zjawiska zilustrowanego niniejszym zdaniem. W zdaniu tym występują konstrukcje współrzędnie złożone składające się z wyrażeń kwantyfikatorowych pełniących różne funkcje w zdaniu: „prawie wszyscy semantycy i w prawie każdym tekście…” oraz „nikt i nigdy”. Konstrukcje takie są stosunkowo częste w języku polskim i występują także w innych językach słowiańskich oraz w pewnych językach sąsiadujących z językami słowiańskimi, np. w węgierskim. W niniejszym referacie zaproponuję analizę semantyczną takich konstrukcji opartą na pojęciu kwantyfikatorów uogólnionych (Mostowski; Lindström; Barwise i Cooper), a konkretnie — kwantyfikatorów poliadycznych (van Benthem; Keenan; Westerståhl). Do pełnego zrozumienia referatu powinno wystarczyć obycie z formułami logiki predykatów; wszystkie pojęcia lingwistyczne (w tym „konstrukcje współrzędnie złożone”, „funkcje w zdaniu”) i logiczne (w tym „kwantyfikatory uogólnione” i „kwantyfikatory poliadyczne”) zostaną wyjaśnione w referacie.|| |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''9 października 2023'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Agnieszka Mikołajczyk-Bareła''', '''Wojciech Janowski''' (!VoiceLab), '''Piotr Pęzik''' (Uniwersytet Łódzki / !VoiceLab), '''Filip Żarnecki''', '''Alicja Golisowicz''' (!VoiceLab) || ||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''[[attachment:seminarium-archiwum/2023-10-09.pdf|TRURL.AI: Dostrajanie dużych generatywnych modeli językowych na wielojęzycznych zbiorach instrukcji]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Wystąpienie stanowi podsumowanie kilkumiesięcznych doświadczeń z zakresu dostrajania (ang. fine-tuning) generatywnych modeli językowych na dużych, dwujęzycznych zbiorach instrukcji. Wynikiem tych prac jest otwarta wersja modelu Trurl (zob. trurl.ai), który w założeniach ma zachować poziom działania modelu wyjściowego na otwartych zbiorach ewaluacyjnych, a jednocześnie charakteryzować się lepszą skutecznością w ściśle określonych domenach i zastosowaniach, takich jak ekstrakcja informacji z interakcji biznesowych oraz etykietowanie danych ze szczególnym uwzględnieniem przetwarzania tekstów polskich. Modelem bazowym dla Trurla były modele [[https://arxiv.org/abs/2307.09288|Llama 2]] o wielkości 7 i 13 miliardów parametrów. W referacie opiszemy proces przygotowania zbiorów instrukcji, treningu oraz kwantyzacji wynikowych modeli. Podamy także przykłady użycia dostrojonych modeli na wybranych zadaniach.|| |
| Line 11: | Line 11: |
| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''18 października 2021'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Przemysław Kazienko''', '''Jan Kocoń''' (Politechnika Wrocławska)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=mvjO4R1r6gM|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2021-10-18.pdf|Spersonalizowane przetwarzanie języka naturalnego]]'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Wiele zadań z zakresu przetwarzania języka naturalnego, takich jak klasyfikacja tekstów obraźliwych czy emocjonalnych, ma z natury charakter subiektywny. Jest to duże wyzwanie, szczególnie w odniesieniu do procesu anotacji. Ludzie postrzegają treści w bardzo indywidualny sposób. Większość obecnie stosowanych procedur anotacji ma na celu osiągnięcie wysokiego poziomu zgodności. Większość istniejących metod uczenia maszynowego opiera się na uzgodnionych lub większościowych anotacjach. Jednakże, wytyczne dotyczące anotacji subiektywnych treści mogą ograniczać swobodę podejmowania decyzji przez anotatorów. Motywowani umiarkowaną zgodnością anotacji w zbiorach danych dotyczących obraźliwych i emocjonalnych treści, stawiamy hipotezę, że należy wprowadzić spersonalizowane podejście do tak subiektywnych zadań. Proponujemy nowe architektury głębokiego uczenia, które biorą pod uwagę nie tylko treść, ale również charakterystykę danego człowieka. Proponujemy różne podejścia do uczenia reprezentacji i przetwarzania danych o odbiorcach tekstów. Eksperymenty przeprowadziliśmy na czterech zestawach danych. Pierwsze trzy, to dyskusje z Wikipedii, anotowane takimi zjawiskami, jak atak, agresja i toksyczność. Czwarty zbiór to opinie anotowane dziesięcioma kategoriami emocji. Wszystkie nasze modele oparte o reprezentację człowieka znacząco poprawiają jakość predykcji w zadaniach subiektywnych, ocenianych z perspektywy jednostki. Dodatkowo, opracowaliśmy wymagania dotyczące procedur anotacji, personalizacji i przetwarzania treści, aby uczynić nasze rozwiązania zorientowanymi na człowieka.|| |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''16 października 2023'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Konrad Wojtasik''', '''Vadim Shishkin''', '''Kacper Wołowiec''', '''Arkadiusz Janz''', '''Maciej Piasecki''' (Politechnika Wrocławska)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''[[attachment:seminarium-archiwum/2023-10-16.pdf|Ewaluacja i trenowanie modeli do wyszukiwania informacji w ustawieniu zero-shot dla różnych domen dokumentów]]'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Przeszukiwanie dużych kolekcji dokumentów w celu odnalezienia interesujących nas informacji jest niezwykle ważnym kierunkiem badawczym w dziedzinie przetwarzania języka naturalnego. Jest to kluczowy komponent w systemach odpowiadania na pytania, gdzie często model odpowiadający korzysta z informacji zawartych w bazie danych z aktualną wiedzą. Pozwala to nie tylko na aktualizację wiedzy, na podstawie której system odpowiada na zapytania użytkownika, ale również ogranicza jego halucynacje. Aktualnie modele do wyszukiwania informacji są sieciami neuronowymi i wymagają dużych zasobów uczących do ich wytrenowania. Przez wiele lat, metody dopasowania leksykalnego jak BM25, osiągały lepsze wyniki niż wytrenowane modele, jednak aktualne architektury i rozległe zbiory danych pozwalają na prześcignięcie leksykalnych rozwiązań. W prezentacji przedstawię dostępne zbiory służące do ewaluacji i trenowania aktualnych architektur do wyszukiwania informacji w kolekcjach dokumentów z różnych domen, jak i kierunki rozwoju na przyszłość.|| |
| Line 16: | Line 16: |
| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''8 listopada 2021'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Ryszard Tuora''', '''Łukasz Kobyliński''' (Instytut Podstaw Informatyki PAN)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=KeeVWXXQlw8|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2021-11-08.pdf|Wykorzystanie analizy zależnościowej w automatycznej odmianie wyrażeń wielowyrazowych dla języka polskiego]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Generowanie języka naturalnego dla języków o bogatej morfologii może zyskać na automatycznych systemach do odmiany słów. W tej pracy prezentujemy system, który potrafi radzić sobie z tym zadaniem, ze szczególnym naciskiem na pracę z wyrażeniami wielowyrazowymi (MWE). Procedura opiera się na regułach wydobytych automatycznie z treebanku zależnościowego. Utworzony system jest następnie ewaluowany na słowniku polskich wyrażeń wielowyrazowych. Dodatkowo, zbliżony algorytm może zostać wykorzystany do lematyzacji wyrażeń wielowyrazowych. Sam system może zostać zaś zaaplikowany także do innych języków, o zbliżonych mechanizmach morfologicznych – zaprezentujemy proste rozwiązanie przygotowane dla języka rosyjskiego.|| |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''30 października 2023'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Agnieszka Faleńska''' (Uniwersytet w Stuttgarcie)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''[[attachment:seminarium-archiwum/2023-10-30.pdf|Steps towards Bias-Aware NLP Systems]]'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:5px">Dla wielu, systemy przetwarzania języka naturalnego (NLP) stały się codziennością. Ich zastosowania sięgają od automatycznego tłumaczenia dokumentów po asystentów osobistych obsługiwanych głosem. W ostatnich latach, ten rosnący wpływ narzędzi AI na życie ludzi wywołuje znaczące obawy dotyczące możliwych szkód, jakie mogą one wyrządzić.|| ||<style="border:0;padding-left:30px;padding-bottom:15px">W tej prezentacji rozpocznę od przedstawienia kilku przykładów takich szkodliwych zachowań i omówię ich potencjalne źródła. Będę argumentować, że problemy związane z uprzedzeniami w modelach NLP powinny być rozwiązywane poprzez rozwijanie naszego zrozumienia ich źródeł językowych. Następnie prezentacja skoncentruje się na trzech powszechnie używanych źródłach danych: Wikipedii, tekstach instruktażowych i forum dyskusyjnym. Poprzez te przykłady pokażę, że niezależnie od perspektywy (czy mówimy o kimś, do kogoś, czy jako ktoś), subtelne uprzedzenia są obecne we wszystkich tych zbiorach danych i mogą przyczynić się do szkodliwych efektów modeli NLP.|| |
| Line 21: | Line 22: |
| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''29 listopada 2021''' (seminarium połączone z [[https://www.ipipan.waw.pl/instytut/dzialalnosc-naukowa/seminaria/ogolnoinstytutowe|instytutowym]]) || ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Piotr Przybyła''' (Instytut Podstaw Informatyki PAN)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=zJssN3-5cyg|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2021-11-29.pdf|Kiedy dokładność klasyfikacji to za mało: wyjaśnianie oceny wiarygodności tekstu i pomiar reakcji użytkowników]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Automatyczna ocena wiarygodności tekstu jest ostatnio niezwykle popularnym zadaniem NLP, dla którego proponuje się wiele rozwiązań ewaluowanych na podstawie dokładności klasyfikacji. Tymczasem niewiele uwagi poświęca się scenariuszom wdrożenia tego typu modeli, które gwarantowałyby zgodne z oczekiwaniami ograniczenie rozprzestrzeniania się dezinformacji. W ramach wystąpienia przedstawiamy prace, w ramach których zaimplementowano dwa tego typu modele w formie rozszerzenia do przeglądarki internetowej i zbadano ich interakcję z użytkownikami, co pozwoliło odpowiedzieć na kilka ważnych pytań. Jak można skompresować duże modele klasyfikacji tekstu, aby wdrożyć je w środowisku o niewielkich zasobach? Jakie techniki wizualizacji i wyjaśniania modeli są najbardziej efektywne we współpracy z człowiekiem? Czy korzystanie z takich narzędzie w istocie zwiększa zdolność do rozpoznawania treści 'fake news'?|| |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''13 listopada 2023'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Piotr Rybak''' (Instytut Podstaw Informatyki PAN)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''[[attachment:seminarium-archiwum/2023-11-13.pdf|Najnowsze postępy w rozwoju systemów do odpowiadania na pytania w języku polskim]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}} {{attachment:seminarium-archiwum/icon-en.gif|Slajdy po angielsku.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Mimo że odpowiadanie na pytania (ang. ''Question Answering'') jest jednym z popularniejszych zagadnień przetwarzania języka naturalnego, to do niedawna było ono praktycznie nieobecne w polskim środowisku naukowym. Ostatnie lata przyniosły jednak rozkwit prac związanych z tym tematem. Podczas tego wystąpienia opowiem na czym polega zagadnienie odpowiadania na pytania, jak działają obecne systemy rozwiązujące ten problem, a także jakie zbiory danych oraz modele są dostępne dla języka polskiego. W szczególności opowiem o zasobach tworzonych w IPI PAN, czyli zbiorach danych [[https://huggingface.co/datasets/ipipan/polqa|PolQA]] i [[https://huggingface.co/datasets/ipipan/maupqa|MAUPQA]] oraz modelu [[https://huggingface.co/ipipan/silver-retriever-base-v1|Silver Retriever]]. Na koniec wskażę dalsze kierunki prac, które wciąż pozostają otwarte jeśli chodzi o odpowiadanie na pytania w języku polskim.|| |
| Line 26: | Line 27: |
| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''6 grudnia 2021'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Joanna Byszuk''' (Instytut Języka Polskiego PAN)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''W kierunku stylometrii multimodalnej – możliwości i wyzwania nowego podejścia do analizy filmów i seriali'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">W wystąpieniu przedstawiamy nowe podejście do ilościowej analizy utworów multimodalnych, na przykładzie korpusu serialu telewizyjnego Doctor Who, oparte na stylometrii oraz teorii multimodalnej analizy filmowej. Metody stylometryczne od dawna cieszą się popularnością w analizie literatury. Zwykle opierają się na porównywaniu tekstów pod względem częstotliwości użycia określonych cech, które tworzą tak zwane „stylometryczne odciski palca”, czyli wzorce charakterystyczne dla autorów, gatunków lub innych czynników. Metody te jednak rzadko stosuje się do danych innych niż tekst, choć w ostatnich latach pojawiły się badania wykorzystujące stylometrię do analizy ruchów w tańcu (Miguel Escobar Varela) czy muzyce (Backer i Kranenburg). Teoria multimodalnej analizy filmu jest z kolei dość nowym podejściem, rozwijanym głównie przez Johna Batemana i Janinę Wildfeuer, podkreślającym istotność badania informacji pochodzących z różnych modalności wizualnych, językowych i dźwiękowych dla pełniejszej interpretacji. W prezentowanym podejściu stylometryczne metody porównywania utworów są zastosowane do różnych typów cech zaczerpniętych z obrazu, dźwięku oraz treści dialogów. W wystąpieniu omawiamy zalety i wyzwania takiego podejścia, a także ogólne możliwości ilościowej analizy mediów filmowych.|| |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''11 grudnia 2023''' (seria krótkich wystąpień autorstwa badaczy z Coventry University)|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Xiaorui Jiang''', '''Opeoluwa Akinseloyin''', '''Vasile Palade''' (Coventry University)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''[[attachment:seminarium-archiwum/2023-12-11-1.pdf|Towards More Human-Effortless Systematic Review Automation]]'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w jęz. angielskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:10px">Systematic literature review (SLR) is the standard tool for synthesising medical and clinical evidence from the ocean of publications. SLR is extremely expensive. SLR is extremely expensive. AI can play a significant role in automating the SLR process, such as for citation screening, i.e., the selection of primary studies-based title and abstract. [[http://systematicreviewtools.com/|Some tools exist]], but they suffer from tremendous obstacles, including lack of trust. In addition, a specific characteristic of systematic review, which is the fact that each systematic review is a unique dataset and starts with no annotation, makes the problem even more challenging. In this study, we present some seminal but initial efforts on utilising the transfer learning and zero-shot learning capabilities of pretrained language models and large language models to solve or alleviate this challenge. Preliminary results are to be reported.|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Kacper Sówka''' (Coventry University)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''[[attachment:seminarium-archiwum/2023-12-11-2.pdf|Attack Tree Generation Using Machine Learning]]'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w jęz. angielskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:10px">My research focuses on applying machine learning and NLP to the problem of cybersecurity attack modelling. This is done by generating "attack tree" models using public cybersecurity datasets (CVE) and training a siamese neural network to predict the relationship between individual cybersecurity vulnerabilities using a DistilBERT encoder fine-tuned using Masked Language Modelling.|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Xiaorui Jiang''' (Coventry University)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''[[attachment:seminarium-archiwum/2023-12-11-3.pdf|Towards Semantic Science Citation Index]]'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w jęz. angielskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:10px">It is a difficult task to understand and summarise the development of scientific research areas. This task is especially cognitively demanding for postgraduate students and early-career researchers, of the whose main jobs is to identify such developments by reading a large amount of literature. Will AI help? We believe so. This short talk summarises some recent initial work on extracting the semantic backbone of a scientific area through the synergy of natural language processing and network analysis, which is believed to serve a certain type of discourse models for summarisation (in future work). As a small step from it, the second part of the talk introduces how comparison citations are utilised to improve multi-document summarisation of scientific papers.|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Xiaorui Jiang''', '''Alireza Daneshkhah''' (Coventry University)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''[[attachment:seminarium-archiwum/2023-12-11-4.pdf|Natural Language Processing for Automated Triaging at NHS]]'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w jęz. angielskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15x">In face of a post-COVID global economic slowdown and aging society, the primary care units in the National Healthcare Services (NHS) are receiving increasingly higher pressure, resulting in delays and errors in healthcare and patient management. AI can play a significant role in alleviating this investment-requirement discrepancy, especially in the primary care settings. A large portion of clinical diagnosis and management can be assisted with AI tools for automation and reduce delays. This short presentation reports the initial studies worked with an NHS partner on developing NLP-based solutions for the automation of clinical intention classification (to save more time for better patient treatment and management) and an early alert application for Gout Flare prediction from chief complaints (to avoid delays in patient treatment and management).|| |
| Line 31: | Line 41: |
| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''20 grudnia 2021'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Piotr Pęzik''' (Uniwersytet Łódzki / !VoiceLab), '''Agnieszka Mikołajczyk''', '''Adam Wawrzyński''' (!VoiceLab), '''Bartłomiej Nitoń''', '''Maciej Ogrodniczuk''' (Instytut Podstaw Informatyki PAN)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''[[attachment:seminarium-archiwum/2021-12-20.pdf|Generowanie słów kluczowych z krótkich tekstów za pomocą modelu T5]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Tematem wystąpienia jest ewaluacja zastosowań polskiej wersji modelu językowego T5 (plT5) w wydobywaniu słów kluczowych z krótkich tekstów. Autorzy opisują trening i testy modelu na opracowanym w ramach projektu [[https://curlicat.eu/|CURLICAT]] [[http://clip.ipipan.waw.pl/POSMAC|Otwartym Korpusie Metadanych Nauki Polskiej]]. Porównana zostanie jakość słów kluczowych generowanych czterema różnymi metodami: a) plT5 jako model text-to-text, b) extremeText jako klasyfikator z nadzorem, c) TermoPL jako metoda ekstrakcji terminologii oraz d) KeyBERT jako alternatywny model transformerowy. Zilustrowana zostanie również nieoczekiwana przenośność wytrenowanego modelu plT5 do domen tematycznych niezwiązanych z korpusem streszczeń artykułów naukowych, takich jak teksty informacyjne, czy też transkrypcje dialogów telefonicznych.|| |
||<style="border:0;padding-top:15px;padding-bottom:5px">'''8 stycznia 2024'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Danijel Korzinek''' (Polsko-Japońska Akademia Technik Komputerowych)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''[[attachment:seminarium-archiwum/2024-01-08.pdf|ParlaSpeech – Tworzenie wielkoskalowych korpusów mowy w projekcie ParlaMint]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie po polsku.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Celem tego podprojektu było opracowanie procesów i stworzenie narzędzi pozwalających na powiązanie tekstowych korpusów stworzonych w ramach projektu [[https://www.clarin.eu/parlamint|ParlaMint]] z odpowiadającymi im materiałami audio i wideo dostępnymi w Internecie. Zadanie to było oczywiście bardziej złożone niż się to może intuicyjnie wydawać i jego powodzenie było uzależnione w największej mierze od poprawnego dopasowania bardzo długiego nagrania audio (kilkanaście godzin, czyli cały dzień pracy parlamentu) do odpowiadającego mu transkryptu, wraz ze wszystkimi błędami i niedokładnościami w dopasowaniu i kolejności występującymi między tymi dwoma modalnościami. Projekt został stworzony w oparciu o całkowicie otwarte oprogramowanie i modele, które są dostępne w publicznym repozytorium i mogą być zastosowane do innych projektów o podobnym zakresie wymagań. Na obecną chwile, wspomnianymi narzędziami w pełni opracowano korpusy w dwóch językach (polski i chorwacki), ale więcej jest tworzonych w tej chwili.|| |
| Line 36: | Line 46: |
| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''31 stycznia 2022'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Tomasz Limisiewicz''' (Uniwersytet Karola w Pradze)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=d1WHbE2gLjk|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2022-01-31.pdf|Interpretacja i kontrola cech językowych w reprezentacjach sieci neuronowych]]'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Sieci neuronowe osiągają niedoścignione wyniki w wielu zadaniach związanych z przetwarzaniem języka naturalnego. Niestety, modele neuronowe są czarnymi skrzynkami; nie rozumiemy mechanizmów stojących za ich sukcesami. W swoim wystąpieniu przedstawiam narzędzia i metody używane do interpretacji modeli. Skupiam się przede wszystkim na reprezentacjach w modelach językowych typu Transformer i nowej metodzie – sondzie ortogonalnej (ang. ''orthogonal probe''), która oferuje dobry wgląd w stany ukryte sieci. Wyniki pokazują, że poszczególne sygnały językowe są zakodowane w Transformerach w sposób odrębny, dzięki temu możemy rozdzielić je w reprezentacji wektorowej. Identyfikacja specyficznych informacji zakodowanych w sieci pozwala na usunięcie niepożądanego ukierunkowania modelu (ang. ''model bias'').|| |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''12 lutego 2024'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Tsimur Hadeliya''', '''Dariusz Kajtoch''' (Allegro ML Research)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''[[attachment:seminarium-archiwum/2024-02-12.pdf|Ewaluacja i analiza uczenia kontekstowego dla zadania klasyfikacji w języku polskim]]'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie po angielsku.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">With the advent of language models such as ChatGPT, we are witnessing a paradigm shift in the way we approach natural language processing tasks. Instead of training a model from scratch, we can now solve tasks by designing appropriate prompts and choosing suitable demonstrations as input to a generative model. This approach, known as in-context learning (ICL), has shown remarkable capabilities for classification tasks in the English language . In this presentation, we will investigate how different language models perform on Polish classification tasks using the ICL approach. We will explore the effectiveness of various models, including multilingual and large-scale models, and compare their results with existing solutions. Through a comprehensive evaluation and analysis, we aim to gain insights into the strengths and limitations of this approach for Polish classification tasks. Our findings will shed light on the potential of ICL for the Polish language. We will discuss challenges and opportunities, and propose directions for future work.|| |
| Line 41: | Line 51: |
| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''28 lutego 2022'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Maciej Chrabąszcz''' (Sages)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=zB26bW-t5wA|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2022-02-28.pdf|Generowanie języka naturalnego na przykładzie opisywania zdjęć]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Podczas seminarium omawiam problem generacji opisów obrazów. Prezentuję modele testowane w ramach tworzenia rozwiązania do automatycznego opisywania zdjęć, m.in. modele z atencją, wykorzystujące wcześniej przetrenowane modele wizyjne i generujące tekst.|| |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''29 lutego 2024'''|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''Seminarium wyjazdowe: Warsztat „Analiza danych parlamentarnych”'''|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''Wprowadzenie'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">12:00–12:10: '''Powitanie'''|| ||<style="border:0;padding-left:30px;padding-bottom:10px">12:10–12:40: '''[[attachment:seminarium-archiwum/2024-02-29-1.pdf|Korpus Dyskursu Parlamentarnego i korpus ParlaMint]]''' (Maciej Ogrodniczuk)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''Zgłoszenia konkursowe'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">12:40–13:00: '''[[attachment:seminarium-archiwum/2024-02-29-2.pdf|Aplikacja do analizy sentymentu wypowiedzi parlamentarzystów RP]]''' (Bartłomiej Klimowski)|| ||<style="border:0;padding-left:30px;padding-bottom:0px">13:00–13:20: '''[[attachment:seminarium-archiwum/2024-02-29-3.pdf|Analiza dynamiki emocji w debatach parlamentarnych o wojnie w Ukrainie]]''' (Konrad Kiljan i Ewelina Gajewska)|| ||<style="border:0;padding-left:30px;padding-bottom:10px">13:20–13:40: '''[[attachment:seminarium-archiwum/2024-02-29-4.pdf|Język wrażliwy na płeć (gender-fair language) w polskim parlamencie: badanie korpusowe debat parlamentarnych w korpusie ParlaMint]]''' (Aleksandra Tomaszewska i Anna Jamka)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''Wykład na zaproszenie'''|| ||<style="border:0;padding-left:30px;padding-bottom:10px">14:00–15:00: '''[[attachment:seminarium-archiwum/2024-02-29-5.pdf|Zmiany w polszczyźnie ostatnich stu lat w zwierciadle debat parlamentarnych]]''' (Marek Łaziński)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''Dyskusja panelowa'''|| ||<style="border:0;padding-left:30px;padding-bottom:10px">15:00–15:45: '''Przetwarzanie danych parlamentarnych: co dalej?''' (Członkowie Kapituły Konkursu)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''Zakończenie'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">15:45–15:50: '''Wręczenie dyplomów'''|| ||<style="border:0;padding-left:30px;padding-bottom:15px">15:50–16:00: '''Podsumowanie warsztatu'''|| |
| Line 46: | Line 68: |
| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''28 marca 2022'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Tomasz Stanisławek''' (Applica)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=NrDh-UIfgwU|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2022-03-28.pdf|Ekstrakcja informacji z dokumentów o bogatej strukturze graficznej]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Szybki rozwój dziedziny NLP w ostatnich latach (pojawienie się modeli języka BERT, RoBERTa, T5, …) spopularyzował użycie technik ekstrakcji informacji w celu automatyzacji procesów biznesowych. Niestety, większość dokumentów biznesowych zawiera w sobie nie tylko zwykły tekst, ale również różnego rodzaju struktury graficzne (przykładowo: tabele, listy, tekst pogrubiony czy formularze), które uniemożliwiają poprawne przetwarzanie aktualnie istniejącymi metodami (tekst wczytywany do modelu w postaci sekwencji tokenów). W trakcie wystąpienia omówię: a) problemy istniejących metod wykorzystywanych do ekstrakcji informacji, b) Kleister – nowe zbiory danych utworzone na potrzeby testowania nowych modeli c) LAMBERT – nowy model języka z wstrzykniętą informacją o pozycji tokenów na stronie, d) dalsze kierunki rozwoju dziedziny.|| |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''25 marca 2024'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Piotr Przybyła''' (Uniwersytet Pompeu Fabry / Instytut Podstaw Informatyki PAN)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''[[attachment:seminarium-archiwum/2024-03-25.pdf|Czy klasyfikatory wiarygodności tekstu są odporne na działania antagonistyczne?]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Automatyczne klasyfikatory tekstu wykorzystuje się szeroko do pomocy w moderowaniu platform udostępniających treści generowane przez użytkowników, szczególnie sieci społecznościowych. Mogą być one używane do odsiewania treści nieprzyjaznych, dezinformujących, manipulujących lub wprost nielegalnych. Jednak trzeba wziąć pod uwagę, że autorzy takich tekstów często mają silną motywację do ich rozpowszechniania i mogą próbować modyfikować oryginalną treść, aż znajdą takie sformułowanie, które przedostanie się przez automatyczny filtr. Takie zmodyfikowane wersje oryginalnych danych, nazywane przykładami antagonistycznymi, odgrywają kluczową rolę w badaniu odporności modeli ML na ataki zmotywowanych aktorów. Wystąpienie będzie poświęcone systematycznej analizie tego problemu w kontekście wykrywania dezinformacji. Pokażę konkretne przykłady, gdzie podmiana pozornie nieistotnych słów powoduje zmianę decyzji klasyfikatora, jak również framework BODEGA do systematycznej oceny odporności modeli, wykorzystany również w zadaniu InCrediblAE na [[https://checkthat.gitlab.io/clef2024/task6/|warsztatach ewaluacyjnych CheckThat!]] na konferencji [[https://clef2024.imag.fr/|CLEF 2024]].|| |
| Line 51: | Line 73: |
| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''11 kwietnia 2022'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Daniel Ziembicki''' (Uniwersytet Warszawski), '''Anna Wróblewska''', '''Karolina Seweryn''' (Politechnika Warszawska)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=cU1y78uFCps|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2022-04-11.pdf|Wnioskowanie i faktywność w języku polskim — zbiór danych eksperckich i benchmarki]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Przedmiotem wystąpienia będą cztery zagadnienia: (1) zjawisko faktywności we współczesnej polszczyźnie, (2) wykrywanie relacji wynikania, sprzeczności i niezależności w tekście, (3) stworzony przez nas językowy zbiór danych skupiony na opozycji faktywność-niefaktywność oraz (4) omówienie wyników wytrenowanych na zbiorze danych z punktu (3) modeli ML, których celem było przewidywanie relacji semantycznych z punktu (2).|| |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''28 marca 2024'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Krzysztof Węcel''' (Uniwersytet Ekonomiczny w Poznaniu)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''[[attachment:seminarium-archiwum/2024-03-28.pdf|Wiarygodność informacji w kontekście procesu fact-checkingu]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Prezentacja będzie skupiała się na tematyce projektu !OpenFact, który jest odpowiedzią na problem fake newsów. W ramach projektu opracowujemy metody, które pozwalają na weryfikację wiarygodności informacji. W celu zapewnienia poprawności metodycznej bazujemy na procesie stosowanym przez agencje fact-checkingowe. Działania te opierają się na złożonych zbiorach danych, pozyskiwanych m.in. z !ClaimReview, Common Crawl czy poprzez monitoring mediów społecznościowych i ekstrakcję stwierdzeń z tekstów. Istotne jest również ocenianie informacji pod kątem jej wartości do weryfikacji (checkworthiness) oraz wiarygodności źródeł, których reputacja może wynikać z publikacji z !OpenAlex lub Crossref. Analiza stylometryczna pozwala na określenie autorstwa, a porównanie ludzkiej i maszynowej pracy otwiera nowe możliwości w wykrywaniu użycia sztucznej inteligencji. Używamy zarówno małych modeli językowych, jak i LLM uruchamianych zdalnie w różnych wariantach. Zbudowaliśmy duże zbiory stwierdzeń, które mogą służyć do weryfikacji nowych tekstów poprzez badanie podobieństwa semantycznego. Opisane są one dodatkowymi wciąż rozbudowywanymi metadanymi pozwalającymi na realizację różnych scenariuszy użycia.|| |
| Line 56: | Line 78: |
| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''16 maja 2022'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Inez Okulska''', '''Anna Zawadzka''', '''Michał Szczyszek''', '''Anna Kołos''', '''Zofia Cieślińska''' (NASK)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=u5A3SNw0a7M|{{attachment:seminarium-archiwum/youtube.png}}]] '''Efekt(ywność) stylu, czyli jak i po co kodować wskaźniki morfosyntaktyczne całych dokumentów'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">A gdyby tak reprezentować tekst dowolnej długości za pomocą jednego, równego, i dodatkowo w pełni interpretowalnego wektora? Bez korpusu do uczenia, bez słownika pretrenowanych osadzeń, pojedynczo, na miejscu lub na wynos? Czemu nie! Wektory !StyloMetrix to wykorzystująca bogactwo biblioteki spaCy kombinacja lingwistycznych metryk. Takie podejście oczywiście pomija reprezentację semantyki pojedynczych słów czy fraz i teoretycznie nie pozwala na detekcję konkretnych tematów. Chyba że – semantyka niesiona jest również przez styl? Dotychczasowe eksperymenty, jak i rezultaty badań filologicznych pokazują, że obszary te są ze sobą mocno splecione. Okazuje się bowiem, że – przykładowo – treści niewłaściwe dla dzieci czy młodzieży to nie tylko oczywisty zestaw zakazanej leksyki, lecz także kombinacja charakterystycznych wskaźników morfosyntaktycznych tekstu. Są one tak wyraziste i dystynktywne, że korzystając wyłącznie z reprezentacji !StyloMetrix, można osiągnąć precyzję na poziomie 90% w zadaniu klasyfikacji wieloklasowej. Ponadto okazuje się, że skoro każda wartość wektora jest znormalizowanym wskaźnikiem konkretnej gramatycznej cechy dokumentu, to można się również czegoś dowiedzieć na temat lingwistycznych wyznaczników danego stylu. Taka konstrukcja metryk to też krok w stronę interpretowalności algebraicznych metod selekcji cech. Przedstawione w wystąpieniu eksperymenty będą opierały się na treściach opublikowanych w Internecie.|| |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''25 kwietnia 2024'''|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Seminarium podsumowujące prace nad [[https://kwjp.pl|Korpusem Współczesnego Języka Polskiego (Dekada 2011–2020)]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wszystkie wystąpienia w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:0px">11:30–11:35: '''[[attachment:seminarium-archiwum/2024-04-25-1.pdf|O projekcie]]''' (Małgorzata Marciniak)|| ||<style="border:0;padding-left:30px;padding-bottom:0px">11:35–12:05: '''[[attachment:seminarium-archiwum/2024-04-25-2.pdf|Korpus Współczesnego Języka Polskiego, Dekada 2011−2020]]''' (Marek Łaziński)|| ||<style="border:0;padding-left:30px;padding-bottom:0px">12:05–12:35: '''[[attachment:seminarium-archiwum/2024-04-25-3.pdf|Znakowanie, lematyzacja, frekwencja]]''' (Witold Kieraś)|| ||<style="border:0;padding-left:30px;padding-bottom:0px">12:35–13:00: Przerwa kawowa|| ||<style="border:0;padding-left:30px;padding-bottom:0px">13:00–13:30: '''[[attachment:seminarium-archiwum/2024-04-25-4.pdf|Hybrydowa reprezentacja informacji składniowej]]''' (Marcin Woliński)|| ||<style="border:0;padding-left:30px;padding-bottom:15px">13:30–14:15: '''[[attachment:seminarium-archiwum/2024-04-25-5.pdf|Dyskusja o przyszłości korpusów]]'''|| |
| Line 61: | Line 87: |
| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''23 maja 2022'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Karolina Stańczak''' (Uniwersytet Kopenhaski)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://teams.microsoft.com/l/meetup-join/19%3a2a54bf781d2a466da1e9adec3c87e6c2%40thread.tacv2/1649072330756?context=%7b%22Tid%22%3a%220425f1d9-16b2-41e3-a01a-0c02a63d13d6%22%2c%22Oid%22%3a%22f5f2c910-5438-48a7-b9dd-683a5c3daf1e%22%7d|{{attachment:seminarium-archiwum/teams.png}}]] '''Model ze zmienną ukrytą do sondowania wewnętrznego'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Sukces wstępnie wytrenowanych kontekstowych reprezentacji skłonił badaczy do ich analizy pod kątem obecności informacji lingwistycznej. Naturalne jest założenie, że takie reprezentacje kodują pewien poziom wiedzy językowej, ponieważ empirycznie przyniosły one znaczącą poprawę w wielu różnych zadaniach NLP, co sugeruje, że uczą się one prawdziwej generalizacji językowej. W niniejszej pracy koncentrujemy się na sondowaniu wewnętrznym, technice analizy, której celem jest nie tylko określenie, czy reprezentacja koduje dany atrybut językowy, ale także wskazanie, gdzie ten atrybut jest zakodowany. Proponujemy nową metodę zmiennej ukrytej do konstruowania sond wewnętrznych przy użyciu spolegliwej wariacyjnej aproksymacji log-likelihood. Wyniki pokazują, że nasz model jest uniwersalny i pozwala uzyskać dokładniejsze oszacowania informacji wzajemnej niż dwie sondy wewnętrzne zaproponowane wcześniej w literaturze. Znajdujemy również empiryczne dowody na to, że wstępnie wyszkolone reprezentacje wykształcają międzyjęzykowe pojęcie morfoskładni.|| |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''13 maja 2024'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Michal Křen''' (Uniwersytet Karola w Pradze)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Latest developments in the Czech National Corpus'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">The talk will give an overview of the Czech National Corpus (CNC) research infrastructure in all the main areas of its operation: corpus compilation, data annotation, application development and user support. Special attention will be paid to the variety of languge corpora and user applications where CNC has recently seen a significant progress. In addition, it is the end-user web applications that shape the way linguists and other scholars think about the language data and how they can be utilized. The talk will conclude with an outline of future plans.|| |
| Line 66: | Line 92: |
| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''6 czerwca 2022'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Cezary Klamra''', '''Grzegorz Wojdyga''' (Instytut Podstaw Informatyki PAN), '''Sebastian Żurowski''' (Uniwersytet Mikołaja Kopernika), '''Paulina Rosalska''' (Uniwersytet Mikołaja Kopernika / Applica.ai), '''Matylda Kozłowska''' (Oracle Polska), '''Maciej Ogrodniczuk''' (Instytut Podstaw Informatyki PAN)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=SnjqVft5SzA|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2022-06-06.pdf|Dewulgaryzacja polskich tekstów z wykorzystaniem pretrenowanych modeli językowych]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Przedstawimy metodę transferu stylu tekstu do zastępowania wyrażeń wulgarnych ich niewulgarnymi odpowiednikami polegającą na dostrojeniu trzech wstępnie wytrenowanych modeli językowych (GPT-2, GPT-3 i T-5) na nowo powstałym korpusie równoległym par zdań wulgarnych i niewulgarnych. Następnie ocenimy otrzymane modele, sprawdzając ich dokładność transferu stylu, zachowanie treści i jakość języka. Zgodnie z naszą najlepszą wiedzą, proponowane rozwiązanie jest pierwszym tego typu dla języka polskiego. Tekst opisujący prezentowane rozwiązanie został przyjęty na konferencję [[https://www.iccs-meeting.org/iccs2022/|ICCS 2022]].|| |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''1 lipca 2024'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Purificação Silvano''' (Uniwersytet w Porto)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Tytuł wystąpienia podamy wkrótce'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Streszczenie wystąpienia udostępnimy w najbliższym czasie.|| |
| Line 71: | Line 97: |
| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''13 czerwca 2022'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Michał Ulewicz'''|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=4ZcVXg2Y_fA|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2022-06-13.pdf|Semantic Role Labeling – dane i modele]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Semantic Role Labeling (SRL) pozwala przedstawić znaczenie zdania w postaci struktur (tzw. ramek) składających się z orzeczenia i argumentów związanych z tym orzeczeniem. Takie podejście pozwala podzielić zdanie na istotne znaczeniowo fragmenty i precyzyjnie znaleźć odpowiedzi na pytania: kto, co, komu, kiedy i jak zrobił dla każdego z tych fragmentów. W pierwszym etapie znajdowane są orzeczenia i ujednoznaczniane ich znaczenia. W drugim etapie dla każdej ramki identyfikowane i klasyfikowane są argumenty. Do budowy skutecznych modeli SRL potrzebne są dane i o ile dla języka angielskiego istnieją wysokiej jakości zestawy danych (propbank), to dla pozostałych języków takie zbiory praktycznie nie istnieją, głównie ze względu na wysoki nakład pracy i koszt potrzebny do ich stworzenia. Podczas wystąpienia opowiem jak SRL może pomóc w precyzyjnym przetwarzaniu tekstu. Przedstawię próby automatycznego generowania zestawów danych dla różnych języków w tym języka polskiego z wykorzystaniem techniki rzutowania anotacji (ang. annotation projection). Przedstawię zidentyfikowane problemy związane z automatycznym rzutowaniem anotacji z języka angielskiego na język polski. Opowiem o modelach SRL, które zbudowałem na bazie modeli typu Transformer.|| ||<style="border:0;padding-top:0px">Zapraszamy także do zapoznania się z [[http://nlp.ipipan.waw.pl/NLP-SEMINAR/previous-p.html|archiwum seminariów z lat 2000–2015]] oraz [[http://zil.ipipan.waw.pl/seminarium-archiwum|listą wystąpień z lat 2015–2020]].|| |
||<style="border:0;padding-top:15px">Zapraszamy także do zapoznania się z [[http://nlp.ipipan.waw.pl/NLP-SEMINAR/previous-p.html|archiwum seminariów z lat 2000–2015]] oraz [[http://zil.ipipan.waw.pl/seminarium-archiwum|listą wystąpień z lat 2015–2023]].|| |
| Line 81: | Line 101: |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''11 marca 2024'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Mateusz Krubiński''' (Uniwersytet Karola w Pradze)|| ||<style="border:0;padding-left:30px;padding-bottom:15px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Tytuł wystąpienia podamy wkrótce'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-top:15px;padding-bottom:5px">'''8 stycznia 2024''' (prezentacja wyników projektu DARIAH.Lab)|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Zespół projektu DARIAH.Lab''' (Instytut Podstaw Informatyki PAN)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''Tytuł wystąpienia poznamy wkrótce'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie po polsku.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Streszczenie wystąpienia udostępnimy w najbliższym czasie.|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''3 października 2022'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''...''' (...)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Tytuł wystąpienia podamy wkrótce'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Opis wystąpienia udostępnimy już niedługo.|| |
|
| Line 83: | Line 123: |
| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''14 lutego 2022'''|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''14 marca 2022'''|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''25 kwietnia 2022'''|| – UWAGA, jest KJK ||<style="border:0;padding-top:5px;padding-bottom:5px">'''9 maja 2022'''|| – Adam Grycner? ||<style="border:0;padding-top:5px;padding-bottom:5px">'''23 maja 2022''' – UWAGA, LREC 20–25 maja|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''20 czerwca 2022'''|| – UWAGA, jest KJK |
ATLAS: Explaining abstractive summarization - Emilia Wiśnios? Albo coś z NASK-owych tematów dot. przetwarzania prawa? Czy to jest to samo? |
| Line 96: | Line 131: |
Seminarium „Przetwarzanie języka naturalnego” 2023–24
Seminarium Zespołu Inżynierii Lingwistycznej w Instytucie Podstaw Informatyki Polskiej Akademii Nauk odbywa się średnio co 2 tygodnie, zwykle w poniedziałki o godz. 10:15 (niekiedy online – prosimy o korzystanie z linku przy tytule wystąpienia) i ma charakter otwarty. Poszczególne referaty ogłaszane są na Polskiej Liście Językoznawczej oraz na stronie Lingwistyka komputerowa na Facebooku. Nagrania wystąpień dostępne są na kanale YouTube. |
9 października 2023 |
Agnieszka Mikołajczyk-Bareła, Wojciech Janowski (VoiceLab), Piotr Pęzik (Uniwersytet Łódzki / VoiceLab), Filip Żarnecki, Alicja Golisowicz (VoiceLab) |
|
Wystąpienie stanowi podsumowanie kilkumiesięcznych doświadczeń z zakresu dostrajania (ang. fine-tuning) generatywnych modeli językowych na dużych, dwujęzycznych zbiorach instrukcji. Wynikiem tych prac jest otwarta wersja modelu Trurl (zob. trurl.ai), który w założeniach ma zachować poziom działania modelu wyjściowego na otwartych zbiorach ewaluacyjnych, a jednocześnie charakteryzować się lepszą skutecznością w ściśle określonych domenach i zastosowaniach, takich jak ekstrakcja informacji z interakcji biznesowych oraz etykietowanie danych ze szczególnym uwzględnieniem przetwarzania tekstów polskich. Modelem bazowym dla Trurla były modele Llama 2 o wielkości 7 i 13 miliardów parametrów. W referacie opiszemy proces przygotowania zbiorów instrukcji, treningu oraz kwantyzacji wynikowych modeli. Podamy także przykłady użycia dostrojonych modeli na wybranych zadaniach. |
16 października 2023 |
Konrad Wojtasik, Vadim Shishkin, Kacper Wołowiec, Arkadiusz Janz, Maciej Piasecki (Politechnika Wrocławska) |
|
Przeszukiwanie dużych kolekcji dokumentów w celu odnalezienia interesujących nas informacji jest niezwykle ważnym kierunkiem badawczym w dziedzinie przetwarzania języka naturalnego. Jest to kluczowy komponent w systemach odpowiadania na pytania, gdzie często model odpowiadający korzysta z informacji zawartych w bazie danych z aktualną wiedzą. Pozwala to nie tylko na aktualizację wiedzy, na podstawie której system odpowiada na zapytania użytkownika, ale również ogranicza jego halucynacje. Aktualnie modele do wyszukiwania informacji są sieciami neuronowymi i wymagają dużych zasobów uczących do ich wytrenowania. Przez wiele lat, metody dopasowania leksykalnego jak BM25, osiągały lepsze wyniki niż wytrenowane modele, jednak aktualne architektury i rozległe zbiory danych pozwalają na prześcignięcie leksykalnych rozwiązań. W prezentacji przedstawię dostępne zbiory służące do ewaluacji i trenowania aktualnych architektur do wyszukiwania informacji w kolekcjach dokumentów z różnych domen, jak i kierunki rozwoju na przyszłość. |
30 października 2023 |
Agnieszka Faleńska (Uniwersytet w Stuttgarcie) |
Dla wielu, systemy przetwarzania języka naturalnego (NLP) stały się codziennością. Ich zastosowania sięgają od automatycznego tłumaczenia dokumentów po asystentów osobistych obsługiwanych głosem. W ostatnich latach, ten rosnący wpływ narzędzi AI na życie ludzi wywołuje znaczące obawy dotyczące możliwych szkód, jakie mogą one wyrządzić. |
W tej prezentacji rozpocznę od przedstawienia kilku przykładów takich szkodliwych zachowań i omówię ich potencjalne źródła. Będę argumentować, że problemy związane z uprzedzeniami w modelach NLP powinny być rozwiązywane poprzez rozwijanie naszego zrozumienia ich źródeł językowych. Następnie prezentacja skoncentruje się na trzech powszechnie używanych źródłach danych: Wikipedii, tekstach instruktażowych i forum dyskusyjnym. Poprzez te przykłady pokażę, że niezależnie od perspektywy (czy mówimy o kimś, do kogoś, czy jako ktoś), subtelne uprzedzenia są obecne we wszystkich tych zbiorach danych i mogą przyczynić się do szkodliwych efektów modeli NLP. |
13 listopada 2023 |
Piotr Rybak (Instytut Podstaw Informatyki PAN) |
|
Mimo że odpowiadanie na pytania (ang. Question Answering) jest jednym z popularniejszych zagadnień przetwarzania języka naturalnego, to do niedawna było ono praktycznie nieobecne w polskim środowisku naukowym. Ostatnie lata przyniosły jednak rozkwit prac związanych z tym tematem. Podczas tego wystąpienia opowiem na czym polega zagadnienie odpowiadania na pytania, jak działają obecne systemy rozwiązujące ten problem, a także jakie zbiory danych oraz modele są dostępne dla języka polskiego. W szczególności opowiem o zasobach tworzonych w IPI PAN, czyli zbiorach danych PolQA i MAUPQA oraz modelu Silver Retriever. Na koniec wskażę dalsze kierunki prac, które wciąż pozostają otwarte jeśli chodzi o odpowiadanie na pytania w języku polskim. |
11 grudnia 2023 (seria krótkich wystąpień autorstwa badaczy z Coventry University) |
Xiaorui Jiang, Opeoluwa Akinseloyin, Vasile Palade (Coventry University) |
Systematic literature review (SLR) is the standard tool for synthesising medical and clinical evidence from the ocean of publications. SLR is extremely expensive. SLR is extremely expensive. AI can play a significant role in automating the SLR process, such as for citation screening, i.e., the selection of primary studies-based title and abstract. Some tools exist, but they suffer from tremendous obstacles, including lack of trust. In addition, a specific characteristic of systematic review, which is the fact that each systematic review is a unique dataset and starts with no annotation, makes the problem even more challenging. In this study, we present some seminal but initial efforts on utilising the transfer learning and zero-shot learning capabilities of pretrained language models and large language models to solve or alleviate this challenge. Preliminary results are to be reported. |
Kacper Sówka (Coventry University) |
My research focuses on applying machine learning and NLP to the problem of cybersecurity attack modelling. This is done by generating "attack tree" models using public cybersecurity datasets (CVE) and training a siamese neural network to predict the relationship between individual cybersecurity vulnerabilities using a DistilBERT encoder fine-tuned using Masked Language Modelling. |
Xiaorui Jiang (Coventry University) |
It is a difficult task to understand and summarise the development of scientific research areas. This task is especially cognitively demanding for postgraduate students and early-career researchers, of the whose main jobs is to identify such developments by reading a large amount of literature. Will AI help? We believe so. This short talk summarises some recent initial work on extracting the semantic backbone of a scientific area through the synergy of natural language processing and network analysis, which is believed to serve a certain type of discourse models for summarisation (in future work). As a small step from it, the second part of the talk introduces how comparison citations are utilised to improve multi-document summarisation of scientific papers. |
Xiaorui Jiang, Alireza Daneshkhah (Coventry University) |
In face of a post-COVID global economic slowdown and aging society, the primary care units in the National Healthcare Services (NHS) are receiving increasingly higher pressure, resulting in delays and errors in healthcare and patient management. AI can play a significant role in alleviating this investment-requirement discrepancy, especially in the primary care settings. A large portion of clinical diagnosis and management can be assisted with AI tools for automation and reduce delays. This short presentation reports the initial studies worked with an NHS partner on developing NLP-based solutions for the automation of clinical intention classification (to save more time for better patient treatment and management) and an early alert application for Gout Flare prediction from chief complaints (to avoid delays in patient treatment and management). |
8 stycznia 2024 |
Danijel Korzinek (Polsko-Japońska Akademia Technik Komputerowych) |
|
Celem tego podprojektu było opracowanie procesów i stworzenie narzędzi pozwalających na powiązanie tekstowych korpusów stworzonych w ramach projektu ParlaMint z odpowiadającymi im materiałami audio i wideo dostępnymi w Internecie. Zadanie to było oczywiście bardziej złożone niż się to może intuicyjnie wydawać i jego powodzenie było uzależnione w największej mierze od poprawnego dopasowania bardzo długiego nagrania audio (kilkanaście godzin, czyli cały dzień pracy parlamentu) do odpowiadającego mu transkryptu, wraz ze wszystkimi błędami i niedokładnościami w dopasowaniu i kolejności występującymi między tymi dwoma modalnościami. Projekt został stworzony w oparciu o całkowicie otwarte oprogramowanie i modele, które są dostępne w publicznym repozytorium i mogą być zastosowane do innych projektów o podobnym zakresie wymagań. Na obecną chwile, wspomnianymi narzędziami w pełni opracowano korpusy w dwóch językach (polski i chorwacki), ale więcej jest tworzonych w tej chwili. |
12 lutego 2024 |
Tsimur Hadeliya, Dariusz Kajtoch (Allegro ML Research) |
|
With the advent of language models such as ChatGPT, we are witnessing a paradigm shift in the way we approach natural language processing tasks. Instead of training a model from scratch, we can now solve tasks by designing appropriate prompts and choosing suitable demonstrations as input to a generative model. This approach, known as in-context learning (ICL), has shown remarkable capabilities for classification tasks in the English language . In this presentation, we will investigate how different language models perform on Polish classification tasks using the ICL approach. We will explore the effectiveness of various models, including multilingual and large-scale models, and compare their results with existing solutions. Through a comprehensive evaluation and analysis, we aim to gain insights into the strengths and limitations of this approach for Polish classification tasks. Our findings will shed light on the potential of ICL for the Polish language. We will discuss challenges and opportunities, and propose directions for future work. |
29 lutego 2024 |
Seminarium wyjazdowe: Warsztat „Analiza danych parlamentarnych” |
Wprowadzenie |
12:00–12:10: Powitanie |
12:10–12:40: Korpus Dyskursu Parlamentarnego i korpus ParlaMint (Maciej Ogrodniczuk) |
Zgłoszenia konkursowe |
12:40–13:00: Aplikacja do analizy sentymentu wypowiedzi parlamentarzystów RP (Bartłomiej Klimowski) |
13:00–13:20: Analiza dynamiki emocji w debatach parlamentarnych o wojnie w Ukrainie (Konrad Kiljan i Ewelina Gajewska) |
13:20–13:40: Język wrażliwy na płeć (gender-fair language) w polskim parlamencie: badanie korpusowe debat parlamentarnych w korpusie ParlaMint (Aleksandra Tomaszewska i Anna Jamka) |
Wykład na zaproszenie |
14:00–15:00: Zmiany w polszczyźnie ostatnich stu lat w zwierciadle debat parlamentarnych (Marek Łaziński) |
Dyskusja panelowa |
15:00–15:45: Przetwarzanie danych parlamentarnych: co dalej? (Członkowie Kapituły Konkursu) |
Zakończenie |
15:45–15:50: Wręczenie dyplomów |
15:50–16:00: Podsumowanie warsztatu |
25 marca 2024 |
Piotr Przybyła (Uniwersytet Pompeu Fabry / Instytut Podstaw Informatyki PAN) |
|
Automatyczne klasyfikatory tekstu wykorzystuje się szeroko do pomocy w moderowaniu platform udostępniających treści generowane przez użytkowników, szczególnie sieci społecznościowych. Mogą być one używane do odsiewania treści nieprzyjaznych, dezinformujących, manipulujących lub wprost nielegalnych. Jednak trzeba wziąć pod uwagę, że autorzy takich tekstów często mają silną motywację do ich rozpowszechniania i mogą próbować modyfikować oryginalną treść, aż znajdą takie sformułowanie, które przedostanie się przez automatyczny filtr. Takie zmodyfikowane wersje oryginalnych danych, nazywane przykładami antagonistycznymi, odgrywają kluczową rolę w badaniu odporności modeli ML na ataki zmotywowanych aktorów. Wystąpienie będzie poświęcone systematycznej analizie tego problemu w kontekście wykrywania dezinformacji. Pokażę konkretne przykłady, gdzie podmiana pozornie nieistotnych słów powoduje zmianę decyzji klasyfikatora, jak również framework BODEGA do systematycznej oceny odporności modeli, wykorzystany również w zadaniu InCrediblAE na warsztatach ewaluacyjnych CheckThat! na konferencji CLEF 2024. |
28 marca 2024 |
Krzysztof Węcel (Uniwersytet Ekonomiczny w Poznaniu) |
Prezentacja będzie skupiała się na tematyce projektu OpenFact, który jest odpowiedzią na problem fake newsów. W ramach projektu opracowujemy metody, które pozwalają na weryfikację wiarygodności informacji. W celu zapewnienia poprawności metodycznej bazujemy na procesie stosowanym przez agencje fact-checkingowe. Działania te opierają się na złożonych zbiorach danych, pozyskiwanych m.in. z ClaimReview, Common Crawl czy poprzez monitoring mediów społecznościowych i ekstrakcję stwierdzeń z tekstów. Istotne jest również ocenianie informacji pod kątem jej wartości do weryfikacji (checkworthiness) oraz wiarygodności źródeł, których reputacja może wynikać z publikacji z OpenAlex lub Crossref. Analiza stylometryczna pozwala na określenie autorstwa, a porównanie ludzkiej i maszynowej pracy otwiera nowe możliwości w wykrywaniu użycia sztucznej inteligencji. Używamy zarówno małych modeli językowych, jak i LLM uruchamianych zdalnie w różnych wariantach. Zbudowaliśmy duże zbiory stwierdzeń, które mogą służyć do weryfikacji nowych tekstów poprzez badanie podobieństwa semantycznego. Opisane są one dodatkowymi wciąż rozbudowywanymi metadanymi pozwalającymi na realizację różnych scenariuszy użycia. |
25 kwietnia 2024 |
|
11:30–11:35: O projekcie (Małgorzata Marciniak) |
11:35–12:05: Korpus Współczesnego Języka Polskiego, Dekada 2011−2020 (Marek Łaziński) |
12:05–12:35: Znakowanie, lematyzacja, frekwencja (Witold Kieraś) |
12:35–13:00: Przerwa kawowa |
13:00–13:30: Hybrydowa reprezentacja informacji składniowej (Marcin Woliński) |
13:30–14:15: Dyskusja o przyszłości korpusów |
13 maja 2024 |
Michal Křen (Uniwersytet Karola w Pradze) |
The talk will give an overview of the Czech National Corpus (CNC) research infrastructure in all the main areas of its operation: corpus compilation, data annotation, application development and user support. Special attention will be paid to the variety of languge corpora and user applications where CNC has recently seen a significant progress. In addition, it is the end-user web applications that shape the way linguists and other scholars think about the language data and how they can be utilized. The talk will conclude with an outline of future plans. |
1 lipca 2024 |
Purificação Silvano (Uniwersytet w Porto) |
Streszczenie wystąpienia udostępnimy w najbliższym czasie. |
Zapraszamy także do zapoznania się z archiwum seminariów z lat 2000–2015 oraz listą wystąpień z lat 2015–2023. |


