Locked History Actions

Diff for "seminarium"

Differences between revisions 860 and 966 (spanning 106 versions)
Revision 860 as of 2024-05-15 00:01:20
Size: 35196
Comment:
Revision 966 as of 2025-04-16 10:43:35
Size: 35283
Comment:
Deletions are marked like this. Additions are marked like this.
Line 2: Line 2:
= Seminarium „Przetwarzanie języka naturalnego” 2023–24 = = Seminarium „Przetwarzanie języka naturalnego” 2024–25 =
Line 6: Line 6:
||<style="border:0;padding-top:5px;padding-bottom:5px">'''9 października 2023'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Agnieszka Mikołajczyk-Bareła''', '''Wojciech Janowski''' (!VoiceLab), '''Piotr Pęzik''' (Uniwersytet Łódzki / !VoiceLab), '''Filip Żarnecki''', '''Alicja Golisowicz''' (!VoiceLab) ||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''[[attachment:seminarium-archiwum/2023-10-09.pdf|TRURL.AI: Dostrajanie dużych generatywnych modeli językowych na wielojęzycznych zbiorach instrukcji]]''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Wystąpienie stanowi podsumowanie kilkumiesięcznych doświadczeń z zakresu dostrajania (ang. fine-tuning) generatywnych modeli językowych na dużych, dwujęzycznych zbiorach instrukcji. Wynikiem tych prac jest otwarta wersja modelu Trurl (zob. trurl.ai), który w założeniach ma zachować poziom działania modelu wyjściowego na otwartych zbiorach ewaluacyjnych, a jednocześnie charakteryzować się lepszą skutecznością w ściśle określonych domenach i zastosowaniach, takich jak ekstrakcja informacji z interakcji biznesowych oraz etykietowanie danych ze szczególnym uwzględnieniem przetwarzania tekstów polskich. Modelem bazowym dla Trurla były modele [[https://arxiv.org/abs/2307.09288|Llama 2]] o wielkości 7 i 13 miliardów parametrów. W referacie opiszemy proces przygotowania zbiorów instrukcji, treningu oraz kwantyzacji wynikowych modeli. Podamy także przykłady użycia dostrojonych modeli na wybranych zadaniach.||
||<style="border:0;padding-top:5px;padding-bottom:5px">'''7 października 2024'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Janusz S. Bień''' (profesor emeritus Uniwersytetu Warszawskiego) ||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=2mLYixXC_Hw|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2024-10-07.pdf|Identyfikacja czcionek w XVI-wiecznych drukach. Analiza przypadku]]''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienia w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Przetwarzanie tekstów wymaga ich zakodowania w odpowiednim standardzie, aktualnie praktyczne jedyną opcją jest standard Unicode. Niektóre czcionki stosowane w starodrukach są już uwzględnione w tym standardzie, niektóre są dostępne w specjalistycznych fontach za pomocą tzw. funkcji zecerskich. Niektóre czcionki, opisane w monumentalnym dziele „[[https://crispa.uw.edu.pl/object/files/754258/display/Default|Polonia Typographica Saeculi Sedecimi]]”, nie mają jednak swoich odpowiedników w standardzie. W referacie omówię kilka takich czcionek.||
Line 11: Line 11:
||<style="border:0;padding-top:5px;padding-bottom:5px">'''16 października 2023'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Konrad Wojtasik''', '''Vadim Shishkin''', '''Kacper Wołowiec''', '''Arkadiusz Janz''', '''Maciej Piasecki''' (Politechnika Wrocławska)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''[[attachment:seminarium-archiwum/2023-10-16.pdf|Ewaluacja i trenowanie modeli do wyszukiwania informacji w ustawieniu zero-shot dla różnych domen dokumentów]]''' &#160;{{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Przeszukiwanie dużych kolekcji dokumentów w celu odnalezienia interesujących nas informacji jest niezwykle ważnym kierunkiem badawczym w dziedzinie przetwarzania języka naturalnego. Jest to kluczowy komponent w systemach odpowiadania na pytania, gdzie często model odpowiadający korzysta z informacji zawartych w bazie danych z aktualną wiedzą. Pozwala to nie tylko na aktualizację wiedzy, na podstawie której system odpowiada na zapytania użytkownika, ale również ogranicza jego halucynacje. Aktualnie modele do wyszukiwania informacji są sieciami neuronowymi i wymagają dużych zasobów uczących do ich wytrenowania. Przez wiele lat, metody dopasowania leksykalnego jak BM25, osiągały lepsze wyniki niż wytrenowane modele, jednak aktualne architektury i rozległe zbiory danych pozwalają na prześcignięcie leksykalnych rozwiązań. W prezentacji przedstawię dostępne zbiory służące do ewaluacji i trenowania aktualnych architektur do wyszukiwania informacji w kolekcjach dokumentów z różnych domen, jak i kierunki rozwoju na przyszłość.||
||<style="border:0;padding-top:5px;padding-bottom:5px">'''14 października 2024'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Alexander Rosen''' (Uniwersytet Karola w Pradze)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=E2ujmqt7Q2E|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2024-10-14.pdf|Lexical and syntactic variability of languages and text genres. A corpus-based study]]''' &#160;{{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:5px">This study examines metrics of syntactic complexity (SC) and lexical diversity (LD) as tools for analyzing linguistic variation within and across languages. Using quantifiable measures based on cross-linguistically consistent (morpho)syntactic annotation ([[https://universaldependencies.org/|Universal Dependencies]]), the research utilizes parallel texts from a large multilingual corpus ([[https://wiki.korpus.cz/doku.php/en:cnk:intercorp:verze16ud|InterCorp]]). Six SC and two LD metrics – covering the length and embedding levels of nominal and clausal constituents, mean dependency distance (MDD), and sentence length – are applied as metadata for sentences and texts.||
||<style="border:0;padding-left:30px;padding-bottom:5px">The presentation will address how these metrics can be visualized and incorporated into corpus queries, how they reflect structural differences across languages and text types, and whether SC and LD vary more across languages or text types. It will also consider the impact of language-specific annotation nuances and correlations among the measures. The analysis includes comparative examples from Polish, Czech, and other languages.||
||<style="border:0;padding-left:30px;padding-bottom:15px">Preliminary findings indicate higher SC in non-fiction compared to fiction across languages, with nominal and clausal metrics being dominant factors. The results suggest distinct patterns for MDD and sentence length, highlighting the impact of structural differences (e.g., analytic vs. synthetic morphology, dominant word-order patterns) and the influence of source text type and style.||
Line 16: Line 18:
||<style="border:0;padding-top:5px;padding-bottom:5px">'''30 października 2023'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Agnieszka Faleńska''' (Uniwersytet w Stuttgarcie)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''[[attachment:seminarium-archiwum/2023-10-30.pdf|Steps towards Bias-Aware NLP Systems]]''' &#160;{{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:5px">Dla wielu, systemy przetwarzania języka naturalnego (NLP) stały się codziennością. Ich zastosowania sięgają od automatycznego tłumaczenia dokumentów po asystentów osobistych obsługiwanych głosem. W ostatnich latach, ten rosnący wpływ narzędzi AI na życie ludzi wywołuje znaczące obawy dotyczące możliwych szkód, jakie mogą one wyrządzić.||
||<style="border:0;padding-left:30px;padding-bottom:15px">W tej prezentacji rozpocznę od przedstawienia kilku przykładów takich szkodliwych zachowań i omówię ich potencjalne źródła. Będę argumentować, że problemy związane z uprzedzeniami w modelach NLP powinny być rozwiązywane poprzez rozwijanie naszego zrozumienia ich źródeł językowych. Następnie prezentacja skoncentruje się na trzech powszechnie używanych źródłach danych: Wikipedii, tekstach instruktażowych i forum dyskusyjnym. Poprzez te przykłady pokażę, że niezależnie od perspektywy (czy mówimy o kimś, do kogoś, czy jako ktoś), subtelne uprzedzenia są obecne we wszystkich tych zbiorach danych i mogą przyczynić się do szkodliwych efektów modeli NLP.||
||<style="border:0;padding-top:5px;padding-bottom:5px">'''28 października 2024'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Rafał Jaworski''' (Uniwersytet im. Adama Mickiewicza w Poznaniu)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=52LZ976imBA|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2024-10-28.pdf|Zestaw algorytmów zrównoleglania i przechowywania wielojęzycznych zanurzeń słów na potrzeby obliczania prawdopodobieństwa tłumaczenia]]''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:5px">Podczas wystąpienia zreferuję moje badania naukowe z dziedziny przetwarzania języka naturalnego na potrzeby wspomagania tłumaczenia. Przedstawię w szczególności zestaw algorytmów ''Inter-language Vector Space'' służący do zrównoleglania zdań na poziomie słów i fraz wykorzystujących wielojęzyczne zanurzenia słów (''word embeddings'').||
||<style="border:0;padding-left:30px;padding-bottom:5px">Pierwszą funkcją zestawu jest generowanie reprezentacji wektorowych słów. Są one generowane przy użyciu sieci neuronowej typu ''auto-encoder'' na podstawie danych tekstowych – korpusu tekstu. W ten sposób powstają słowniki wektorowe dla poszczególnych języków. Reprezentacje wektorowe słów znajdujących się w tych słownikach stanowią przestrzenie wektorowe, które różnią się pomiędzy językami.||
||<style="border:0;padding-left:30px;padding-bottom:5px">Aby rozwiązać ten problem i uzyskać reprezentacje wektorowe słów, które byłyby porównywalne pomiędzy językami, stosuje się drugą funkcję zestawu ''Inter-language Vector Space''. Służy on do zrównoleglania przestrzeni wektorowych pomiędzy językami z wykorzystaniem macierzy transformacji obliczanych metodą rozkładu według wartości osobliwych. Macierz ta jest obliczana na podstawie homonimów, tj. słów pisanych identycznie w języku przestrzeni X oraz Y. Dodatkowo, w celach wspomagających stosowany jest słownik dwujęzyczny. Obliczona w ten sposób macierz transformacji pozwala na dostosowanie przestrzeni X w taki sposób, aby w maksymalny możliwy sposób pokrywała się z przestrzenią Y. ||
||<style="border:0;padding-left:30px;padding-bottom:5px">Ostatnia funkcja zestawu jest odpowiedzialna za stworzenie wielojęzycznej przestrzeni wektorowej. Do przestrzeni tej najpierw dodawana jest w całości i bez modyfikacji przestrzeń wektorowa dla języka angielskiego. Następnie, dla każdej innej przestrzeni wektorowej obliczana jest najpierw macierz transformacji tej przestrzeni do przestrzeni angielskiej. Wektory nowej przestrzeni są mnożone przez tę macierz i w ten sposób stają się porównywalne z wektorami reprezentującymi słowa angielskie.||
||<style="border:0;padding-left:30px;padding-bottom:15px">Zestaw algorytmów ''Inter-language Vector Space'' znajduje zastosowanie w systemach wspomagania tłumaczenia, na przykład w autorskim algorytmie automatycznego transferu znaczników nietłumaczonych ze zdania źródłowego do docelowego.||
Line 22: Line 27:
||<style="border:0;padding-top:5px;padding-bottom:5px">'''13 listopada 2023'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Piotr Rybak''' (Instytut Podstaw Informatyki PAN)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''[[attachment:seminarium-archiwum/2023-11-13.pdf|Najnowsze postępy w rozwoju systemów do odpowiadania na pytania w języku polskim]]''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}&#160;{{attachment:seminarium-archiwum/icon-en.gif|Slajdy po angielsku.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Mimo że odpowiadanie na pytania (ang. ''Question Answering'') jest jednym z popularniejszych zagadnień przetwarzania języka naturalnego, to do niedawna było ono praktycznie nieobecne w polskim środowisku naukowym. Ostatnie lata przyniosły jednak rozkwit prac związanych z tym tematem. Podczas tego wystąpienia opowiem na czym polega zagadnienie odpowiadania na pytania, jak działają obecne systemy rozwiązujące ten problem, a także jakie zbiory danych oraz modele są dostępne dla języka polskiego. W szczególności opowiem o zasobach tworzonych w IPI PAN, czyli zbiorach danych [[https://huggingface.co/datasets/ipipan/polqa|PolQA]] i [[https://huggingface.co/datasets/ipipan/maupqa|MAUPQA]] oraz modelu [[https://huggingface.co/ipipan/silver-retriever-base-v1|Silver Retriever]]. Na koniec wskażę dalsze kierunki prac, które wciąż pozostają otwarte jeśli chodzi o odpowiadanie na pytania w języku polskim.||
||<style="border:0;padding-top:5px;padding-bottom:5px">'''4 listopada 2024'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Jakub Kozakoszczak''' (Deutsche Telekom)||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''[[attachment:seminarium-archiwum/2024-11-04.pdf|ZIML: Język znaczników anotacyjnych do łatwego dopasowywania regeksami]]''' &#160;{{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:5px">Przeszukiwanie regeksami warstwy anotacyjnej tekstu reprezentowanej wplecionymi znacznikami wymaga budowania wzorców, które szybko stają się nieczytelne i nie do utrzymania. Zupełnie niemożliwe jest stosowanie warunków na odległości wewnątrz tekstu, wydłużonych przez obecność tagów. Anotacja wydrębniona poza tekst co prawda zachowuje odległości, ale jest niewidoczna dla regeksów.||
||<style="border:0;padding-left:30px;padding-bottom:5px">Przedstawię język znaczników Zero Insertion Markup Language (ZIML), w którym każda kombinacja znaków i etykiet w zaanotowanym tekście jest reprezentowana przez pojedynczy „alloznak”, co zachowuje odległości wewnątrz dokumentu. Te same alloznaki wprowadzone są do regeksów w taki sposób, że zachowują pozycje dopasowań zwracanych przez standardowe silniki wyrażeń regularnych. W efekcie jedyną ingerencją w semantykę języka regeksów jest wzbogacenie jej o denotowanie etykiet przez dopasowanie alloznaków, które je reprezentują.||
||<style="border:0;padding-left:30px;padding-bottom:15px">Podam dowód poprawności tego przekształcenia i przedstawię implementację języka ZIML, w tym składnię dodawania odwołań do etykiet w treści wzorców. Omówię, w miarę możliwości czasowych, potencjalne zastosowania ZIML w językoznawstwie i przetwarzaniu języka naturalnego. Do zrozumienia prezentacji pomoże podstawowa wiedza na temat teorii modeli i wyszukiwania regeksami.||
Line 27: Line 34:
||<style="border:0;padding-top:5px;padding-bottom:5px">'''11 grudnia 2023''' (seria krótkich wystąpień autorstwa badaczy z Coventry University)||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Xiaorui Jiang''', '''Opeoluwa Akinseloyin''', '''Vasile Palade''' (Coventry University)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''[[attachment:seminarium-archiwum/2023-12-11-1.pdf|Towards More Human-Effortless Systematic Review Automation]]''' &#160;{{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w jęz. angielskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:10px">Systematic literature review (SLR) is the standard tool for synthesising medical and clinical evidence from the ocean of publications. SLR is extremely expensive. SLR is extremely expensive. AI can play a significant role in automating the SLR process, such as for citation screening, i.e., the selection of primary studies-based title and abstract. [[http://systematicreviewtools.com/|Some tools exist]], but they suffer from tremendous obstacles, including lack of trust. In addition, a specific characteristic of systematic review, which is the fact that each systematic review is a unique dataset and starts with no annotation, makes the problem even more challenging. In this study, we present some seminal but initial efforts on utilising the transfer learning and zero-shot learning capabilities of pretrained language models and large language models to solve or alleviate this challenge. Preliminary results are to be reported.||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Kacper Sówka''' (Coventry University)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''[[attachment:seminarium-archiwum/2023-12-11-2.pdf|Attack Tree Generation Using Machine Learning]]''' &#160;{{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w jęz. angielskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:10px">My research focuses on applying machine learning and NLP to the problem of cybersecurity attack modelling. This is done by generating "attack tree" models using public cybersecurity datasets (CVE) and training a siamese neural network to predict the relationship between individual cybersecurity vulnerabilities using a DistilBERT encoder fine-tuned using Masked Language Modelling.||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Xiaorui Jiang''' (Coventry University)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''[[attachment:seminarium-archiwum/2023-12-11-3.pdf|Towards Semantic Science Citation Index]]''' &#160;{{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w jęz. angielskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:10px">It is a difficult task to understand and summarise the development of scientific research areas. This task is especially cognitively demanding for postgraduate students and early-career researchers, of the whose main jobs is to identify such developments by reading a large amount of literature. Will AI help? We believe so. This short talk summarises some recent initial work on extracting the semantic backbone of a scientific area through the synergy of natural language processing and network analysis, which is believed to serve a certain type of discourse models for summarisation (in future work). As a small step from it, the second part of the talk introduces how comparison citations are utilised to improve multi-document summarisation of scientific papers.||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Xiaorui Jiang''', '''Alireza Daneshkhah''' (Coventry University)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''[[attachment:seminarium-archiwum/2023-12-11-4.pdf|Natural Language Processing for Automated Triaging at NHS]]''' &#160;{{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w jęz. angielskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15x">In face of a post-COVID global economic slowdown and aging society, the primary care units in the National Healthcare Services (NHS) are receiving increasingly higher pressure, resulting in delays and errors in healthcare and patient management. AI can play a significant role in alleviating this investment-requirement discrepancy, especially in the primary care settings. A large portion of clinical diagnosis and management can be assisted with AI tools for automation and reduce delays. This short presentation reports the initial studies worked with an NHS partner on developing NLP-based solutions for the automation of clinical intention classification (to save more time for better patient treatment and management) and an early alert application for Gout Flare prediction from chief complaints (to avoid delays in patient treatment and management).||
||<style="border:0;padding-top:5px;padding-bottom:5px">'''21 listopada 2024'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Christian Chiarcos''' (Uniwersytet w Augsburgu)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=FxiOM5zAKo8|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2024-11-21.pdf|Aspects of Knowledge Representation for Discourse Relation Annotation]]''' &#160;{{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Semantic technologies comprise a broad set of standards and technologies including aspects of knowledge representation, information management and computational inference. In this lecture, I will describe the application of knowledge representation standards to the realm of computational discourse, and especially, the annotation of discourse relations. In particular, this includes the formal modelling of discourse relations of different theoretical frameworks by means of modular, interlinked ontologies, the machine-readable edition of discourse marker inventories with !OntoLex and techniques for the induction of discourse marker inventories.||
Line 41: Line 39:
||<style="border:0;padding-top:15px;padding-bottom:5px">'''8 stycznia 2024'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Danijel Korzinek''' (Polsko-Japońska Akademia Technik Komputerowych)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''[[attachment:seminarium-archiwum/2024-01-08.pdf|ParlaSpeech – Tworzenie wielkoskalowych korpusów mowy w projekcie ParlaMint]]''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie po polsku.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Celem tego podprojektu było opracowanie procesów i stworzenie narzędzi pozwalających na powiązanie tekstowych korpusów stworzonych w ramach projektu [[https://www.clarin.eu/parlamint|ParlaMint]] z odpowiadającymi im materiałami audio i wideo dostępnymi w Internecie. Zadanie to było oczywiście bardziej złożone niż się to może intuicyjnie wydawać i jego powodzenie było uzależnione w największej mierze od poprawnego dopasowania bardzo długiego nagrania audio (kilkanaście godzin, czyli cały dzień pracy parlamentu) do odpowiadającego mu transkryptu, wraz ze wszystkimi błędami i niedokładnościami w dopasowaniu i kolejności występującymi między tymi dwoma modalnościami. Projekt został stworzony w oparciu o całkowicie otwarte oprogramowanie i modele, które są dostępne w publicznym repozytorium i mogą być zastosowane do innych projektów o podobnym zakresie wymagań. Na obecną chwile, wspomnianymi narzędziami w pełni opracowano korpusy w dwóch językach (polski i chorwacki), ale więcej jest tworzonych w tej chwili.||
||<style="border:0;padding-top:5px;padding-bottom:5px">'''2 grudnia 2024'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Uczestnicy konkursu !PolEval 2024'''||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''Prezentacja wyników konkursu''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienia w języku polskim.}} {{attachment:seminarium-archiwum/icon-en.gif|Slajdy po angielsku.}}||
||<style="border:0;padding-left:30px;padding-bottom:0px">[[https://www.youtube.com/watch?v=cwu8YfqtnTs|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[http://poleval.pl/files/2024-01.pdf|Welcome to PolEval 2024]]''' (Łukasz Kobyliński, Maciej Ogrodniczuk, Filip Graliński, Ryszard Staruch, Karol Saputa) ||
||<style="border:0;padding-left:30px;padding-bottom:0px">[[https://www.youtube.com/watch?v=OnxkmpGmxP4|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[http://poleval.pl/files/2024-02.pdf|PolEval 2024 Task 1: Reading Comprehension]]''' (Ryszard Tuora / Aleksandra Zwierzchowska) ||
||<style="border:0;padding-left:30px;padding-bottom:0px">[[https://www.youtube.com/watch?v=9FDTOx55WMI|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[http://poleval.pl/files/2024-03.pdf|Optimizing LLMs for Polish Reading Comprehension: A Comparative Study of Ensemble and Unified Approaches]]''' (Krzysztof Wróbel) ||
||<style="border:0;padding-left:30px;padding-bottom:0px">[[https://www.youtube.com/watch?v=_Ur9kzZ3ols|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[http://poleval.pl/files/2024-04.pdf|PolEval 2024 Task 2: Emotion and Sentiment Recognition]]''' (Jan Kocoń, Bartłomiej Koptyra) ||
||<style="border:0;padding-left:30px;padding-bottom:0px">[[https://www.youtube.com/watch?v=V3_z2KiVgco|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[http://poleval.pl/files/2024-05.pdf|Emotion and Sentiment Recognition in Polish Texts Using Large Language Models: A Winning Approach to PolEval 2024]]''' (Krzysztof Wróbel) ||
||<style="border:0;padding-left:30px;padding-bottom:0px">[[https://www.youtube.com/watch?v=59Xkzoi3TDY|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[http://poleval.pl/files/2024-06.pdf|Ensemble as a Variance Reduction Method for Emotion and Sentiment Recognition]]''' (Tomasz Warzecha) ||
||<style="border:0;padding-left:30px;padding-bottom:0px">[[https://www.youtube.com/watch?v=ESNbPIwjfvw|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[http://poleval.pl/files/2024-07.pdf|Emotion and Sentiment Recognition Using Ensemble Models]]''' (Jakub Kosterna) ||
||<style="border:0;padding-left:30px;padding-bottom:0px">[[https://www.youtube.com/watch?v=Ds8BkUTpcm8|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[http://poleval.pl/files/2024-08.pdf|Zero-shot Approach Using Bielik LLM for Emotion Recognition in Polish]]''' (Paweł Cyrta) ||
||<style="border:0;padding-left:30px;padding-bottom:0px">[[https://www.youtube.com/watch?v=lmRZn7254MY|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[http://poleval.pl/files/2024-08.pdf|PolEval 2024 Task 3: Polish Automatic Speech Recognition Challenge]]''' (Michał Junczyk, Iwona Christop, Piotr Pęzik) ||
||<style="border:0;padding-left:30px;padding-bottom:0px">[[https://www.youtube.com/watch?v=G35l9xJWqA0|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[http://poleval.pl/files/2024-10.pdf|Augmenting Polish Automatic Speech Recognition System with Synthetic Data]]''' (Łukasz Bondaruk, Jakub Kubiak, Mateusz Czyżnikiewicz) ||
||<style="border:0;padding-left:30px;padding-bottom:15px">[[https://www.youtube.com/watch?v=uIDfc6c1TtA|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[http://poleval.pl/files/2024-11.pdf|Exploration of training Zipformer and E-Branchformer models with Polish language BIGOS dataset]]''' (Paweł Cyrta) ||
Line 46: Line 54:
||<style="border:0;padding-top:5px;padding-bottom:5px">'''12 lutego 2024'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Tsimur Hadeliya''', '''Dariusz Kajtoch''' (Allegro ML Research)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''[[attachment:seminarium-archiwum/2024-02-12.pdf|Ewaluacja i analiza uczenia kontekstowego dla zadania klasyfikacji w języku polskim]]''' &#160;{{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie po angielsku.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">With the advent of language models such as ChatGPT, we are witnessing a paradigm shift in the way we approach natural language processing tasks. Instead of training a model from scratch, we can now solve tasks by designing appropriate prompts and choosing suitable demonstrations as input to a generative model. This approach, known as in-context learning (ICL), has shown remarkable capabilities for classification tasks in the English language . In this presentation, we will investigate how different language models perform on Polish classification tasks using the ICL approach. We will explore the effectiveness of various models, including multilingual and large-scale models, and compare their results with existing solutions. Through a comprehensive evaluation and analysis, we aim to gain insights into the strengths and limitations of this approach for Polish classification tasks. Our findings will shed light on the potential of ICL for the Polish language. We will discuss challenges and opportunities, and propose directions for future work.||
||<style="border:0;padding-top:5px;padding-bottom:5px">'''19 grudnia 2024'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Piotr Przybyła''' (Uniwersytet Pompeu Fabry / Instytut Podstaw Informatyki PAN)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=xqDkbiF4izI|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2024-12-19.pdf|Adaptacyjne ataki na klasyfikację wiarygodności z wykorzystaniem uczenia ze wzmocnieniem]]''' &#160;{{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">W trakcie prezentacji przedstawiony zostanie system XARELLO: generator przykładów antagonistycznych dla testowania odporności klasyfikacji tekstu, zbudowany na bazie uczenia ze wzmocnieniem. Rozwiązanie to jest adaptacyjne, ponieważ obserwuje sukcesy i porażki wykonywanych ataków i dostosowuje się do słabości klasyfikatora-ofiary. Taka procedura odzwierciedla długoterminowe i ustawiczne ataki, które są typowe dla aktorów rozprzestrzeniających dezinformację. Przedstawimy także wyniki ewaluacji pokazującej, że podejście adaptacyjne prowadzi do odnajdywania przykładów antagonistycznych o lepszej jakości i z mniejszą liczbą prób, szczególnie w atakach na duże modele językowe.||
Line 51: Line 59:
||<style="border:0;padding-top:5px;padding-bottom:5px">'''29 lutego 2024'''||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''Seminarium wyjazdowe: Warsztat „Analiza danych parlamentarnych”'''||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''Wprowadzenie'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">12:00–12:10: '''Powitanie'''||
||<style="border:0;padding-left:30px;padding-bottom:10px">12:10–12:40: '''[[attachment:seminarium-archiwum/2024-02-29-1.pdf|Korpus Dyskursu Parlamentarnego i korpus ParlaMint]]''' (Maciej Ogrodniczuk)||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''Zgłoszenia konkursowe'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">12:40–13:00: '''[[attachment:seminarium-archiwum/2024-02-29-2.pdf|Aplikacja do analizy sentymentu wypowiedzi parlamentarzystów RP]]''' (Bartłomiej Klimowski)||
||<style="border:0;padding-left:30px;padding-bottom:0px">13:00–13:20: '''[[attachment:seminarium-archiwum/2024-02-29-3.pdf|Analiza dynamiki emocji w debatach parlamentarnych o wojnie w Ukrainie]]''' (Konrad Kiljan i Ewelina Gajewska)||
||<style="border:0;padding-left:30px;padding-bottom:10px">13:20–13:40: '''[[attachment:seminarium-archiwum/2024-02-29-4.pdf|Język wrażliwy na płeć (gender-fair language) w polskim parlamencie: badanie korpusowe debat parlamentarnych w korpusie ParlaMint]]''' (Aleksandra Tomaszewska i Anna Jamka)||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''Wykład na zaproszenie'''||
||<style="border:0;padding-left:30px;padding-bottom:10px">14:00–15:00: '''[[attachment:seminarium-archiwum/2024-02-29-5.pdf|Zmiany w polszczyźnie ostatnich stu lat w zwierciadle debat parlamentarnych]]''' (Marek Łaziński)||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''Dyskusja panelowa'''||
||<style="border:0;padding-left:30px;padding-bottom:10px">15:00–15:45: '''Przetwarzanie danych parlamentarnych: co dalej?''' (Członkowie Kapituły Konkursu)||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''Zakończenie'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">15:45–15:50: '''Wręczenie dyplomów'''||
||<style="border:0;padding-left:30px;padding-bottom:15px">15:50–16:00: '''Podsumowanie warsztatu'''||
||<style="border:0;padding-top:5px;padding-bottom:5px">'''17 lutego 2025'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Alicja Martinek''' (NASK, AGH), '''Ewelina Bartuzi-Trokielewicz''' (NASK, Politechnika Warszawska)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=rCzTBQYkooI|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2025-02-17.pdf|Detekcja deepfakes i fałszywych reklam poprzez analizę tekstu i technik manipulacyjnych]]''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Istniejące algorytmy wykrywania deepfake'ów często zawodzą w skutecznej identyfikacji materiałów stworzonych sztucznie. Te algorytmy koncentrują się głównie na technicznej analizie wideo i audio, często zaniedbując znaczenie samej treści. W niniejszym artykule przedstawiamy nowatorskie podejście, które kładzie nacisk na analizę transkryptów tekstowych, szczególnie tych pochodzących z reklam wygenerowanych przez AI, stawiając treść tekstową w centrum uwagi. Nasza metoda łączy cechy lingwistyczne, ocenę błędów gramatycznych oraz identyfikację technik manipulacyjnych powszechnie stosowanych w oszukańczych treściach. Poprzez badanie niezgodności stylistycznych oraz manipulacyjnych wzorców językowych, zwiększamy dokładność w rozróżnianiu między materiałami rzeczywistymi a deepfake'owymi. Aby zapewnić interpretowalność, zastosowaliśmy klasyczne modele uczenia maszynowego, co pozwoliło nam dostarczyć wyjaśnialne informacje na temat procesów decyzyjnych. Dodatkowo przeprowadziliśmy oceny zero-shot przy użyciu trzech dużych modeli językowych, aby ocenić ich wydajność w wykrywaniu treści deepfake. Wyniki eksperymentalne pokazują, że te czynniki dają dokładność na poziomie 90% w rozróżnianiu oszukańczych reklam opartych na deepfake od rzeczywistych. Dowodzi to skuteczności włączenia analizy opartej na treści do wykrywania deepfake'ów, oferując dodatkową warstwę w stosunku do istniejących technik audiowizualnych.||
Line 68: Line 64:
||<style="border:0;padding-top:5px;padding-bottom:5px">'''25 marca 2024'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Piotr Przybyła''' (Uniwersytet Pompeu Fabry / Instytut Podstaw Informatyki PAN)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''[[attachment:seminarium-archiwum/2024-03-25.pdf|Czy klasyfikatory wiarygodności tekstu są odporne na działania antagonistyczne?]]''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Automatyczne klasyfikatory tekstu wykorzystuje się szeroko do pomocy w moderowaniu platform udostępniających treści generowane przez użytkowników, szczególnie sieci społecznościowych. Mogą być one używane do odsiewania treści nieprzyjaznych, dezinformujących, manipulujących lub wprost nielegalnych. Jednak trzeba wziąć pod uwagę, że autorzy takich tekstów często mają silną motywację do ich rozpowszechniania i mogą próbować modyfikować oryginalną treść, aż znajdą takie sformułowanie, które przedostanie się przez automatyczny filtr. Takie zmodyfikowane wersje oryginalnych danych, nazywane przykładami antagonistycznymi, odgrywają kluczową rolę w badaniu odporności modeli ML na ataki zmotywowanych aktorów. Wystąpienie będzie poświęcone systematycznej analizie tego problemu w kontekście wykrywania dezinformacji. Pokażę konkretne przykłady, gdzie podmiana pozornie nieistotnych słów powoduje zmianę decyzji klasyfikatora, jak również framework BODEGA do systematycznej oceny odporności modeli, wykorzystany również w zadaniu InCrediblAE na [[https://checkthat.gitlab.io/clef2024/task6/|warsztatach ewaluacyjnych CheckThat!]] na konferencji [[https://clef2024.imag.fr/|CLEF 2024]].||
||<style="border:0;padding-top:5px;padding-bottom:5px">'''24 marca 2025'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Maciej Rapacz''', '''Aleksander Smywiński-Pohl''' (AGH Akademia Górniczo-Hutnicza) ||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=FZzPMTa2cYA|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2025-03-24.pdf|Tłumaczenie interlinearne tekstów starogreckich: Jak znaczniki morfologiczne poprawiają jakość przekładu maszynowego]]''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}&#160;{{attachment:seminarium-archiwum/icon-en.gif|Slajdy po angielsku.}}||
||<style="border:0;padding-left:30px;padding-bottom:5px">Tłumaczenie interlinearne to specyficzna technika przekładu, w której każde słowo tekstu źródłowego otrzymuje swój odpowiednik w języku docelowym, umieszczany bezpośrednio pod nim lub nad nim, z zachowaniem oryginalnego szyku zdania. W przeciwieństwie do standardowych tłumaczeń, które dążą do naturalności i płynności wypowiedzi, przekład interlinearny skupia się na wiernym odwzorowaniu struktury gramatycznej i składniowej oryginału, nawet kosztem elegancji stylistycznej. Ta metoda jest szczególnie ceniona przez badaczy tekstów starożytnych, filologów oraz osoby uczące się języków, gdyż pozwala na bezpośredni wgląd w konstrukcję i znaczenie oryginalnego tekstu bez konieczności pełnego opanowania języka źródłowego.||
||<style="border:0;padding-left:30px;padding-bottom:5px">W ramach badań przeprowadziliśmy pierwszą próbę zastosowania tłumaczenia maszynowego do generowania przekładów interlinearnych z greki starożytnej na język polski i angielski. Porównaliśmy wydajność modeli specjalistycznych (!GreTa, !PhilTa) pretrenowanych na tekstach starogreckich z wielojęzycznym modelem ogólnego zastosowania (mT5). Przebadaliśmy 144 różne konfiguracje modeli, modyfikując model bazowy, metodę kodowania znaczników morfologicznych, zestaw znaczników oraz podejście do normalizacji tekstu, wykorzystując jako korpus teksty greckiego Nowego Testamentu.||
||<style="border:0;padding-left:30px;padding-bottom:15px">W trakcie wystąpienia przedstawimy przebieg naszych badań oraz omówimy uzyskane wyniki. Najlepsze rezultaty osiągnęły modele, w których zastosowaliśmy nowe dedykowane warstwy embeddingów do kodowania informacji morfologicznych, co pozwoliło uzyskać wyniki lepsze nawet o 35-38% (BLEU) w porównaniu ze scenariuszem bazowym. Dodatkowe szczegółowe badanie wykazało, że !PhilTa radzi sobie lepiej niż mT5, szczególnie w scenariuszach z ograniczoną dostępnością danych. !PhilTa osiągnęła najwyższe wyniki w tłumaczeniu na język angielski (60,40 BLEU), podczas gdy mT5-large najlepiej poradził sobie z językiem polskim (59,33 BLEU).||
Line 73: Line 71:
||<style="border:0;padding-top:5px;padding-bottom:5px">'''28 marca 2024'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Krzysztof Węcel''' (Uniwersytet Ekonomiczny w Poznaniu)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''[[attachment:seminarium-archiwum/2024-03-28.pdf|Wiarygodność informacji w kontekście procesu fact-checkingu]]''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Prezentacja będzie skupiała się na tematyce projektu !OpenFact, który jest odpowiedzią na problem fake newsów. W ramach projektu opracowujemy metody, które pozwalają na weryfikację wiarygodności informacji. W celu zapewnienia poprawności metodycznej bazujemy na procesie stosowanym przez agencje fact-checkingowe. Działania te opierają się na złożonych zbiorach danych, pozyskiwanych m.in. z !ClaimReview, Common Crawl czy poprzez monitoring mediów społecznościowych i ekstrakcję stwierdzeń z tekstów. Istotne jest również ocenianie informacji pod kątem jej wartości do weryfikacji (checkworthiness) oraz wiarygodności źródeł, których reputacja może wynikać z publikacji z !OpenAlex lub Crossref. Analiza stylometryczna pozwala na określenie autorstwa, a porównanie ludzkiej i maszynowej pracy otwiera nowe możliwości w wykrywaniu użycia sztucznej inteligencji. Używamy zarówno małych modeli językowych, jak i LLM uruchamianych zdalnie w różnych wariantach. Zbudowaliśmy duże zbiory stwierdzeń, które mogą służyć do weryfikacji nowych tekstów poprzez badanie podobieństwa semantycznego. Opisane są one dodatkowymi wciąż rozbudowywanymi metadanymi pozwalającymi na realizację różnych scenariuszy użycia.||
||<style="border:0;padding-top:5px;padding-bottom:5px">'''14 kwietnia 2025'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Ryszard Staruch''', '''Filip Graliński''' (Uniwersytet im. Adama Mickiewicza w Poznaniu)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=xRDXmKoEiOQ|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2025-04-14.pdf|Wykorzystanie wielkich modeli języka w zadaniu korekty tekstu]]''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Wielkie modele języka (LLM) są obecnie najskuteczniejszymi rozwiązaniami w wielu zadaniach przetwarzania języka naturalnego. Wciąż jednak nie wiadomo, jak dobrze radzą sobie z korektą tekstów w języku polskim. W celu zbadania ich efektywności opracowany został specjalistyczny zbiór danych korekty tekstu w języku polskim. Podczas wystąpienia zaprezentowany zostanie ten korpus oraz wyniki ewaluacji wybranych rozwiązań. W drugiej części seminarium omówione zostaną nowe techniki adaptacji wielkich modeli języka do zadania minimalnej korekty tekstów napisanych przez osoby uczące się języka – na przykładzie języka angielskiego.||
Line 78: Line 76:
||<style="border:0;padding-top:5px;padding-bottom:5px">'''25 kwietnia 2024'''||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Seminarium podsumowujące prace nad [[https://kwjp.pl|Korpusem Współczesnego Języka Polskiego (Dekada 2011–2020)]]''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wszystkie wystąpienia w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:0px">11:30–11:35: '''[[attachment:seminarium-archiwum/2024-04-25-1.pdf|O projekcie]]''' (Małgorzata Marciniak)||
||<style="border:0;padding-left:30px;padding-bottom:0px">11:35–12:05: '''[[attachment:seminarium-archiwum/2024-04-25-2.pdf|Korpus Współczesnego Języka Polskiego, Dekada 2011−2020]]''' (Marek Łaziński)||
||<style="border:0;padding-left:30px;padding-bottom:0px">12:05–12:35: '''[[attachment:seminarium-archiwum/2024-04-25-3.pdf|Znakowanie, lematyzacja, frekwencja]]''' (Witold Kieraś)||
||<style="border:0;padding-left:30px;padding-bottom:0px">12:35–13:00: Przerwa kawowa||
||<style="border:0;padding-left:30px;padding-bottom:0px">13:00–13:30: '''[[attachment:seminarium-archiwum/2024-04-25-4.pdf|Hybrydowa reprezentacja informacji składniowej]]''' (Marcin Woliński)||
||<style="border:0;padding-left:30px;padding-bottom:15px">13:30–14:15: '''[[attachment:seminarium-archiwum/2024-04-25-5.pdf|Dyskusja o przyszłości korpusów]]'''||
||<style="border:0;padding-top:5px;padding-bottom:5px">'''28 kwietnia 2025'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Manfred Stede''' (Universität Potsdam)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Discourse structure in the Potsdam Commentary Corpus: Human annotation, human disagreement, and automatic parsing''' &#160;{{attachment:seminarium-archiwum/icon-en.gif|Wystąpienia w języku angielskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">The talk gives a brief introduction to Rhetorical Structure Theory (RST, [[https://www.sfu.ca/rst/05bibliographies/bibs/Mann_Thompson_1988.pdf|Mann/Thompson 1988]]) and then explains the design decisions for the Potsdam Commentary Corpus (PCC), which brings together RST, coreference, and other annotation layers on 175 German news editorials. After illustrating cross-layer queries on the corpus in the ANNIS linguistic database, we turn to the intricacies of manual RST annotation. I will give an overview of the annotation guidelines and their motivations, and present results from an (ongoing) study on annotator disagreements, from which we derive ideas for redesigning the annotation scheme (and potentially the underlying theory), with a comparison to the recent proposal of "eRST" by [[https://direct.mit.edu/coli/article/51/1/23/124464/eRST-A-Signaled-Graph-Theory-of-Discourse|Zeldes et al. (2025)]]. In the last part of the talk, I outline our results on automatic parsing using the system by [[https://aclanthology.org/P14-1002/|Ji and Eisenstein (2014)]].||
Line 87: Line 81:
||<style="border:0;padding-top:5px;padding-bottom:5px">'''13 maja 2024'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Michal Křen''' (Uniwersytet Karola w Pradze)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''[[attachment:seminarium-archiwum/2024-05-13.pdf|Latest developments in the Czech National Corpus]]''' &#160;{{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">The talk will give an overview of the Czech National Corpus (CNC) research infrastructure in all the main areas of its operation: corpus compilation, data annotation, application development and user support. Special attention will be paid to the variety of language corpora and user applications where CNC has recently seen a significant progress. In addition, it is the end-user web applications that shape the way linguists and other scholars think about the language data and how they can be utilized. The talk will conclude with an outline of future plans.||

||<style="border:0;padding-top:5px;padding-bottom:5px">'''3 czerwca 2024''' ('''UWAGA: ''' wystąpienie odbędzie się wyjątkowo o 12:00 w ramach [[https://ipipan.waw.pl/instytut/dzialalnosc-naukowa/seminaria/ogolnoinstytutowe|seminarium IPI PAN]])||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Katarzyna Krasnowska-Kieraś''', '''Marcin Woliński''' (Instytut Podstaw Informatyki PAN)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Tytuł podamy wkrótce''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie po polsku.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Streszczenie podamy w najbliższym czasie.||

||<style="border:0;padding-top:5px;padding-bottom:5px">'''1 lipca 2024'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Purificação Silvano''' (Uniwersytet w Porto)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Tytuł wystąpienia podamy wkrótce''' &#160;{{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}||
||<style="border:0;padding-top:5px;padding-bottom:5px">'''12 maja 2025''' ('''UWAGA: ''' wystąpienie odbędzie się o 12:00 w ramach [[https://ipipan.waw.pl/instytut/dzialalnosc-naukowa/seminaria/ogolnoinstytutowe|seminarium IPI PAN]])||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Maciej Ogrodniczuk''', '''Aleksandra Tomaszewska''', '''Bartosz Żuk''', '''Alina Wróblewska''' (Instytut Podstaw Informatyki PAN)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Tytuł wystąpienia (dot. modelu PLLuM) zostanie podany wkrótce''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienia w języku polskim.}}||
Line 102: Line 86:
||<style="border:0;padding-top:15px">Zapraszamy także do zapoznania się z [[http://nlp.ipipan.waw.pl/NLP-SEMINAR/previous-p.html|archiwum seminariów z lat 2000–2015]] oraz [[http://zil.ipipan.waw.pl/seminarium-archiwum|listą wystąpień z lat 2015–2023]].|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''26 maja 2025'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Deniz Zeyrek''' (Middle East Technical University)||
||<style="border:0;padding-left:30px;padding-bottom:15px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Tytuł wystąpienia zostanie podany wkrótce''' &#160;{{attachment:seminarium-archiwum/icon-en.gif|Wystąpienia w języku angielskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:5px">Streszczenie wystąpienia udostępnimy w najbliższym czasie.||



||<style="border:0;padding-top:15px">Zapraszamy także do zapoznania się z [[http://nlp.ipipan.waw.pl/NLP-SEMINAR/previous-p.html|archiwum seminariów z lat 2000–2015]] oraz [[http://zil.ipipan.waw.pl/seminarium-archiwum|listą wystąpień z lat 2015–2024]].||
Line 105: Line 96:

||<style="border:0;padding-top:5px;padding-bottom:5px">'''7 października 2023'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Uczestnicy konkursu PolEval 2024''' ||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Planowana seria prezentacji uczestników zadań PolEvalowych''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienia w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Lista wystąpień będzie dostępna wkrótce.||

Seminarium „Przetwarzanie języka naturalnego” 2024–25

Seminarium Zespołu Inżynierii LingwistycznejInstytucie Podstaw Informatyki Polskiej Akademii Nauk odbywa się średnio co 2 tygodnie, zwykle w poniedziałki o godz. 10:15 (niekiedy online – prosimy o korzystanie z linku przy tytule wystąpienia) i ma charakter otwarty. Poszczególne referaty ogłaszane są na Polskiej Liście Językoznawczej oraz na stronie Lingwistyka komputerowa na Facebooku. Nagrania wystąpień dostępne są na kanale YouTube.

seminar

7 października 2024

Janusz S. Bień (profesor emeritus Uniwersytetu Warszawskiego)

https://www.youtube.com/watch?v=2mLYixXC_Hw Identyfikacja czcionek w XVI-wiecznych drukach. Analiza przypadku  Wystąpienia w języku polskim.

Przetwarzanie tekstów wymaga ich zakodowania w odpowiednim standardzie, aktualnie praktyczne jedyną opcją jest standard Unicode. Niektóre czcionki stosowane w starodrukach są już uwzględnione w tym standardzie, niektóre są dostępne w specjalistycznych fontach za pomocą tzw. funkcji zecerskich. Niektóre czcionki, opisane w monumentalnym dziele „Polonia Typographica Saeculi Sedecimi”, nie mają jednak swoich odpowiedników w standardzie. W referacie omówię kilka takich czcionek.

14 października 2024

Alexander Rosen (Uniwersytet Karola w Pradze)

https://www.youtube.com/watch?v=E2ujmqt7Q2E Lexical and syntactic variability of languages and text genres. A corpus-based study  Wystąpienie w języku angielskim.

This study examines metrics of syntactic complexity (SC) and lexical diversity (LD) as tools for analyzing linguistic variation within and across languages. Using quantifiable measures based on cross-linguistically consistent (morpho)syntactic annotation (Universal Dependencies), the research utilizes parallel texts from a large multilingual corpus (InterCorp). Six SC and two LD metrics – covering the length and embedding levels of nominal and clausal constituents, mean dependency distance (MDD), and sentence length – are applied as metadata for sentences and texts.

The presentation will address how these metrics can be visualized and incorporated into corpus queries, how they reflect structural differences across languages and text types, and whether SC and LD vary more across languages or text types. It will also consider the impact of language-specific annotation nuances and correlations among the measures. The analysis includes comparative examples from Polish, Czech, and other languages.

Preliminary findings indicate higher SC in non-fiction compared to fiction across languages, with nominal and clausal metrics being dominant factors. The results suggest distinct patterns for MDD and sentence length, highlighting the impact of structural differences (e.g., analytic vs. synthetic morphology, dominant word-order patterns) and the influence of source text type and style.

28 października 2024

Rafał Jaworski (Uniwersytet im. Adama Mickiewicza w Poznaniu)

https://www.youtube.com/watch?v=52LZ976imBA Zestaw algorytmów zrównoleglania i przechowywania wielojęzycznych zanurzeń słów na potrzeby obliczania prawdopodobieństwa tłumaczenia  Wystąpienie w języku polskim.

Podczas wystąpienia zreferuję moje badania naukowe z dziedziny przetwarzania języka naturalnego na potrzeby wspomagania tłumaczenia. Przedstawię w szczególności zestaw algorytmów Inter-language Vector Space służący do zrównoleglania zdań na poziomie słów i fraz wykorzystujących wielojęzyczne zanurzenia słów (word embeddings).

Pierwszą funkcją zestawu jest generowanie reprezentacji wektorowych słów. Są one generowane przy użyciu sieci neuronowej typu auto-encoder na podstawie danych tekstowych – korpusu tekstu. W ten sposób powstają słowniki wektorowe dla poszczególnych języków. Reprezentacje wektorowe słów znajdujących się w tych słownikach stanowią przestrzenie wektorowe, które różnią się pomiędzy językami.

Aby rozwiązać ten problem i uzyskać reprezentacje wektorowe słów, które byłyby porównywalne pomiędzy językami, stosuje się drugą funkcję zestawu Inter-language Vector Space. Służy on do zrównoleglania przestrzeni wektorowych pomiędzy językami z wykorzystaniem macierzy transformacji obliczanych metodą rozkładu według wartości osobliwych. Macierz ta jest obliczana na podstawie homonimów, tj. słów pisanych identycznie w języku przestrzeni X oraz Y. Dodatkowo, w celach wspomagających stosowany jest słownik dwujęzyczny. Obliczona w ten sposób macierz transformacji pozwala na dostosowanie przestrzeni X w taki sposób, aby w maksymalny możliwy sposób pokrywała się z przestrzenią Y.

Ostatnia funkcja zestawu jest odpowiedzialna za stworzenie wielojęzycznej przestrzeni wektorowej. Do przestrzeni tej najpierw dodawana jest w całości i bez modyfikacji przestrzeń wektorowa dla języka angielskiego. Następnie, dla każdej innej przestrzeni wektorowej obliczana jest najpierw macierz transformacji tej przestrzeni do przestrzeni angielskiej. Wektory nowej przestrzeni są mnożone przez tę macierz i w ten sposób stają się porównywalne z wektorami reprezentującymi słowa angielskie.

Zestaw algorytmów Inter-language Vector Space znajduje zastosowanie w systemach wspomagania tłumaczenia, na przykład w autorskim algorytmie automatycznego transferu znaczników nietłumaczonych ze zdania źródłowego do docelowego.

4 listopada 2024

Jakub Kozakoszczak (Deutsche Telekom)

ZIML: Język znaczników anotacyjnych do łatwego dopasowywania regeksami  Wystąpienie w języku angielskim.

Przeszukiwanie regeksami warstwy anotacyjnej tekstu reprezentowanej wplecionymi znacznikami wymaga budowania wzorców, które szybko stają się nieczytelne i nie do utrzymania. Zupełnie niemożliwe jest stosowanie warunków na odległości wewnątrz tekstu, wydłużonych przez obecność tagów. Anotacja wydrębniona poza tekst co prawda zachowuje odległości, ale jest niewidoczna dla regeksów.

Przedstawię język znaczników Zero Insertion Markup Language (ZIML), w którym każda kombinacja znaków i etykiet w zaanotowanym tekście jest reprezentowana przez pojedynczy „alloznak”, co zachowuje odległości wewnątrz dokumentu. Te same alloznaki wprowadzone są do regeksów w taki sposób, że zachowują pozycje dopasowań zwracanych przez standardowe silniki wyrażeń regularnych. W efekcie jedyną ingerencją w semantykę języka regeksów jest wzbogacenie jej o denotowanie etykiet przez dopasowanie alloznaków, które je reprezentują.

Podam dowód poprawności tego przekształcenia i przedstawię implementację języka ZIML, w tym składnię dodawania odwołań do etykiet w treści wzorców. Omówię, w miarę możliwości czasowych, potencjalne zastosowania ZIML w językoznawstwie i przetwarzaniu języka naturalnego. Do zrozumienia prezentacji pomoże podstawowa wiedza na temat teorii modeli i wyszukiwania regeksami.

21 listopada 2024

Christian Chiarcos (Uniwersytet w Augsburgu)

https://www.youtube.com/watch?v=FxiOM5zAKo8 Aspects of Knowledge Representation for Discourse Relation Annotation  Wystąpienie w języku angielskim.

Semantic technologies comprise a broad set of standards and technologies including aspects of knowledge representation, information management and computational inference. In this lecture, I will describe the application of knowledge representation standards to the realm of computational discourse, and especially, the annotation of discourse relations. In particular, this includes the formal modelling of discourse relations of different theoretical frameworks by means of modular, interlinked ontologies, the machine-readable edition of discourse marker inventories with OntoLex and techniques for the induction of discourse marker inventories.

2 grudnia 2024

Uczestnicy konkursu PolEval 2024

Prezentacja wyników konkursu  Wystąpienia w języku polskim. Slajdy po angielsku.

https://www.youtube.com/watch?v=cwu8YfqtnTs Welcome to PolEval 2024 (Łukasz Kobyliński, Maciej Ogrodniczuk, Filip Graliński, Ryszard Staruch, Karol Saputa)

https://www.youtube.com/watch?v=OnxkmpGmxP4 PolEval 2024 Task 1: Reading Comprehension (Ryszard Tuora / Aleksandra Zwierzchowska)

https://www.youtube.com/watch?v=9FDTOx55WMI Optimizing LLMs for Polish Reading Comprehension: A Comparative Study of Ensemble and Unified Approaches (Krzysztof Wróbel)

https://www.youtube.com/watch?v=_Ur9kzZ3ols PolEval 2024 Task 2: Emotion and Sentiment Recognition (Jan Kocoń, Bartłomiej Koptyra)

https://www.youtube.com/watch?v=V3_z2KiVgco Emotion and Sentiment Recognition in Polish Texts Using Large Language Models: A Winning Approach to PolEval 2024 (Krzysztof Wróbel)

https://www.youtube.com/watch?v=59Xkzoi3TDY Ensemble as a Variance Reduction Method for Emotion and Sentiment Recognition (Tomasz Warzecha)

https://www.youtube.com/watch?v=ESNbPIwjfvw Emotion and Sentiment Recognition Using Ensemble Models (Jakub Kosterna)

https://www.youtube.com/watch?v=Ds8BkUTpcm8 Zero-shot Approach Using Bielik LLM for Emotion Recognition in Polish (Paweł Cyrta)

https://www.youtube.com/watch?v=lmRZn7254MY PolEval 2024 Task 3: Polish Automatic Speech Recognition Challenge (Michał Junczyk, Iwona Christop, Piotr Pęzik)

https://www.youtube.com/watch?v=G35l9xJWqA0 Augmenting Polish Automatic Speech Recognition System with Synthetic Data (Łukasz Bondaruk, Jakub Kubiak, Mateusz Czyżnikiewicz)

https://www.youtube.com/watch?v=uIDfc6c1TtA Exploration of training Zipformer and E-Branchformer models with Polish language BIGOS dataset (Paweł Cyrta)

19 grudnia 2024

Piotr Przybyła (Uniwersytet Pompeu Fabry / Instytut Podstaw Informatyki PAN)

https://www.youtube.com/watch?v=xqDkbiF4izI Adaptacyjne ataki na klasyfikację wiarygodności z wykorzystaniem uczenia ze wzmocnieniem  Wystąpienie w języku angielskim.

W trakcie prezentacji przedstawiony zostanie system XARELLO: generator przykładów antagonistycznych dla testowania odporności klasyfikacji tekstu, zbudowany na bazie uczenia ze wzmocnieniem. Rozwiązanie to jest adaptacyjne, ponieważ obserwuje sukcesy i porażki wykonywanych ataków i dostosowuje się do słabości klasyfikatora-ofiary. Taka procedura odzwierciedla długoterminowe i ustawiczne ataki, które są typowe dla aktorów rozprzestrzeniających dezinformację. Przedstawimy także wyniki ewaluacji pokazującej, że podejście adaptacyjne prowadzi do odnajdywania przykładów antagonistycznych o lepszej jakości i z mniejszą liczbą prób, szczególnie w atakach na duże modele językowe.

17 lutego 2025

Alicja Martinek (NASK, AGH), Ewelina Bartuzi-Trokielewicz (NASK, Politechnika Warszawska)

https://www.youtube.com/watch?v=rCzTBQYkooI Detekcja deepfakes i fałszywych reklam poprzez analizę tekstu i technik manipulacyjnych  Wystąpienie w języku polskim.

Istniejące algorytmy wykrywania deepfake'ów często zawodzą w skutecznej identyfikacji materiałów stworzonych sztucznie. Te algorytmy koncentrują się głównie na technicznej analizie wideo i audio, często zaniedbując znaczenie samej treści. W niniejszym artykule przedstawiamy nowatorskie podejście, które kładzie nacisk na analizę transkryptów tekstowych, szczególnie tych pochodzących z reklam wygenerowanych przez AI, stawiając treść tekstową w centrum uwagi. Nasza metoda łączy cechy lingwistyczne, ocenę błędów gramatycznych oraz identyfikację technik manipulacyjnych powszechnie stosowanych w oszukańczych treściach. Poprzez badanie niezgodności stylistycznych oraz manipulacyjnych wzorców językowych, zwiększamy dokładność w rozróżnianiu między materiałami rzeczywistymi a deepfake'owymi. Aby zapewnić interpretowalność, zastosowaliśmy klasyczne modele uczenia maszynowego, co pozwoliło nam dostarczyć wyjaśnialne informacje na temat procesów decyzyjnych. Dodatkowo przeprowadziliśmy oceny zero-shot przy użyciu trzech dużych modeli językowych, aby ocenić ich wydajność w wykrywaniu treści deepfake. Wyniki eksperymentalne pokazują, że te czynniki dają dokładność na poziomie 90% w rozróżnianiu oszukańczych reklam opartych na deepfake od rzeczywistych. Dowodzi to skuteczności włączenia analizy opartej na treści do wykrywania deepfake'ów, oferując dodatkową warstwę w stosunku do istniejących technik audiowizualnych.

24 marca 2025

Maciej Rapacz, Aleksander Smywiński-Pohl (AGH Akademia Górniczo-Hutnicza)

https://www.youtube.com/watch?v=FZzPMTa2cYA Tłumaczenie interlinearne tekstów starogreckich: Jak znaczniki morfologiczne poprawiają jakość przekładu maszynowego  Wystąpienie w języku polskim. Slajdy po angielsku.

Tłumaczenie interlinearne to specyficzna technika przekładu, w której każde słowo tekstu źródłowego otrzymuje swój odpowiednik w języku docelowym, umieszczany bezpośrednio pod nim lub nad nim, z zachowaniem oryginalnego szyku zdania. W przeciwieństwie do standardowych tłumaczeń, które dążą do naturalności i płynności wypowiedzi, przekład interlinearny skupia się na wiernym odwzorowaniu struktury gramatycznej i składniowej oryginału, nawet kosztem elegancji stylistycznej. Ta metoda jest szczególnie ceniona przez badaczy tekstów starożytnych, filologów oraz osoby uczące się języków, gdyż pozwala na bezpośredni wgląd w konstrukcję i znaczenie oryginalnego tekstu bez konieczności pełnego opanowania języka źródłowego.

W ramach badań przeprowadziliśmy pierwszą próbę zastosowania tłumaczenia maszynowego do generowania przekładów interlinearnych z greki starożytnej na język polski i angielski. Porównaliśmy wydajność modeli specjalistycznych (GreTa, PhilTa) pretrenowanych na tekstach starogreckich z wielojęzycznym modelem ogólnego zastosowania (mT5). Przebadaliśmy 144 różne konfiguracje modeli, modyfikując model bazowy, metodę kodowania znaczników morfologicznych, zestaw znaczników oraz podejście do normalizacji tekstu, wykorzystując jako korpus teksty greckiego Nowego Testamentu.

W trakcie wystąpienia przedstawimy przebieg naszych badań oraz omówimy uzyskane wyniki. Najlepsze rezultaty osiągnęły modele, w których zastosowaliśmy nowe dedykowane warstwy embeddingów do kodowania informacji morfologicznych, co pozwoliło uzyskać wyniki lepsze nawet o 35-38% (BLEU) w porównaniu ze scenariuszem bazowym. Dodatkowe szczegółowe badanie wykazało, że PhilTa radzi sobie lepiej niż mT5, szczególnie w scenariuszach z ograniczoną dostępnością danych. PhilTa osiągnęła najwyższe wyniki w tłumaczeniu na język angielski (60,40 BLEU), podczas gdy mT5-large najlepiej poradził sobie z językiem polskim (59,33 BLEU).

14 kwietnia 2025

Ryszard Staruch, Filip Graliński (Uniwersytet im. Adama Mickiewicza w Poznaniu)

https://www.youtube.com/watch?v=xRDXmKoEiOQ Wykorzystanie wielkich modeli języka w zadaniu korekty tekstu  Wystąpienie w języku polskim.

Wielkie modele języka (LLM) są obecnie najskuteczniejszymi rozwiązaniami w wielu zadaniach przetwarzania języka naturalnego. Wciąż jednak nie wiadomo, jak dobrze radzą sobie z korektą tekstów w języku polskim. W celu zbadania ich efektywności opracowany został specjalistyczny zbiór danych korekty tekstu w języku polskim. Podczas wystąpienia zaprezentowany zostanie ten korpus oraz wyniki ewaluacji wybranych rozwiązań. W drugiej części seminarium omówione zostaną nowe techniki adaptacji wielkich modeli języka do zadania minimalnej korekty tekstów napisanych przez osoby uczące się języka – na przykładzie języka angielskiego.

28 kwietnia 2025

Manfred Stede (Universität Potsdam)

http://zil.ipipan.waw.pl/seminarium-online Discourse structure in the Potsdam Commentary Corpus: Human annotation, human disagreement, and automatic parsing  Wystąpienia w języku angielskim.

The talk gives a brief introduction to Rhetorical Structure Theory (RST, Mann/Thompson 1988) and then explains the design decisions for the Potsdam Commentary Corpus (PCC), which brings together RST, coreference, and other annotation layers on 175 German news editorials. After illustrating cross-layer queries on the corpus in the ANNIS linguistic database, we turn to the intricacies of manual RST annotation. I will give an overview of the annotation guidelines and their motivations, and present results from an (ongoing) study on annotator disagreements, from which we derive ideas for redesigning the annotation scheme (and potentially the underlying theory), with a comparison to the recent proposal of "eRST" by Zeldes et al. (2025). In the last part of the talk, I outline our results on automatic parsing using the system by Ji and Eisenstein (2014).

12 maja 2025 (UWAGA: wystąpienie odbędzie się o 12:00 w ramach seminarium IPI PAN)

Maciej Ogrodniczuk, Aleksandra Tomaszewska, Bartosz Żuk, Alina Wróblewska (Instytut Podstaw Informatyki PAN)

http://zil.ipipan.waw.pl/seminarium-online Tytuł wystąpienia (dot. modelu PLLuM) zostanie podany wkrótce  Wystąpienia w języku polskim.

Streszczenie wystąpienia udostępnimy w najbliższym czasie.

26 maja 2025

Deniz Zeyrek (Middle East Technical University)

http://zil.ipipan.waw.pl/seminarium-online Tytuł wystąpienia zostanie podany wkrótce  Wystąpienia w języku angielskim.

Streszczenie wystąpienia udostępnimy w najbliższym czasie.

Zapraszamy także do zapoznania się z archiwum seminariów z lat 2000–2015 oraz listą wystąpień z lat 2015–2024.