Size: 30390
Comment:
|
← Revision 966 as of 2025-04-16 10:43:35 ⇥
Size: 35283
Comment:
|
Deletions are marked like this. | Additions are marked like this. |
Line 2: | Line 2: |
= Seminarium „Przetwarzanie języka naturalnego” 2022–23 = | = Seminarium „Przetwarzanie języka naturalnego” 2024–25 = |
Line 6: | Line 6: |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''3 października 2022'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Sławomir Dadas''' (Ośrodek Przetwarzania Informacji)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=TGwLeE1Y5X4|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2022-10-03.pdf|Doświadczenia z trenowania neuronowych enkoderów zdaniowych dla języka polskiego]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Transformacja zdań lub krótkich tekstów do postaci gęstych wektorów o stałej liczbie wymiarów znajduje zastosowanie w zadaniach takich jak wyszukiwanie informacji, odpowiadanie na pytania, grupowanie tekstów czy detekcja plagiatów. Prostym sposobem na konstrukcję tego typu reprezentacji jest agregacja wektorów wygenerowanych przez model języka lub pochodzących z zanurzeń słów. Natomiast wyższej jakości reprezentacje można uzyskać poprzez dodatkowy fine-tuning modelu języka na parach zdań semantycznie podobnych. W prezentacji przedstawione zostaną metody uczenia enkoderów zdaniowych bazujących na architekturze Transformer oraz nasze doświadczenia z trenowaniem takich modeli dla języka polskiego. Ponadto omówimy sposoby na automatyczne pozyskanie dużych zbiorów parafraz korzystając z publicznie dostępnych korpusów. Pokazany zostanie także przykład zastosowania enkoderów zdaniowych w praktyce, w systemie informatycznym służącym do wykrywania niedozwolonych zapisów w umowach konsumenckich.|| |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''7 października 2024'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Janusz S. Bień''' (profesor emeritus Uniwersytetu Warszawskiego) || ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=2mLYixXC_Hw|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2024-10-07.pdf|Identyfikacja czcionek w XVI-wiecznych drukach. Analiza przypadku]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienia w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Przetwarzanie tekstów wymaga ich zakodowania w odpowiednim standardzie, aktualnie praktyczne jedyną opcją jest standard Unicode. Niektóre czcionki stosowane w starodrukach są już uwzględnione w tym standardzie, niektóre są dostępne w specjalistycznych fontach za pomocą tzw. funkcji zecerskich. Niektóre czcionki, opisane w monumentalnym dziele „[[https://crispa.uw.edu.pl/object/files/754258/display/Default|Polonia Typographica Saeculi Sedecimi]]”, nie mają jednak swoich odpowiedników w standardzie. W referacie omówię kilka takich czcionek.|| |
Line 11: | Line 11: |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''14 listopada 2022'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Łukasz Augustyniak''', '''Kamil Tagowski''', '''Albert Sawczyn''', '''Denis Janiak''', '''Roman Bartusiak''', '''Adrian Dominik Szymczak''', '''Arkadiusz Janz''', '''Piotr Szymański''', '''Marcin Wątroba''', '''Mikołaj Morzy''', '''Tomasz Jan Kajdanowicz''', '''Maciej Piasecki''' (Politechnika Wrocławska)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://pwr-edu.zoom.us/j/96657909989?pwd=VXFmcEc5blNyM0M3ekxvNGc3Q2Rsdz09|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2022-11-14.pdf|LEPISZCZE, kompleksowy benchmark NLP dla języka polskiego]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}} {{attachment:seminarium-archiwum/icon-en.gif|Slajdy po angielsku.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Coraz szersza dostępność zasobów obliczeniowych i danych do trenowania dużych modeli językowych zwiększa zapotrzebowanie na tworzenie solidnych środowisk ewaluacyjnych pozwalających na rzetelne oszacowanie postępów w modelowaniu języka. W ostatnich latach zauważalny jest znaczący postęp prac nad standaryzacją środowisk ewaluacyjnych dla języka angielskiego. Środowiska takie jak GLUE, SuperGLUE czy KILT stały się standardowymi narzędziami do oceny modeli językowych. W tworzeniu środowisk dla innych języków wielu badaczy koncentrowało się na replikowaniu środowiska GLUE, czego przykładem jest polski benchmark KLEJ. W niniejszej pracy przedstawiamy przegląd prac nad tworzeniem środowisk ewaluacyjnych dla języków nisko-zasobowych. Pokazujemy, że wciąż wiele języków nie posiada wyczerpującego zestawu danych testowych do oceny modeli językowych. Wskazujemy obecne w środowiskach ewaluacyjnych luki i porównujemy dostępne w ramach tych środowisk zadania odnosząc się przy tym do języka angielskiego i języka chińskiego - języków o licznych zasobach treningowo-testowych. Głównym wynikiem niniejszej pracy jest LEPISZCZE – nowe środowisko ewaluacyjne dla polskiej technologii językowej opartej na modelowaniu języka, z szerokim zestawem różnorodnych zadań testowych. Zaproponowane środowisko zostało zaprojektowane z myślą o elastyczności w dodawaniu zadań, wprowadzaniu nowych modeli językowych, nadsyłaniu wyników oraz wersjonowaniu danych i modeli. Wraz ze środowiskiem dostarczamy również ocenę kilku nowych modeli językowych oraz dołączamy zarówno poprawione zbiory istniejące w literaturze jak również i nowe zbiory testowe dla nowych zadań. W środowisku zawarto 5 istniejących zbiorów danych i 8 nowych zbiorów danych, które dotychczas nie były używane w ewaluacji modeli językowych. W pracy zawarto również doświadczenia i wnioski wynikające z pracy nad tworzeniem środowiska ewaluacyjnego LEPISZCZE jako wskazówki dla projektantów podobnych środowisk w innych językach o ograniczonych zasobach językowych.|| |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''14 października 2024'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Alexander Rosen''' (Uniwersytet Karola w Pradze)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=E2ujmqt7Q2E|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2024-10-14.pdf|Lexical and syntactic variability of languages and text genres. A corpus-based study]]'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:5px">This study examines metrics of syntactic complexity (SC) and lexical diversity (LD) as tools for analyzing linguistic variation within and across languages. Using quantifiable measures based on cross-linguistically consistent (morpho)syntactic annotation ([[https://universaldependencies.org/|Universal Dependencies]]), the research utilizes parallel texts from a large multilingual corpus ([[https://wiki.korpus.cz/doku.php/en:cnk:intercorp:verze16ud|InterCorp]]). Six SC and two LD metrics – covering the length and embedding levels of nominal and clausal constituents, mean dependency distance (MDD), and sentence length – are applied as metadata for sentences and texts.|| ||<style="border:0;padding-left:30px;padding-bottom:5px">The presentation will address how these metrics can be visualized and incorporated into corpus queries, how they reflect structural differences across languages and text types, and whether SC and LD vary more across languages or text types. It will also consider the impact of language-specific annotation nuances and correlations among the measures. The analysis includes comparative examples from Polish, Czech, and other languages.|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Preliminary findings indicate higher SC in non-fiction compared to fiction across languages, with nominal and clausal metrics being dominant factors. The results suggest distinct patterns for MDD and sentence length, highlighting the impact of structural differences (e.g., analytic vs. synthetic morphology, dominant word-order patterns) and the influence of source text type and style.|| |
Line 16: | Line 18: |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''28 listopada 2022'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Aleksander Wawer''' (Instytut Podstaw Informatyki PAN), '''Justyna Sarzyńska-Wawer''' (Instytut Psychologii PAN)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=zVbQ7gmbqvA|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2022-11-28.pdf|Kłamanie po polsku: analiza języka oraz automatyczne metody wykrywania]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Kłamstwo jest integralną częścią codziennej komunikacji zarówno w formie pisemnej, jak i ustnej. W niniejszym wystąpieniu przedstawimy wyniki uzyskane na zbiorze blisko 1500 prawdziwych i fałszywych wypowiedzi, z których połowa to transkrypcje, a druga połowa to wypowiedzi pisemne, pochodzące z prawdopodobnie największego badania nad kłamaniem w języku polskim. W pierwszej części referatu zbadamy różnice między twierdzeniami prawdziwymi i fałszywymi: sprawdzimy, czy różnią się pod względem złożoności i wydźwięku, a także cech takich jak długość wypowiedzi, konkretność i rozkład części mowy. W drugiej części referatu opowiemy o budowaniu modeli, które automatycznie odróżniają prawdziwe od fałszywych wypowiedzi, uwzględniając proste podejścia, jak modele trenowane na cechach słownikowych, jak i bardziej złożone, pre-trenowane sieci neuronowe typu transformer. Opowiemy także o próbie wykrywania kłamania z wykorzystaniem metod automatycznego fact-checkingu i przedstawimy wstępne wyniki prac nad interpretowalnością (objaśnialnością) modeli wykrywających kłamanie.|| |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''28 października 2024'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Rafał Jaworski''' (Uniwersytet im. Adama Mickiewicza w Poznaniu)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=52LZ976imBA|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2024-10-28.pdf|Zestaw algorytmów zrównoleglania i przechowywania wielojęzycznych zanurzeń słów na potrzeby obliczania prawdopodobieństwa tłumaczenia]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:5px">Podczas wystąpienia zreferuję moje badania naukowe z dziedziny przetwarzania języka naturalnego na potrzeby wspomagania tłumaczenia. Przedstawię w szczególności zestaw algorytmów ''Inter-language Vector Space'' służący do zrównoleglania zdań na poziomie słów i fraz wykorzystujących wielojęzyczne zanurzenia słów (''word embeddings'').|| ||<style="border:0;padding-left:30px;padding-bottom:5px">Pierwszą funkcją zestawu jest generowanie reprezentacji wektorowych słów. Są one generowane przy użyciu sieci neuronowej typu ''auto-encoder'' na podstawie danych tekstowych – korpusu tekstu. W ten sposób powstają słowniki wektorowe dla poszczególnych języków. Reprezentacje wektorowe słów znajdujących się w tych słownikach stanowią przestrzenie wektorowe, które różnią się pomiędzy językami.|| ||<style="border:0;padding-left:30px;padding-bottom:5px">Aby rozwiązać ten problem i uzyskać reprezentacje wektorowe słów, które byłyby porównywalne pomiędzy językami, stosuje się drugą funkcję zestawu ''Inter-language Vector Space''. Służy on do zrównoleglania przestrzeni wektorowych pomiędzy językami z wykorzystaniem macierzy transformacji obliczanych metodą rozkładu według wartości osobliwych. Macierz ta jest obliczana na podstawie homonimów, tj. słów pisanych identycznie w języku przestrzeni X oraz Y. Dodatkowo, w celach wspomagających stosowany jest słownik dwujęzyczny. Obliczona w ten sposób macierz transformacji pozwala na dostosowanie przestrzeni X w taki sposób, aby w maksymalny możliwy sposób pokrywała się z przestrzenią Y. || ||<style="border:0;padding-left:30px;padding-bottom:5px">Ostatnia funkcja zestawu jest odpowiedzialna za stworzenie wielojęzycznej przestrzeni wektorowej. Do przestrzeni tej najpierw dodawana jest w całości i bez modyfikacji przestrzeń wektorowa dla języka angielskiego. Następnie, dla każdej innej przestrzeni wektorowej obliczana jest najpierw macierz transformacji tej przestrzeni do przestrzeni angielskiej. Wektory nowej przestrzeni są mnożone przez tę macierz i w ten sposób stają się porównywalne z wektorami reprezentującymi słowa angielskie.|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Zestaw algorytmów ''Inter-language Vector Space'' znajduje zastosowanie w systemach wspomagania tłumaczenia, na przykład w autorskim algorytmie automatycznego transferu znaczników nietłumaczonych ze zdania źródłowego do docelowego.|| |
Line 21: | Line 27: |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''19 grudnia 2022'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Wojciech Kryściński''' (Salesforce Research)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=54qidiBmiok|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2022-12-19.pdf|Automatyczne streszczanie tekstu]]'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie i slajdy po angielsku.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Automatyczne streszczanie tekstu stanowi zadanie z dziedziny przetwarzania języka naturalnego (NLP) wymagające zaawansowanych zdolności rozumienia języka (NLU) i możliwości jego generowania (NLG). Dzięki wysiłkom społeczności naukowej i osiągniętemu rozwojowi w dziedzinie NLP w ostatnich latach poczyniono znaczne postępy w opracowywaniu modeli neuronowych dla tego zadania. Pomimo tych postępów, automatyczne streszczanie tekstu pozostaje zadaniem trudnym, które jest dalekie od rozwiązania. Prezentację zaczniemy od omówienia wczesnych podejść do zagadnienia AST oraz obecnego stanu wiedzy w tej dziedzinie. Następnie dokonamy krytycznej oceny kluczowych składników istniejącej konfiguracji badawczej: zestawów danych, metryk oceny i modeli. Na koniec skoncentrujemy się na pojawiających się kierunkach badawczych i rozważymy przyszłość automatycznego streszczenia tekstów.|| |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''4 listopada 2024'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Jakub Kozakoszczak''' (Deutsche Telekom)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''[[attachment:seminarium-archiwum/2024-11-04.pdf|ZIML: Język znaczników anotacyjnych do łatwego dopasowywania regeksami]]'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:5px">Przeszukiwanie regeksami warstwy anotacyjnej tekstu reprezentowanej wplecionymi znacznikami wymaga budowania wzorców, które szybko stają się nieczytelne i nie do utrzymania. Zupełnie niemożliwe jest stosowanie warunków na odległości wewnątrz tekstu, wydłużonych przez obecność tagów. Anotacja wydrębniona poza tekst co prawda zachowuje odległości, ale jest niewidoczna dla regeksów.|| ||<style="border:0;padding-left:30px;padding-bottom:5px">Przedstawię język znaczników Zero Insertion Markup Language (ZIML), w którym każda kombinacja znaków i etykiet w zaanotowanym tekście jest reprezentowana przez pojedynczy „alloznak”, co zachowuje odległości wewnątrz dokumentu. Te same alloznaki wprowadzone są do regeksów w taki sposób, że zachowują pozycje dopasowań zwracanych przez standardowe silniki wyrażeń regularnych. W efekcie jedyną ingerencją w semantykę języka regeksów jest wzbogacenie jej o denotowanie etykiet przez dopasowanie alloznaków, które je reprezentują.|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Podam dowód poprawności tego przekształcenia i przedstawię implementację języka ZIML, w tym składnię dodawania odwołań do etykiet w treści wzorców. Omówię, w miarę możliwości czasowych, potencjalne zastosowania ZIML w językoznawstwie i przetwarzaniu języka naturalnego. Do zrozumienia prezentacji pomoże podstawowa wiedza na temat teorii modeli i wyszukiwania regeksami.|| |
Line 26: | Line 34: |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''9 stycznia 2023'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Marzena Karpińska''' (University of Massachusetts Amherst)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''[[attachment:seminarium-archiwum/2023-01-09.pdf|Wyzwania związane z oceną tekstu generowanego maszynowo]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Postęp w generowaniu języka naturalnego (NLG) utrudnił badaczom skuteczne ocenianie wyników najnowszych modeli. Klasyczne metryki, takie jak BLEU czy ROUGE, nie są już wystarczające, aby odróżnić wysokiej jakości teksty od tych o niższej jakości, zwłaszcza w kreatywnych taskach takich jak generowanie opowieści czy poezji, lub też w przypadku oceny dłuższych tekstów w odróżnieniu od ewaluacji pojedynczych zdań. W rezultacie wielu badaczy ucieka się do crowdsourcingu, korzystając z platform, takich jak Amazon Mechanical Turk (AMT), aby ocenić spójność czy gramatyczność wygenerowanych tekstów. W tej prezentacji przedstawię najpierw serię eksperymentów pokazującą wyzwania takiej ewaluacji, demonstrując, że nawet eksperci mogą mieć trudności z ocenianiem tekstu wygenerowanego przez modele przy użyciu skali Likerta, zwłaszcza gdy oceniają oni kreatywny tekst. W drugiej części omówię podobne kwestie związane z automatycznym ocenianiem tłumaczenia maszynowego literatury pięknej oraz wyjaśnię niektóre unikalne wyzwania związane z samym zadaniem tłumaczenia takich tekstów.|| |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''21 listopada 2024'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Christian Chiarcos''' (Uniwersytet w Augsburgu)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=FxiOM5zAKo8|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2024-11-21.pdf|Aspects of Knowledge Representation for Discourse Relation Annotation]]'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Semantic technologies comprise a broad set of standards and technologies including aspects of knowledge representation, information management and computational inference. In this lecture, I will describe the application of knowledge representation standards to the realm of computational discourse, and especially, the annotation of discourse relations. In particular, this includes the formal modelling of discourse relations of different theoretical frameworks by means of modular, interlinked ontologies, the machine-readable edition of discourse marker inventories with !OntoLex and techniques for the induction of discourse marker inventories.|| |
Line 31: | Line 39: |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''6 lutego 2023'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Agnieszka Mikołajczyk-Bareła''' (!VoiceLab / Politechnika Gdańska / HearAI)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''[[attachment:seminarium-archiwum/2023-02-06.pdf|HearAI: w stronę rozpoznawania języka migowego opartego na głębokim uczeniu]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}} {{attachment:seminarium-archiwum/icon-en.gif|Slajdy po angielsku.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Osoby głuche i niedosłyszące mają ogromną barierę komunikacyjną. Różne narodowości używają różnych języków migowych i nie ma jednego uniwersalnego, ponieważ są to naturalne języki ludzkie z własnymi regułami gramatycznymi i leksykonami. Metody oparte na głębokim uczeniu do tłumaczenia języka migowego potrzebują wielu odpowiednio oznakowanych danych treningowych, aby dobrze sobie radzić. W [[https://www.hearai.pl/|projekcie non-profit HearAI]] zajęliśmy się tym problemem i zbadaliśmy różne wielojęzyczne otwarte korpusy języka migowego oznaczone przez lingwistów w neutralnym językowo systemie Hamburg Notation System (!HamNoSys). Po pierwsze, uprościliśmy trudną do zrozumienia strukturę !HamNoSys bez znaczącej utraty znaczenia glosariusza poprzez wprowadzenie multietykiet numerycznych. Po drugie, do rozpoznania pojedynczych pojęć wykorzystaliśmy punkty orientacyjne oraz wybrane cechy na poziomie obrazu. Oddzielnie analizowaliśmy możliwości położenia ręki dominującej, jej pozycję i kształt oraz ogólną symetrię ruchu, co pozwoliło nam dogłębnie zbadać przydatność !HamNoSys do rozpoznawania pojęć.|| |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''2 grudnia 2024'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Uczestnicy konkursu !PolEval 2024'''|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''Prezentacja wyników konkursu'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienia w języku polskim.}} {{attachment:seminarium-archiwum/icon-en.gif|Slajdy po angielsku.}}|| ||<style="border:0;padding-left:30px;padding-bottom:0px">[[https://www.youtube.com/watch?v=cwu8YfqtnTs|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[http://poleval.pl/files/2024-01.pdf|Welcome to PolEval 2024]]''' (Łukasz Kobyliński, Maciej Ogrodniczuk, Filip Graliński, Ryszard Staruch, Karol Saputa) || ||<style="border:0;padding-left:30px;padding-bottom:0px">[[https://www.youtube.com/watch?v=OnxkmpGmxP4|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[http://poleval.pl/files/2024-02.pdf|PolEval 2024 Task 1: Reading Comprehension]]''' (Ryszard Tuora / Aleksandra Zwierzchowska) || ||<style="border:0;padding-left:30px;padding-bottom:0px">[[https://www.youtube.com/watch?v=9FDTOx55WMI|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[http://poleval.pl/files/2024-03.pdf|Optimizing LLMs for Polish Reading Comprehension: A Comparative Study of Ensemble and Unified Approaches]]''' (Krzysztof Wróbel) || ||<style="border:0;padding-left:30px;padding-bottom:0px">[[https://www.youtube.com/watch?v=_Ur9kzZ3ols|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[http://poleval.pl/files/2024-04.pdf|PolEval 2024 Task 2: Emotion and Sentiment Recognition]]''' (Jan Kocoń, Bartłomiej Koptyra) || ||<style="border:0;padding-left:30px;padding-bottom:0px">[[https://www.youtube.com/watch?v=V3_z2KiVgco|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[http://poleval.pl/files/2024-05.pdf|Emotion and Sentiment Recognition in Polish Texts Using Large Language Models: A Winning Approach to PolEval 2024]]''' (Krzysztof Wróbel) || ||<style="border:0;padding-left:30px;padding-bottom:0px">[[https://www.youtube.com/watch?v=59Xkzoi3TDY|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[http://poleval.pl/files/2024-06.pdf|Ensemble as a Variance Reduction Method for Emotion and Sentiment Recognition]]''' (Tomasz Warzecha) || ||<style="border:0;padding-left:30px;padding-bottom:0px">[[https://www.youtube.com/watch?v=ESNbPIwjfvw|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[http://poleval.pl/files/2024-07.pdf|Emotion and Sentiment Recognition Using Ensemble Models]]''' (Jakub Kosterna) || ||<style="border:0;padding-left:30px;padding-bottom:0px">[[https://www.youtube.com/watch?v=Ds8BkUTpcm8|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[http://poleval.pl/files/2024-08.pdf|Zero-shot Approach Using Bielik LLM for Emotion Recognition in Polish]]''' (Paweł Cyrta) || ||<style="border:0;padding-left:30px;padding-bottom:0px">[[https://www.youtube.com/watch?v=lmRZn7254MY|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[http://poleval.pl/files/2024-08.pdf|PolEval 2024 Task 3: Polish Automatic Speech Recognition Challenge]]''' (Michał Junczyk, Iwona Christop, Piotr Pęzik) || ||<style="border:0;padding-left:30px;padding-bottom:0px">[[https://www.youtube.com/watch?v=G35l9xJWqA0|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[http://poleval.pl/files/2024-10.pdf|Augmenting Polish Automatic Speech Recognition System with Synthetic Data]]''' (Łukasz Bondaruk, Jakub Kubiak, Mateusz Czyżnikiewicz) || ||<style="border:0;padding-left:30px;padding-bottom:15px">[[https://www.youtube.com/watch?v=uIDfc6c1TtA|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[http://poleval.pl/files/2024-11.pdf|Exploration of training Zipformer and E-Branchformer models with Polish language BIGOS dataset]]''' (Paweł Cyrta) || |
Line 36: | Line 54: |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''13 lutego 2023'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Artur Nowakowski, Gabriela Pałka, Kamil Guttmann, Mikołaj Pokrywka''' (Uniwersytet Adama Mickiewicza)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''[[attachment:seminarium-archiwum/2023-02-13.pdf|UAM na WMT 2022: nowoczesne metody tworzenia systemów tłumaczenia maszynowego]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}} {{attachment:seminarium-archiwum/icon-en.gif|Slajdy po angielsku.}}|| ||<style="border:0;padding-left:30px;padding-bottom:5px">Większość systemów tłumaczenia automatycznego opiera się na trenowaniu modeli na poziomie zdań. Jednak współcześnie coraz częściej oczekuje się, że system tłumaczenia będzie uwzględniał kontekst całego dokumentu. W odpowiedzi na te oczekiwania, organizatorzy konferencji WMT 2022 stworzyli zadanie General MT Task, polegające na tłumaczeniu dokumentów z różnych dziedzin: newsów, treści z portali społecznościowych, konwersacji i tekstów z dziedziny e-commerce.|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Podczas prezentacji omówione zostanie zadanie, z jakim przyszło się zmierzyć podczas konferencji WMT 2022 w kierunkach tłumaczenia czeski-ukraiński oraz ukraiński-czeski. Przedstawione zostaną napotkane problemy, takie jak poprawne tłumaczenie jednostek nazwanych, uwzględnienie kontekstu dokumentu oraz poprawne uwzględnienie rzadko występujących znaków, takich jak emoji. Pokazane zostaną także metody wspomagające wybór najlepszego tłumaczenia spośród tłumaczeń wygenerowanych przez system, oparte na modelach automatycznej oceny jakości tłumaczenia. Celem prezentacji jest przede wszystkim zaprezentowanie składowych systemu, które pomogły osiągnąć najlepszy wynik spośród wszystkich uczestników konkursu.|| |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''19 grudnia 2024'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Piotr Przybyła''' (Uniwersytet Pompeu Fabry / Instytut Podstaw Informatyki PAN)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=xqDkbiF4izI|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2024-12-19.pdf|Adaptacyjne ataki na klasyfikację wiarygodności z wykorzystaniem uczenia ze wzmocnieniem]]'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">W trakcie prezentacji przedstawiony zostanie system XARELLO: generator przykładów antagonistycznych dla testowania odporności klasyfikacji tekstu, zbudowany na bazie uczenia ze wzmocnieniem. Rozwiązanie to jest adaptacyjne, ponieważ obserwuje sukcesy i porażki wykonywanych ataków i dostosowuje się do słabości klasyfikatora-ofiary. Taka procedura odzwierciedla długoterminowe i ustawiczne ataki, które są typowe dla aktorów rozprzestrzeniających dezinformację. Przedstawimy także wyniki ewaluacji pokazującej, że podejście adaptacyjne prowadzi do odnajdywania przykładów antagonistycznych o lepszej jakości i z mniejszą liczbą prób, szczególnie w atakach na duże modele językowe.|| |
Line 42: | Line 59: |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''27 lutego 2023'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Sebastian Vincent''' (University of Sheffield)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''[[attachment:seminarium-archiwum/2023-02-27.pdf|MTCue: Nauka pozatekstowych atrybutów „zero-shot” przez użycie nieustruktyruzowanego kontekstu w tłumaczeniu maszynowym]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie częściowo w języku polskim.}} {{attachment:seminarium-archiwum/icon-en.gif|Większość wystąpienia i slajdy po angielsku.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Wydajne użycie kontekstu pochodzącego z wewnątrz lub spoza tłumaczonego tekstu pozostaje jedną z krytycznych luk pomiędzy tłumaczeniem profesjonalnym a maszynowym. Dotychczasowo, badania koncentrowały się głównie na pojedynczych, dobrze zdefiniowanych typach kontekstu, takich jak poprzednie zdania, lub dyskretne zmienne (np. płeć mówcy). Niniejsza praca przedstawia MTCue, framework neuronowego tłumaczenia maszynowego, który, przepisując dyskretny kontekst na tekst, uczy się abstrakcyjnej reprezentacji kontekstu pozwalającej na transfer pomiędzy różnymi ustawieniami danych oraz wykorzystanie podobnych sygnałów, gdy danych jest niewiele. Eksperymenty w sześciu parach językowych w domenie dialogu z dostępem do metadanych i poprzednich zdań wykazują wyraźny wzrost jakości tłumaczenia w stosunku do bezkontekstowego systemu. Dalsza analiza pokazuje, że enkoder kontekstu w MTCue uczy się reprezentacji zorganizowanej w odniesieniu do specyficznych atrybutów, takich jak formalność, efektywnie umożliwiając ich kontrolę bez trenowania. Wstępne szkolenie na metadanych i poprzednich zdaniach pozwala również MTCue uczyć się nowych kodów kontrolnych z mniejszą ilością danych.|| |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''17 lutego 2025'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Alicja Martinek''' (NASK, AGH), '''Ewelina Bartuzi-Trokielewicz''' (NASK, Politechnika Warszawska)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=rCzTBQYkooI|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2025-02-17.pdf|Detekcja deepfakes i fałszywych reklam poprzez analizę tekstu i technik manipulacyjnych]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Istniejące algorytmy wykrywania deepfake'ów często zawodzą w skutecznej identyfikacji materiałów stworzonych sztucznie. Te algorytmy koncentrują się głównie na technicznej analizie wideo i audio, często zaniedbując znaczenie samej treści. W niniejszym artykule przedstawiamy nowatorskie podejście, które kładzie nacisk na analizę transkryptów tekstowych, szczególnie tych pochodzących z reklam wygenerowanych przez AI, stawiając treść tekstową w centrum uwagi. Nasza metoda łączy cechy lingwistyczne, ocenę błędów gramatycznych oraz identyfikację technik manipulacyjnych powszechnie stosowanych w oszukańczych treściach. Poprzez badanie niezgodności stylistycznych oraz manipulacyjnych wzorców językowych, zwiększamy dokładność w rozróżnianiu między materiałami rzeczywistymi a deepfake'owymi. Aby zapewnić interpretowalność, zastosowaliśmy klasyczne modele uczenia maszynowego, co pozwoliło nam dostarczyć wyjaśnialne informacje na temat procesów decyzyjnych. Dodatkowo przeprowadziliśmy oceny zero-shot przy użyciu trzech dużych modeli językowych, aby ocenić ich wydajność w wykrywaniu treści deepfake. Wyniki eksperymentalne pokazują, że te czynniki dają dokładność na poziomie 90% w rozróżnianiu oszukańczych reklam opartych na deepfake od rzeczywistych. Dowodzi to skuteczności włączenia analizy opartej na treści do wykrywania deepfake'ów, oferując dodatkową warstwę w stosunku do istniejących technik audiowizualnych.|| |
Line 47: | Line 64: |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''27 marca 2023'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Julian Zubek''', '''Joanna Rączaszek-Leonardi''' (Wydział Psychologii Uniwersytetu Warszawskiego)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''[[attachment:seminarium-archiwum/2023-03-27.pdf|Agentowe modele wyłaniania się komunikacji symbolicznej inspirowane procesami rozwoju językowego]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Rozwój nauk informatycznych przyzwyczaił nas do rozumienia symboli jako dyskretnych elementów abstrakcyjnej struktury, na których wykonywane są formalne operacje. W ujęciu semiotycznym symbole są szczególnym rodzajem znaków, które funkcjonują w ramach systemu powiązań i których interpretacja wymaga znajomości reguł rządzących tym systemem. Patrząc z perspektywy procesów ewolucji języka i rozwoju językowego, wyłanianie się struktur symbolicznych oraz zdolności do posługiwania się nimi wiąże się z szeregiem podstawowych pytań. W naszym programie badawczym koncentrujemy się na tym, jak abstrakcyjne symbole kształtują się równolegle do zdolności wykonywania fizycznych akcji w świecie i w jaki sposób symbole mogą stać się regulatorami tych akcji. W celu ilustracji tych zależności, korzystamy z symulacji komputerowych, w których agenci koordynują swoje działania przy pomocy protokołu komunikacyjnego wyłaniającego się oddolnie w schemacie uczenia ze wzmocnieniem. Wskazujemy na założenia stojące u podstaw tego typu modeli i na istniejące trudności w modelowaniu wielorakich źródeł presji kształtujących strukturę języka. Prezentujemy wyniki własnych symulacji, ilustrujących a) wpływ historii interakcji na strukturę języka, b) związek dostępności kontekstu i wieloznaczności w komunikacji, c) rolę dialogu w koordynacji i strukturyzacji akcji w dynamicznym środowisku. Uzyskane wyniki pokazują złożoną naturę symboli, która wymaga komplementarności opisu na poziomie formalnej struktury i na poziomie dynamiki układu. Złożoność ta powinna znaleźć również odzwierciedlenie w projektowaniu i ewaluacji algorytmów sztucznej inteligencji przeznaczonych do interakcji z ludźmi.|| |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''24 marca 2025'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Maciej Rapacz''', '''Aleksander Smywiński-Pohl''' (AGH Akademia Górniczo-Hutnicza) || ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=FZzPMTa2cYA|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2025-03-24.pdf|Tłumaczenie interlinearne tekstów starogreckich: Jak znaczniki morfologiczne poprawiają jakość przekładu maszynowego]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}} {{attachment:seminarium-archiwum/icon-en.gif|Slajdy po angielsku.}}|| ||<style="border:0;padding-left:30px;padding-bottom:5px">Tłumaczenie interlinearne to specyficzna technika przekładu, w której każde słowo tekstu źródłowego otrzymuje swój odpowiednik w języku docelowym, umieszczany bezpośrednio pod nim lub nad nim, z zachowaniem oryginalnego szyku zdania. W przeciwieństwie do standardowych tłumaczeń, które dążą do naturalności i płynności wypowiedzi, przekład interlinearny skupia się na wiernym odwzorowaniu struktury gramatycznej i składniowej oryginału, nawet kosztem elegancji stylistycznej. Ta metoda jest szczególnie ceniona przez badaczy tekstów starożytnych, filologów oraz osoby uczące się języków, gdyż pozwala na bezpośredni wgląd w konstrukcję i znaczenie oryginalnego tekstu bez konieczności pełnego opanowania języka źródłowego.|| ||<style="border:0;padding-left:30px;padding-bottom:5px">W ramach badań przeprowadziliśmy pierwszą próbę zastosowania tłumaczenia maszynowego do generowania przekładów interlinearnych z greki starożytnej na język polski i angielski. Porównaliśmy wydajność modeli specjalistycznych (!GreTa, !PhilTa) pretrenowanych na tekstach starogreckich z wielojęzycznym modelem ogólnego zastosowania (mT5). Przebadaliśmy 144 różne konfiguracje modeli, modyfikując model bazowy, metodę kodowania znaczników morfologicznych, zestaw znaczników oraz podejście do normalizacji tekstu, wykorzystując jako korpus teksty greckiego Nowego Testamentu.|| ||<style="border:0;padding-left:30px;padding-bottom:15px">W trakcie wystąpienia przedstawimy przebieg naszych badań oraz omówimy uzyskane wyniki. Najlepsze rezultaty osiągnęły modele, w których zastosowaliśmy nowe dedykowane warstwy embeddingów do kodowania informacji morfologicznych, co pozwoliło uzyskać wyniki lepsze nawet o 35-38% (BLEU) w porównaniu ze scenariuszem bazowym. Dodatkowe szczegółowe badanie wykazało, że !PhilTa radzi sobie lepiej niż mT5, szczególnie w scenariuszach z ograniczoną dostępnością danych. !PhilTa osiągnęła najwyższe wyniki w tłumaczeniu na język angielski (60,40 BLEU), podczas gdy mT5-large najlepiej poradził sobie z językiem polskim (59,33 BLEU).|| |
Line 52: | Line 71: |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''24 kwietnia 2023'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Mateusz Krubiński''' (Uniwersytet Karola w Pradze)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Obraz wart tysiąca słów – o streszczaniu danych multimodalnych'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:5px">Automatyczne streszczanie to jeden z klasycznych problemów zarówno w dziedzinie przetwarzania języka naturalnego (streszczanie tekstu), jak i w dziedzinie wizji komputerowej (streszczanie wideo). Streszczanie danych multimodalnych to zagadnienie łączące te dwie dziedziny, które swój wynik opiera na różnych typach informacji. Motywacji do tego typu badań nie trzeba szukać daleko – wystarczy odwiedzić jakąkolwiek stronę internetową z bieżącymi wiadomościami. Przekonamy się, że najpopularniejszy obecnie sposób prezentowania wydarzeń oprócz tradycyjnego tekstu zawiera także galerię zdjęć lub krótki, przyciągający uwagę film. Aby zachęcić czytelnika do zapoznania się z treścią artykułu, tego typu materiały są zazwyczaj prezentowane jako jednozdaniowy tekst w połączeniu z wizualną miniaturą (tzw. ''thumbnail'').|| ||<style="border:0;padding-left:30px;padding-bottom:15px">W moim referacie przedstawię krótką historię zagadnienia streszczania danych multimodalnych, koncentrując się na wariancie, w którym kluczową rolę odgrywa tekst. Zaprezentuję, jak na przestrzeni lat ewoluowały metody (i zbiory danych) oraz zasygnalizuję obszary, które w mojej ocenie stanowią największe wyzwanie. W drugiej części referatu opowiem o swoich własnych badaniach, największy nacisk kładąc na tzw. ''pre-training'' i metody ewaluacji. Podzielę się także doświadczeniami zdobytymi przy tworzeniu zbioru danych w oparciu o automatycznie przetworzoną treść stron internetowych, pokazującymi, że czasami warto zrobić krok w tył.|| |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''14 kwietnia 2025'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Ryszard Staruch''', '''Filip Graliński''' (Uniwersytet im. Adama Mickiewicza w Poznaniu)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=xRDXmKoEiOQ|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2025-04-14.pdf|Wykorzystanie wielkich modeli języka w zadaniu korekty tekstu]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Wielkie modele języka (LLM) są obecnie najskuteczniejszymi rozwiązaniami w wielu zadaniach przetwarzania języka naturalnego. Wciąż jednak nie wiadomo, jak dobrze radzą sobie z korektą tekstów w języku polskim. W celu zbadania ich efektywności opracowany został specjalistyczny zbiór danych korekty tekstu w języku polskim. Podczas wystąpienia zaprezentowany zostanie ten korpus oraz wyniki ewaluacji wybranych rozwiązań. W drugiej części seminarium omówione zostaną nowe techniki adaptacji wielkich modeli języka do zadania minimalnej korekty tekstów napisanych przez osoby uczące się języka – na przykładzie języka angielskiego.|| |
Line 58: | Line 76: |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''25 maja 2023''' (UWAGA: Seminarium odbędzie się wyjątkowo w czwartek.)|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Agata Savary''' (Université Paris-Saclay)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''O związkach koreferencji z jednostkami wielowyrazowymi'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Jednostki wielowyrazowe to połączenia słów posiadające specyficzne własności semantyczne takie jak niekompozycyjność znaczeniowa, dekompozycyjność, przezroczystość i figuracja. Wieloletnie debaty językoznawcze sugerują, iż te własności warunkują warianty morfoskładniowe, w których dana jednostka może występować. W moim referacie rozszerzę te rozważania do koreferencji rzeczownikowej. Punktem wyjścia będzie hipoteza, według której wewnętrzne człony jednostki wielowyrazowej powinny pojawiać się w nietrywialnych łańcuchach koreferencyjnych z niskim prawdopodobieństwem. Kilka poprzednich prac wskazywało już na sporadyczność zjawisk koreferencyjnych w kontekście jednostek wielowyrazowych, lecz obserwacje te nie były poparte danymi liczbowymi. Tematem referatu będzie próba wypełnienia tej luki poprzez studium korpusowe dotyczące czasownikowych jednostek wielowyrazowych i koreferencji rzeczownikowej w języku francuskim. Wyniki w wysokim stopniu potwierdzają hipotezę, ale również ujawniają pewne tendencje związane z typami jednostek wielowyrazowych i tekstów, w szczególności z transkrypcją mowy.|| |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''28 kwietnia 2025'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Manfred Stede''' (Universität Potsdam)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Discourse structure in the Potsdam Commentary Corpus: Human annotation, human disagreement, and automatic parsing'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienia w języku angielskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">The talk gives a brief introduction to Rhetorical Structure Theory (RST, [[https://www.sfu.ca/rst/05bibliographies/bibs/Mann_Thompson_1988.pdf|Mann/Thompson 1988]]) and then explains the design decisions for the Potsdam Commentary Corpus (PCC), which brings together RST, coreference, and other annotation layers on 175 German news editorials. After illustrating cross-layer queries on the corpus in the ANNIS linguistic database, we turn to the intricacies of manual RST annotation. I will give an overview of the annotation guidelines and their motivations, and present results from an (ongoing) study on annotator disagreements, from which we derive ideas for redesigning the annotation scheme (and potentially the underlying theory), with a comparison to the recent proposal of "eRST" by [[https://direct.mit.edu/coli/article/51/1/23/124464/eRST-A-Signaled-Graph-Theory-of-Discourse|Zeldes et al. (2025)]]. In the last part of the talk, I outline our results on automatic parsing using the system by [[https://aclanthology.org/P14-1002/|Ji and Eisenstein (2014)]].|| |
Line 63: | Line 81: |
||<style="border:0;padding-top:0px">Zapraszamy także do zapoznania się z [[http://nlp.ipipan.waw.pl/NLP-SEMINAR/previous-p.html|archiwum seminariów z lat 2000–2015]] oraz [[http://zil.ipipan.waw.pl/seminarium-archiwum|listą wystąpień z lat 2015–2022]].|| | ||<style="border:0;padding-top:5px;padding-bottom:5px">'''12 maja 2025''' ('''UWAGA: ''' wystąpienie odbędzie się o 12:00 w ramach [[https://ipipan.waw.pl/instytut/dzialalnosc-naukowa/seminaria/ogolnoinstytutowe|seminarium IPI PAN]])|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Maciej Ogrodniczuk''', '''Aleksandra Tomaszewska''', '''Bartosz Żuk''', '''Alina Wróblewska''' (Instytut Podstaw Informatyki PAN)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Tytuł wystąpienia (dot. modelu PLLuM) zostanie podany wkrótce'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienia w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Streszczenie wystąpienia udostępnimy w najbliższym czasie.|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''26 maja 2025'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Deniz Zeyrek''' (Middle East Technical University)|| ||<style="border:0;padding-left:30px;padding-bottom:15px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Tytuł wystąpienia zostanie podany wkrótce'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienia w języku angielskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:5px">Streszczenie wystąpienia udostępnimy w najbliższym czasie.|| |
Line 66: | Line 92: |
||<style="border:0;padding-top:15px">Zapraszamy także do zapoznania się z [[http://nlp.ipipan.waw.pl/NLP-SEMINAR/previous-p.html|archiwum seminariów z lat 2000–2015]] oraz [[http://zil.ipipan.waw.pl/seminarium-archiwum|listą wystąpień z lat 2015–2024]].|| |
|
Line 67: | Line 96: |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''7 października 2023'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Uczestnicy konkursu PolEval 2024''' || ||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Planowana seria prezentacji uczestników zadań PolEvalowych'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienia w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Lista wystąpień będzie dostępna wkrótce.|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''11 marca 2024'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Mateusz Krubiński''' (Uniwersytet Karola w Pradze)|| ||<style="border:0;padding-left:30px;padding-bottom:15px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Tytuł wystąpienia podamy wkrótce'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-top:15px;padding-bottom:5px">'''8 stycznia 2024''' (prezentacja wyników projektu DARIAH.Lab)|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Zespół projektu DARIAH.Lab''' (Instytut Podstaw Informatyki PAN)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''Tytuł wystąpienia poznamy wkrótce'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie po polsku.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Streszczenie wystąpienia udostępnimy w najbliższym czasie.|| |
Seminarium „Przetwarzanie języka naturalnego” 2024–25
Seminarium Zespołu Inżynierii Lingwistycznej w Instytucie Podstaw Informatyki Polskiej Akademii Nauk odbywa się średnio co 2 tygodnie, zwykle w poniedziałki o godz. 10:15 (niekiedy online – prosimy o korzystanie z linku przy tytule wystąpienia) i ma charakter otwarty. Poszczególne referaty ogłaszane są na Polskiej Liście Językoznawczej oraz na stronie Lingwistyka komputerowa na Facebooku. Nagrania wystąpień dostępne są na kanale YouTube. |
7 października 2024 |
Janusz S. Bień (profesor emeritus Uniwersytetu Warszawskiego) |
|
Przetwarzanie tekstów wymaga ich zakodowania w odpowiednim standardzie, aktualnie praktyczne jedyną opcją jest standard Unicode. Niektóre czcionki stosowane w starodrukach są już uwzględnione w tym standardzie, niektóre są dostępne w specjalistycznych fontach za pomocą tzw. funkcji zecerskich. Niektóre czcionki, opisane w monumentalnym dziele „Polonia Typographica Saeculi Sedecimi”, nie mają jednak swoich odpowiedników w standardzie. W referacie omówię kilka takich czcionek. |
14 października 2024 |
Alexander Rosen (Uniwersytet Karola w Pradze) |
|
This study examines metrics of syntactic complexity (SC) and lexical diversity (LD) as tools for analyzing linguistic variation within and across languages. Using quantifiable measures based on cross-linguistically consistent (morpho)syntactic annotation (Universal Dependencies), the research utilizes parallel texts from a large multilingual corpus (InterCorp). Six SC and two LD metrics – covering the length and embedding levels of nominal and clausal constituents, mean dependency distance (MDD), and sentence length – are applied as metadata for sentences and texts. |
The presentation will address how these metrics can be visualized and incorporated into corpus queries, how they reflect structural differences across languages and text types, and whether SC and LD vary more across languages or text types. It will also consider the impact of language-specific annotation nuances and correlations among the measures. The analysis includes comparative examples from Polish, Czech, and other languages. |
Preliminary findings indicate higher SC in non-fiction compared to fiction across languages, with nominal and clausal metrics being dominant factors. The results suggest distinct patterns for MDD and sentence length, highlighting the impact of structural differences (e.g., analytic vs. synthetic morphology, dominant word-order patterns) and the influence of source text type and style. |
28 października 2024 |
Rafał Jaworski (Uniwersytet im. Adama Mickiewicza w Poznaniu) |
|
Podczas wystąpienia zreferuję moje badania naukowe z dziedziny przetwarzania języka naturalnego na potrzeby wspomagania tłumaczenia. Przedstawię w szczególności zestaw algorytmów Inter-language Vector Space służący do zrównoleglania zdań na poziomie słów i fraz wykorzystujących wielojęzyczne zanurzenia słów (word embeddings). |
Pierwszą funkcją zestawu jest generowanie reprezentacji wektorowych słów. Są one generowane przy użyciu sieci neuronowej typu auto-encoder na podstawie danych tekstowych – korpusu tekstu. W ten sposób powstają słowniki wektorowe dla poszczególnych języków. Reprezentacje wektorowe słów znajdujących się w tych słownikach stanowią przestrzenie wektorowe, które różnią się pomiędzy językami. |
Aby rozwiązać ten problem i uzyskać reprezentacje wektorowe słów, które byłyby porównywalne pomiędzy językami, stosuje się drugą funkcję zestawu Inter-language Vector Space. Służy on do zrównoleglania przestrzeni wektorowych pomiędzy językami z wykorzystaniem macierzy transformacji obliczanych metodą rozkładu według wartości osobliwych. Macierz ta jest obliczana na podstawie homonimów, tj. słów pisanych identycznie w języku przestrzeni X oraz Y. Dodatkowo, w celach wspomagających stosowany jest słownik dwujęzyczny. Obliczona w ten sposób macierz transformacji pozwala na dostosowanie przestrzeni X w taki sposób, aby w maksymalny możliwy sposób pokrywała się z przestrzenią Y. |
Ostatnia funkcja zestawu jest odpowiedzialna za stworzenie wielojęzycznej przestrzeni wektorowej. Do przestrzeni tej najpierw dodawana jest w całości i bez modyfikacji przestrzeń wektorowa dla języka angielskiego. Następnie, dla każdej innej przestrzeni wektorowej obliczana jest najpierw macierz transformacji tej przestrzeni do przestrzeni angielskiej. Wektory nowej przestrzeni są mnożone przez tę macierz i w ten sposób stają się porównywalne z wektorami reprezentującymi słowa angielskie. |
Zestaw algorytmów Inter-language Vector Space znajduje zastosowanie w systemach wspomagania tłumaczenia, na przykład w autorskim algorytmie automatycznego transferu znaczników nietłumaczonych ze zdania źródłowego do docelowego. |
4 listopada 2024 |
Jakub Kozakoszczak (Deutsche Telekom) |
ZIML: Język znaczników anotacyjnych do łatwego dopasowywania regeksami |
Przeszukiwanie regeksami warstwy anotacyjnej tekstu reprezentowanej wplecionymi znacznikami wymaga budowania wzorców, które szybko stają się nieczytelne i nie do utrzymania. Zupełnie niemożliwe jest stosowanie warunków na odległości wewnątrz tekstu, wydłużonych przez obecność tagów. Anotacja wydrębniona poza tekst co prawda zachowuje odległości, ale jest niewidoczna dla regeksów. |
Przedstawię język znaczników Zero Insertion Markup Language (ZIML), w którym każda kombinacja znaków i etykiet w zaanotowanym tekście jest reprezentowana przez pojedynczy „alloznak”, co zachowuje odległości wewnątrz dokumentu. Te same alloznaki wprowadzone są do regeksów w taki sposób, że zachowują pozycje dopasowań zwracanych przez standardowe silniki wyrażeń regularnych. W efekcie jedyną ingerencją w semantykę języka regeksów jest wzbogacenie jej o denotowanie etykiet przez dopasowanie alloznaków, które je reprezentują. |
Podam dowód poprawności tego przekształcenia i przedstawię implementację języka ZIML, w tym składnię dodawania odwołań do etykiet w treści wzorców. Omówię, w miarę możliwości czasowych, potencjalne zastosowania ZIML w językoznawstwie i przetwarzaniu języka naturalnego. Do zrozumienia prezentacji pomoże podstawowa wiedza na temat teorii modeli i wyszukiwania regeksami. |
21 listopada 2024 |
Christian Chiarcos (Uniwersytet w Augsburgu) |
|
Semantic technologies comprise a broad set of standards and technologies including aspects of knowledge representation, information management and computational inference. In this lecture, I will describe the application of knowledge representation standards to the realm of computational discourse, and especially, the annotation of discourse relations. In particular, this includes the formal modelling of discourse relations of different theoretical frameworks by means of modular, interlinked ontologies, the machine-readable edition of discourse marker inventories with OntoLex and techniques for the induction of discourse marker inventories. |
19 grudnia 2024 |
Piotr Przybyła (Uniwersytet Pompeu Fabry / Instytut Podstaw Informatyki PAN) |
|
W trakcie prezentacji przedstawiony zostanie system XARELLO: generator przykładów antagonistycznych dla testowania odporności klasyfikacji tekstu, zbudowany na bazie uczenia ze wzmocnieniem. Rozwiązanie to jest adaptacyjne, ponieważ obserwuje sukcesy i porażki wykonywanych ataków i dostosowuje się do słabości klasyfikatora-ofiary. Taka procedura odzwierciedla długoterminowe i ustawiczne ataki, które są typowe dla aktorów rozprzestrzeniających dezinformację. Przedstawimy także wyniki ewaluacji pokazującej, że podejście adaptacyjne prowadzi do odnajdywania przykładów antagonistycznych o lepszej jakości i z mniejszą liczbą prób, szczególnie w atakach na duże modele językowe. |
17 lutego 2025 |
Alicja Martinek (NASK, AGH), Ewelina Bartuzi-Trokielewicz (NASK, Politechnika Warszawska) |
|
Istniejące algorytmy wykrywania deepfake'ów często zawodzą w skutecznej identyfikacji materiałów stworzonych sztucznie. Te algorytmy koncentrują się głównie na technicznej analizie wideo i audio, często zaniedbując znaczenie samej treści. W niniejszym artykule przedstawiamy nowatorskie podejście, które kładzie nacisk na analizę transkryptów tekstowych, szczególnie tych pochodzących z reklam wygenerowanych przez AI, stawiając treść tekstową w centrum uwagi. Nasza metoda łączy cechy lingwistyczne, ocenę błędów gramatycznych oraz identyfikację technik manipulacyjnych powszechnie stosowanych w oszukańczych treściach. Poprzez badanie niezgodności stylistycznych oraz manipulacyjnych wzorców językowych, zwiększamy dokładność w rozróżnianiu między materiałami rzeczywistymi a deepfake'owymi. Aby zapewnić interpretowalność, zastosowaliśmy klasyczne modele uczenia maszynowego, co pozwoliło nam dostarczyć wyjaśnialne informacje na temat procesów decyzyjnych. Dodatkowo przeprowadziliśmy oceny zero-shot przy użyciu trzech dużych modeli językowych, aby ocenić ich wydajność w wykrywaniu treści deepfake. Wyniki eksperymentalne pokazują, że te czynniki dają dokładność na poziomie 90% w rozróżnianiu oszukańczych reklam opartych na deepfake od rzeczywistych. Dowodzi to skuteczności włączenia analizy opartej na treści do wykrywania deepfake'ów, oferując dodatkową warstwę w stosunku do istniejących technik audiowizualnych. |
24 marca 2025 |
Maciej Rapacz, Aleksander Smywiński-Pohl (AGH Akademia Górniczo-Hutnicza) |
|
Tłumaczenie interlinearne to specyficzna technika przekładu, w której każde słowo tekstu źródłowego otrzymuje swój odpowiednik w języku docelowym, umieszczany bezpośrednio pod nim lub nad nim, z zachowaniem oryginalnego szyku zdania. W przeciwieństwie do standardowych tłumaczeń, które dążą do naturalności i płynności wypowiedzi, przekład interlinearny skupia się na wiernym odwzorowaniu struktury gramatycznej i składniowej oryginału, nawet kosztem elegancji stylistycznej. Ta metoda jest szczególnie ceniona przez badaczy tekstów starożytnych, filologów oraz osoby uczące się języków, gdyż pozwala na bezpośredni wgląd w konstrukcję i znaczenie oryginalnego tekstu bez konieczności pełnego opanowania języka źródłowego. |
W ramach badań przeprowadziliśmy pierwszą próbę zastosowania tłumaczenia maszynowego do generowania przekładów interlinearnych z greki starożytnej na język polski i angielski. Porównaliśmy wydajność modeli specjalistycznych (GreTa, PhilTa) pretrenowanych na tekstach starogreckich z wielojęzycznym modelem ogólnego zastosowania (mT5). Przebadaliśmy 144 różne konfiguracje modeli, modyfikując model bazowy, metodę kodowania znaczników morfologicznych, zestaw znaczników oraz podejście do normalizacji tekstu, wykorzystując jako korpus teksty greckiego Nowego Testamentu. |
W trakcie wystąpienia przedstawimy przebieg naszych badań oraz omówimy uzyskane wyniki. Najlepsze rezultaty osiągnęły modele, w których zastosowaliśmy nowe dedykowane warstwy embeddingów do kodowania informacji morfologicznych, co pozwoliło uzyskać wyniki lepsze nawet o 35-38% (BLEU) w porównaniu ze scenariuszem bazowym. Dodatkowe szczegółowe badanie wykazało, że PhilTa radzi sobie lepiej niż mT5, szczególnie w scenariuszach z ograniczoną dostępnością danych. PhilTa osiągnęła najwyższe wyniki w tłumaczeniu na język angielski (60,40 BLEU), podczas gdy mT5-large najlepiej poradził sobie z językiem polskim (59,33 BLEU). |
14 kwietnia 2025 |
Ryszard Staruch, Filip Graliński (Uniwersytet im. Adama Mickiewicza w Poznaniu) |
|
Wielkie modele języka (LLM) są obecnie najskuteczniejszymi rozwiązaniami w wielu zadaniach przetwarzania języka naturalnego. Wciąż jednak nie wiadomo, jak dobrze radzą sobie z korektą tekstów w języku polskim. W celu zbadania ich efektywności opracowany został specjalistyczny zbiór danych korekty tekstu w języku polskim. Podczas wystąpienia zaprezentowany zostanie ten korpus oraz wyniki ewaluacji wybranych rozwiązań. W drugiej części seminarium omówione zostaną nowe techniki adaptacji wielkich modeli języka do zadania minimalnej korekty tekstów napisanych przez osoby uczące się języka – na przykładzie języka angielskiego. |
28 kwietnia 2025 |
Manfred Stede (Universität Potsdam) |
|
The talk gives a brief introduction to Rhetorical Structure Theory (RST, Mann/Thompson 1988) and then explains the design decisions for the Potsdam Commentary Corpus (PCC), which brings together RST, coreference, and other annotation layers on 175 German news editorials. After illustrating cross-layer queries on the corpus in the ANNIS linguistic database, we turn to the intricacies of manual RST annotation. I will give an overview of the annotation guidelines and their motivations, and present results from an (ongoing) study on annotator disagreements, from which we derive ideas for redesigning the annotation scheme (and potentially the underlying theory), with a comparison to the recent proposal of "eRST" by Zeldes et al. (2025). In the last part of the talk, I outline our results on automatic parsing using the system by Ji and Eisenstein (2014). |
12 maja 2025 (UWAGA: wystąpienie odbędzie się o 12:00 w ramach seminarium IPI PAN) |
Maciej Ogrodniczuk, Aleksandra Tomaszewska, Bartosz Żuk, Alina Wróblewska (Instytut Podstaw Informatyki PAN) |
|
Streszczenie wystąpienia udostępnimy w najbliższym czasie. |
26 maja 2025 |
Deniz Zeyrek (Middle East Technical University) |
Streszczenie wystąpienia udostępnimy w najbliższym czasie. |
Zapraszamy także do zapoznania się z archiwum seminariów z lat 2000–2015 oraz listą wystąpień z lat 2015–2024. |