Locked History Actions

Diff for "seminarium"

Differences between revisions 709 and 966 (spanning 257 versions)
Revision 709 as of 2022-06-13 08:56:41
Size: 31110
Comment:
Revision 966 as of 2025-04-16 10:43:35
Size: 35283
Comment:
Deletions are marked like this. Additions are marked like this.
Line 2: Line 2:
= Seminarium „Przetwarzanie języka naturalnego” 2021–22 = = Seminarium „Przetwarzanie języka naturalnego” 2024–25 =
Line 4: Line 4:
||<style="border:0;padding-bottom:10px">Seminarium [[http://nlp.ipipan.waw.pl/|Zespołu Inżynierii Lingwistycznej]] w&nbsp;[[http://www.ipipan.waw.pl/|Instytucie Podstaw Informatyki]] [[http://www.pan.pl/|Polskiej Akademii Nauk]] odbywa się średnio co 2 tygodnie, zwykle w&nbsp;poniedziałki o&nbsp;godz.&nbsp;10:15 (obecnie online – prosimy o korzystanie z linku przy tytule wystąpienia) i&nbsp;ma charakter otwarty. Poszczególne referaty ogłaszane są na [[http://lists.nlp.ipipan.waw.pl/mailman/listinfo/ling|Polskiej Liście Językoznawczej]] oraz na stronie [[https://www.facebook.com/lingwistyka.komputerowa|Lingwistyka komputerowa]] na Facebooku. Nagrania wystąpień dostępne są na [[https://www.youtube.com/ipipan|kanale YouTube]].||<style="border:0;padding-left:30px;">[[seminar|{{attachment:seminarium-archiwum/en.png}}]]|| ||<style="border:0;padding-bottom:10px">Seminarium [[http://nlp.ipipan.waw.pl/|Zespołu Inżynierii Lingwistycznej]] w&nbsp;[[http://www.ipipan.waw.pl/|Instytucie Podstaw Informatyki]] [[http://www.pan.pl/|Polskiej Akademii Nauk]] odbywa się średnio co 2 tygodnie, zwykle w&nbsp;poniedziałki o&nbsp;godz.&nbsp;10:15 (niekiedy online – prosimy o korzystanie z linku przy tytule wystąpienia) i&nbsp;ma charakter otwarty. Poszczególne referaty ogłaszane są na [[http://lists.nlp.ipipan.waw.pl/mailman/listinfo/ling|Polskiej Liście Językoznawczej]] oraz na stronie [[https://www.facebook.com/lingwistyka.komputerowa|Lingwistyka komputerowa]] na Facebooku. Nagrania wystąpień dostępne są na [[https://www.youtube.com/ipipan|kanale YouTube]].||<style="border:0;padding-left:30px;">[[seminar|{{attachment:seminarium-archiwum/en.png}}]]||
Line 6: Line 6:
||<style="border:0;padding-top:5px;padding-bottom:5px">'''11 października 2021''' (seminarium połączone z [[https://www.ipipan.waw.pl/instytut/dzialalnosc-naukowa/seminaria/ogolnoinstytutowe|instytutowym]]) ||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Adam Przepiórkowski''' (Instytut Podstaw Informatyki PAN, Uniwersytet Warszawski)||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''[[attachment:seminarium-archiwum/2021-10-11.pdf|Kwantyfikatory a sprawa polska]]''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">O kwantyfikacji piszą prawie wszyscy semantycy i w prawie każdym tekście dotyczącym semantyki formalnej, lecz nikt i nigdy nie zaproponował pełnej analizy semantycznej zjawiska zilustrowanego niniejszym zdaniem. W zdaniu tym występują konstrukcje współrzędnie złożone składające się z wyrażeń kwantyfikatorowych pełniących różne funkcje w zdaniu: „prawie wszyscy semantycy i w prawie każdym tekście…” oraz „nikt i nigdy”. Konstrukcje takie są stosunkowo częste w języku polskim i występują także w innych językach słowiańskich oraz w pewnych językach sąsiadujących z językami słowiańskimi, np. w węgierskim. W niniejszym referacie zaproponuję analizę semantyczną takich konstrukcji opartą na pojęciu kwantyfikatorów uogólnionych (Mostowski; Lindström; Barwise i Cooper), a konkretnie — kwantyfikatorów poliadycznych (van Benthem; Keenan; Westerståhl). Do pełnego zrozumienia referatu powinno wystarczyć obycie z formułami logiki predykatów; wszystkie pojęcia lingwistyczne (w tym „konstrukcje współrzędnie złożone”, „funkcje w zdaniu”) i logiczne (w tym „kwantyfikatory uogólnione” i „kwantyfikatory poliadyczne”) zostaną wyjaśnione w referacie.||
||<style="border:0;padding-top:5px;padding-bottom:5px">'''7 października 2024'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Janusz S. Bień''' (profesor emeritus Uniwersytetu Warszawskiego) ||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=2mLYixXC_Hw|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2024-10-07.pdf|Identyfikacja czcionek w XVI-wiecznych drukach. Analiza przypadku]]''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienia w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Przetwarzanie tekstów wymaga ich zakodowania w odpowiednim standardzie, aktualnie praktyczne jedyną opcją jest standard Unicode. Niektóre czcionki stosowane w starodrukach są już uwzględnione w tym standardzie, niektóre są dostępne w specjalistycznych fontach za pomocą tzw. funkcji zecerskich. Niektóre czcionki, opisane w monumentalnym dziele „[[https://crispa.uw.edu.pl/object/files/754258/display/Default|Polonia Typographica Saeculi Sedecimi]]”, nie mają jednak swoich odpowiedników w standardzie. W referacie omówię kilka takich czcionek.||
Line 11: Line 11:
||<style="border:0;padding-top:5px;padding-bottom:5px">'''18 października 2021'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Przemysław Kazienko''', '''Jan Kocoń''' (Politechnika Wrocławska)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=mvjO4R1r6gM|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2021-10-18.pdf|Spersonalizowane przetwarzanie języka naturalnego]]''' &#160;{{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Wiele zadań z zakresu przetwarzania języka naturalnego, takich jak klasyfikacja tekstów obraźliwych czy emocjonalnych, ma z natury charakter subiektywny. Jest to duże wyzwanie, szczególnie w odniesieniu do procesu anotacji. Ludzie postrzegają treści w bardzo indywidualny sposób. Większość obecnie stosowanych procedur anotacji ma na celu osiągnięcie wysokiego poziomu zgodności. Większość istniejących metod uczenia maszynowego opiera się na uzgodnionych lub większościowych anotacjach. Jednakże, wytyczne dotyczące anotacji subiektywnych treści mogą ograniczać swobodę podejmowania decyzji przez anotatorów. Motywowani umiarkowaną zgodnością anotacji w zbiorach danych dotyczących obraźliwych i emocjonalnych treści, stawiamy hipotezę, że należy wprowadzić spersonalizowane podejście do tak subiektywnych zadań. Proponujemy nowe architektury głębokiego uczenia, które biorą pod uwagę nie tylko treść, ale również charakterystykę danego człowieka. Proponujemy różne podejścia do uczenia reprezentacji i przetwarzania danych o odbiorcach tekstów. Eksperymenty przeprowadziliśmy na czterech zestawach danych. Pierwsze trzy, to dyskusje z Wikipedii, anotowane takimi zjawiskami, jak atak, agresja i toksyczność. Czwarty zbiór to opinie anotowane dziesięcioma kategoriami emocji. Wszystkie nasze modele oparte o reprezentację człowieka znacząco poprawiają jakość predykcji w zadaniach subiektywnych, ocenianych z perspektywy jednostki. Dodatkowo, opracowaliśmy wymagania dotyczące procedur anotacji, personalizacji i przetwarzania treści, aby uczynić nasze rozwiązania zorientowanymi na człowieka.||
||<style="border:0;padding-top:5px;padding-bottom:5px">'''14 października 2024'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Alexander Rosen''' (Uniwersytet Karola w Pradze)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=E2ujmqt7Q2E|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2024-10-14.pdf|Lexical and syntactic variability of languages and text genres. A corpus-based study]]''' &#160;{{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:5px">This study examines metrics of syntactic complexity (SC) and lexical diversity (LD) as tools for analyzing linguistic variation within and across languages. Using quantifiable measures based on cross-linguistically consistent (morpho)syntactic annotation ([[https://universaldependencies.org/|Universal Dependencies]]), the research utilizes parallel texts from a large multilingual corpus ([[https://wiki.korpus.cz/doku.php/en:cnk:intercorp:verze16ud|InterCorp]]). Six SC and two LD metrics – covering the length and embedding levels of nominal and clausal constituents, mean dependency distance (MDD), and sentence length – are applied as metadata for sentences and texts.||
||<style="border:0;padding-left:30px;padding-bottom:5px">The presentation will address how these metrics can be visualized and incorporated into corpus queries, how they reflect structural differences across languages and text types, and whether SC and LD vary more across languages or text types. It will also consider the impact of language-specific annotation nuances and correlations among the measures. The analysis includes comparative examples from Polish, Czech, and other languages.||
||<style="border:0;padding-left:30px;padding-bottom:15px">Preliminary findings indicate higher SC in non-fiction compared to fiction across languages, with nominal and clausal metrics being dominant factors. The results suggest distinct patterns for MDD and sentence length, highlighting the impact of structural differences (e.g., analytic vs. synthetic morphology, dominant word-order patterns) and the influence of source text type and style.||
Line 16: Line 18:
||<style="border:0;padding-top:5px;padding-bottom:5px">'''8 listopada 2021'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Ryszard Tuora''', '''Łukasz Kobyliński''' (Instytut Podstaw Informatyki PAN)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=KeeVWXXQlw8|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2021-11-08.pdf|Wykorzystanie analizy zależnościowej w automatycznej odmianie wyrażeń wielowyrazowych dla języka polskiego]]''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Generowanie języka naturalnego dla języków o bogatej morfologii może zyskać na automatycznych systemach do odmiany słów. W tej pracy prezentujemy system, który potrafi radzić sobie z tym zadaniem, ze szczególnym naciskiem na pracę z wyrażeniami wielowyrazowymi (MWE). Procedura opiera się na regułach wydobytych automatycznie z treebanku zależnościowego. Utworzony system jest następnie ewaluowany na słowniku polskich wyrażeń wielowyrazowych. Dodatkowo, zbliżony algorytm może zostać wykorzystany do lematyzacji wyrażeń wielowyrazowych. Sam system może zostać zaś zaaplikowany także do innych języków, o zbliżonych mechanizmach morfologicznych – zaprezentujemy proste rozwiązanie przygotowane dla języka rosyjskiego.||
||<style="border:0;padding-top:5px;padding-bottom:5px">'''28 października 2024'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Rafał Jaworski''' (Uniwersytet im. Adama Mickiewicza w Poznaniu)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=52LZ976imBA|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2024-10-28.pdf|Zestaw algorytmów zrównoleglania i przechowywania wielojęzycznych zanurzeń słów na potrzeby obliczania prawdopodobieństwa tłumaczenia]]''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:5px">Podczas wystąpienia zreferuję moje badania naukowe z dziedziny przetwarzania języka naturalnego na potrzeby wspomagania tłumaczenia. Przedstawię w szczególności zestaw algorytmów ''Inter-language Vector Space'' służący do zrównoleglania zdań na poziomie słów i fraz wykorzystujących wielojęzyczne zanurzenia słów (''word embeddings'').||
||<style="border:0;padding-left:30px;padding-bottom:5px">Pierwszą funkcją zestawu jest generowanie reprezentacji wektorowych słów. Są one generowane przy użyciu sieci neuronowej typu ''auto-encoder'' na podstawie danych tekstowych – korpusu tekstu. W ten sposób powstają słowniki wektorowe dla poszczególnych języków. Reprezentacje wektorowe słów znajdujących się w tych słownikach stanowią przestrzenie wektorowe, które różnią się pomiędzy językami.||
||<style="border:0;padding-left:30px;padding-bottom:5px">Aby rozwiązać ten problem i uzyskać reprezentacje wektorowe słów, które byłyby porównywalne pomiędzy językami, stosuje się drugą funkcję zestawu ''Inter-language Vector Space''. Służy on do zrównoleglania przestrzeni wektorowych pomiędzy językami z wykorzystaniem macierzy transformacji obliczanych metodą rozkładu według wartości osobliwych. Macierz ta jest obliczana na podstawie homonimów, tj. słów pisanych identycznie w języku przestrzeni X oraz Y. Dodatkowo, w celach wspomagających stosowany jest słownik dwujęzyczny. Obliczona w ten sposób macierz transformacji pozwala na dostosowanie przestrzeni X w taki sposób, aby w maksymalny możliwy sposób pokrywała się z przestrzenią Y. ||
||<style="border:0;padding-left:30px;padding-bottom:5px">Ostatnia funkcja zestawu jest odpowiedzialna za stworzenie wielojęzycznej przestrzeni wektorowej. Do przestrzeni tej najpierw dodawana jest w całości i bez modyfikacji przestrzeń wektorowa dla języka angielskiego. Następnie, dla każdej innej przestrzeni wektorowej obliczana jest najpierw macierz transformacji tej przestrzeni do przestrzeni angielskiej. Wektory nowej przestrzeni są mnożone przez tę macierz i w ten sposób stają się porównywalne z wektorami reprezentującymi słowa angielskie.||
||<style="border:0;padding-left:30px;padding-bottom:15px">Zestaw algorytmów ''Inter-language Vector Space'' znajduje zastosowanie w systemach wspomagania tłumaczenia, na przykład w autorskim algorytmie automatycznego transferu znaczników nietłumaczonych ze zdania źródłowego do docelowego.||
Line 21: Line 27:
||<style="border:0;padding-top:5px;padding-bottom:5px">'''29 listopada 2021''' (seminarium połączone z [[https://www.ipipan.waw.pl/instytut/dzialalnosc-naukowa/seminaria/ogolnoinstytutowe|instytutowym]]) ||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Piotr Przybyła''' (Instytut Podstaw Informatyki PAN)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=zJssN3-5cyg|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2021-11-29.pdf|Kiedy dokładność klasyfikacji to za mało: wyjaśnianie oceny wiarygodności tekstu i pomiar reakcji użytkowników]]''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Automatyczna ocena wiarygodności tekstu jest ostatnio niezwykle popularnym zadaniem NLP, dla którego proponuje się wiele rozwiązań ewaluowanych na podstawie dokładności klasyfikacji. Tymczasem niewiele uwagi poświęca się scenariuszom wdrożenia tego typu modeli, które gwarantowałyby zgodne z oczekiwaniami ograniczenie rozprzestrzeniania się dezinformacji. W ramach wystąpienia przedstawiamy prace, w ramach których zaimplementowano dwa tego typu modele w formie rozszerzenia do przeglądarki internetowej i zbadano ich interakcję z użytkownikami, co pozwoliło odpowiedzieć na kilka ważnych pytań. Jak można skompresować duże modele klasyfikacji tekstu, aby wdrożyć je w środowisku o niewielkich zasobach? Jakie techniki wizualizacji i wyjaśniania modeli są najbardziej efektywne we współpracy z człowiekiem? Czy korzystanie z takich narzędzie w istocie zwiększa zdolność do rozpoznawania treści 'fake news'?||
||<style="border:0;padding-top:5px;padding-bottom:5px">'''4 listopada 2024'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Jakub Kozakoszczak''' (Deutsche Telekom)||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''[[attachment:seminarium-archiwum/2024-11-04.pdf|ZIML: Język znaczników anotacyjnych do łatwego dopasowywania regeksami]]''' &#160;{{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:5px">Przeszukiwanie regeksami warstwy anotacyjnej tekstu reprezentowanej wplecionymi znacznikami wymaga budowania wzorców, które szybko stają się nieczytelne i nie do utrzymania. Zupełnie niemożliwe jest stosowanie warunków na odległości wewnątrz tekstu, wydłużonych przez obecność tagów. Anotacja wydrębniona poza tekst co prawda zachowuje odległości, ale jest niewidoczna dla regeksów.||
||<style="border:0;padding-left:30px;padding-bottom:5px">Przedstawię język znaczników Zero Insertion Markup Language (ZIML), w którym każda kombinacja znaków i etykiet w zaanotowanym tekście jest reprezentowana przez pojedynczy „alloznak”, co zachowuje odległości wewnątrz dokumentu. Te same alloznaki wprowadzone są do regeksów w taki sposób, że zachowują pozycje dopasowań zwracanych przez standardowe silniki wyrażeń regularnych. W efekcie jedyną ingerencją w semantykę języka regeksów jest wzbogacenie jej o denotowanie etykiet przez dopasowanie alloznaków, które je reprezentują.||
||<style="border:0;padding-left:30px;padding-bottom:15px">Podam dowód poprawności tego przekształcenia i przedstawię implementację języka ZIML, w tym składnię dodawania odwołań do etykiet w treści wzorców. Omówię, w miarę możliwości czasowych, potencjalne zastosowania ZIML w językoznawstwie i przetwarzaniu języka naturalnego. Do zrozumienia prezentacji pomoże podstawowa wiedza na temat teorii modeli i wyszukiwania regeksami.||
Line 26: Line 34:
||<style="border:0;padding-top:5px;padding-bottom:5px">'''6 grudnia 2021'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Joanna Byszuk''' (Instytut Języka Polskiego PAN)||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''W kierunku stylometrii multimodalnej – możliwości i wyzwania nowego podejścia do analizy filmów i seriali''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">W wystąpieniu przedstawiamy nowe podejście do ilościowej analizy utworów multimodalnych, na przykładzie korpusu serialu telewizyjnego Doctor Who, oparte na stylometrii oraz teorii multimodalnej analizy filmowej. Metody stylometryczne od dawna cieszą się popularnością w analizie literatury. Zwykle opierają się na porównywaniu tekstów pod względem częstotliwości użycia określonych cech, które tworzą tak zwane „stylometryczne odciski palca”, czyli wzorce charakterystyczne dla autorów, gatunków lub innych czynników. Metody te jednak rzadko stosuje się do danych innych niż tekst, choć w ostatnich latach pojawiły się badania wykorzystujące stylometrię do analizy ruchów w tańcu (Miguel Escobar Varela) czy muzyce (Backer i Kranenburg). Teoria multimodalnej analizy filmu jest z kolei dość nowym podejściem, rozwijanym głównie przez Johna Batemana i Janinę Wildfeuer, podkreślającym istotność badania informacji pochodzących z różnych modalności wizualnych, językowych i dźwiękowych dla pełniejszej interpretacji. W prezentowanym podejściu stylometryczne metody porównywania utworów są zastosowane do różnych typów cech zaczerpniętych z obrazu, dźwięku oraz treści dialogów. W wystąpieniu omawiamy zalety i wyzwania takiego podejścia, a także ogólne możliwości ilościowej analizy mediów filmowych.||
||<style="border:0;padding-top:5px;padding-bottom:5px">'''21 listopada 2024'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Christian Chiarcos''' (Uniwersytet w Augsburgu)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=FxiOM5zAKo8|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2024-11-21.pdf|Aspects of Knowledge Representation for Discourse Relation Annotation]]''' &#160;{{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Semantic technologies comprise a broad set of standards and technologies including aspects of knowledge representation, information management and computational inference. In this lecture, I will describe the application of knowledge representation standards to the realm of computational discourse, and especially, the annotation of discourse relations. In particular, this includes the formal modelling of discourse relations of different theoretical frameworks by means of modular, interlinked ontologies, the machine-readable edition of discourse marker inventories with !OntoLex and techniques for the induction of discourse marker inventories.||
Line 31: Line 39:
||<style="border:0;padding-top:5px;padding-bottom:5px">'''20 grudnia 2021'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Piotr Pęzik''' (Uniwersytet Łódzki / !VoiceLab), '''Agnieszka Mikołajczyk''', '''Adam Wawrzyński''' (!VoiceLab), '''Bartłomiej Nitoń''', '''Maciej Ogrodniczuk''' (Instytut Podstaw Informatyki PAN)||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''[[attachment:seminarium-archiwum/2021-12-20.pdf|Generowanie słów kluczowych z krótkich tekstów za pomocą modelu T5]]''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Tematem wystąpienia jest ewaluacja zastosowań polskiej wersji modelu językowego T5 (plT5) w wydobywaniu słów kluczowych z krótkich tekstów. Autorzy opisują trening i testy modelu na opracowanym w ramach projektu [[https://curlicat.eu/|CURLICAT]] [[http://clip.ipipan.waw.pl/POSMAC|Otwartym Korpusie Metadanych Nauki Polskiej]]. Porównana zostanie jakość słów kluczowych generowanych czterema różnymi metodami: a) plT5 jako model text-to-text, b) extremeText jako klasyfikator z nadzorem, c) TermoPL jako metoda ekstrakcji terminologii oraz d) KeyBERT jako alternatywny model transformerowy. Zilustrowana zostanie również nieoczekiwana przenośność wytrenowanego modelu plT5 do domen tematycznych niezwiązanych z korpusem streszczeń artykułów naukowych, takich jak teksty informacyjne, czy też transkrypcje dialogów telefonicznych.||
||<style="border:0;padding-top:5px;padding-bottom:5px">'''2 grudnia 2024'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Uczestnicy konkursu !PolEval 2024'''||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''Prezentacja wyników konkursu''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienia w języku polskim.}} {{attachment:seminarium-archiwum/icon-en.gif|Slajdy po angielsku.}}||
||<style="border:0;padding-left:30px;padding-bottom:0px">[[https://www.youtube.com/watch?v=cwu8YfqtnTs|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[http://poleval.pl/files/2024-01.pdf|Welcome to PolEval 2024]]''' (Łukasz Kobyliński, Maciej Ogrodniczuk, Filip Graliński, Ryszard Staruch, Karol Saputa) ||
||<style="border:0;padding-left:30px;padding-bottom:0px">[[https://www.youtube.com/watch?v=OnxkmpGmxP4|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[http://poleval.pl/files/2024-02.pdf|PolEval 2024 Task 1: Reading Comprehension]]''' (Ryszard Tuora / Aleksandra Zwierzchowska) ||
||<style="border:0;padding-left:30px;padding-bottom:0px">[[https://www.youtube.com/watch?v=9FDTOx55WMI|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[http://poleval.pl/files/2024-03.pdf|Optimizing LLMs for Polish Reading Comprehension: A Comparative Study of Ensemble and Unified Approaches]]''' (Krzysztof Wróbel) ||
||<style="border:0;padding-left:30px;padding-bottom:0px">[[https://www.youtube.com/watch?v=_Ur9kzZ3ols|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[http://poleval.pl/files/2024-04.pdf|PolEval 2024 Task 2: Emotion and Sentiment Recognition]]''' (Jan Kocoń, Bartłomiej Koptyra) ||
||<style="border:0;padding-left:30px;padding-bottom:0px">[[https://www.youtube.com/watch?v=V3_z2KiVgco|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[http://poleval.pl/files/2024-05.pdf|Emotion and Sentiment Recognition in Polish Texts Using Large Language Models: A Winning Approach to PolEval 2024]]''' (Krzysztof Wróbel) ||
||<style="border:0;padding-left:30px;padding-bottom:0px">[[https://www.youtube.com/watch?v=59Xkzoi3TDY|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[http://poleval.pl/files/2024-06.pdf|Ensemble as a Variance Reduction Method for Emotion and Sentiment Recognition]]''' (Tomasz Warzecha) ||
||<style="border:0;padding-left:30px;padding-bottom:0px">[[https://www.youtube.com/watch?v=ESNbPIwjfvw|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[http://poleval.pl/files/2024-07.pdf|Emotion and Sentiment Recognition Using Ensemble Models]]''' (Jakub Kosterna) ||
||<style="border:0;padding-left:30px;padding-bottom:0px">[[https://www.youtube.com/watch?v=Ds8BkUTpcm8|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[http://poleval.pl/files/2024-08.pdf|Zero-shot Approach Using Bielik LLM for Emotion Recognition in Polish]]''' (Paweł Cyrta) ||
||<style="border:0;padding-left:30px;padding-bottom:0px">[[https://www.youtube.com/watch?v=lmRZn7254MY|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[http://poleval.pl/files/2024-08.pdf|PolEval 2024 Task 3: Polish Automatic Speech Recognition Challenge]]''' (Michał Junczyk, Iwona Christop, Piotr Pęzik) ||
||<style="border:0;padding-left:30px;padding-bottom:0px">[[https://www.youtube.com/watch?v=G35l9xJWqA0|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[http://poleval.pl/files/2024-10.pdf|Augmenting Polish Automatic Speech Recognition System with Synthetic Data]]''' (Łukasz Bondaruk, Jakub Kubiak, Mateusz Czyżnikiewicz) ||
||<style="border:0;padding-left:30px;padding-bottom:15px">[[https://www.youtube.com/watch?v=uIDfc6c1TtA|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[http://poleval.pl/files/2024-11.pdf|Exploration of training Zipformer and E-Branchformer models with Polish language BIGOS dataset]]''' (Paweł Cyrta) ||
Line 36: Line 54:
||<style="border:0;padding-top:5px;padding-bottom:5px">'''31 stycznia 2022'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Tomasz Limisiewicz''' (Uniwersytet Karola w Pradze)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=d1WHbE2gLjk|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2022-01-31.pdf|Interpretacja i kontrola cech językowych w reprezentacjach sieci neuronowych]]''' &#160;{{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Sieci neuronowe osiągają niedoścignione wyniki w wielu zadaniach związanych z przetwarzaniem języka naturalnego. Niestety, modele neuronowe są czarnymi skrzynkami; nie rozumiemy mechanizmów stojących za ich sukcesami. W swoim wystąpieniu przedstawiam narzędzia i metody używane do interpretacji modeli. Skupiam się przede wszystkim na reprezentacjach w modelach językowych typu Transformer i nowej metodzie – sondzie ortogonalnej (ang. ''orthogonal probe''), która oferuje dobry wgląd w stany ukryte sieci. Wyniki pokazują, że poszczególne sygnały językowe są zakodowane w Transformerach w sposób odrębny, dzięki temu możemy rozdzielić je w reprezentacji wektorowej. Identyfikacja specyficznych informacji zakodowanych w sieci pozwala na usunięcie niepożądanego ukierunkowania modelu (ang. ''model bias'').||
||<style="border:0;padding-top:5px;padding-bottom:5px">'''19 grudnia 2024'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Piotr Przybyła''' (Uniwersytet Pompeu Fabry / Instytut Podstaw Informatyki PAN)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=xqDkbiF4izI|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2024-12-19.pdf|Adaptacyjne ataki na klasyfikację wiarygodności z wykorzystaniem uczenia ze wzmocnieniem]]''' &#160;{{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">W trakcie prezentacji przedstawiony zostanie system XARELLO: generator przykładów antagonistycznych dla testowania odporności klasyfikacji tekstu, zbudowany na bazie uczenia ze wzmocnieniem. Rozwiązanie to jest adaptacyjne, ponieważ obserwuje sukcesy i porażki wykonywanych ataków i dostosowuje się do słabości klasyfikatora-ofiary. Taka procedura odzwierciedla długoterminowe i ustawiczne ataki, które są typowe dla aktorów rozprzestrzeniających dezinformację. Przedstawimy także wyniki ewaluacji pokazującej, że podejście adaptacyjne prowadzi do odnajdywania przykładów antagonistycznych o lepszej jakości i z mniejszą liczbą prób, szczególnie w atakach na duże modele językowe.||
Line 41: Line 59:
||<style="border:0;padding-top:5px;padding-bottom:5px">'''28 lutego 2022'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Maciej Chrabąszcz''' (Sages)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=zB26bW-t5wA|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2022-02-28.pdf|Generowanie języka naturalnego na przykładzie opisywania zdjęć]]''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Podczas seminarium omawiam problem generacji opisów obrazów. Prezentuję modele testowane w ramach tworzenia rozwiązania do automatycznego opisywania zdjęć, m.in. modele z atencją, wykorzystujące wcześniej przetrenowane modele wizyjne i generujące tekst.||
||<style="border:0;padding-top:5px;padding-bottom:5px">'''17 lutego 2025'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Alicja Martinek''' (NASK, AGH), '''Ewelina Bartuzi-Trokielewicz''' (NASK, Politechnika Warszawska)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=rCzTBQYkooI|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2025-02-17.pdf|Detekcja deepfakes i fałszywych reklam poprzez analizę tekstu i technik manipulacyjnych]]''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Istniejące algorytmy wykrywania deepfake'ów często zawodzą w skutecznej identyfikacji materiałów stworzonych sztucznie. Te algorytmy koncentrują się głównie na technicznej analizie wideo i audio, często zaniedbując znaczenie samej treści. W niniejszym artykule przedstawiamy nowatorskie podejście, które kładzie nacisk na analizę transkryptów tekstowych, szczególnie tych pochodzących z reklam wygenerowanych przez AI, stawiając treść tekstową w centrum uwagi. Nasza metoda łączy cechy lingwistyczne, ocenę błędów gramatycznych oraz identyfikację technik manipulacyjnych powszechnie stosowanych w oszukańczych treściach. Poprzez badanie niezgodności stylistycznych oraz manipulacyjnych wzorców językowych, zwiększamy dokładność w rozróżnianiu między materiałami rzeczywistymi a deepfake'owymi. Aby zapewnić interpretowalność, zastosowaliśmy klasyczne modele uczenia maszynowego, co pozwoliło nam dostarczyć wyjaśnialne informacje na temat procesów decyzyjnych. Dodatkowo przeprowadziliśmy oceny zero-shot przy użyciu trzech dużych modeli językowych, aby ocenić ich wydajność w wykrywaniu treści deepfake. Wyniki eksperymentalne pokazują, że te czynniki dają dokładność na poziomie 90% w rozróżnianiu oszukańczych reklam opartych na deepfake od rzeczywistych. Dowodzi to skuteczności włączenia analizy opartej na treści do wykrywania deepfake'ów, oferując dodatkową warstwę w stosunku do istniejących technik audiowizualnych.||
Line 46: Line 64:
||<style="border:0;padding-top:5px;padding-bottom:5px">'''28 marca 2022'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Tomasz Stanisławek''' (Applica)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=NrDh-UIfgwU|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2022-03-28.pdf|Ekstrakcja informacji z dokumentów o bogatej strukturze graficznej]]''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Szybki rozwój dziedziny NLP w ostatnich latach (pojawienie się modeli języka BERT, RoBERTa, T5, …) spopularyzował użycie technik ekstrakcji informacji w celu automatyzacji procesów biznesowych. Niestety, większość dokumentów biznesowych zawiera w sobie nie tylko zwykły tekst, ale również różnego rodzaju struktury graficzne (przykładowo: tabele, listy, tekst pogrubiony czy formularze), które uniemożliwiają poprawne przetwarzanie aktualnie istniejącymi metodami (tekst wczytywany do modelu w postaci sekwencji tokenów). W trakcie wystąpienia omówię: a) problemy istniejących metod wykorzystywanych do ekstrakcji informacji, b) Kleister – nowe zbiory danych utworzone na potrzeby testowania nowych modeli c) LAMBERT – nowy model języka z wstrzykniętą informacją o pozycji tokenów na stronie, d) dalsze kierunki rozwoju dziedziny.||
||<style="border:0;padding-top:5px;padding-bottom:5px">'''24 marca 2025'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Maciej Rapacz''', '''Aleksander Smywiński-Pohl''' (AGH Akademia Górniczo-Hutnicza) ||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=FZzPMTa2cYA|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2025-03-24.pdf|Tłumaczenie interlinearne tekstów starogreckich: Jak znaczniki morfologiczne poprawiają jakość przekładu maszynowego]]''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}&#160;{{attachment:seminarium-archiwum/icon-en.gif|Slajdy po angielsku.}}||
||<style="border:0;padding-left:30px;padding-bottom:5px">Tłumaczenie interlinearne to specyficzna technika przekładu, w której każde słowo tekstu źródłowego otrzymuje swój odpowiednik w języku docelowym, umieszczany bezpośrednio pod nim lub nad nim, z zachowaniem oryginalnego szyku zdania. W przeciwieństwie do standardowych tłumaczeń, które dążą do naturalności i płynności wypowiedzi, przekład interlinearny skupia się na wiernym odwzorowaniu struktury gramatycznej i składniowej oryginału, nawet kosztem elegancji stylistycznej. Ta metoda jest szczególnie ceniona przez badaczy tekstów starożytnych, filologów oraz osoby uczące się języków, gdyż pozwala na bezpośredni wgląd w konstrukcję i znaczenie oryginalnego tekstu bez konieczności pełnego opanowania języka źródłowego.||
||<style="border:0;padding-left:30px;padding-bottom:5px">W ramach badań przeprowadziliśmy pierwszą próbę zastosowania tłumaczenia maszynowego do generowania przekładów interlinearnych z greki starożytnej na język polski i angielski. Porównaliśmy wydajność modeli specjalistycznych (!GreTa, !PhilTa) pretrenowanych na tekstach starogreckich z wielojęzycznym modelem ogólnego zastosowania (mT5). Przebadaliśmy 144 różne konfiguracje modeli, modyfikując model bazowy, metodę kodowania znaczników morfologicznych, zestaw znaczników oraz podejście do normalizacji tekstu, wykorzystując jako korpus teksty greckiego Nowego Testamentu.||
||<style="border:0;padding-left:30px;padding-bottom:15px">W trakcie wystąpienia przedstawimy przebieg naszych badań oraz omówimy uzyskane wyniki. Najlepsze rezultaty osiągnęły modele, w których zastosowaliśmy nowe dedykowane warstwy embeddingów do kodowania informacji morfologicznych, co pozwoliło uzyskać wyniki lepsze nawet o 35-38% (BLEU) w porównaniu ze scenariuszem bazowym. Dodatkowe szczegółowe badanie wykazało, że !PhilTa radzi sobie lepiej niż mT5, szczególnie w scenariuszach z ograniczoną dostępnością danych. !PhilTa osiągnęła najwyższe wyniki w tłumaczeniu na język angielski (60,40 BLEU), podczas gdy mT5-large najlepiej poradził sobie z językiem polskim (59,33 BLEU).||
Line 51: Line 71:
||<style="border:0;padding-top:5px;padding-bottom:5px">'''11 kwietnia 2022'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Daniel Ziembicki''' (Uniwersytet Warszawski), '''Anna Wróblewska''', '''Karolina Seweryn''' (Politechnika Warszawska)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=cU1y78uFCps|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2022-04-11.pdf|Wnioskowanie i faktywność w języku polskim — zbiór danych eksperckich i benchmarki]]''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Przedmiotem wystąpienia będą cztery zagadnienia: (1) zjawisko faktywności we współczesnej polszczyźnie, (2) wykrywanie relacji wynikania, sprzeczności i niezależności w tekście, (3) stworzony przez nas językowy zbiór danych skupiony na opozycji faktywność-niefaktywność oraz (4) omówienie wyników wytrenowanych na zbiorze danych z punktu (3) modeli ML, których celem było przewidywanie relacji semantycznych z punktu (2).||
||<style="border:0;padding-top:5px;padding-bottom:5px">'''14 kwietnia 2025'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Ryszard Staruch''', '''Filip Graliński''' (Uniwersytet im. Adama Mickiewicza w Poznaniu)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=xRDXmKoEiOQ|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2025-04-14.pdf|Wykorzystanie wielkich modeli języka w zadaniu korekty tekstu]]''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Wielkie modele języka (LLM) są obecnie najskuteczniejszymi rozwiązaniami w wielu zadaniach przetwarzania języka naturalnego. Wciąż jednak nie wiadomo, jak dobrze radzą sobie z korektą tekstów w języku polskim. W celu zbadania ich efektywności opracowany został specjalistyczny zbiór danych korekty tekstu w języku polskim. Podczas wystąpienia zaprezentowany zostanie ten korpus oraz wyniki ewaluacji wybranych rozwiązań. W drugiej części seminarium omówione zostaną nowe techniki adaptacji wielkich modeli języka do zadania minimalnej korekty tekstów napisanych przez osoby uczące się języka – na przykładzie języka angielskiego.||
Line 56: Line 76:
||<style="border:0;padding-top:5px;padding-bottom:5px">'''16 maja 2022'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Inez Okulska''', '''Anna Zawadzka''', '''Michał Szczyszek''', '''Anna Kołos''', '''Zofia Cieślińska''' (NASK)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=u5A3SNw0a7M|{{attachment:seminarium-archiwum/youtube.png}}]] '''Efekt(ywność) stylu, czyli jak i po co kodować wskaźniki morfosyntaktyczne całych dokumentów''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">A gdyby tak reprezentować tekst dowolnej długości za pomocą jednego, równego, i dodatkowo w pełni interpretowalnego wektora? Bez korpusu do uczenia, bez słownika pretrenowanych osadzeń, pojedynczo, na miejscu lub na wynos? Czemu nie! Wektory !StyloMetrix to wykorzystująca bogactwo biblioteki spaCy kombinacja lingwistycznych metryk. Takie podejście oczywiście pomija reprezentację semantyki pojedynczych słów czy fraz i teoretycznie nie pozwala na detekcję konkretnych tematów. Chyba że – semantyka niesiona jest również przez styl? Dotychczasowe eksperymenty, jak i rezultaty badań filologicznych pokazują, że obszary te są ze sobą mocno splecione. Okazuje się bowiem, że – przykładowo – treści niewłaściwe dla dzieci czy młodzieży to nie tylko oczywisty zestaw zakazanej leksyki, lecz także kombinacja charakterystycznych wskaźników morfosyntaktycznych tekstu. Są one tak wyraziste i dystynktywne, że korzystając wyłącznie z reprezentacji !StyloMetrix, można osiągnąć precyzję na poziomie 90% w zadaniu klasyfikacji wieloklasowej. Ponadto okazuje się, że skoro każda wartość wektora jest znormalizowanym wskaźnikiem konkretnej gramatycznej cechy dokumentu, to można się również czegoś dowiedzieć na temat lingwistycznych wyznaczników danego stylu. Taka konstrukcja metryk to też krok w stronę interpretowalności algebraicznych metod selekcji cech. Przedstawione w wystąpieniu eksperymenty będą opierały się na treściach opublikowanych w Internecie.||
||<style="border:0;padding-top:5px;padding-bottom:5px">'''28 kwietnia 2025'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Manfred Stede''' (Universität Potsdam)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Discourse structure in the Potsdam Commentary Corpus: Human annotation, human disagreement, and automatic parsing''' &#160;{{attachment:seminarium-archiwum/icon-en.gif|Wystąpienia w języku angielskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">The talk gives a brief introduction to Rhetorical Structure Theory (RST, [[https://www.sfu.ca/rst/05bibliographies/bibs/Mann_Thompson_1988.pdf|Mann/Thompson 1988]]) and then explains the design decisions for the Potsdam Commentary Corpus (PCC), which brings together RST, coreference, and other annotation layers on 175 German news editorials. After illustrating cross-layer queries on the corpus in the ANNIS linguistic database, we turn to the intricacies of manual RST annotation. I will give an overview of the annotation guidelines and their motivations, and present results from an (ongoing) study on annotator disagreements, from which we derive ideas for redesigning the annotation scheme (and potentially the underlying theory), with a comparison to the recent proposal of "eRST" by [[https://direct.mit.edu/coli/article/51/1/23/124464/eRST-A-Signaled-Graph-Theory-of-Discourse|Zeldes et al. (2025)]]. In the last part of the talk, I outline our results on automatic parsing using the system by [[https://aclanthology.org/P14-1002/|Ji and Eisenstein (2014)]].||
Line 61: Line 81:
||<style="border:0;padding-top:5px;padding-bottom:5px">'''23 maja 2022'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Karolina Stańczak''' (Uniwersytet Kopenhaski)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://teams.microsoft.com/l/meetup-join/19%3a2a54bf781d2a466da1e9adec3c87e6c2%40thread.tacv2/1649072330756?context=%7b%22Tid%22%3a%220425f1d9-16b2-41e3-a01a-0c02a63d13d6%22%2c%22Oid%22%3a%22f5f2c910-5438-48a7-b9dd-683a5c3daf1e%22%7d|{{attachment:seminarium-archiwum/teams.png}}]] '''Model ze zmienną ukrytą do sondowania wewnętrznego''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Sukces wstępnie wytrenowanych kontekstowych reprezentacji skłonił badaczy do ich analizy pod kątem obecności informacji lingwistycznej. Naturalne jest założenie, że takie reprezentacje kodują pewien poziom wiedzy językowej, ponieważ empirycznie przyniosły one znaczącą poprawę w wielu różnych zadaniach NLP, co sugeruje, że uczą się one prawdziwej generalizacji językowej. W niniejszej pracy koncentrujemy się na sondowaniu wewnętrznym, technice analizy, której celem jest nie tylko określenie, czy reprezentacja koduje dany atrybut językowy, ale także wskazanie, gdzie ten atrybut jest zakodowany. Proponujemy nową metodę zmiennej ukrytej do konstruowania sond wewnętrznych przy użyciu spolegliwej wariacyjnej aproksymacji log-likelihood. Wyniki pokazują, że nasz model jest uniwersalny i pozwala uzyskać dokładniejsze oszacowania informacji wzajemnej niż dwie sondy wewnętrzne zaproponowane wcześniej w literaturze. Znajdujemy również empiryczne dowody na to, że wstępnie wyszkolone reprezentacje wykształcają międzyjęzykowe pojęcie morfoskładni.||
||<style="border:0;padding-top:5px;padding-bottom:5px">'''12 maja 2025''' ('''UWAGA: ''' wystąpienie odbędzie się o 12:00 w ramach [[https://ipipan.waw.pl/instytut/dzialalnosc-naukowa/seminaria/ogolnoinstytutowe|seminarium IPI PAN]])||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Maciej Ogrodniczuk''', '''Aleksandra Tomaszewska''', '''Bartosz Żuk''', '''Alina Wróblewska''' (Instytut Podstaw Informatyki PAN)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Tytuł wystąpienia (dot. modelu PLLuM) zostanie podany wkrótce''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienia w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Streszczenie wystąpienia udostępnimy w najbliższym czasie.||
Line 66: Line 86:
||<style="border:0;padding-top:5px;padding-bottom:5px">'''6 czerwca 2022'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Cezary Klamra''', '''Grzegorz Wojdyga''' (Instytut Podstaw Informatyki PAN), '''Sebastian Żurowski''' (Uniwersytet Mikołaja Kopernika), '''Paulina Rosalska''' (Uniwersytet Mikołaja Kopernika / Applica.ai), '''Matylda Kozłowska''' (Oracle Polska), '''Maciej Ogrodniczuk''' (Instytut Podstaw Informatyki PAN)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=SnjqVft5SzA|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2022-06-06.pdf|Dewulgaryzacja polskich tekstów z wykorzystaniem pretrenowanych modeli językowych]]''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Przedstawimy metodę transferu stylu tekstu do zastępowania wyrażeń wulgarnych ich niewulgarnymi odpowiednikami polegającą na dostrojeniu trzech wstępnie wytrenowanych modeli językowych (GPT-2, GPT-3 i T-5) na nowo powstałym korpusie równoległym par zdań wulgarnych i niewulgarnych. Następnie ocenimy otrzymane modele, sprawdzając ich dokładność transferu stylu, zachowanie treści i jakość języka. Zgodnie z naszą najlepszą wiedzą, proponowane rozwiązanie jest pierwszym tego typu dla języka polskiego. Tekst opisujący prezentowane rozwiązanie został przyjęty na konferencję [[https://www.iccs-meeting.org/iccs2022/|ICCS 2022]].||
||<style="border:0;padding-top:5px;padding-bottom:5px">'''26 maja 2025'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Deniz Zeyrek''' (Middle East Technical University)||
||<style="border:0;padding-left:30px;padding-bottom:15px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Tytuł wystąpienia zostanie podany wkrótce''' &#160;{{attachment:seminarium-archiwum/icon-en.gif|Wystąpienia w języku angielskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:5px">Streszczenie wystąpienia udostępnimy w najbliższym czasie.||
Line 71: Line 91:
||<style="border:0;padding-top:5px;padding-bottom:5px">'''13 czerwca 2022'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Michał Ulewicz'''||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=4ZcVXg2Y_fA|{{attachment:seminarium-archiwum/youtube.png}}]] '''Semantic Role Labeling – dane i modele''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Semantic Role Labeling (SRL) pozwala przedstawić znaczenie zdania w postaci struktur (tzw. ramek) składających się z orzeczenia i argumentów związanych z tym orzeczeniem. Takie podejście pozwala podzielić zdanie na istotne znaczeniowo fragmenty i precyzyjnie znaleźć odpowiedzi na pytania: kto, co, komu, kiedy i jak zrobił dla każdego z tych fragmentów. W pierwszym etapie znajdowane są orzeczenia i ujednoznaczniane ich znaczenia. W drugim etapie dla każdej ramki identyfikowane i klasyfikowane są argumenty. Do budowy skutecznych modeli SRL potrzebne są dane i o ile dla języka angielskiego istnieją wysokiej jakości zestawy danych (propbank), to dla pozostałych języków takie zbiory praktycznie nie istnieją, głównie ze względu na wysoki nakład pracy i koszt potrzebny do ich stworzenia. Podczas wystąpienia opowiem jak SRL może pomóc w precyzyjnym przetwarzaniu tekstu. Przedstawię próby automatycznego generowania zestawów danych dla różnych języków w tym języka polskiego z wykorzystaniem techniki rzutowania anotacji (ang. annotation projection). Przedstawię zidentyfikowane problemy związane z automatycznym rzutowaniem anotacji z języka angielskiego na język polski. Opowiem o modelach SRL, które zbudowałem na bazie modeli typu Transformer.||
Line 76: Line 92:
||<style="border:0;padding-top:0px">Zapraszamy także do zapoznania się z [[http://nlp.ipipan.waw.pl/NLP-SEMINAR/previous-p.html|archiwum seminariów z lat 2000–2015]] oraz [[http://zil.ipipan.waw.pl/seminarium-archiwum|listą wystąpień z lat 2015–2020]].||
Line 78: Line 93:
||<style="border:0;padding-top:15px">Zapraszamy także do zapoznania się z [[http://nlp.ipipan.waw.pl/NLP-SEMINAR/previous-p.html|archiwum seminariów z lat 2000–2015]] oraz [[http://zil.ipipan.waw.pl/seminarium-archiwum|listą wystąpień z lat 2015–2024]].||
Line 81: Line 97:
||<style="border:0;padding-top:5px;padding-bottom:5px">'''7 października 2023'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Uczestnicy konkursu PolEval 2024''' ||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Planowana seria prezentacji uczestników zadań PolEvalowych''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienia w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Lista wystąpień będzie dostępna wkrótce.||


||<style="border:0;padding-top:5px;padding-bottom:5px">'''11 marca 2024'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Mateusz Krubiński''' (Uniwersytet Karola w Pradze)||
||<style="border:0;padding-left:30px;padding-bottom:15px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Tytuł wystąpienia podamy wkrótce''' &#160;{{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku polskim.}}||



||<style="border:0;padding-top:15px;padding-bottom:5px">'''8 stycznia 2024''' (prezentacja wyników projektu DARIAH.Lab)||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Zespół projektu DARIAH.Lab''' (Instytut Podstaw Informatyki PAN)||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''Tytuł wystąpienia poznamy wkrótce''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie po polsku.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Streszczenie wystąpienia udostępnimy w najbliższym czasie.||


||<style="border:0;padding-top:5px;padding-bottom:5px">'''3 października 2022'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''...''' (...)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Tytuł wystąpienia podamy wkrótce''' &#160;{{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Opis wystąpienia udostępnimy już niedługo.||


Line 83: Line 124:
||<style="border:0;padding-top:5px;padding-bottom:5px">'''14 lutego 2022'''||
||<style="border:0;padding-top:5px;padding-bottom:5px">'''14 marca 2022'''||
||<style="border:0;padding-top:5px;padding-bottom:5px">'''25 kwietnia 2022'''|| – UWAGA, jest KJK
||<style="border:0;padding-top:5px;padding-bottom:5px">'''9 maja 2022'''|| – Adam Grycner?
||<style="border:0;padding-top:5px;padding-bottom:5px">'''23 maja 2022''' – UWAGA, LREC 20–25 maja||
||<style="border:0;padding-top:5px;padding-bottom:5px">'''20 czerwca 2022'''|| – UWAGA, jest KJK
ATLAS: Explaining abstractive summarization - Emilia Wiśnios? Albo coś z NASK-owych tematów dot. przetwarzania prawa? Czy to jest to samo?
Line 96: Line 132:
Line 111: Line 148:

Nowe typy:

Aleksandra Gabryszak (DFKI Berlin):
– https://aclanthology.org/people/a/aleksandra-gabryszak/
– https://www.researchgate.net/profile/Aleksandra-Gabryszak
– miała tekst na warsztacie First Computing Social Responsibility Workshop (http://www.lrec-conf.org/proceedings/lrec2022/workshops/CSRNLP1/index.html) na LREC-u 2022: http://www.lrec-conf.org/proceedings/lrec2022/workshops/CSRNLP1/pdf/2022.csrnlp1-1.5.pdf

Seminarium „Przetwarzanie języka naturalnego” 2024–25

Seminarium Zespołu Inżynierii LingwistycznejInstytucie Podstaw Informatyki Polskiej Akademii Nauk odbywa się średnio co 2 tygodnie, zwykle w poniedziałki o godz. 10:15 (niekiedy online – prosimy o korzystanie z linku przy tytule wystąpienia) i ma charakter otwarty. Poszczególne referaty ogłaszane są na Polskiej Liście Językoznawczej oraz na stronie Lingwistyka komputerowa na Facebooku. Nagrania wystąpień dostępne są na kanale YouTube.

seminar

7 października 2024

Janusz S. Bień (profesor emeritus Uniwersytetu Warszawskiego)

https://www.youtube.com/watch?v=2mLYixXC_Hw Identyfikacja czcionek w XVI-wiecznych drukach. Analiza przypadku  Wystąpienia w języku polskim.

Przetwarzanie tekstów wymaga ich zakodowania w odpowiednim standardzie, aktualnie praktyczne jedyną opcją jest standard Unicode. Niektóre czcionki stosowane w starodrukach są już uwzględnione w tym standardzie, niektóre są dostępne w specjalistycznych fontach za pomocą tzw. funkcji zecerskich. Niektóre czcionki, opisane w monumentalnym dziele „Polonia Typographica Saeculi Sedecimi”, nie mają jednak swoich odpowiedników w standardzie. W referacie omówię kilka takich czcionek.

14 października 2024

Alexander Rosen (Uniwersytet Karola w Pradze)

https://www.youtube.com/watch?v=E2ujmqt7Q2E Lexical and syntactic variability of languages and text genres. A corpus-based study  Wystąpienie w języku angielskim.

This study examines metrics of syntactic complexity (SC) and lexical diversity (LD) as tools for analyzing linguistic variation within and across languages. Using quantifiable measures based on cross-linguistically consistent (morpho)syntactic annotation (Universal Dependencies), the research utilizes parallel texts from a large multilingual corpus (InterCorp). Six SC and two LD metrics – covering the length and embedding levels of nominal and clausal constituents, mean dependency distance (MDD), and sentence length – are applied as metadata for sentences and texts.

The presentation will address how these metrics can be visualized and incorporated into corpus queries, how they reflect structural differences across languages and text types, and whether SC and LD vary more across languages or text types. It will also consider the impact of language-specific annotation nuances and correlations among the measures. The analysis includes comparative examples from Polish, Czech, and other languages.

Preliminary findings indicate higher SC in non-fiction compared to fiction across languages, with nominal and clausal metrics being dominant factors. The results suggest distinct patterns for MDD and sentence length, highlighting the impact of structural differences (e.g., analytic vs. synthetic morphology, dominant word-order patterns) and the influence of source text type and style.

28 października 2024

Rafał Jaworski (Uniwersytet im. Adama Mickiewicza w Poznaniu)

https://www.youtube.com/watch?v=52LZ976imBA Zestaw algorytmów zrównoleglania i przechowywania wielojęzycznych zanurzeń słów na potrzeby obliczania prawdopodobieństwa tłumaczenia  Wystąpienie w języku polskim.

Podczas wystąpienia zreferuję moje badania naukowe z dziedziny przetwarzania języka naturalnego na potrzeby wspomagania tłumaczenia. Przedstawię w szczególności zestaw algorytmów Inter-language Vector Space służący do zrównoleglania zdań na poziomie słów i fraz wykorzystujących wielojęzyczne zanurzenia słów (word embeddings).

Pierwszą funkcją zestawu jest generowanie reprezentacji wektorowych słów. Są one generowane przy użyciu sieci neuronowej typu auto-encoder na podstawie danych tekstowych – korpusu tekstu. W ten sposób powstają słowniki wektorowe dla poszczególnych języków. Reprezentacje wektorowe słów znajdujących się w tych słownikach stanowią przestrzenie wektorowe, które różnią się pomiędzy językami.

Aby rozwiązać ten problem i uzyskać reprezentacje wektorowe słów, które byłyby porównywalne pomiędzy językami, stosuje się drugą funkcję zestawu Inter-language Vector Space. Służy on do zrównoleglania przestrzeni wektorowych pomiędzy językami z wykorzystaniem macierzy transformacji obliczanych metodą rozkładu według wartości osobliwych. Macierz ta jest obliczana na podstawie homonimów, tj. słów pisanych identycznie w języku przestrzeni X oraz Y. Dodatkowo, w celach wspomagających stosowany jest słownik dwujęzyczny. Obliczona w ten sposób macierz transformacji pozwala na dostosowanie przestrzeni X w taki sposób, aby w maksymalny możliwy sposób pokrywała się z przestrzenią Y.

Ostatnia funkcja zestawu jest odpowiedzialna za stworzenie wielojęzycznej przestrzeni wektorowej. Do przestrzeni tej najpierw dodawana jest w całości i bez modyfikacji przestrzeń wektorowa dla języka angielskiego. Następnie, dla każdej innej przestrzeni wektorowej obliczana jest najpierw macierz transformacji tej przestrzeni do przestrzeni angielskiej. Wektory nowej przestrzeni są mnożone przez tę macierz i w ten sposób stają się porównywalne z wektorami reprezentującymi słowa angielskie.

Zestaw algorytmów Inter-language Vector Space znajduje zastosowanie w systemach wspomagania tłumaczenia, na przykład w autorskim algorytmie automatycznego transferu znaczników nietłumaczonych ze zdania źródłowego do docelowego.

4 listopada 2024

Jakub Kozakoszczak (Deutsche Telekom)

ZIML: Język znaczników anotacyjnych do łatwego dopasowywania regeksami  Wystąpienie w języku angielskim.

Przeszukiwanie regeksami warstwy anotacyjnej tekstu reprezentowanej wplecionymi znacznikami wymaga budowania wzorców, które szybko stają się nieczytelne i nie do utrzymania. Zupełnie niemożliwe jest stosowanie warunków na odległości wewnątrz tekstu, wydłużonych przez obecność tagów. Anotacja wydrębniona poza tekst co prawda zachowuje odległości, ale jest niewidoczna dla regeksów.

Przedstawię język znaczników Zero Insertion Markup Language (ZIML), w którym każda kombinacja znaków i etykiet w zaanotowanym tekście jest reprezentowana przez pojedynczy „alloznak”, co zachowuje odległości wewnątrz dokumentu. Te same alloznaki wprowadzone są do regeksów w taki sposób, że zachowują pozycje dopasowań zwracanych przez standardowe silniki wyrażeń regularnych. W efekcie jedyną ingerencją w semantykę języka regeksów jest wzbogacenie jej o denotowanie etykiet przez dopasowanie alloznaków, które je reprezentują.

Podam dowód poprawności tego przekształcenia i przedstawię implementację języka ZIML, w tym składnię dodawania odwołań do etykiet w treści wzorców. Omówię, w miarę możliwości czasowych, potencjalne zastosowania ZIML w językoznawstwie i przetwarzaniu języka naturalnego. Do zrozumienia prezentacji pomoże podstawowa wiedza na temat teorii modeli i wyszukiwania regeksami.

21 listopada 2024

Christian Chiarcos (Uniwersytet w Augsburgu)

https://www.youtube.com/watch?v=FxiOM5zAKo8 Aspects of Knowledge Representation for Discourse Relation Annotation  Wystąpienie w języku angielskim.

Semantic technologies comprise a broad set of standards and technologies including aspects of knowledge representation, information management and computational inference. In this lecture, I will describe the application of knowledge representation standards to the realm of computational discourse, and especially, the annotation of discourse relations. In particular, this includes the formal modelling of discourse relations of different theoretical frameworks by means of modular, interlinked ontologies, the machine-readable edition of discourse marker inventories with OntoLex and techniques for the induction of discourse marker inventories.

2 grudnia 2024

Uczestnicy konkursu PolEval 2024

Prezentacja wyników konkursu  Wystąpienia w języku polskim. Slajdy po angielsku.

https://www.youtube.com/watch?v=cwu8YfqtnTs Welcome to PolEval 2024 (Łukasz Kobyliński, Maciej Ogrodniczuk, Filip Graliński, Ryszard Staruch, Karol Saputa)

https://www.youtube.com/watch?v=OnxkmpGmxP4 PolEval 2024 Task 1: Reading Comprehension (Ryszard Tuora / Aleksandra Zwierzchowska)

https://www.youtube.com/watch?v=9FDTOx55WMI Optimizing LLMs for Polish Reading Comprehension: A Comparative Study of Ensemble and Unified Approaches (Krzysztof Wróbel)

https://www.youtube.com/watch?v=_Ur9kzZ3ols PolEval 2024 Task 2: Emotion and Sentiment Recognition (Jan Kocoń, Bartłomiej Koptyra)

https://www.youtube.com/watch?v=V3_z2KiVgco Emotion and Sentiment Recognition in Polish Texts Using Large Language Models: A Winning Approach to PolEval 2024 (Krzysztof Wróbel)

https://www.youtube.com/watch?v=59Xkzoi3TDY Ensemble as a Variance Reduction Method for Emotion and Sentiment Recognition (Tomasz Warzecha)

https://www.youtube.com/watch?v=ESNbPIwjfvw Emotion and Sentiment Recognition Using Ensemble Models (Jakub Kosterna)

https://www.youtube.com/watch?v=Ds8BkUTpcm8 Zero-shot Approach Using Bielik LLM for Emotion Recognition in Polish (Paweł Cyrta)

https://www.youtube.com/watch?v=lmRZn7254MY PolEval 2024 Task 3: Polish Automatic Speech Recognition Challenge (Michał Junczyk, Iwona Christop, Piotr Pęzik)

https://www.youtube.com/watch?v=G35l9xJWqA0 Augmenting Polish Automatic Speech Recognition System with Synthetic Data (Łukasz Bondaruk, Jakub Kubiak, Mateusz Czyżnikiewicz)

https://www.youtube.com/watch?v=uIDfc6c1TtA Exploration of training Zipformer and E-Branchformer models with Polish language BIGOS dataset (Paweł Cyrta)

19 grudnia 2024

Piotr Przybyła (Uniwersytet Pompeu Fabry / Instytut Podstaw Informatyki PAN)

https://www.youtube.com/watch?v=xqDkbiF4izI Adaptacyjne ataki na klasyfikację wiarygodności z wykorzystaniem uczenia ze wzmocnieniem  Wystąpienie w języku angielskim.

W trakcie prezentacji przedstawiony zostanie system XARELLO: generator przykładów antagonistycznych dla testowania odporności klasyfikacji tekstu, zbudowany na bazie uczenia ze wzmocnieniem. Rozwiązanie to jest adaptacyjne, ponieważ obserwuje sukcesy i porażki wykonywanych ataków i dostosowuje się do słabości klasyfikatora-ofiary. Taka procedura odzwierciedla długoterminowe i ustawiczne ataki, które są typowe dla aktorów rozprzestrzeniających dezinformację. Przedstawimy także wyniki ewaluacji pokazującej, że podejście adaptacyjne prowadzi do odnajdywania przykładów antagonistycznych o lepszej jakości i z mniejszą liczbą prób, szczególnie w atakach na duże modele językowe.

17 lutego 2025

Alicja Martinek (NASK, AGH), Ewelina Bartuzi-Trokielewicz (NASK, Politechnika Warszawska)

https://www.youtube.com/watch?v=rCzTBQYkooI Detekcja deepfakes i fałszywych reklam poprzez analizę tekstu i technik manipulacyjnych  Wystąpienie w języku polskim.

Istniejące algorytmy wykrywania deepfake'ów często zawodzą w skutecznej identyfikacji materiałów stworzonych sztucznie. Te algorytmy koncentrują się głównie na technicznej analizie wideo i audio, często zaniedbując znaczenie samej treści. W niniejszym artykule przedstawiamy nowatorskie podejście, które kładzie nacisk na analizę transkryptów tekstowych, szczególnie tych pochodzących z reklam wygenerowanych przez AI, stawiając treść tekstową w centrum uwagi. Nasza metoda łączy cechy lingwistyczne, ocenę błędów gramatycznych oraz identyfikację technik manipulacyjnych powszechnie stosowanych w oszukańczych treściach. Poprzez badanie niezgodności stylistycznych oraz manipulacyjnych wzorców językowych, zwiększamy dokładność w rozróżnianiu między materiałami rzeczywistymi a deepfake'owymi. Aby zapewnić interpretowalność, zastosowaliśmy klasyczne modele uczenia maszynowego, co pozwoliło nam dostarczyć wyjaśnialne informacje na temat procesów decyzyjnych. Dodatkowo przeprowadziliśmy oceny zero-shot przy użyciu trzech dużych modeli językowych, aby ocenić ich wydajność w wykrywaniu treści deepfake. Wyniki eksperymentalne pokazują, że te czynniki dają dokładność na poziomie 90% w rozróżnianiu oszukańczych reklam opartych na deepfake od rzeczywistych. Dowodzi to skuteczności włączenia analizy opartej na treści do wykrywania deepfake'ów, oferując dodatkową warstwę w stosunku do istniejących technik audiowizualnych.

24 marca 2025

Maciej Rapacz, Aleksander Smywiński-Pohl (AGH Akademia Górniczo-Hutnicza)

https://www.youtube.com/watch?v=FZzPMTa2cYA Tłumaczenie interlinearne tekstów starogreckich: Jak znaczniki morfologiczne poprawiają jakość przekładu maszynowego  Wystąpienie w języku polskim. Slajdy po angielsku.

Tłumaczenie interlinearne to specyficzna technika przekładu, w której każde słowo tekstu źródłowego otrzymuje swój odpowiednik w języku docelowym, umieszczany bezpośrednio pod nim lub nad nim, z zachowaniem oryginalnego szyku zdania. W przeciwieństwie do standardowych tłumaczeń, które dążą do naturalności i płynności wypowiedzi, przekład interlinearny skupia się na wiernym odwzorowaniu struktury gramatycznej i składniowej oryginału, nawet kosztem elegancji stylistycznej. Ta metoda jest szczególnie ceniona przez badaczy tekstów starożytnych, filologów oraz osoby uczące się języków, gdyż pozwala na bezpośredni wgląd w konstrukcję i znaczenie oryginalnego tekstu bez konieczności pełnego opanowania języka źródłowego.

W ramach badań przeprowadziliśmy pierwszą próbę zastosowania tłumaczenia maszynowego do generowania przekładów interlinearnych z greki starożytnej na język polski i angielski. Porównaliśmy wydajność modeli specjalistycznych (GreTa, PhilTa) pretrenowanych na tekstach starogreckich z wielojęzycznym modelem ogólnego zastosowania (mT5). Przebadaliśmy 144 różne konfiguracje modeli, modyfikując model bazowy, metodę kodowania znaczników morfologicznych, zestaw znaczników oraz podejście do normalizacji tekstu, wykorzystując jako korpus teksty greckiego Nowego Testamentu.

W trakcie wystąpienia przedstawimy przebieg naszych badań oraz omówimy uzyskane wyniki. Najlepsze rezultaty osiągnęły modele, w których zastosowaliśmy nowe dedykowane warstwy embeddingów do kodowania informacji morfologicznych, co pozwoliło uzyskać wyniki lepsze nawet o 35-38% (BLEU) w porównaniu ze scenariuszem bazowym. Dodatkowe szczegółowe badanie wykazało, że PhilTa radzi sobie lepiej niż mT5, szczególnie w scenariuszach z ograniczoną dostępnością danych. PhilTa osiągnęła najwyższe wyniki w tłumaczeniu na język angielski (60,40 BLEU), podczas gdy mT5-large najlepiej poradził sobie z językiem polskim (59,33 BLEU).

14 kwietnia 2025

Ryszard Staruch, Filip Graliński (Uniwersytet im. Adama Mickiewicza w Poznaniu)

https://www.youtube.com/watch?v=xRDXmKoEiOQ Wykorzystanie wielkich modeli języka w zadaniu korekty tekstu  Wystąpienie w języku polskim.

Wielkie modele języka (LLM) są obecnie najskuteczniejszymi rozwiązaniami w wielu zadaniach przetwarzania języka naturalnego. Wciąż jednak nie wiadomo, jak dobrze radzą sobie z korektą tekstów w języku polskim. W celu zbadania ich efektywności opracowany został specjalistyczny zbiór danych korekty tekstu w języku polskim. Podczas wystąpienia zaprezentowany zostanie ten korpus oraz wyniki ewaluacji wybranych rozwiązań. W drugiej części seminarium omówione zostaną nowe techniki adaptacji wielkich modeli języka do zadania minimalnej korekty tekstów napisanych przez osoby uczące się języka – na przykładzie języka angielskiego.

28 kwietnia 2025

Manfred Stede (Universität Potsdam)

http://zil.ipipan.waw.pl/seminarium-online Discourse structure in the Potsdam Commentary Corpus: Human annotation, human disagreement, and automatic parsing  Wystąpienia w języku angielskim.

The talk gives a brief introduction to Rhetorical Structure Theory (RST, Mann/Thompson 1988) and then explains the design decisions for the Potsdam Commentary Corpus (PCC), which brings together RST, coreference, and other annotation layers on 175 German news editorials. After illustrating cross-layer queries on the corpus in the ANNIS linguistic database, we turn to the intricacies of manual RST annotation. I will give an overview of the annotation guidelines and their motivations, and present results from an (ongoing) study on annotator disagreements, from which we derive ideas for redesigning the annotation scheme (and potentially the underlying theory), with a comparison to the recent proposal of "eRST" by Zeldes et al. (2025). In the last part of the talk, I outline our results on automatic parsing using the system by Ji and Eisenstein (2014).

12 maja 2025 (UWAGA: wystąpienie odbędzie się o 12:00 w ramach seminarium IPI PAN)

Maciej Ogrodniczuk, Aleksandra Tomaszewska, Bartosz Żuk, Alina Wróblewska (Instytut Podstaw Informatyki PAN)

http://zil.ipipan.waw.pl/seminarium-online Tytuł wystąpienia (dot. modelu PLLuM) zostanie podany wkrótce  Wystąpienia w języku polskim.

Streszczenie wystąpienia udostępnimy w najbliższym czasie.

26 maja 2025

Deniz Zeyrek (Middle East Technical University)

http://zil.ipipan.waw.pl/seminarium-online Tytuł wystąpienia zostanie podany wkrótce  Wystąpienia w języku angielskim.

Streszczenie wystąpienia udostępnimy w najbliższym czasie.

Zapraszamy także do zapoznania się z archiwum seminariów z lat 2000–2015 oraz listą wystąpień z lat 2015–2024.