Locked History Actions

Diff for "seminarium"

Differences between revisions 443 and 965 (spanning 522 versions)
Revision 443 as of 2019-11-25 09:13:26
Size: 17358
Comment:
Revision 965 as of 2025-04-15 12:38:11
Size: 35283
Comment:
Deletions are marked like this. Additions are marked like this.
Line 1: Line 1:
## page was renamed from seminarium-archiwum
Line 3: Line 2:
= Seminarium „Przetwarzanie języka naturalnego” 2019–20 = = Seminarium „Przetwarzanie języka naturalnego” 2024–25 =
Line 5: Line 4:
||<style="border:0;padding-bottom:10px">Seminarium [[http://nlp.ipipan.waw.pl/|Zespołu Inżynierii Lingwistycznej]] w&nbsp;[[http://www.ipipan.waw.pl/|Instytucie Podstaw Informatyki]] [[http://www.pan.pl/|Polskiej Akademii Nauk]] odbywa się nieregularnie w&nbsp;poniedziałki zwykle o&nbsp;godz.&nbsp;10:15 w&nbsp;siedzibie IPI&nbsp;PAN (ul.&nbsp;Jana Kazimierza&nbsp;5, Warszawa) i&nbsp;ma charakter otwarty. Poszczególne referaty ogłaszane są na [[http://lists.nlp.ipipan.waw.pl/mailman/listinfo/ling|Polskiej Liście Językoznawczej]] oraz na stronie [[https://www.facebook.com/lingwistyka.komputerowa|Lingwistyka komputerowa]] na Facebooku. Wszystkie nagrania dostępne są na [[https://www.youtube.com/channel/UC5PEPpMqjAr7Pgdvq0wRn0w|kanale YouTube]].||<style="border:0;padding-left:30px;">[[seminar|{{attachment:seminarium-archiwum/en.png}}]]|| ||<style="border:0;padding-bottom:10px">Seminarium [[http://nlp.ipipan.waw.pl/|Zespołu Inżynierii Lingwistycznej]] w&nbsp;[[http://www.ipipan.waw.pl/|Instytucie Podstaw Informatyki]] [[http://www.pan.pl/|Polskiej Akademii Nauk]] odbywa się średnio co 2 tygodnie, zwykle w&nbsp;poniedziałki o&nbsp;godz.&nbsp;10:15 (niekiedy online – prosimy o korzystanie z linku przy tytule wystąpienia) i&nbsp;ma charakter otwarty. Poszczególne referaty ogłaszane są na [[http://lists.nlp.ipipan.waw.pl/mailman/listinfo/ling|Polskiej Liście Językoznawczej]] oraz na stronie [[https://www.facebook.com/lingwistyka.komputerowa|Lingwistyka komputerowa]] na Facebooku. Nagrania wystąpień dostępne są na [[https://www.youtube.com/ipipan|kanale YouTube]].||<style="border:0;padding-left:30px;">[[seminar|{{attachment:seminarium-archiwum/en.png}}]]||
Line 7: Line 6:
||<style="border:0;padding-top:5px;padding-bottom:5px">'''23 września 2019'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Igor Boguslavsky''' (Institute for Information Transmission Problems, Russian Academy of Sciences / Universidad Politécnica de Madrid)||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''[[attachment:seminarium-archiwum/2019-09-23.pdf|Semantic analysis based on inference]]''' &#160;{{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:5px">I will present a semantic analyzer SemETAP, which is a module of a linguistic processor ETAP designed to perform analysis and generation of NL texts. We proceed from the assumption that the depth of understanding is determined by the number and quality of inferences we can draw from the text. Extensive use of background knowledge and inferences permits to extract implicit information.||
||<style="border:0;padding-left:30px;padding-bottom:0px">Salient features of SemETAP include: ||
||<style="border:0;padding-left:30px;padding-bottom:0px">— knowledge base contains both linguistic and background knowledge;||
||<style="border:0;padding-left:30px;padding-bottom:0px">— inference types include strict entailments and plausible expectations; ||
||<style="border:0;padding-left:30px;padding-bottom:0px">— words and concepts of the ontology may be supplied with explicit decompositions for inference purposes; ||
||<style="border:0;padding-left:30px;padding-bottom:0px">— two levels of semantic structure are distinguished. Basic semantic structure (BSemS) interprets the text in terms of ontological elements. Enhanced semantic structure (EnSemS) extends BSemS by means of a series of inferences; ||
||<style="border:0;padding-left:30px;padding-bottom:15px">— a new logical formalism Etalog is developed in which all inference rules are written.||
||<style="border:0;padding-top:5px;padding-bottom:5px">'''7 października 2024'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Janusz S. Bień''' (profesor emeritus Uniwersytetu Warszawskiego) ||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=2mLYixXC_Hw|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2024-10-07.pdf|Identyfikacja czcionek w XVI-wiecznych drukach. Analiza przypadku]]''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienia w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Przetwarzanie tekstów wymaga ich zakodowania w odpowiednim standardzie, aktualnie praktyczne jedyną opcją jest standard Unicode. Niektóre czcionki stosowane w starodrukach są już uwzględnione w tym standardzie, niektóre są dostępne w specjalistycznych fontach za pomocą tzw. funkcji zecerskich. Niektóre czcionki, opisane w monumentalnym dziele „[[https://crispa.uw.edu.pl/object/files/754258/display/Default|Polonia Typographica Saeculi Sedecimi]]”, nie mają jednak swoich odpowiedników w standardzie. W referacie omówię kilka takich czcionek.||
Line 18: Line 11:
||<style="border:0;padding-top:5px;padding-bottom:5px">'''7 października 2019'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Tomasz Stanisz''' (Instytut Fizyki Jądrowej PAN)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=sRreAjtf2Jo|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2019-10-07.pdf|Co sieć złożona może powiedzieć o tekście?]]''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Sieci złożone, które znalazły zastosowanie w ilościowym opisie wielu różnych zjawisk, okazały się atrakcyjne także w badaniach nad językiem naturalnym. Formalizm sieciowy pozwala badać język z różnych punktów widzenia – sieć złożona może reprezentować na przykład wzajemne położenie słów w tekście, pokrewieństwo znaczeń, czy relacje gramatyczne. Jednym z rodzajów sieci lingwistycznych są sieci sąsiedztwa słów, opisujące współwystępowanie słów w tekstach. Pomimo prostoty konstrukcji, sieci sąsiedztwa słów mają szereg właściwości pozwalających na ich praktyczne wykorzystanie. Struktura takich sieci, wyrażona odpowiednio zdefiniowanymi wielkościami, odzwierciedla pewne cechy języka; zastosowanie metod uczenia maszynowego do zbiorów tych wielkości może posłużyć między innymi do zidentyfikowania autora tekstu.||
||<style="border:0;padding-top:5px;padding-bottom:5px">'''14 października 2024'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Alexander Rosen''' (Uniwersytet Karola w Pradze)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=E2ujmqt7Q2E|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2024-10-14.pdf|Lexical and syntactic variability of languages and text genres. A corpus-based study]]''' &#160;{{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:5px">This study examines metrics of syntactic complexity (SC) and lexical diversity (LD) as tools for analyzing linguistic variation within and across languages. Using quantifiable measures based on cross-linguistically consistent (morpho)syntactic annotation ([[https://universaldependencies.org/|Universal Dependencies]]), the research utilizes parallel texts from a large multilingual corpus ([[https://wiki.korpus.cz/doku.php/en:cnk:intercorp:verze16ud|InterCorp]]). Six SC and two LD metrics – covering the length and embedding levels of nominal and clausal constituents, mean dependency distance (MDD), and sentence length – are applied as metadata for sentences and texts.||
||<style="border:0;padding-left:30px;padding-bottom:5px">The presentation will address how these metrics can be visualized and incorporated into corpus queries, how they reflect structural differences across languages and text types, and whether SC and LD vary more across languages or text types. It will also consider the impact of language-specific annotation nuances and correlations among the measures. The analysis includes comparative examples from Polish, Czech, and other languages.||
||<style="border:0;padding-left:30px;padding-bottom:15px">Preliminary findings indicate higher SC in non-fiction compared to fiction across languages, with nominal and clausal metrics being dominant factors. The results suggest distinct patterns for MDD and sentence length, highlighting the impact of structural differences (e.g., analytic vs. synthetic morphology, dominant word-order patterns) and the influence of source text type and style.||
Line 23: Line 18:
||<style="border:0;padding-top:5px;padding-bottom:5px">'''21 października 2019'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Agnieszka Patejuk''' (Instytut Podstaw Informatyki PAN / Uniwersytet Oksfordzki), '''Adam Przepiórkowski''' (Instytut Podstaw Informatyki PAN / Uniwersytet Warszawski)||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''[[attachment:seminarium-archiwum/2019-10-21.pdf|Koordynacja w standardzie Universal Dependencies]]''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}} {{attachment:seminarium-archiwum/icon-en.gif|Slajdy po angielsku.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">''Universal Dependencies'' (UD; [[https://universaldependencies.org/]]) to dominujący schemat znakowania składniowego wykorzystywany przez liczne parsery dla wielu języków. Schemat ten nie do końca dobrze radzi sobie z reprezentacją koordynacji, tj. konstrukcji współrzędnie złożonych. W niniejszym referacie zaproponujemy reprezentacje dwóch aspektów koordynacji, które nie miały wcześniej dobrych reprezentacji nie tylko w UD, ale także w teoriach zależnościowych: koordynacji różnych funkcji gramatycznych oraz koordynacji zagnieżdżonej.||
||<style="border:0;padding-top:5px;padding-bottom:5px">'''28 października 2024'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Rafał Jaworski''' (Uniwersytet im. Adama Mickiewicza w Poznaniu)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=52LZ976imBA|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2024-10-28.pdf|Zestaw algorytmów zrównoleglania i przechowywania wielojęzycznych zanurzeń słów na potrzeby obliczania prawdopodobieństwa tłumaczenia]]''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:5px">Podczas wystąpienia zreferuję moje badania naukowe z dziedziny przetwarzania języka naturalnego na potrzeby wspomagania tłumaczenia. Przedstawię w szczególności zestaw algorytmów ''Inter-language Vector Space'' służący do zrównoleglania zdań na poziomie słów i fraz wykorzystujących wielojęzyczne zanurzenia słów (''word embeddings'').||
||<style="border:0;padding-left:30px;padding-bottom:5px">Pierwszą funkcją zestawu jest generowanie reprezentacji wektorowych słów. Są one generowane przy użyciu sieci neuronowej typu ''auto-encoder'' na podstawie danych tekstowych – korpusu tekstu. W ten sposób powstają słowniki wektorowe dla poszczególnych języków. Reprezentacje wektorowe słów znajdujących się w tych słownikach stanowią przestrzenie wektorowe, które różnią się pomiędzy językami.||
||<style="border:0;padding-left:30px;padding-bottom:5px">Aby rozwiązać ten problem i uzyskać reprezentacje wektorowe słów, które byłyby porównywalne pomiędzy językami, stosuje się drugą funkcję zestawu ''Inter-language Vector Space''. Służy on do zrównoleglania przestrzeni wektorowych pomiędzy językami z wykorzystaniem macierzy transformacji obliczanych metodą rozkładu według wartości osobliwych. Macierz ta jest obliczana na podstawie homonimów, tj. słów pisanych identycznie w języku przestrzeni X oraz Y. Dodatkowo, w celach wspomagających stosowany jest słownik dwujęzyczny. Obliczona w ten sposób macierz transformacji pozwala na dostosowanie przestrzeni X w taki sposób, aby w maksymalny możliwy sposób pokrywała się z przestrzenią Y. ||
||<style="border:0;padding-left:30px;padding-bottom:5px">Ostatnia funkcja zestawu jest odpowiedzialna za stworzenie wielojęzycznej przestrzeni wektorowej. Do przestrzeni tej najpierw dodawana jest w całości i bez modyfikacji przestrzeń wektorowa dla języka angielskiego. Następnie, dla każdej innej przestrzeni wektorowej obliczana jest najpierw macierz transformacji tej przestrzeni do przestrzeni angielskiej. Wektory nowej przestrzeni są mnożone przez tę macierz i w ten sposób stają się porównywalne z wektorami reprezentującymi słowa angielskie.||
||<style="border:0;padding-left:30px;padding-bottom:15px">Zestaw algorytmów ''Inter-language Vector Space'' znajduje zastosowanie w systemach wspomagania tłumaczenia, na przykład w autorskim algorytmie automatycznego transferu znaczników nietłumaczonych ze zdania źródłowego do docelowego.||
Line 28: Line 27:
||<style="border:0;padding-top:5px;padding-bottom:5px">'''4 listopada 2019'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Marcin Będkowski''' (Uniwersytet Warszawski / Instytut Badań Edukacyjnych), '''Wojciech Stęchły''', '''Leopold Będkowski''', '''Joanna Rabiega-Wiśniewska''' (Instytut Badań Edukacyjnych), '''Michał Marcińczuk''' (Politechnika Wrocławska), '''Grzegorz Wojdyga''', '''Łukasz Kobyliński''' (Instytut Podstaw Informatyki PAN)||
||<style="border:0;padding-left:30px;padding-bottom:0px">[[https://www.youtube.com/watch?v=-oSBqG4_VDk|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2019-11-04a.pdf|Podobieństwo opisów kwalifikacji znajdujących się w Zintegrowanym Rejestrze Kwalifikacji]]''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''[[attachment:seminarium-archiwum/2019-11-04b.pdf|Analiza istniejących rozwiązań opisujących grupowanie kwalifikacji]]''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:5px">W referacie omówiono problem porównywania dokumentów zawartych w Zintegrowanym Rejestrze Kwalifikacji pod względem ich podobieństwa treściowego.||
||<style="border:0;padding-left:30px;padding-bottom:5px">W pierwszej części scharakteryzujemy tło zagadnienia, w tym strukturę opisu efektów uczenia się w kwalifikacjach oraz zdań opisujących efekty uczenia się. Zgodnie z definicją zawartą w ustawie o Zintegrowanym Systemie Kwalifikacji efekt uczenia się to wiedza, umiejętności oraz kompetencje społeczne nabyte w procesie uczenia się, a kwalifikacja to zestaw efektów uczenia się, których osiągnięcie potwierdza się odpowiednim dokumentem (np. dyplomem, certyfikatem). Zdania, których referentami są efekty uczenia się, mają ustabilizowaną budowę i składają się zasadniczo z tzw. czasownika operacyjnego (opisującego czynność stanowiącą efekt uczenia się) oraz frazy nominalnej stanowiącej jego dopełnienie (nazywającej obiekt będący przedmiotem tej czynności, w skrócie: obiekt umiejętności). Przykładowo: „Określa wady wzroku i sposoby ich korekty na podstawie pomiaru refrakcji oczu” czy „Uczeń odczytuje rysunki techniczne.”.||
||<style="border:0;padding-left:30px;padding-bottom:5px">W drugiej części zarysujemy podejście pozwalające na określenie stopnia podobieństwa między kwalifikacjami oraz ich grupowanie, wraz z jego założeniami i stojącymi za nimi intuicjami. Określimy przyjęte rozumienie podobieństwa treściowego, mianowicie zarysujemy podejście określania podobieństwa tekstów w wariancie umożliwiającym automatyczne przetwarzanie tekstu z wykorzystaniem narzędzi komputerowych. Przedstawimy prosty model reprezentacji wypowiedzi, tzw. bag of words, w dwóch wersjach.||
||<style="border:0;padding-left:30px;padding-bottom:5px">Pierwsza z nich zakłada pełną atomizację efektów uczenia się (w tym fraz nominalnych, obiektów umiejętności) i przedstawienie ich jako zbiorów pojedynczych zlematyzowanych rzeczowników będących reprezentacją obiektów umiejętności. Druga opiera się na n-gramach z uwzględnieniem miary TFIDF (tj. ważenie częstością termów – odwrotna częstość w dokumentach), pozwalające na wydobycie z tekstów słów i fraz kluczowych.||
||<style="border:0;padding-left:30px;padding-bottom:5px">Pierwsze podejście można określić mianem „rozrzutnego”, natomiast drugie – „oszczędnego”. Pierwsze pozwala bowiem dla każdej kwalifikacji przedstawić wiele kwalifikacji podobnych (choć stopień podobieństwa bywa niski). Natomiast drugie dopuszcza sytuację, w której dla danej kwalifikacji nie znajdzie się żadna podobna.||
||<style="border:0;padding-left:30px;padding-bottom:5px">W części trzeciej opiszemy przykładowe grupowania i listy rankingowe bazujące na obu podejściach, oparte na skalowaniu wielowymiarowym i algorytmie k-średnich oraz grupowaniu hierarchicznym. Przedstawimy także studium przypadku, które posłuży do zilustrowania zalet oraz niedostatków obu podejść.||
||<style="border:0;padding-left:30px;padding-bottom:5px">W czwartej części przedstawimy wnioski dotyczące grupowania kwalifikacji, ale także ogólne wnioski związane z określaniem słów kluczy. W szczególności przedstawimy wnioski dotyczące stosowania wskazanych metod do porównywania tekstów zróżnicowanej długości, a także częściowo pokrywających się (zawierających wspólne fragmenty).||
||<style="border:0;padding-left:30px;padding-bottom:15px">Referat został przygotowany we współpracy z autorami ekspertyzy dotyczącej automatycznej analizy i porównywania kwalifikacji w celu ich grupowania przygotowanej w ramach projektu „Prowadzenie i rozwój Zintegrowanego Rejestru Kwalifikacji”, POWR.02.11.00-00-0001/17.||
||<style="border:0;padding-top:5px;padding-bottom:5px">'''4 listopada 2024'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Jakub Kozakoszczak''' (Deutsche Telekom)||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''[[attachment:seminarium-archiwum/2024-11-04.pdf|ZIML: Język znaczników anotacyjnych do łatwego dopasowywania regeksami]]''' &#160;{{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:5px">Przeszukiwanie regeksami warstwy anotacyjnej tekstu reprezentowanej wplecionymi znacznikami wymaga budowania wzorców, które szybko stają się nieczytelne i nie do utrzymania. Zupełnie niemożliwe jest stosowanie warunków na odległości wewnątrz tekstu, wydłużonych przez obecność tagów. Anotacja wydrębniona poza tekst co prawda zachowuje odległości, ale jest niewidoczna dla regeksów.||
||<style="border:0;padding-left:30px;padding-bottom:5px">Przedstawię język znaczników Zero Insertion Markup Language (ZIML), w którym każda kombinacja znaków i etykiet w zaanotowanym tekście jest reprezentowana przez pojedynczy „alloznak”, co zachowuje odległości wewnątrz dokumentu. Te same alloznaki wprowadzone są do regeksów w taki sposób, że zachowują pozycje dopasowań zwracanych przez standardowe silniki wyrażeń regularnych. W efekcie jedyną ingerencją w semantykę języka regeksów jest wzbogacenie jej o denotowanie etykiet przez dopasowanie alloznaków, które je reprezentują.||
||<style="border:0;padding-left:30px;padding-bottom:15px">Podam dowód poprawności tego przekształcenia i przedstawię implementację języka ZIML, w tym składnię dodawania odwołań do etykiet w treści wzorców. Omówię, w miarę możliwości czasowych, potencjalne zastosowania ZIML w językoznawstwie i przetwarzaniu języka naturalnego. Do zrozumienia prezentacji pomoże podstawowa wiedza na temat teorii modeli i wyszukiwania regeksami.||
Line 41: Line 34:
||<style="border:0;padding-top:5px;padding-bottom:5px">'''18 listopada 2019'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Alexander Rosen''' (Uniwersytet Karola w Pradze)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=kkqlUnq7jGE|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2019-11-18.pdf|Wielojęzyczny korpus równoległy InterCorp: reprezentacja kategorii gramatycznych]]''' &#160;{{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Wielojęzyczny korpus równoległy !InterCorp, będący częścią Czeskiego Korpusu Narodowego, od 2008 roku jest dostępny online; stale powiększa się, osiągając obecnie wielkość 1,7 miliarda słów w 40 językach. Znaczną część !InterCorpu stanowią teksty literackie, które uzupełniają teksty prawne, publicystyczne, wystąpienia parlamentarne, napisy filmowe i Biblia. Teksty wiązane są na poziomie zdań i – w większości języków – otagowane oraz lematyzowane. Podczas wykładu skoncentruję się na kwestii adnotacji morfosyntaktycznych, wykorzystując specyficzne dla języków zestawy tagsetów i reguły tokenizacji oraz zbadam różne rozwiązania, w tym oparte na wytycznych, danych i narzędziach opracowanych w ramach projektu Universal Dependencies.||
||<style="border:0;padding-top:5px;padding-bottom:5px">'''21 listopada 2024'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Christian Chiarcos''' (Uniwersytet w Augsburgu)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=FxiOM5zAKo8|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2024-11-21.pdf|Aspects of Knowledge Representation for Discourse Relation Annotation]]''' &#160;{{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Semantic technologies comprise a broad set of standards and technologies including aspects of knowledge representation, information management and computational inference. In this lecture, I will describe the application of knowledge representation standards to the realm of computational discourse, and especially, the annotation of discourse relations. In particular, this includes the formal modelling of discourse relations of different theoretical frameworks by means of modular, interlinked ontologies, the machine-readable edition of discourse marker inventories with !OntoLex and techniques for the induction of discourse marker inventories.||
Line 46: Line 39:
||<style="border:0;padding-top:5px;padding-bottom:5px">'''21 listopada 2019'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Alexander Rosen''' (Uniwersytet Karola w Pradze)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=OQ-3B4-MXCw|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2019-11-21.pdf|Czeski korpus uczniowski]]''' &#160;{{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Teksty tworzone przez osoby uczące się języka (rodzimego lub obcego) zawierają różnego rodzaju zjawiska niekanoniczne, co komplikuje anotację językową i jednocześnie wymaga wyraźnego oznaczenia odchyleń od normy. Chociaż istnieje wiele korpusów uczniowskich języka angielskiego, a ostatnio również inne języki nadrabiają w tym swoje zaległości, do tej pory nie pojawiło się powszechnie przyjęte podejście do projektowania taksonomii błędów i schematu anotacji. W przypadku CzeSL, korpusu czeskiego jako drugiego języka, zaprojektowano i przetestowano kilka takich podejść, które później rozszerzono również na teksty przygotowane przez czeskie dzieci w wieku szkolnym. Podczas wykładu pokażę wady i zalety tych podejść, szczególnie w odniesieniu do czeskiego jako języka o wysokiej fleksyjności i swobodnym szyku wyrazów w zdaniu.||
||<style="border:0;padding-top:5px;padding-bottom:5px">'''2 grudnia 2024'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Uczestnicy konkursu !PolEval 2024'''||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''Prezentacja wyników konkursu''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienia w języku polskim.}} {{attachment:seminarium-archiwum/icon-en.gif|Slajdy po angielsku.}}||
||<style="border:0;padding-left:30px;padding-bottom:0px">[[https://www.youtube.com/watch?v=cwu8YfqtnTs|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[http://poleval.pl/files/2024-01.pdf|Welcome to PolEval 2024]]''' (Łukasz Kobyliński, Maciej Ogrodniczuk, Filip Graliński, Ryszard Staruch, Karol Saputa) ||
||<style="border:0;padding-left:30px;padding-bottom:0px">[[https://www.youtube.com/watch?v=OnxkmpGmxP4|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[http://poleval.pl/files/2024-02.pdf|PolEval 2024 Task 1: Reading Comprehension]]''' (Ryszard Tuora / Aleksandra Zwierzchowska) ||
||<style="border:0;padding-left:30px;padding-bottom:0px">[[https://www.youtube.com/watch?v=9FDTOx55WMI|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[http://poleval.pl/files/2024-03.pdf|Optimizing LLMs for Polish Reading Comprehension: A Comparative Study of Ensemble and Unified Approaches]]''' (Krzysztof Wróbel) ||
||<style="border:0;padding-left:30px;padding-bottom:0px">[[https://www.youtube.com/watch?v=_Ur9kzZ3ols|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[http://poleval.pl/files/2024-04.pdf|PolEval 2024 Task 2: Emotion and Sentiment Recognition]]''' (Jan Kocoń, Bartłomiej Koptyra) ||
||<style="border:0;padding-left:30px;padding-bottom:0px">[[https://www.youtube.com/watch?v=V3_z2KiVgco|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[http://poleval.pl/files/2024-05.pdf|Emotion and Sentiment Recognition in Polish Texts Using Large Language Models: A Winning Approach to PolEval 2024]]''' (Krzysztof Wróbel) ||
||<style="border:0;padding-left:30px;padding-bottom:0px">[[https://www.youtube.com/watch?v=59Xkzoi3TDY|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[http://poleval.pl/files/2024-06.pdf|Ensemble as a Variance Reduction Method for Emotion and Sentiment Recognition]]''' (Tomasz Warzecha) ||
||<style="border:0;padding-left:30px;padding-bottom:0px">[[https://www.youtube.com/watch?v=ESNbPIwjfvw|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[http://poleval.pl/files/2024-07.pdf|Emotion and Sentiment Recognition Using Ensemble Models]]''' (Jakub Kosterna) ||
||<style="border:0;padding-left:30px;padding-bottom:0px">[[https://www.youtube.com/watch?v=Ds8BkUTpcm8|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[http://poleval.pl/files/2024-08.pdf|Zero-shot Approach Using Bielik LLM for Emotion Recognition in Polish]]''' (Paweł Cyrta) ||
||<style="border:0;padding-left:30px;padding-bottom:0px">[[https://www.youtube.com/watch?v=lmRZn7254MY|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[http://poleval.pl/files/2024-08.pdf|PolEval 2024 Task 3: Polish Automatic Speech Recognition Challenge]]''' (Michał Junczyk, Iwona Christop, Piotr Pęzik) ||
||<style="border:0;padding-left:30px;padding-bottom:0px">[[https://www.youtube.com/watch?v=G35l9xJWqA0|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[http://poleval.pl/files/2024-10.pdf|Augmenting Polish Automatic Speech Recognition System with Synthetic Data]]''' (Łukasz Bondaruk, Jakub Kubiak, Mateusz Czyżnikiewicz) ||
||<style="border:0;padding-left:30px;padding-bottom:15px">[[https://www.youtube.com/watch?v=uIDfc6c1TtA|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[http://poleval.pl/files/2024-11.pdf|Exploration of training Zipformer and E-Branchformer models with Polish language BIGOS dataset]]''' (Paweł Cyrta) ||
Line 51: Line 54:
||<style="border:0;padding-top:5px;padding-bottom:5px">'''13 stycznia 2019'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Ryszard Tuora''', '''Łukasz Kobyliński''' (Instytut Podstaw Informatyki PAN)||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''Integracja narzędzi do przetwarzania języka polskiego we frameworku spaCy''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Streszczenie wystąpienia zostanie udostępnione wkrótce.||
||<style="border:0;padding-top:5px;padding-bottom:5px">'''19 grudnia 2024'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Piotr Przybyła''' (Uniwersytet Pompeu Fabry / Instytut Podstaw Informatyki PAN)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=xqDkbiF4izI|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2024-12-19.pdf|Adaptacyjne ataki na klasyfikację wiarygodności z wykorzystaniem uczenia ze wzmocnieniem]]''' &#160;{{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">W trakcie prezentacji przedstawiony zostanie system XARELLO: generator przykładów antagonistycznych dla testowania odporności klasyfikacji tekstu, zbudowany na bazie uczenia ze wzmocnieniem. Rozwiązanie to jest adaptacyjne, ponieważ obserwuje sukcesy i porażki wykonywanych ataków i dostosowuje się do słabości klasyfikatora-ofiary. Taka procedura odzwierciedla długoterminowe i ustawiczne ataki, które są typowe dla aktorów rozprzestrzeniających dezinformację. Przedstawimy także wyniki ewaluacji pokazującej, że podejście adaptacyjne prowadzi do odnajdywania przykładów antagonistycznych o lepszej jakości i z mniejszą liczbą prób, szczególnie w atakach na duże modele językowe.||
Line 56: Line 59:
||<style="border:0;padding-top:5px;padding-bottom:5px">'''27 stycznia 2020'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Alina Wróblewska''', '''Katarzyna Krasnowska-Kieraś''' (Instytut Podstaw Informatyki PAN)||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''Temat wystąpienia zostanie udostępniony wkrótce''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Streszczenie wystąpienia zostanie udostępnione wkrótce.||
||<style="border:0;padding-top:5px;padding-bottom:5px">'''17 lutego 2025'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Alicja Martinek''' (NASK, AGH), '''Ewelina Bartuzi-Trokielewicz''' (NASK, Politechnika Warszawska)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=rCzTBQYkooI|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2025-02-17.pdf|Detekcja deepfakes i fałszywych reklam poprzez analizę tekstu i technik manipulacyjnych]]''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Istniejące algorytmy wykrywania deepfake'ów często zawodzą w skutecznej identyfikacji materiałów stworzonych sztucznie. Te algorytmy koncentrują się głównie na technicznej analizie wideo i audio, często zaniedbując znaczenie samej treści. W niniejszym artykule przedstawiamy nowatorskie podejście, które kładzie nacisk na analizę transkryptów tekstowych, szczególnie tych pochodzących z reklam wygenerowanych przez AI, stawiając treść tekstową w centrum uwagi. Nasza metoda łączy cechy lingwistyczne, ocenę błędów gramatycznych oraz identyfikację technik manipulacyjnych powszechnie stosowanych w oszukańczych treściach. Poprzez badanie niezgodności stylistycznych oraz manipulacyjnych wzorców językowych, zwiększamy dokładność w rozróżnianiu między materiałami rzeczywistymi a deepfake'owymi. Aby zapewnić interpretowalność, zastosowaliśmy klasyczne modele uczenia maszynowego, co pozwoliło nam dostarczyć wyjaśnialne informacje na temat procesów decyzyjnych. Dodatkowo przeprowadziliśmy oceny zero-shot przy użyciu trzech dużych modeli językowych, aby ocenić ich wydajność w wykrywaniu treści deepfake. Wyniki eksperymentalne pokazują, że te czynniki dają dokładność na poziomie 90% w rozróżnianiu oszukańczych reklam opartych na deepfake od rzeczywistych. Dowodzi to skuteczności włączenia analizy opartej na treści do wykrywania deepfake'ów, oferując dodatkową warstwę w stosunku do istniejących technik audiowizualnych.||
Line 61: Line 64:
||<style="border:0;padding-top:0px">Zapraszamy także do zapoznania się z [[http://nlp.ipipan.waw.pl/NLP-SEMINAR/previous-p.html|archiwum seminariów z lat 2000–15]] oraz [[http://zil.ipipan.waw.pl/seminarium-archiwum|listą wystąpień z lat 2015–19]].|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''24 marca 2025'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Maciej Rapacz''', '''Aleksander Smywiński-Pohl''' (AGH Akademia Górniczo-Hutnicza) ||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=FZzPMTa2cYA|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2025-03-24.pdf|Tłumaczenie interlinearne tekstów starogreckich: Jak znaczniki morfologiczne poprawiają jakość przekładu maszynowego]]''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}&#160;{{attachment:seminarium-archiwum/icon-en.gif|Slajdy po angielsku.}}||
||<style="border:0;padding-left:30px;padding-bottom:5px">Tłumaczenie interlinearne to specyficzna technika przekładu, w której każde słowo tekstu źródłowego otrzymuje swój odpowiednik w języku docelowym, umieszczany bezpośrednio pod nim lub nad nim, z zachowaniem oryginalnego szyku zdania. W przeciwieństwie do standardowych tłumaczeń, które dążą do naturalności i płynności wypowiedzi, przekład interlinearny skupia się na wiernym odwzorowaniu struktury gramatycznej i składniowej oryginału, nawet kosztem elegancji stylistycznej. Ta metoda jest szczególnie ceniona przez badaczy tekstów starożytnych, filologów oraz osoby uczące się języków, gdyż pozwala na bezpośredni wgląd w konstrukcję i znaczenie oryginalnego tekstu bez konieczności pełnego opanowania języka źródłowego.||
||<style="border:0;padding-left:30px;padding-bottom:5px">W ramach badań przeprowadziliśmy pierwszą próbę zastosowania tłumaczenia maszynowego do generowania przekładów interlinearnych z greki starożytnej na język polski i angielski. Porównaliśmy wydajność modeli specjalistycznych (!GreTa, !PhilTa) pretrenowanych na tekstach starogreckich z wielojęzycznym modelem ogólnego zastosowania (mT5). Przebadaliśmy 144 różne konfiguracje modeli, modyfikując model bazowy, metodę kodowania znaczników morfologicznych, zestaw znaczników oraz podejście do normalizacji tekstu, wykorzystując jako korpus teksty greckiego Nowego Testamentu.||
||<style="border:0;padding-left:30px;padding-bottom:15px">W trakcie wystąpienia przedstawimy przebieg naszych badań oraz omówimy uzyskane wyniki. Najlepsze rezultaty osiągnęły modele, w których zastosowaliśmy nowe dedykowane warstwy embeddingów do kodowania informacji morfologicznych, co pozwoliło uzyskać wyniki lepsze nawet o 35-38% (BLEU) w porównaniu ze scenariuszem bazowym. Dodatkowe szczegółowe badanie wykazało, że !PhilTa radzi sobie lepiej niż mT5, szczególnie w scenariuszach z ograniczoną dostępnością danych. !PhilTa osiągnęła najwyższe wyniki w tłumaczeniu na język angielski (60,40 BLEU), podczas gdy mT5-large najlepiej poradził sobie z językiem polskim (59,33 BLEU).||
Line 63: Line 71:
||<style="border:0;padding-top:5px;padding-bottom:5px">'''14 kwietnia 2025'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Ryszard Staruch''', '''Filip Graliński''' (Uniwersytet im. Adama Mickiewicza w Poznaniu)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=xRDXmKoEiOQ|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2025-04-14.pdf|Wykorzystanie wielkich modeli języka w zadaniu korekty tekstu]]''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Wielkie modele języka (LLM) są obecnie najskuteczniejszymi rozwiązaniami w wielu zadaniach przetwarzania języka naturalnego. Wciąż jednak nie wiadomo, jak dobrze radzą sobie z korektą tekstów w języku polskim. W celu zbadania ich efektywności opracowany został specjalistyczny zbiór danych korekty tekstu w języku polskim. Podczas wystąpienia zaprezentowany zostanie ten korpus oraz wyniki ewaluacji wybranych rozwiązań. W drugiej części seminarium omówione zostaną nowe techniki adaptacji wielkich modeli języka do zadania minimalnej korekty tekstów napisanych przez osoby uczące się języka – na przykładzie języka angielskiego.||

||<style="border:0;padding-top:5px;padding-bottom:5px">'''28 kwietnia 2025'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Manfred Stede''' (Universität Potsdam)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Discourse structure in the Potsdam Commentary Corpus: Human annotation, human disagreement, and automatic parsing''' &#160;{{attachment:seminarium-archiwum/icon-en.gif|Wystąpienia w języku angielskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">The talk gives a brief introduction to Rhetorical Structure Theory (RST, [[https://www.sfu.ca/rst/05bibliographies/bibs/Mann_Thompson_1988.pdf|Mann/Thompson 1988]]) and then explains the design decisions for the Potsdam Commentary Corpus (PCC), which brings together RST, coreference, and other annotation layers on 175 German news editorials. After illustrating cross-layer queries on the corpus in the ANNIS linguistic database, we turn to the intricacies of manual RST annotation. I will give an overview of the annotation guidelines and their motivations, and present results from an (ongoing) study on annotator disagreements, from which we derive ideas for redesigning the annotation scheme (and potentially the underlying theory), with a comparison to the recent proposal of "eRST" by [[https://direct.mit.edu/coli/article/51/1/23/124464/eRST-A-Signaled-Graph-Theory-of-Discourse|Zeldes et al. (2024)]]. In the last part of the talk, I outline our results on automatic parsing using the system by [[https://aclanthology.org/P14-1002/|Ji and Eisenstein (2014)]].||

||<style="border:0;padding-top:5px;padding-bottom:5px">'''12 maja 2025''' ('''UWAGA: ''' wystąpienie odbędzie się o 12:00 w ramach [[https://ipipan.waw.pl/instytut/dzialalnosc-naukowa/seminaria/ogolnoinstytutowe|seminarium IPI PAN]])||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Maciej Ogrodniczuk''', '''Aleksandra Tomaszewska''', '''Bartosz Żuk''', '''Alina Wróblewska''' (Instytut Podstaw Informatyki PAN)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Tytuł wystąpienia (dot. modelu PLLuM) zostanie podany wkrótce''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienia w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Streszczenie wystąpienia udostępnimy w najbliższym czasie.||

||<style="border:0;padding-top:5px;padding-bottom:5px">'''26 maja 2025'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Deniz Zeyrek''' (Middle East Technical University)||
||<style="border:0;padding-left:30px;padding-bottom:15px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Tytuł wystąpienia zostanie podany wkrótce''' &#160;{{attachment:seminarium-archiwum/icon-en.gif|Wystąpienia w języku angielskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:5px">Streszczenie wystąpienia udostępnimy w najbliższym czasie.||



||<style="border:0;padding-top:15px">Zapraszamy także do zapoznania się z [[http://nlp.ipipan.waw.pl/NLP-SEMINAR/previous-p.html|archiwum seminariów z lat 2000–2015]] oraz [[http://zil.ipipan.waw.pl/seminarium-archiwum|listą wystąpień z lat 2015–2024]].||
Line 66: Line 97:
- 2 grudnia: Agnieszka Tomaszewska?
- 16 grudnia: odbiory, nie ma seminarium!

(10-23 lutego: ferie mazowieckie)

- 24 lutego: Grzegorz Wojdyga? miał być 2 grudnia, ale nie wyszło.

Adam Zadrożny? chyba ten system ius.ai trochę słaby...

- 9 marca – może w końcu Piotr Przybyła? ew. zamienić z Aleksem
- 23 marca – może – Alex z Justyną, może nawet na instytutowym

- 6 kwietnia
(12-13 kwietnia: Wielkanoc)

- 20 kwietnia
- 4 maja

(LREC: 13–15 maja w Marsylii)

- 18 maja: może Adam Jatowt już by mógł?

- 1 czerwca
- 15 czerwca
||<style="border:0;padding-top:5px;padding-bottom:5px">'''7 października 2023'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Uczestnicy konkursu PolEval 2024''' ||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Planowana seria prezentacji uczestników zadań PolEvalowych''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienia w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Lista wystąpień będzie dostępna wkrótce.||
Line 92: Line 103:
||<style="border:0;padding-top:5px;padding-bottom:5px">'''11 marca 2024'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Mateusz Krubiński''' (Uniwersytet Karola w Pradze)||
||<style="border:0;padding-left:30px;padding-bottom:15px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Tytuł wystąpienia podamy wkrótce''' &#160;{{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku polskim.}}||



||<style="border:0;padding-top:15px;padding-bottom:5px">'''8 stycznia 2024''' (prezentacja wyników projektu DARIAH.Lab)||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Zespół projektu DARIAH.Lab''' (Instytut Podstaw Informatyki PAN)||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''Tytuł wystąpienia poznamy wkrótce''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie po polsku.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Streszczenie wystąpienia udostępnimy w najbliższym czasie.||


||<style="border:0;padding-top:5px;padding-bottom:5px">'''3 października 2022'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''...''' (...)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Tytuł wystąpienia podamy wkrótce''' &#160;{{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Opis wystąpienia udostępnimy już niedługo.||



WOLNE TERMINY:

ATLAS: Explaining abstractive summarization - Emilia Wiśnios? Albo coś z NASK-owych tematów dot. przetwarzania prawa? Czy to jest to samo?

||<style="border:0;padding-bottom:10px">'''UWAGA''': ze względu na zakaz wstępu do IPI PAN dla osób niezatrudnionych w Instytucie, w stacjonarnej części seminarium mogą brać udział tylko pracownicy IPI PAN i prelegenci (także zewnętrzni). Dla pozostałych uczestników seminarium będzie transmitowane – prosimy o korzystanie z linku przy tytule wystąpienia.||

Uczestnicy Akcji COST CA18231: Multi3Generation: Multi-task, Multilingual, Multi-modal Language Generation:
– Marcin PAPRZYCKI (marcin.paprzycki@ibspan.waw.pl)
– Maria GANZHA (m.ganzha@mini.pw.edu.pl)
– Katarzyna WASIELEWSKA-MICHNIEWSKA (katarzyna.wasielewska@ibspan.waw.pl)


||<style="border:0;padding-top:5px;padding-bottom:5px">'''6 czerwca 2022'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Paula Czarnowska''' (University of Cambridge)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://teams.microsoft.com/l/meetup-join/19%3a06de5a6d7ed840f0a53c26bf62c9ec18%40thread.tacv2/1643554817614?context=%7b%22Tid%22%3a%220425f1d9-16b2-41e3-a01a-0c02a63d13d6%22%2c%22Oid%22%3a%22f5f2c910-5438-48a7-b9dd-683a5c3daf1e%22%7d|{{attachment:seminarium-archiwum/teams.png}}]] '''Tytuł wystąpienia podamy wkrótce''' &#160;{{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Opis wystąpienia udostępnimy już niedługo.||



||<style="border:0;padding-top:5px;padding-bottom:5px">'''2 kwietnia 2020'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Stan Matwin''' (Dalhousie University)||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''Efficient training of word embeddings with a focus on negative examples''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}} {{attachment:seminarium-archiwum/icon-en.gif|Slajdy po angielsku.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">This presentation is based on our [[https://pdfs.semanticscholar.org/1f50/db5786913b43f9668f997fc4c97d9cd18730.pdf|AAAI 2018]] and [[https://aaai.org/ojs/index.php/AAAI/article/view/4683|AAAI 2019]] papers on English word embeddings. In particular, we examine the notion of “negative examples”, the unobserved or insignificant word-context co-occurrences, in spectral methods. we provide a new formulation for the word embedding problem by proposing a new intuitive objective function that perfectly justifies the use of negative examples. With the goal of efficient learning of embeddings, we propose a kernel similarity measure for the latent space that can effectively calculate the similarities in high dimensions. Moreover, we propose an approximate alternative to our algorithm using a modified Vantage Point tree and reduce the computational complexity of the algorithm with respect to the number of words in the vocabulary. We have trained various word embedding algorithms on articles of Wikipedia with 2.3 billion tokens and show that our method outperforms the state-of-the-art in most word similarity tasks by a good margin. We will round up our discussion with some general thought s about the use of embeddings in modern NLP.||

na [[https://www.youtube.com/ipipan|kanale YouTube]].
on [[https://www.youtube.com/ipipan|YouTube]].

Nowe typy:

Aleksandra Gabryszak (DFKI Berlin):
– https://aclanthology.org/people/a/aleksandra-gabryszak/
– https://www.researchgate.net/profile/Aleksandra-Gabryszak
– miała tekst na warsztacie First Computing Social Responsibility Workshop (http://www.lrec-conf.org/proceedings/lrec2022/workshops/CSRNLP1/index.html) na LREC-u 2022: http://www.lrec-conf.org/proceedings/lrec2022/workshops/CSRNLP1/pdf/2022.csrnlp1-1.5.pdf

Marcin Junczys-Dowmunt przy okazji świąt?
Adam Jatowt?
Piotrek Pęzik? Wrocław?
Kwantyfikatory?
MARCELL? Może Piotrek z Bartkiem?
Line 104: Line 173:
– Marcin, Witek: Chronofleks
– Piotrek Pęzik obiecał coś wygłosić
– Marcin Junczys-Dowmunt przy okazji świąt?
Line 109: Line 175:

Będzie na Data Science Summit:

Using topic modeling for differentiation based on Polish parliament plus person
Aleksander Nosarzewski
Statistician @ Citi

Artykuł o GPT napisał Mateusz Litwin: https://www.linkedin.com/in/mateusz-litwin-06b3a919/
W OpenAI jest jeszcze https://www.linkedin.com/in/jakub-pachocki/
i https://www.linkedin.com/in/szymon-sidor-98164044/


Text data can be an invaluable source of information. In particular, what, how often and in which way we talk about given subjects can tell a lot about us. Unfortunately, manual scrambling through huge text datasets can be a cumbersome task. Luckily, there is a class of unsupervised models - topic models, which can perform this task for us, with very little input from our side. I will present how to use Structural Topic Model (STM) - an enhancement over popular LDA to obtain some kind of measure of differences between given groups or agents of interest, based on an example of Polish parliamentary speeches and political parties.

Seminarium „Przetwarzanie języka naturalnego” 2024–25

Seminarium Zespołu Inżynierii LingwistycznejInstytucie Podstaw Informatyki Polskiej Akademii Nauk odbywa się średnio co 2 tygodnie, zwykle w poniedziałki o godz. 10:15 (niekiedy online – prosimy o korzystanie z linku przy tytule wystąpienia) i ma charakter otwarty. Poszczególne referaty ogłaszane są na Polskiej Liście Językoznawczej oraz na stronie Lingwistyka komputerowa na Facebooku. Nagrania wystąpień dostępne są na kanale YouTube.

seminar

7 października 2024

Janusz S. Bień (profesor emeritus Uniwersytetu Warszawskiego)

https://www.youtube.com/watch?v=2mLYixXC_Hw Identyfikacja czcionek w XVI-wiecznych drukach. Analiza przypadku  Wystąpienia w języku polskim.

Przetwarzanie tekstów wymaga ich zakodowania w odpowiednim standardzie, aktualnie praktyczne jedyną opcją jest standard Unicode. Niektóre czcionki stosowane w starodrukach są już uwzględnione w tym standardzie, niektóre są dostępne w specjalistycznych fontach za pomocą tzw. funkcji zecerskich. Niektóre czcionki, opisane w monumentalnym dziele „Polonia Typographica Saeculi Sedecimi”, nie mają jednak swoich odpowiedników w standardzie. W referacie omówię kilka takich czcionek.

14 października 2024

Alexander Rosen (Uniwersytet Karola w Pradze)

https://www.youtube.com/watch?v=E2ujmqt7Q2E Lexical and syntactic variability of languages and text genres. A corpus-based study  Wystąpienie w języku angielskim.

This study examines metrics of syntactic complexity (SC) and lexical diversity (LD) as tools for analyzing linguistic variation within and across languages. Using quantifiable measures based on cross-linguistically consistent (morpho)syntactic annotation (Universal Dependencies), the research utilizes parallel texts from a large multilingual corpus (InterCorp). Six SC and two LD metrics – covering the length and embedding levels of nominal and clausal constituents, mean dependency distance (MDD), and sentence length – are applied as metadata for sentences and texts.

The presentation will address how these metrics can be visualized and incorporated into corpus queries, how they reflect structural differences across languages and text types, and whether SC and LD vary more across languages or text types. It will also consider the impact of language-specific annotation nuances and correlations among the measures. The analysis includes comparative examples from Polish, Czech, and other languages.

Preliminary findings indicate higher SC in non-fiction compared to fiction across languages, with nominal and clausal metrics being dominant factors. The results suggest distinct patterns for MDD and sentence length, highlighting the impact of structural differences (e.g., analytic vs. synthetic morphology, dominant word-order patterns) and the influence of source text type and style.

28 października 2024

Rafał Jaworski (Uniwersytet im. Adama Mickiewicza w Poznaniu)

https://www.youtube.com/watch?v=52LZ976imBA Zestaw algorytmów zrównoleglania i przechowywania wielojęzycznych zanurzeń słów na potrzeby obliczania prawdopodobieństwa tłumaczenia  Wystąpienie w języku polskim.

Podczas wystąpienia zreferuję moje badania naukowe z dziedziny przetwarzania języka naturalnego na potrzeby wspomagania tłumaczenia. Przedstawię w szczególności zestaw algorytmów Inter-language Vector Space służący do zrównoleglania zdań na poziomie słów i fraz wykorzystujących wielojęzyczne zanurzenia słów (word embeddings).

Pierwszą funkcją zestawu jest generowanie reprezentacji wektorowych słów. Są one generowane przy użyciu sieci neuronowej typu auto-encoder na podstawie danych tekstowych – korpusu tekstu. W ten sposób powstają słowniki wektorowe dla poszczególnych języków. Reprezentacje wektorowe słów znajdujących się w tych słownikach stanowią przestrzenie wektorowe, które różnią się pomiędzy językami.

Aby rozwiązać ten problem i uzyskać reprezentacje wektorowe słów, które byłyby porównywalne pomiędzy językami, stosuje się drugą funkcję zestawu Inter-language Vector Space. Służy on do zrównoleglania przestrzeni wektorowych pomiędzy językami z wykorzystaniem macierzy transformacji obliczanych metodą rozkładu według wartości osobliwych. Macierz ta jest obliczana na podstawie homonimów, tj. słów pisanych identycznie w języku przestrzeni X oraz Y. Dodatkowo, w celach wspomagających stosowany jest słownik dwujęzyczny. Obliczona w ten sposób macierz transformacji pozwala na dostosowanie przestrzeni X w taki sposób, aby w maksymalny możliwy sposób pokrywała się z przestrzenią Y.

Ostatnia funkcja zestawu jest odpowiedzialna za stworzenie wielojęzycznej przestrzeni wektorowej. Do przestrzeni tej najpierw dodawana jest w całości i bez modyfikacji przestrzeń wektorowa dla języka angielskiego. Następnie, dla każdej innej przestrzeni wektorowej obliczana jest najpierw macierz transformacji tej przestrzeni do przestrzeni angielskiej. Wektory nowej przestrzeni są mnożone przez tę macierz i w ten sposób stają się porównywalne z wektorami reprezentującymi słowa angielskie.

Zestaw algorytmów Inter-language Vector Space znajduje zastosowanie w systemach wspomagania tłumaczenia, na przykład w autorskim algorytmie automatycznego transferu znaczników nietłumaczonych ze zdania źródłowego do docelowego.

4 listopada 2024

Jakub Kozakoszczak (Deutsche Telekom)

ZIML: Język znaczników anotacyjnych do łatwego dopasowywania regeksami  Wystąpienie w języku angielskim.

Przeszukiwanie regeksami warstwy anotacyjnej tekstu reprezentowanej wplecionymi znacznikami wymaga budowania wzorców, które szybko stają się nieczytelne i nie do utrzymania. Zupełnie niemożliwe jest stosowanie warunków na odległości wewnątrz tekstu, wydłużonych przez obecność tagów. Anotacja wydrębniona poza tekst co prawda zachowuje odległości, ale jest niewidoczna dla regeksów.

Przedstawię język znaczników Zero Insertion Markup Language (ZIML), w którym każda kombinacja znaków i etykiet w zaanotowanym tekście jest reprezentowana przez pojedynczy „alloznak”, co zachowuje odległości wewnątrz dokumentu. Te same alloznaki wprowadzone są do regeksów w taki sposób, że zachowują pozycje dopasowań zwracanych przez standardowe silniki wyrażeń regularnych. W efekcie jedyną ingerencją w semantykę języka regeksów jest wzbogacenie jej o denotowanie etykiet przez dopasowanie alloznaków, które je reprezentują.

Podam dowód poprawności tego przekształcenia i przedstawię implementację języka ZIML, w tym składnię dodawania odwołań do etykiet w treści wzorców. Omówię, w miarę możliwości czasowych, potencjalne zastosowania ZIML w językoznawstwie i przetwarzaniu języka naturalnego. Do zrozumienia prezentacji pomoże podstawowa wiedza na temat teorii modeli i wyszukiwania regeksami.

21 listopada 2024

Christian Chiarcos (Uniwersytet w Augsburgu)

https://www.youtube.com/watch?v=FxiOM5zAKo8 Aspects of Knowledge Representation for Discourse Relation Annotation  Wystąpienie w języku angielskim.

Semantic technologies comprise a broad set of standards and technologies including aspects of knowledge representation, information management and computational inference. In this lecture, I will describe the application of knowledge representation standards to the realm of computational discourse, and especially, the annotation of discourse relations. In particular, this includes the formal modelling of discourse relations of different theoretical frameworks by means of modular, interlinked ontologies, the machine-readable edition of discourse marker inventories with OntoLex and techniques for the induction of discourse marker inventories.

2 grudnia 2024

Uczestnicy konkursu PolEval 2024

Prezentacja wyników konkursu  Wystąpienia w języku polskim. Slajdy po angielsku.

https://www.youtube.com/watch?v=cwu8YfqtnTs Welcome to PolEval 2024 (Łukasz Kobyliński, Maciej Ogrodniczuk, Filip Graliński, Ryszard Staruch, Karol Saputa)

https://www.youtube.com/watch?v=OnxkmpGmxP4 PolEval 2024 Task 1: Reading Comprehension (Ryszard Tuora / Aleksandra Zwierzchowska)

https://www.youtube.com/watch?v=9FDTOx55WMI Optimizing LLMs for Polish Reading Comprehension: A Comparative Study of Ensemble and Unified Approaches (Krzysztof Wróbel)

https://www.youtube.com/watch?v=_Ur9kzZ3ols PolEval 2024 Task 2: Emotion and Sentiment Recognition (Jan Kocoń, Bartłomiej Koptyra)

https://www.youtube.com/watch?v=V3_z2KiVgco Emotion and Sentiment Recognition in Polish Texts Using Large Language Models: A Winning Approach to PolEval 2024 (Krzysztof Wróbel)

https://www.youtube.com/watch?v=59Xkzoi3TDY Ensemble as a Variance Reduction Method for Emotion and Sentiment Recognition (Tomasz Warzecha)

https://www.youtube.com/watch?v=ESNbPIwjfvw Emotion and Sentiment Recognition Using Ensemble Models (Jakub Kosterna)

https://www.youtube.com/watch?v=Ds8BkUTpcm8 Zero-shot Approach Using Bielik LLM for Emotion Recognition in Polish (Paweł Cyrta)

https://www.youtube.com/watch?v=lmRZn7254MY PolEval 2024 Task 3: Polish Automatic Speech Recognition Challenge (Michał Junczyk, Iwona Christop, Piotr Pęzik)

https://www.youtube.com/watch?v=G35l9xJWqA0 Augmenting Polish Automatic Speech Recognition System with Synthetic Data (Łukasz Bondaruk, Jakub Kubiak, Mateusz Czyżnikiewicz)

https://www.youtube.com/watch?v=uIDfc6c1TtA Exploration of training Zipformer and E-Branchformer models with Polish language BIGOS dataset (Paweł Cyrta)

19 grudnia 2024

Piotr Przybyła (Uniwersytet Pompeu Fabry / Instytut Podstaw Informatyki PAN)

https://www.youtube.com/watch?v=xqDkbiF4izI Adaptacyjne ataki na klasyfikację wiarygodności z wykorzystaniem uczenia ze wzmocnieniem  Wystąpienie w języku angielskim.

W trakcie prezentacji przedstawiony zostanie system XARELLO: generator przykładów antagonistycznych dla testowania odporności klasyfikacji tekstu, zbudowany na bazie uczenia ze wzmocnieniem. Rozwiązanie to jest adaptacyjne, ponieważ obserwuje sukcesy i porażki wykonywanych ataków i dostosowuje się do słabości klasyfikatora-ofiary. Taka procedura odzwierciedla długoterminowe i ustawiczne ataki, które są typowe dla aktorów rozprzestrzeniających dezinformację. Przedstawimy także wyniki ewaluacji pokazującej, że podejście adaptacyjne prowadzi do odnajdywania przykładów antagonistycznych o lepszej jakości i z mniejszą liczbą prób, szczególnie w atakach na duże modele językowe.

17 lutego 2025

Alicja Martinek (NASK, AGH), Ewelina Bartuzi-Trokielewicz (NASK, Politechnika Warszawska)

https://www.youtube.com/watch?v=rCzTBQYkooI Detekcja deepfakes i fałszywych reklam poprzez analizę tekstu i technik manipulacyjnych  Wystąpienie w języku polskim.

Istniejące algorytmy wykrywania deepfake'ów często zawodzą w skutecznej identyfikacji materiałów stworzonych sztucznie. Te algorytmy koncentrują się głównie na technicznej analizie wideo i audio, często zaniedbując znaczenie samej treści. W niniejszym artykule przedstawiamy nowatorskie podejście, które kładzie nacisk na analizę transkryptów tekstowych, szczególnie tych pochodzących z reklam wygenerowanych przez AI, stawiając treść tekstową w centrum uwagi. Nasza metoda łączy cechy lingwistyczne, ocenę błędów gramatycznych oraz identyfikację technik manipulacyjnych powszechnie stosowanych w oszukańczych treściach. Poprzez badanie niezgodności stylistycznych oraz manipulacyjnych wzorców językowych, zwiększamy dokładność w rozróżnianiu między materiałami rzeczywistymi a deepfake'owymi. Aby zapewnić interpretowalność, zastosowaliśmy klasyczne modele uczenia maszynowego, co pozwoliło nam dostarczyć wyjaśnialne informacje na temat procesów decyzyjnych. Dodatkowo przeprowadziliśmy oceny zero-shot przy użyciu trzech dużych modeli językowych, aby ocenić ich wydajność w wykrywaniu treści deepfake. Wyniki eksperymentalne pokazują, że te czynniki dają dokładność na poziomie 90% w rozróżnianiu oszukańczych reklam opartych na deepfake od rzeczywistych. Dowodzi to skuteczności włączenia analizy opartej na treści do wykrywania deepfake'ów, oferując dodatkową warstwę w stosunku do istniejących technik audiowizualnych.

24 marca 2025

Maciej Rapacz, Aleksander Smywiński-Pohl (AGH Akademia Górniczo-Hutnicza)

https://www.youtube.com/watch?v=FZzPMTa2cYA Tłumaczenie interlinearne tekstów starogreckich: Jak znaczniki morfologiczne poprawiają jakość przekładu maszynowego  Wystąpienie w języku polskim. Slajdy po angielsku.

Tłumaczenie interlinearne to specyficzna technika przekładu, w której każde słowo tekstu źródłowego otrzymuje swój odpowiednik w języku docelowym, umieszczany bezpośrednio pod nim lub nad nim, z zachowaniem oryginalnego szyku zdania. W przeciwieństwie do standardowych tłumaczeń, które dążą do naturalności i płynności wypowiedzi, przekład interlinearny skupia się na wiernym odwzorowaniu struktury gramatycznej i składniowej oryginału, nawet kosztem elegancji stylistycznej. Ta metoda jest szczególnie ceniona przez badaczy tekstów starożytnych, filologów oraz osoby uczące się języków, gdyż pozwala na bezpośredni wgląd w konstrukcję i znaczenie oryginalnego tekstu bez konieczności pełnego opanowania języka źródłowego.

W ramach badań przeprowadziliśmy pierwszą próbę zastosowania tłumaczenia maszynowego do generowania przekładów interlinearnych z greki starożytnej na język polski i angielski. Porównaliśmy wydajność modeli specjalistycznych (GreTa, PhilTa) pretrenowanych na tekstach starogreckich z wielojęzycznym modelem ogólnego zastosowania (mT5). Przebadaliśmy 144 różne konfiguracje modeli, modyfikując model bazowy, metodę kodowania znaczników morfologicznych, zestaw znaczników oraz podejście do normalizacji tekstu, wykorzystując jako korpus teksty greckiego Nowego Testamentu.

W trakcie wystąpienia przedstawimy przebieg naszych badań oraz omówimy uzyskane wyniki. Najlepsze rezultaty osiągnęły modele, w których zastosowaliśmy nowe dedykowane warstwy embeddingów do kodowania informacji morfologicznych, co pozwoliło uzyskać wyniki lepsze nawet o 35-38% (BLEU) w porównaniu ze scenariuszem bazowym. Dodatkowe szczegółowe badanie wykazało, że PhilTa radzi sobie lepiej niż mT5, szczególnie w scenariuszach z ograniczoną dostępnością danych. PhilTa osiągnęła najwyższe wyniki w tłumaczeniu na język angielski (60,40 BLEU), podczas gdy mT5-large najlepiej poradził sobie z językiem polskim (59,33 BLEU).

14 kwietnia 2025

Ryszard Staruch, Filip Graliński (Uniwersytet im. Adama Mickiewicza w Poznaniu)

https://www.youtube.com/watch?v=xRDXmKoEiOQ Wykorzystanie wielkich modeli języka w zadaniu korekty tekstu  Wystąpienie w języku polskim.

Wielkie modele języka (LLM) są obecnie najskuteczniejszymi rozwiązaniami w wielu zadaniach przetwarzania języka naturalnego. Wciąż jednak nie wiadomo, jak dobrze radzą sobie z korektą tekstów w języku polskim. W celu zbadania ich efektywności opracowany został specjalistyczny zbiór danych korekty tekstu w języku polskim. Podczas wystąpienia zaprezentowany zostanie ten korpus oraz wyniki ewaluacji wybranych rozwiązań. W drugiej części seminarium omówione zostaną nowe techniki adaptacji wielkich modeli języka do zadania minimalnej korekty tekstów napisanych przez osoby uczące się języka – na przykładzie języka angielskiego.

28 kwietnia 2025

Manfred Stede (Universität Potsdam)

http://zil.ipipan.waw.pl/seminarium-online Discourse structure in the Potsdam Commentary Corpus: Human annotation, human disagreement, and automatic parsing  Wystąpienia w języku angielskim.

The talk gives a brief introduction to Rhetorical Structure Theory (RST, Mann/Thompson 1988) and then explains the design decisions for the Potsdam Commentary Corpus (PCC), which brings together RST, coreference, and other annotation layers on 175 German news editorials. After illustrating cross-layer queries on the corpus in the ANNIS linguistic database, we turn to the intricacies of manual RST annotation. I will give an overview of the annotation guidelines and their motivations, and present results from an (ongoing) study on annotator disagreements, from which we derive ideas for redesigning the annotation scheme (and potentially the underlying theory), with a comparison to the recent proposal of "eRST" by Zeldes et al. (2024). In the last part of the talk, I outline our results on automatic parsing using the system by Ji and Eisenstein (2014).

12 maja 2025 (UWAGA: wystąpienie odbędzie się o 12:00 w ramach seminarium IPI PAN)

Maciej Ogrodniczuk, Aleksandra Tomaszewska, Bartosz Żuk, Alina Wróblewska (Instytut Podstaw Informatyki PAN)

http://zil.ipipan.waw.pl/seminarium-online Tytuł wystąpienia (dot. modelu PLLuM) zostanie podany wkrótce  Wystąpienia w języku polskim.

Streszczenie wystąpienia udostępnimy w najbliższym czasie.

26 maja 2025

Deniz Zeyrek (Middle East Technical University)

http://zil.ipipan.waw.pl/seminarium-online Tytuł wystąpienia zostanie podany wkrótce  Wystąpienia w języku angielskim.

Streszczenie wystąpienia udostępnimy w najbliższym czasie.

Zapraszamy także do zapoznania się z archiwum seminariów z lat 2000–2015 oraz listą wystąpień z lat 2015–2024.