#acl +All:read Default = Seminarium „Przetwarzanie języka naturalnego” 2024–25 = ||Seminarium [[http://nlp.ipipan.waw.pl/|Zespołu Inżynierii Lingwistycznej]] w [[http://www.ipipan.waw.pl/|Instytucie Podstaw Informatyki]] [[http://www.pan.pl/|Polskiej Akademii Nauk]] odbywa się średnio co 2 tygodnie, zwykle w poniedziałki o godz. 10:15 (niekiedy online – prosimy o korzystanie z linku przy tytule wystąpienia) i ma charakter otwarty. Poszczególne referaty ogłaszane są na [[http://lists.nlp.ipipan.waw.pl/mailman/listinfo/ling|Polskiej Liście Językoznawczej]] oraz na stronie [[https://www.facebook.com/lingwistyka.komputerowa|Lingwistyka komputerowa]] na Facebooku. Nagrania wystąpień dostępne są na [[https://www.youtube.com/ipipan|kanale YouTube]].||[[seminar|{{attachment:seminarium-archiwum/en.png}}]]|| ||'''7 października 2024'''|| ||'''Janusz S. Bień''' (profesor emeritus Uniwersytetu Warszawskiego) || ||[[https://www.youtube.com/watch?v=2mLYixXC_Hw|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2024-10-07.pdf|Identyfikacja czcionek w XVI-wiecznych drukach. Analiza przypadku]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienia w języku polskim.}}|| ||Przetwarzanie tekstów wymaga ich zakodowania w odpowiednim standardzie, aktualnie praktyczne jedyną opcją jest standard Unicode. Niektóre czcionki stosowane w starodrukach są już uwzględnione w tym standardzie, niektóre są dostępne w specjalistycznych fontach za pomocą tzw. funkcji zecerskich. Niektóre czcionki, opisane w monumentalnym dziele „[[https://crispa.uw.edu.pl/object/files/754258/display/Default|Polonia Typographica Saeculi Sedecimi]]”, nie mają jednak swoich odpowiedników w standardzie. W referacie omówię kilka takich czcionek.|| ||'''14 października 2024'''|| ||'''Alexander Rosen''' (Uniwersytet Karola w Pradze)|| ||[[https://www.youtube.com/watch?v=E2ujmqt7Q2E|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2024-10-14.pdf|Lexical and syntactic variability of languages and text genres. A corpus-based study]]'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}|| ||This study examines metrics of syntactic complexity (SC) and lexical diversity (LD) as tools for analyzing linguistic variation within and across languages. Using quantifiable measures based on cross-linguistically consistent (morpho)syntactic annotation ([[https://universaldependencies.org/|Universal Dependencies]]), the research utilizes parallel texts from a large multilingual corpus ([[https://wiki.korpus.cz/doku.php/en:cnk:intercorp:verze16ud|InterCorp]]). Six SC and two LD metrics – covering the length and embedding levels of nominal and clausal constituents, mean dependency distance (MDD), and sentence length – are applied as metadata for sentences and texts.|| ||The presentation will address how these metrics can be visualized and incorporated into corpus queries, how they reflect structural differences across languages and text types, and whether SC and LD vary more across languages or text types. It will also consider the impact of language-specific annotation nuances and correlations among the measures. The analysis includes comparative examples from Polish, Czech, and other languages.|| ||Preliminary findings indicate higher SC in non-fiction compared to fiction across languages, with nominal and clausal metrics being dominant factors. The results suggest distinct patterns for MDD and sentence length, highlighting the impact of structural differences (e.g., analytic vs. synthetic morphology, dominant word-order patterns) and the influence of source text type and style.|| ||'''28 października 2024'''|| ||'''Rafał Jaworski''' (Uniwersytet im. Adama Mickiewicza w Poznaniu)|| ||[[https://www.youtube.com/watch?v=52LZ976imBA|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2024-10-28.pdf|Zestaw algorytmów zrównoleglania i przechowywania wielojęzycznych zanurzeń słów na potrzeby obliczania prawdopodobieństwa tłumaczenia]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||Podczas wystąpienia zreferuję moje badania naukowe z dziedziny przetwarzania języka naturalnego na potrzeby wspomagania tłumaczenia. Przedstawię w szczególności zestaw algorytmów ''Inter-language Vector Space'' służący do zrównoleglania zdań na poziomie słów i fraz wykorzystujących wielojęzyczne zanurzenia słów (''word embeddings'').|| ||Pierwszą funkcją zestawu jest generowanie reprezentacji wektorowych słów. Są one generowane przy użyciu sieci neuronowej typu ''auto-encoder'' na podstawie danych tekstowych – korpusu tekstu. W ten sposób powstają słowniki wektorowe dla poszczególnych języków. Reprezentacje wektorowe słów znajdujących się w tych słownikach stanowią przestrzenie wektorowe, które różnią się pomiędzy językami.|| ||Aby rozwiązać ten problem i uzyskać reprezentacje wektorowe słów, które byłyby porównywalne pomiędzy językami, stosuje się drugą funkcję zestawu ''Inter-language Vector Space''. Służy on do zrównoleglania przestrzeni wektorowych pomiędzy językami z wykorzystaniem macierzy transformacji obliczanych metodą rozkładu według wartości osobliwych. Macierz ta jest obliczana na podstawie homonimów, tj. słów pisanych identycznie w języku przestrzeni X oraz Y. Dodatkowo, w celach wspomagających stosowany jest słownik dwujęzyczny. Obliczona w ten sposób macierz transformacji pozwala na dostosowanie przestrzeni X w taki sposób, aby w maksymalny możliwy sposób pokrywała się z przestrzenią Y. || ||Ostatnia funkcja zestawu jest odpowiedzialna za stworzenie wielojęzycznej przestrzeni wektorowej. Do przestrzeni tej najpierw dodawana jest w całości i bez modyfikacji przestrzeń wektorowa dla języka angielskiego. Następnie, dla każdej innej przestrzeni wektorowej obliczana jest najpierw macierz transformacji tej przestrzeni do przestrzeni angielskiej. Wektory nowej przestrzeni są mnożone przez tę macierz i w ten sposób stają się porównywalne z wektorami reprezentującymi słowa angielskie.|| ||Zestaw algorytmów ''Inter-language Vector Space'' znajduje zastosowanie w systemach wspomagania tłumaczenia, na przykład w autorskim algorytmie automatycznego transferu znaczników nietłumaczonych ze zdania źródłowego do docelowego.|| ||'''4 listopada 2024'''|| ||'''Jakub Kozakoszczak''' (Deutsche Telekom)|| ||'''[[attachment:seminarium-archiwum/2024-11-04.pdf|ZIML: Język znaczników anotacyjnych do łatwego dopasowywania regeksami]]'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}|| ||Przeszukiwanie regeksami warstwy anotacyjnej tekstu reprezentowanej wplecionymi znacznikami wymaga budowania wzorców, które szybko stają się nieczytelne i nie do utrzymania. Zupełnie niemożliwe jest stosowanie warunków na odległości wewnątrz tekstu, wydłużonych przez obecność tagów. Anotacja wydrębniona poza tekst co prawda zachowuje odległości, ale jest niewidoczna dla regeksów.|| ||Przedstawię język znaczników Zero Insertion Markup Language (ZIML), w którym każda kombinacja znaków i etykiet w zaanotowanym tekście jest reprezentowana przez pojedynczy „alloznak”, co zachowuje odległości wewnątrz dokumentu. Te same alloznaki wprowadzone są do regeksów w taki sposób, że zachowują pozycje dopasowań zwracanych przez standardowe silniki wyrażeń regularnych. W efekcie jedyną ingerencją w semantykę języka regeksów jest wzbogacenie jej o denotowanie etykiet przez dopasowanie alloznaków, które je reprezentują.|| ||Podam dowód poprawności tego przekształcenia i przedstawię implementację języka ZIML, w tym składnię dodawania odwołań do etykiet w treści wzorców. Omówię, w miarę możliwości czasowych, potencjalne zastosowania ZIML w językoznawstwie i przetwarzaniu języka naturalnego. Do zrozumienia prezentacji pomoże podstawowa wiedza na temat teorii modeli i wyszukiwania regeksami.|| ||'''21 listopada 2024'''|| ||'''Christian Chiarcos''' (Uniwersytet w Augsburgu)|| ||[[https://www.youtube.com/watch?v=FxiOM5zAKo8|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2024-11-21.pdf|Aspects of Knowledge Representation for Discourse Relation Annotation]]'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}|| ||Semantic technologies comprise a broad set of standards and technologies including aspects of knowledge representation, information management and computational inference. In this lecture, I will describe the application of knowledge representation standards to the realm of computational discourse, and especially, the annotation of discourse relations. In particular, this includes the formal modelling of discourse relations of different theoretical frameworks by means of modular, interlinked ontologies, the machine-readable edition of discourse marker inventories with !OntoLex and techniques for the induction of discourse marker inventories.|| ||'''2 grudnia 2024'''|| ||'''Uczestnicy konkursu !PolEval 2024'''|| ||'''Prezentacja wyników konkursu'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienia w języku polskim.}} {{attachment:seminarium-archiwum/icon-en.gif|Slajdy po angielsku.}}|| ||[[https://www.youtube.com/watch?v=cwu8YfqtnTs|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[http://poleval.pl/files/2024-01.pdf|Welcome to PolEval 2024]]''' (Łukasz Kobyliński, Maciej Ogrodniczuk, Filip Graliński, Ryszard Staruch, Karol Saputa) || ||[[https://www.youtube.com/watch?v=OnxkmpGmxP4|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[http://poleval.pl/files/2024-02.pdf|PolEval 2024 Task 1: Reading Comprehension]]''' (Ryszard Tuora / Aleksandra Zwierzchowska) || ||[[https://www.youtube.com/watch?v=9FDTOx55WMI|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[http://poleval.pl/files/2024-03.pdf|Optimizing LLMs for Polish Reading Comprehension: A Comparative Study of Ensemble and Unified Approaches]]''' (Krzysztof Wróbel) || ||[[https://www.youtube.com/watch?v=_Ur9kzZ3ols|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[http://poleval.pl/files/2024-04.pdf|PolEval 2024 Task 2: Emotion and Sentiment Recognition]]''' (Jan Kocoń, Bartłomiej Koptyra) || ||[[https://www.youtube.com/watch?v=V3_z2KiVgco|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[http://poleval.pl/files/2024-05.pdf|Emotion and Sentiment Recognition in Polish Texts Using Large Language Models: A Winning Approach to PolEval 2024]]''' (Krzysztof Wróbel) || ||[[https://www.youtube.com/watch?v=59Xkzoi3TDY|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[http://poleval.pl/files/2024-06.pdf|Ensemble as a Variance Reduction Method for Emotion and Sentiment Recognition]]''' (Tomasz Warzecha) || ||[[https://www.youtube.com/watch?v=ESNbPIwjfvw|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[http://poleval.pl/files/2024-07.pdf|Emotion and Sentiment Recognition Using Ensemble Models]]''' (Jakub Kosterna) || ||[[https://www.youtube.com/watch?v=Ds8BkUTpcm8|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[http://poleval.pl/files/2024-08.pdf|Zero-shot Approach Using Bielik LLM for Emotion Recognition in Polish]]''' (Paweł Cyrta) || ||[[https://www.youtube.com/watch?v=lmRZn7254MY|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[http://poleval.pl/files/2024-08.pdf|PolEval 2024 Task 3: Polish Automatic Speech Recognition Challenge]]''' (Michał Junczyk, Iwona Christop, Piotr Pęzik) || ||[[https://www.youtube.com/watch?v=G35l9xJWqA0|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[http://poleval.pl/files/2024-10.pdf|Augmenting Polish Automatic Speech Recognition System with Synthetic Data]]''' (Łukasz Bondaruk, Jakub Kubiak, Mateusz Czyżnikiewicz) || ||[[https://www.youtube.com/watch?v=uIDfc6c1TtA|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[http://poleval.pl/files/2024-11.pdf|Exploration of training Zipformer and E-Branchformer models with Polish language BIGOS dataset]]''' (Paweł Cyrta) || ||'''19 grudnia 2024'''|| ||'''Piotr Przybyła''' (Uniwersytet Pompeu Fabry / Instytut Podstaw Informatyki PAN)|| ||[[https://www.youtube.com/watch?v=xqDkbiF4izI|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2024-12-19.pdf|Adaptacyjne ataki na klasyfikację wiarygodności z wykorzystaniem uczenia ze wzmocnieniem]]'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}|| ||W trakcie prezentacji przedstawiony zostanie system XARELLO: generator przykładów antagonistycznych dla testowania odporności klasyfikacji tekstu, zbudowany na bazie uczenia ze wzmocnieniem. Rozwiązanie to jest adaptacyjne, ponieważ obserwuje sukcesy i porażki wykonywanych ataków i dostosowuje się do słabości klasyfikatora-ofiary. Taka procedura odzwierciedla długoterminowe i ustawiczne ataki, które są typowe dla aktorów rozprzestrzeniających dezinformację. Przedstawimy także wyniki ewaluacji pokazującej, że podejście adaptacyjne prowadzi do odnajdywania przykładów antagonistycznych o lepszej jakości i z mniejszą liczbą prób, szczególnie w atakach na duże modele językowe.|| ||'''17 lutego 2025'''|| ||'''Ryszard Staruch''', '''Filip Graliński''' (Uniwersytet im. Adama Mickiewicza w Poznaniu)|| ||[[https://www.zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Tytuł wystąpienia poznamy już wkrótce'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||Streszczenie wystąpienia udostępnimy już niedługo.|| ||Zapraszamy także do zapoznania się z [[http://nlp.ipipan.waw.pl/NLP-SEMINAR/previous-p.html|archiwum seminariów z lat 2000–2015]] oraz [[http://zil.ipipan.waw.pl/seminarium-archiwum|listą wystąpień z lat 2015–2024]].|| {{{#!wiki comment ||'''7 października 2023'''|| ||'''Uczestnicy konkursu PolEval 2024''' || ||[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Planowana seria prezentacji uczestników zadań PolEvalowych'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienia w języku polskim.}}|| ||Lista wystąpień będzie dostępna wkrótce.|| ||'''11 marca 2024'''|| ||'''Mateusz Krubiński''' (Uniwersytet Karola w Pradze)|| ||[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Tytuł wystąpienia podamy wkrótce'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku polskim.}}|| ||'''8 stycznia 2024''' (prezentacja wyników projektu DARIAH.Lab)|| ||'''Zespół projektu DARIAH.Lab''' (Instytut Podstaw Informatyki PAN)|| ||'''Tytuł wystąpienia poznamy wkrótce'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie po polsku.}}|| ||Streszczenie wystąpienia udostępnimy w najbliższym czasie.|| ||'''3 października 2022'''|| ||'''...''' (...)|| ||[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Tytuł wystąpienia podamy wkrótce'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku polskim.}}|| ||Opis wystąpienia udostępnimy już niedługo.|| WOLNE TERMINY: ATLAS: Explaining abstractive summarization - Emilia Wiśnios? Albo coś z NASK-owych tematów dot. przetwarzania prawa? Czy to jest to samo? ||'''UWAGA''': ze względu na zakaz wstępu do IPI PAN dla osób niezatrudnionych w Instytucie, w stacjonarnej części seminarium mogą brać udział tylko pracownicy IPI PAN i prelegenci (także zewnętrzni). Dla pozostałych uczestników seminarium będzie transmitowane – prosimy o korzystanie z linku przy tytule wystąpienia.|| Uczestnicy Akcji COST CA18231: Multi3Generation: Multi-task, Multilingual, Multi-modal Language Generation: – Marcin PAPRZYCKI (marcin.paprzycki@ibspan.waw.pl) – Maria GANZHA (m.ganzha@mini.pw.edu.pl) – Katarzyna WASIELEWSKA-MICHNIEWSKA (katarzyna.wasielewska@ibspan.waw.pl) ||'''6 czerwca 2022'''|| ||'''Paula Czarnowska''' (University of Cambridge)|| ||[[https://teams.microsoft.com/l/meetup-join/19%3a06de5a6d7ed840f0a53c26bf62c9ec18%40thread.tacv2/1643554817614?context=%7b%22Tid%22%3a%220425f1d9-16b2-41e3-a01a-0c02a63d13d6%22%2c%22Oid%22%3a%22f5f2c910-5438-48a7-b9dd-683a5c3daf1e%22%7d|{{attachment:seminarium-archiwum/teams.png}}]] '''Tytuł wystąpienia podamy wkrótce'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}|| ||Opis wystąpienia udostępnimy już niedługo.|| ||'''2 kwietnia 2020'''|| ||'''Stan Matwin''' (Dalhousie University)|| ||'''Efficient training of word embeddings with a focus on negative examples'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}} {{attachment:seminarium-archiwum/icon-en.gif|Slajdy po angielsku.}}|| ||This presentation is based on our [[https://pdfs.semanticscholar.org/1f50/db5786913b43f9668f997fc4c97d9cd18730.pdf|AAAI 2018]] and [[https://aaai.org/ojs/index.php/AAAI/article/view/4683|AAAI 2019]] papers on English word embeddings. In particular, we examine the notion of “negative examples”, the unobserved or insignificant word-context co-occurrences, in spectral methods. we provide a new formulation for the word embedding problem by proposing a new intuitive objective function that perfectly justifies the use of negative examples. With the goal of efficient learning of embeddings, we propose a kernel similarity measure for the latent space that can effectively calculate the similarities in high dimensions. Moreover, we propose an approximate alternative to our algorithm using a modified Vantage Point tree and reduce the computational complexity of the algorithm with respect to the number of words in the vocabulary. We have trained various word embedding algorithms on articles of Wikipedia with 2.3 billion tokens and show that our method outperforms the state-of-the-art in most word similarity tasks by a good margin. We will round up our discussion with some general thought s about the use of embeddings in modern NLP.|| na [[https://www.youtube.com/ipipan|kanale YouTube]]. on [[https://www.youtube.com/ipipan|YouTube]]. Nowe typy: Aleksandra Gabryszak (DFKI Berlin): – https://aclanthology.org/people/a/aleksandra-gabryszak/ – https://www.researchgate.net/profile/Aleksandra-Gabryszak – miała tekst na warsztacie First Computing Social Responsibility Workshop (http://www.lrec-conf.org/proceedings/lrec2022/workshops/CSRNLP1/index.html) na LREC-u 2022: http://www.lrec-conf.org/proceedings/lrec2022/workshops/CSRNLP1/pdf/2022.csrnlp1-1.5.pdf Marcin Junczys-Dowmunt przy okazji świąt? Adam Jatowt? Piotrek Pęzik? Wrocław? Kwantyfikatory? MARCELL? Może Piotrek z Bartkiem? Umówić się z Brylską, zapytać tę od okulografii, czy to jest PJN Agnieszka Kwiatkowska – zobaczyć ten jej tekst, moze też coś opowie? Ew. Kasia Brylska, Monika Płużyczka na seminarium? Marcin Napiórkowski z Karolem? Maciej Karpiński Demenko – dawno już ich nie było; można iść po kluczu HLT Days MTAS? – NLP dla tekstów historycznych – Marcin/Witek? razem z KORBĄ, pokazać oba ręcznie znakowane korpusy i benchmarki na tagerach – maj, – może Wrocław mógłby coś pokazać? – pisałem do Maćka P. – jakieś wystąpienia PolEvalowe? Tomek Dwojak i inni z https://zpjn.wmi.amu.edu.pl/seminar/? Będzie na Data Science Summit: Using topic modeling for differentiation based on Polish parliament plus person Aleksander Nosarzewski Statistician @ Citi Artykuł o GPT napisał Mateusz Litwin: https://www.linkedin.com/in/mateusz-litwin-06b3a919/ W OpenAI jest jeszcze https://www.linkedin.com/in/jakub-pachocki/ i https://www.linkedin.com/in/szymon-sidor-98164044/ Text data can be an invaluable source of information. In particular, what, how often and in which way we talk about given subjects can tell a lot about us. Unfortunately, manual scrambling through huge text datasets can be a cumbersome task. Luckily, there is a class of unsupervised models - topic models, which can perform this task for us, with very little input from our side. I will present how to use Structural Topic Model (STM) - an enhancement over popular LDA to obtain some kind of measure of differences between given groups or agents of interest, based on an example of Polish parliamentary speeches and political parties. ||'''12 DATA 2017''' ('''UWAGA: ''' wystąpienie odbędzie się o 13:00 w ramach [[https://ipipan.waw.pl/instytut/dzialalnosc-naukowa/seminaria/ogolnoinstytutowe|seminarium IPI PAN]])|| ||'''OSOBA''' (AFILIACJA)|| ||'''Tytuł zostanie udostępniony w najbliższym czasie'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||Opis wystąpienia zostanie udostępniony wkrótce.|| ||'''[[attachment:seminarium-archiwum/201--.pdf|...]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}} {{attachment:seminarium-archiwum/icon-en.gif|Slajdy w języku angielskim.}}|| ||...|| }}}