Size: 30982
Comment:
|
Size: 35285
Comment:
|
Deletions are marked like this. | Additions are marked like this. |
Line 1: | Line 1: |
## page was renamed from seminarium-archiwum | |
Line 3: | Line 2: |
= Seminarium „Przetwarzanie języka naturalnego” 2017–18 = | = Seminarium „Przetwarzanie języka naturalnego” 2024–25 = |
Line 5: | Line 4: |
||<style="border:0;padding-bottom:10px">Seminarium [[http://nlp.ipipan.waw.pl/|Zespołu Inżynierii Lingwistycznej]] w [[http://www.ipipan.waw.pl/|Instytucie Podstaw Informatyki]] [[http://www.pan.pl/|Polskiej Akademii Nauk]] odbywa się nieregularnie w poniedziałki zwykle o godz. 10:15 w siedzibie IPI PAN (ul. Jana Kazimierza 5, Warszawa) i ma charakter otwarty. Poszczególne referaty ogłaszane są na [[http://lists.nlp.ipipan.waw.pl/mailman/listinfo/ling|Polskiej Liście Językoznawczej]] oraz na stronie [[https://www.facebook.com/lingwistyka.komputerowa|Lingwistyka komputerowa]] na Facebooku. Wszystkie nagrania dostępne są na [[https://www.youtube.com/channel/UC5PEPpMqjAr7Pgdvq0wRn0w|kanale YouTube]].||<style="border:0;padding-left:30px;">[[seminar|{{attachment:seminarium-archiwum/en.png}}]]|| | ||<style="border:0;padding-bottom:10px">Seminarium [[http://nlp.ipipan.waw.pl/|Zespołu Inżynierii Lingwistycznej]] w [[http://www.ipipan.waw.pl/|Instytucie Podstaw Informatyki]] [[http://www.pan.pl/|Polskiej Akademii Nauk]] odbywa się średnio co 2 tygodnie, zwykle w poniedziałki o godz. 10:15 (niekiedy online – prosimy o korzystanie z linku przy tytule wystąpienia) i ma charakter otwarty. Poszczególne referaty ogłaszane są na [[http://lists.nlp.ipipan.waw.pl/mailman/listinfo/ling|Polskiej Liście Językoznawczej]] oraz na stronie [[https://www.facebook.com/lingwistyka.komputerowa|Lingwistyka komputerowa]] na Facebooku. Nagrania wystąpień dostępne są na [[https://www.youtube.com/ipipan|kanale YouTube]].||<style="border:0;padding-left:30px;">[[seminar|{{attachment:seminarium-archiwum/en.png}}]]|| |
Line 7: | Line 6: |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''2 października 2017'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Paweł Rutkowski''' (Uniwersytet Warszawski)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=Acfdv6kUe5I|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2017-10-02.pdf|Polski język migowy z perspektywy lingwistyki korpusowej]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}} {{attachment:seminarium-archiwum/icon-en.gif|Slajdy w jęz. angielskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Polski język migowy (PJM) jest w pełni funkcjonalnym językiem wizualno-przestrzennym, którym posługuje się polska społeczność Głuchych. Jego rozwój rozpoczął się w drugiej dekadzie XIX wieku – wraz z założeniem pierwszej szkoły dla głuchych w Polsce. Do niedawna poświęcano mu bardzo niewiele uwagi w badaniach językoznawczych. Celem niniejszego wystąpienia jest przedstawienie szeroko zakrojonego projektu badawczego służącego opracowaniu obszernego i reprezentatywnego korpusu PJM. Korpus ten jest obecnie tworzony na Uniwersytecie Warszawskim. Ma formę zbioru klipów wideo przedstawiających osoby głuche posługujące się PJM w różnych kontekstach komunikacyjnych. Filmy są szczegółowo anotowane: segmentowane, lematyzowane, tłumaczone na polszczyznę, znakowane pod względem różnych cech gramatycznych i transkrybowane za pomocą symboli !HamNoSys. W skali międzynarodowej korpus PJM jest obecnie jednym z dwóch największych zbiorów oznakowanych danych migowych. Na szczególną uwagę zasługuje kwestia frekwencji leksykalnej w PJM. Dane tego typu opracowane zostały dotąd dla zaledwie kilku języków migowych – m.in. dla amerykańskiego języka migowego, nowozelandzkiego języka migowego, brytyjskiego języka migowego, australijskiego języka migowego i słoweńskiego języka migowego. Podstawy empiryczne tych badań wahały się od 100 000 (NZSL) do zaledwie 4 000 jednostek tekstowych (ASL). Niniejsze wystąpienie wpisuje się w dyskusję dotyczącą właściwości frekwencyjnych leksemów języków migowych poprzez przeanalizowanie o wiele większego zbioru relewantnych danych z PJM.|| |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''7 października 2024'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Janusz S. Bień''' (profesor emeritus Uniwersytetu Warszawskiego) || ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=2mLYixXC_Hw|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2024-10-07.pdf|Identyfikacja czcionek w XVI-wiecznych drukach. Analiza przypadku]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienia w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Przetwarzanie tekstów wymaga ich zakodowania w odpowiednim standardzie, aktualnie praktyczne jedyną opcją jest standard Unicode. Niektóre czcionki stosowane w starodrukach są już uwzględnione w tym standardzie, niektóre są dostępne w specjalistycznych fontach za pomocą tzw. funkcji zecerskich. Niektóre czcionki, opisane w monumentalnym dziele „[[https://crispa.uw.edu.pl/object/files/754258/display/Default|Polonia Typographica Saeculi Sedecimi]]”, nie mają jednak swoich odpowiedników w standardzie. W referacie omówię kilka takich czcionek.|| |
Line 12: | Line 11: |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''23 października 2017'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Katarzyna Krasnowska-Kieraś''', '''Piotr Rybak''', '''Alina Wróblewska''' (Instytut Podstaw Informatyki PAN)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=8qzqn69nCmg|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2017-10-23.pdf|Ewaluacja polskich wektorów dystrybucyjnych w kontekście dezambiguacji morfoskładniowej i parsowania zależnościowego]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Uczenie maszynowe oparte na głębokich sieciach neuronowych okazało się bardzo skuteczną heurystyką w różnych zadaniach przetwarzania języka naturalnego. Ważnym komponentem sieci neuronowych jest reprezentacja wektorowa cech (tzw. feature embedding). Istnieje możliwość tworzenia wektorów dystrybucyjnych cech różnego typu, np. wyrazów czy części mowy. Przedmiotem prezentacji będą wyniki analizy, która pokazała, dla jakich cech można obliczać modele dystrybucyjne typu „embedding” dla języków fleksyjnych. Ponadto przedstawimy propozycję ewaluacji in vivo wektorów dystrybucyjnych w kontekście dwóch podstawowych zadań NLP – dezambiguacji morfoskładniowej oraz parsowania zależnościowego. Nasze eksperymenty ewaluacyjne zostały przeprowadzone na zasobach w języku polskim. Przedstawione badania były inspiracją do stworzenia dezambiguatora morfoskładniowego – Toygger, który wygrał Zadanie 1 (A) w konkursie [[http://poleval.pl|PolEval 2017]] i który również zostanie przedstawiony podczas wystąpienia.|| |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''14 października 2024'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Alexander Rosen''' (Uniwersytet Karola w Pradze)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=E2ujmqt7Q2E|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2024-10-14.pdf|Lexical and syntactic variability of languages and text genres. A corpus-based study]]'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:5px">This study examines metrics of syntactic complexity (SC) and lexical diversity (LD) as tools for analyzing linguistic variation within and across languages. Using quantifiable measures based on cross-linguistically consistent (morpho)syntactic annotation ([[https://universaldependencies.org/|Universal Dependencies]]), the research utilizes parallel texts from a large multilingual corpus ([[https://wiki.korpus.cz/doku.php/en:cnk:intercorp:verze16ud|InterCorp]]). Six SC and two LD metrics – covering the length and embedding levels of nominal and clausal constituents, mean dependency distance (MDD), and sentence length – are applied as metadata for sentences and texts.|| ||<style="border:0;padding-left:30px;padding-bottom:5px">The presentation will address how these metrics can be visualized and incorporated into corpus queries, how they reflect structural differences across languages and text types, and whether SC and LD vary more across languages or text types. It will also consider the impact of language-specific annotation nuances and correlations among the measures. The analysis includes comparative examples from Polish, Czech, and other languages.|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Preliminary findings indicate higher SC in non-fiction compared to fiction across languages, with nominal and clausal metrics being dominant factors. The results suggest distinct patterns for MDD and sentence length, highlighting the impact of structural differences (e.g., analytic vs. synthetic morphology, dominant word-order patterns) and the influence of source text type and style.|| |
Line 17: | Line 18: |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''6 listopada 2017'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Szymon Łęski''' (Samsung R&D Polska)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=266ftzwmKeU|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2017-11-06.pdf|Głębokie sieci neuronowe w modelach języka]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}} {{attachment:seminarium-archiwum/icon-en.gif|Slajdy w jęz. angielskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">W czasie wykładu przedstawię wprowadzenie do modeli językowych: tradycyjnych, opartych na n-gramach, oraz nowych, opartych na sieciach rekurencyjnych. Następnie, na podstawie artykułów z ostatnich lat, omówię najciekawsze pomysły rozszerzeń i modyfikacji sieciowych modeli językowych, takie jak modyfikacje reprezentacji słów czy modele z wyjściem nie ograniczonym do z góry ustalonego słownika.|| |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''28 października 2024'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Rafał Jaworski''' (Uniwersytet im. Adama Mickiewicza w Poznaniu)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=52LZ976imBA|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2024-10-28.pdf|Zestaw algorytmów zrównoleglania i przechowywania wielojęzycznych zanurzeń słów na potrzeby obliczania prawdopodobieństwa tłumaczenia]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:5px">Podczas wystąpienia zreferuję moje badania naukowe z dziedziny przetwarzania języka naturalnego na potrzeby wspomagania tłumaczenia. Przedstawię w szczególności zestaw algorytmów ''Inter-language Vector Space'' służący do zrównoleglania zdań na poziomie słów i fraz wykorzystujących wielojęzyczne zanurzenia słów (''word embeddings'').|| ||<style="border:0;padding-left:30px;padding-bottom:5px">Pierwszą funkcją zestawu jest generowanie reprezentacji wektorowych słów. Są one generowane przy użyciu sieci neuronowej typu ''auto-encoder'' na podstawie danych tekstowych – korpusu tekstu. W ten sposób powstają słowniki wektorowe dla poszczególnych języków. Reprezentacje wektorowe słów znajdujących się w tych słownikach stanowią przestrzenie wektorowe, które różnią się pomiędzy językami.|| ||<style="border:0;padding-left:30px;padding-bottom:5px">Aby rozwiązać ten problem i uzyskać reprezentacje wektorowe słów, które byłyby porównywalne pomiędzy językami, stosuje się drugą funkcję zestawu ''Inter-language Vector Space''. Służy on do zrównoleglania przestrzeni wektorowych pomiędzy językami z wykorzystaniem macierzy transformacji obliczanych metodą rozkładu według wartości osobliwych. Macierz ta jest obliczana na podstawie homonimów, tj. słów pisanych identycznie w języku przestrzeni X oraz Y. Dodatkowo, w celach wspomagających stosowany jest słownik dwujęzyczny. Obliczona w ten sposób macierz transformacji pozwala na dostosowanie przestrzeni X w taki sposób, aby w maksymalny możliwy sposób pokrywała się z przestrzenią Y. || ||<style="border:0;padding-left:30px;padding-bottom:5px">Ostatnia funkcja zestawu jest odpowiedzialna za stworzenie wielojęzycznej przestrzeni wektorowej. Do przestrzeni tej najpierw dodawana jest w całości i bez modyfikacji przestrzeń wektorowa dla języka angielskiego. Następnie, dla każdej innej przestrzeni wektorowej obliczana jest najpierw macierz transformacji tej przestrzeni do przestrzeni angielskiej. Wektory nowej przestrzeni są mnożone przez tę macierz i w ten sposób stają się porównywalne z wektorami reprezentującymi słowa angielskie.|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Zestaw algorytmów ''Inter-language Vector Space'' znajduje zastosowanie w systemach wspomagania tłumaczenia, na przykład w autorskim algorytmie automatycznego transferu znaczników nietłumaczonych ze zdania źródłowego do docelowego.|| |
Line 22: | Line 27: |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''20 listopada 2017'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Michał Ptaszyński''' (Kitami Institute of Technology, Japonia)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=hUtI5lCyUew|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2017-11-20.pdf|Analiza emocji w kontekście jako jeden ze sposobów na osiągnięcie Roztropności Komputerowej]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Badania nad emocjami w dziedzinie Sztucznej Inteligencji i dziedzinach pokrewnych nabrały w ostatnich latach prędkości. Niestety, w większości badań emocje są analizowane bez otaczającego ich kontekstu. W wykładzie spróbuję przekonać słuchaczy, iż rozpoznawanie emocji bez analizowania ich kontekstu jest niekompletne i nie może być wystarczające do praktycznych zastosowań w świecie rzeczywistym. Opiszę także niektóre konsekwencje nieuwzględnienia kontekstu emocji. Na koniec przedstawię jedno podejście, w którym podjęliśmy się analizy emocji w ich kontekście i krótko opiszę pierwsze eksperymenty przeprowadzone w tym kierunku.|| |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''4 listopada 2024'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Jakub Kozakoszczak''' (Deutsche Telekom)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''[[attachment:seminarium-archiwum/2024-11-04.pdf|ZIML: Język znaczników anotacyjnych do łatwego dopasowywania regeksami]]'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:5px">Przeszukiwanie regeksami warstwy anotacyjnej tekstu reprezentowanej wplecionymi znacznikami wymaga budowania wzorców, które szybko stają się nieczytelne i nie do utrzymania. Zupełnie niemożliwe jest stosowanie warunków na odległości wewnątrz tekstu, wydłużonych przez obecność tagów. Anotacja wydrębniona poza tekst co prawda zachowuje odległości, ale jest niewidoczna dla regeksów.|| ||<style="border:0;padding-left:30px;padding-bottom:5px">Przedstawię język znaczników Zero Insertion Markup Language (ZIML), w którym każda kombinacja znaków i etykiet w zaanotowanym tekście jest reprezentowana przez pojedynczy „alloznak”, co zachowuje odległości wewnątrz dokumentu. Te same alloznaki wprowadzone są do regeksów w taki sposób, że zachowują pozycje dopasowań zwracanych przez standardowe silniki wyrażeń regularnych. W efekcie jedyną ingerencją w semantykę języka regeksów jest wzbogacenie jej o denotowanie etykiet przez dopasowanie alloznaków, które je reprezentują.|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Podam dowód poprawności tego przekształcenia i przedstawię implementację języka ZIML, w tym składnię dodawania odwołań do etykiet w treści wzorców. Omówię, w miarę możliwości czasowych, potencjalne zastosowania ZIML w językoznawstwie i przetwarzaniu języka naturalnego. Do zrozumienia prezentacji pomoże podstawowa wiedza na temat teorii modeli i wyszukiwania regeksami.|| |
Line 27: | Line 34: |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''27 listopada 2017''' (prezentacja na seminarium IPI PAN)|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Maciej Ogrodniczuk''' (Instytut Podstaw Informatyki PAN)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''[[attachment:seminarium-archiwum/2017-11-27.pdf|Automatyczne wykrywanie koreferencji nominalnej w języku polskim]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Tematem wykładu będzie propozycja opisu nominalnych zależności koreferencyjnych w polszczyźnie (czyli zbiorów konstrukcji tekstowych posiadających wspólną referencję) oraz prace nad implementacją metod do ich wykrywania. Przedstawię wykorzystane do tego celu podejście korpusowe z ręczną anotacją konstrukcji koreferencyjnych oraz proces tworzenia narzędzi lingwistyczno-informatycznych wraz z oceną ich jakości za pomocą standardowych metod ewaluacyjnych.|| |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''21 listopada 2024'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Christian Chiarcos''' (Uniwersytet w Augsburgu)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=FxiOM5zAKo8|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2024-11-21.pdf|Aspects of Knowledge Representation for Discourse Relation Annotation]]'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Semantic technologies comprise a broad set of standards and technologies including aspects of knowledge representation, information management and computational inference. In this lecture, I will describe the application of knowledge representation standards to the realm of computational discourse, and especially, the annotation of discourse relations. In particular, this includes the formal modelling of discourse relations of different theoretical frameworks by means of modular, interlinked ontologies, the machine-readable edition of discourse marker inventories with !OntoLex and techniques for the induction of discourse marker inventories.|| |
Line 32: | Line 39: |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''4 grudnia 2017'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Adam Dobaczewski''', '''Piotr Sobotka''', '''Sebastian Żurowski''' (Uniwersytet Mikołaja Kopernika w Toruniu)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=az06czLflMw|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2017-12-04.pdf|Słownik reduplikacji i powtórzeń polskich]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">W naszym wystąpieniu przedstawimy słownik przygotowany przez zespół z Instytutu Języka Polskiego UMK w Toruniu (grant NPRH 11H 13 0265 82). W słowniku rejestrujemy wyrażenia języka polskiego, w których zaobserwować można obecność mechanizmu reduplikacji lub powtórzenia form tych samych leksemów. Jednostki języka wyróżniamy zgodnie z założeniami gramatyki operacyjnej A. Bogusławskiego i dzielimy je na dwie podstawowe grupy: (i) jednostki leksykalne składające się z dwóch takich samych segmentów lub form tego samego leksemu (typu ''całkiem całkiem''; ''fakt faktem, że _''); (ii) jednostki operacyjne bazujące na jakimś schemacie powtórzenia słów należących do pewnej przewidzianej przez ten schemat klasy (typu ''N[nom] N[inst], ale _'', gdzie N to dowolny rzeczownik, np. ''sąd sądem, ale _''; ''miłość miłością, ale _''). Ze względu na stosunkowo niewielką liczbę zarejestrowanych jednostek przygotowaliśmy słownik w postaci tradycyjnej (drukowanej). Jego podstawą materiałową są zasoby NKJP, które przeszukiwane były za pomocą wyszukiwarki powtórzeń w korpusie NKJP. Narzędzie to zostało specjalnie przygotowane na potrzeby tego projektu w ZIL IPI PAN.|| |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''2 grudnia 2024'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Uczestnicy konkursu !PolEval 2024'''|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''Prezentacja wyników konkursu'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienia w języku polskim.}} {{attachment:seminarium-archiwum/icon-en.gif|Slajdy po angielsku.}}|| ||<style="border:0;padding-left:30px;padding-bottom:0px">[[https://www.youtube.com/watch?v=cwu8YfqtnTs|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[http://poleval.pl/files/2024-01.pdf|Welcome to PolEval 2024]]''' (Łukasz Kobyliński, Maciej Ogrodniczuk, Filip Graliński, Ryszard Staruch, Karol Saputa) || ||<style="border:0;padding-left:30px;padding-bottom:0px">[[https://www.youtube.com/watch?v=OnxkmpGmxP4|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[http://poleval.pl/files/2024-02.pdf|PolEval 2024 Task 1: Reading Comprehension]]''' (Ryszard Tuora / Aleksandra Zwierzchowska) || ||<style="border:0;padding-left:30px;padding-bottom:0px">[[https://www.youtube.com/watch?v=9FDTOx55WMI|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[http://poleval.pl/files/2024-03.pdf|Optimizing LLMs for Polish Reading Comprehension: A Comparative Study of Ensemble and Unified Approaches]]''' (Krzysztof Wróbel) || ||<style="border:0;padding-left:30px;padding-bottom:0px">[[https://www.youtube.com/watch?v=_Ur9kzZ3ols|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[http://poleval.pl/files/2024-04.pdf|PolEval 2024 Task 2: Emotion and Sentiment Recognition]]''' (Jan Kocoń, Bartłomiej Koptyra) || ||<style="border:0;padding-left:30px;padding-bottom:0px">[[https://www.youtube.com/watch?v=V3_z2KiVgco|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[http://poleval.pl/files/2024-05.pdf|Emotion and Sentiment Recognition in Polish Texts Using Large Language Models: A Winning Approach to PolEval 2024]]''' (Krzysztof Wróbel) || ||<style="border:0;padding-left:30px;padding-bottom:0px">[[https://www.youtube.com/watch?v=59Xkzoi3TDY|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[http://poleval.pl/files/2024-06.pdf|Ensemble as a Variance Reduction Method for Emotion and Sentiment Recognition]]''' (Tomasz Warzecha) || ||<style="border:0;padding-left:30px;padding-bottom:0px">[[https://www.youtube.com/watch?v=ESNbPIwjfvw|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[http://poleval.pl/files/2024-07.pdf|Emotion and Sentiment Recognition Using Ensemble Models]]''' (Jakub Kosterna) || ||<style="border:0;padding-left:30px;padding-bottom:0px">[[https://www.youtube.com/watch?v=Ds8BkUTpcm8|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[http://poleval.pl/files/2024-08.pdf|Zero-shot Approach Using Bielik LLM for Emotion Recognition in Polish]]''' (Paweł Cyrta) || ||<style="border:0;padding-left:30px;padding-bottom:0px">[[https://www.youtube.com/watch?v=lmRZn7254MY|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[http://poleval.pl/files/2024-08.pdf|PolEval 2024 Task 3: Polish Automatic Speech Recognition Challenge]]''' (Michał Junczyk, Iwona Christop, Piotr Pęzik) || ||<style="border:0;padding-left:30px;padding-bottom:0px">[[https://www.youtube.com/watch?v=G35l9xJWqA0|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[http://poleval.pl/files/2024-10.pdf|Augmenting Polish Automatic Speech Recognition System with Synthetic Data]]''' (Łukasz Bondaruk, Jakub Kubiak, Mateusz Czyżnikiewicz) || ||<style="border:0;padding-left:30px;padding-bottom:15px">[[https://www.youtube.com/watch?v=uIDfc6c1TtA|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[http://poleval.pl/files/2024-11.pdf|Exploration of training Zipformer and E-Branchformer models with Polish language BIGOS dataset]]''' (Paweł Cyrta) || |
Line 37: | Line 54: |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''29 stycznia 2018'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Roman Grundkiewicz''' (Uniwersytet Adama Mickiewicza/Uniwersytet Edynburski)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=dj9rTwzDCdA|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2018-01-29.pdf|Automatyczna poprawa błędów językowych za pomocą tłumaczenia maszynowego]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Podczas wystąpienia opowiem o zadaniu automatycznej poprawy błędów językowych w tekstach pisanych przez osoby uczące się języka angielskiego jako języka obcego. Przedstawię wyniki badań nad zastosowaniem statystycznego tłumaczenia maszynowego opartego na frazach, które w sposób znaczący poszerzyły aktualny stan wiedzy w dziedzinie. Omówię jak istotna jest właściwa optymalizacja modelu na podstawie przyjętej automatycznej miary ewaluacji oraz zastosowanie odpowiednich cech gęstych i rzadkich. Zwięźle opiszę również dalsze badania z wykorzystaniem neuronowego tłumaczenia maszynowego.|| |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''19 grudnia 2024'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Piotr Przybyła''' (Uniwersytet Pompeu Fabry / Instytut Podstaw Informatyki PAN)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=xqDkbiF4izI|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2024-12-19.pdf|Adaptacyjne ataki na klasyfikację wiarygodności z wykorzystaniem uczenia ze wzmocnieniem]]'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">W trakcie prezentacji przedstawiony zostanie system XARELLO: generator przykładów antagonistycznych dla testowania odporności klasyfikacji tekstu, zbudowany na bazie uczenia ze wzmocnieniem. Rozwiązanie to jest adaptacyjne, ponieważ obserwuje sukcesy i porażki wykonywanych ataków i dostosowuje się do słabości klasyfikatora-ofiary. Taka procedura odzwierciedla długoterminowe i ustawiczne ataki, które są typowe dla aktorów rozprzestrzeniających dezinformację. Przedstawimy także wyniki ewaluacji pokazującej, że podejście adaptacyjne prowadzi do odnajdywania przykładów antagonistycznych o lepszej jakości i z mniejszą liczbą prób, szczególnie w atakach na duże modele językowe.|| |
Line 42: | Line 59: |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''12 lutego 2018'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Agnieszka Mykowiecka''', '''Aleksander Wawer''', '''Małgorzata Marciniak''', '''Piotr Rychlik''' (Instytut Podstaw Informatyki PAN)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=9QPldbRyIzU|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2018-02-12.pdf|Wykorzystanie semantyki dystrybucyjnej do oceny metaforyczności polskich fraz rzeczownikowych]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Na seminarium omówimy wektorowe modele języka skonstruowane dla polskiego w oparciu o lematy i formy słów oraz ich wykorzystanie w typowych zastosowaniach rozpoznawania synonimii i analogii między zadanymi parami słów. Następnie przedstawimy wykorzystanie wektorowych modeli do rozpoznawania metaforycznego i literalnego znaczenia fraz typu przymiotnik-rzeczownik (AN). Przedstawimy implementację oceniającą frazy izolowane oraz porównamy ją do metod opisanych w literaturze. Na koniec przedstawimy stan prac dotyczących rozpoznawania metaforycznego lub literalnego znaczenia frazy AN w kontekście zdaniowym.|| |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''17 lutego 2025'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Alicja Martinek''' (NASK, AGH), '''Ewelina Bartuzi-Trokielewicz''' (NASK, Politechnika Warszawska)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=rCzTBQYkooI|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2025-02-17.pdf|Detekcja deepfakes i fałszywych reklam poprzez analizę tekstu i technik manipulacyjnych]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Istniejące algorytmy wykrywania deepfake'ów często zawodzą w skutecznej identyfikacji materiałów stworzonych sztucznie. Te algorytmy koncentrują się głównie na technicznej analizie wideo i audio, często zaniedbując znaczenie samej treści. W niniejszym artykule przedstawiamy nowatorskie podejście, które kładzie nacisk na analizę transkryptów tekstowych, szczególnie tych pochodzących z reklam wygenerowanych przez AI, stawiając treść tekstową w centrum uwagi. Nasza metoda łączy cechy lingwistyczne, ocenę błędów gramatycznych oraz identyfikację technik manipulacyjnych powszechnie stosowanych w oszukańczych treściach. Poprzez badanie niezgodności stylistycznych oraz manipulacyjnych wzorców językowych, zwiększamy dokładność w rozróżnianiu między materiałami rzeczywistymi a deepfake'owymi. Aby zapewnić interpretowalność, zastosowaliśmy klasyczne modele uczenia maszynowego, co pozwoliło nam dostarczyć wyjaśnialne informacje na temat procesów decyzyjnych. Dodatkowo przeprowadziliśmy oceny zero-shot przy użyciu trzech dużych modeli językowych, aby ocenić ich wydajność w wykrywaniu treści deepfake. Wyniki eksperymentalne pokazują, że te czynniki dają dokładność na poziomie 90% w rozróżnianiu oszukańczych reklam opartych na deepfake od rzeczywistych. Dowodzi to skuteczności włączenia analizy opartej na treści do wykrywania deepfake'ów, oferując dodatkową warstwę w stosunku do istniejących technik audiowizualnych.|| |
Line 47: | Line 64: |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''26 lutego 2018'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Celina Heliasz''' (Uniwersytet Warszawski)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''[[attachment:seminarium-archiwum/2018-02-26.pdf|Tworzyć czy współtworzyć? O poszukiwaniu synergii między informatykami a lingwistami]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Główny temat mojego referatu stanowią metody prowadzenia badań z zakresu lingwistyki korpusowej, którą zajmują się obecnie zarówno informatycy, jak i lingwiści. W referacie zaprezentuję próby ustalania i wizualizowania relacji semantycznych w tekście, podejmowane przez informatyków w ramach projektów RST (Rhetorical Structure Theory) i PDTB (Penn Discourse Treebank), które następnie skontrastuję z analogicznymi próbami podjętymi przez informatyków i lingwistów w IPI PAN w ramach przedsięwzięcia CLARIN-PL. Celem referatu będzie przedstawienie uwarunkowań efektywnej analizy lingwistycznej, które muszą zostać wzięte pod uwagę przy projektowaniu narzędzi informatycznych, jeśli narzędzia te mają służyć prowadzeniu badań nad tekstem i wyprowadzaniu z nich mocnych podstaw teorii lingwistycznych, a nie tylko wdrażaniu gotowych teorii z tego zakresu.|| |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''24 marca 2025'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Maciej Rapacz''', '''Aleksander Smywiński-Pohl''' (AGH Akademia Górniczo-Hutnicza) || ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=FZzPMTa2cYA|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2025-03-24.pdf|Tłumaczenie interlinearne tekstów starogreckich: Jak znaczniki morfologiczne poprawiają jakość przekładu maszynowego]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}} {{attachment:seminarium-archiwum/icon-en.gif|Slajdy po angielsku.}}|| ||<style="border:0;padding-left:30px;padding-bottom:5px">Tłumaczenie interlinearne to specyficzna technika przekładu, w której każde słowo tekstu źródłowego otrzymuje swój odpowiednik w języku docelowym, umieszczany bezpośrednio pod nim lub nad nim, z zachowaniem oryginalnego szyku zdania. W przeciwieństwie do standardowych tłumaczeń, które dążą do naturalności i płynności wypowiedzi, przekład interlinearny skupia się na wiernym odwzorowaniu struktury gramatycznej i składniowej oryginału, nawet kosztem elegancji stylistycznej. Ta metoda jest szczególnie ceniona przez badaczy tekstów starożytnych, filologów oraz osoby uczące się języków, gdyż pozwala na bezpośredni wgląd w konstrukcję i znaczenie oryginalnego tekstu bez konieczności pełnego opanowania języka źródłowego.|| ||<style="border:0;padding-left:30px;padding-bottom:5px">W ramach badań przeprowadziliśmy pierwszą próbę zastosowania tłumaczenia maszynowego do generowania przekładów interlinearnych z greki starożytnej na język polski i angielski. Porównaliśmy wydajność modeli specjalistycznych (!GreTa, !PhilTa) pretrenowanych na tekstach starogreckich z wielojęzycznym modelem ogólnego zastosowania (mT5). Przebadaliśmy 144 różne konfiguracje modeli, modyfikując model bazowy, metodę kodowania znaczników morfologicznych, zestaw znaczników oraz podejście do normalizacji tekstu, wykorzystując jako korpus teksty greckiego Nowego Testamentu.|| ||<style="border:0;padding-left:30px;padding-bottom:15px">W trakcie wystąpienia przedstawimy przebieg naszych badań oraz omówimy uzyskane wyniki. Najlepsze rezultaty osiągnęły modele, w których zastosowaliśmy nowe dedykowane warstwy embeddingów do kodowania informacji morfologicznych, co pozwoliło uzyskać wyniki lepsze nawet o 35-38% (BLEU) w porównaniu ze scenariuszem bazowym. Dodatkowe szczegółowe badanie wykazało, że !PhilTa radzi sobie lepiej niż mT5, szczególnie w scenariuszach z ograniczoną dostępnością danych. !PhilTa osiągnęła najwyższe wyniki w tłumaczeniu na język angielski (60,40 BLEU), podczas gdy mT5-large najlepiej poradził sobie z językiem polskim (59,33 BLEU).|| |
Line 52: | Line 71: |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''9 kwietnia 2018'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Jan Kocoń''' (Politechnika Wrocławska)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=XgSyuWEHWhU|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2018-04-09.pdf|Rozpoznawanie wyrażeń temporalnych i opisów sytuacji w dokumentach tekstowych dla języka polskiego]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Wyrażeniem temporalnym nazywamy ciąg wyrazów, który informuje o tym, ''kiedy'', ''jak często'' sytuacja ma miejsce lub ''jak długo'' trwa. Opisy sytuacji to wyrażenia językowe, które sygnalizują zmianę stanu w opisie rzeczywistości oraz niektóre stany. Zagadnienia te wchodzą w zakres wydobywania informacji z tekstu (ang. Information Extraction). Są one dobrze zdefiniowane i opisane dla języka angielskiego oraz częściowo dla innych języków. Specyfikacja TimeML, której język opisu informacji temporalnej został zaakceptowany jako standard ISO, doczekała się oficjalnych adaptacji dla sześciu języków, a część dotycząca opisu wyrażeń temporalnych jest zdefiniowana dla jedenastu języków. Rezultatem prac, prowadzonych w ramach CLARIN-PL, jest adaptacja wytycznych TimeML dla języka polskiego. Motywacją do realizacji tego tematu był fakt, że z informacji temporalnej korzystają różne metody inżynierii języka naturalnego, w tym metody do odpowiadania na pytania zadawane w języku naturalnym, automatycznego streszczania tekstu, wydobywania relacji semantycznych i wiele innych. Metody te umożliwiają badaczom z dziedziny nauk humanistycznych i społecznych pracę z bardzo dużymi zbiorami tekstów, których analiza bez wykorzystania wymienionych metod byłaby bardzo czasochłonna, o ile w ogóle możliwa. Oprócz samej adaptacji języka opisu informacji temporalnej, kluczowym aspektem dla infrastruktury wykorzystującej metody do rozpoznawania wyrażeń temporalnych i opisów sytuacji, jest jakość oraz wydajność metod. Na prezentacji zostanie omówiona zarówno analiza jakości danych przygotowywanych przez ekspertów dziedzinowych (w tym analiza zgodności anotacji), jak i wyniki badań mających na celu redukcję złożoności obliczeniowej problemu przy jednoczesnym zachowaniu niepogorszonej jakości działania metod.|| |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''14 kwietnia 2025'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Ryszard Staruch''', '''Filip Graliński''' (Uniwersytet im. Adama Mickiewicza w Poznaniu)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''[[attachment:seminarium-archiwum/2025-04-14.pdf|Wykorzystanie wielkich modeli języka w zadaniu korekty tekstu]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Wielkie modele języka (LLM) są obecnie najskuteczniejszymi rozwiązaniami w wielu zadaniach przetwarzania języka naturalnego. Wciąż jednak nie wiadomo, jak dobrze radzą sobie z korektą tekstów w języku polskim. W celu zbadania ich efektywności opracowany został specjalistyczny zbiór danych korekty tekstu w języku polskim. Podczas wystąpienia zaprezentowany zostanie ten korpus oraz wyniki ewaluacji wybranych rozwiązań. W drugiej części seminarium omówione zostaną nowe techniki adaptacji wielkich modeli języka do zadania minimalnej korekty tekstów napisanych przez osoby uczące się języka – na przykładzie języka angielskiego.|| |
Line 57: | Line 76: |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''23 kwietnia 2018'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Włodzimierz Gruszczyński, Dorota Adamiec, Renata Bronikowska''' (Instytut Języka Polskiego PAN), '''Witold Kieraś, Dorota Komosińska, Marcin Woliński''' (Instytut Podstaw Informatyki PAN)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=APvZdALq6ZU|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2018-04-23.pdf|Korpus historyczny – problemy transliteracji, transkrypcji i anotacji na przykładzie Elektronicznego Korpusu Tekstów Polskich z XVII i XVIII w. (do 1772 r.)]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">W czasie seminarium omówiony zostanie proces powstawania Elektronicznego Korpusu Tekstów Polskich z XVII i XVIII w. (!KorBa, czyli Korpus Barokowy) ze szczególnym uwzględnieniem tych zadań i problemów, które nie występują w trakcie tworzenia korpusu współczesnych polskich tekstów (np. NKJP) lub różnią się w istotny sposób od analogicznych zadań i problemów występujących przy tworzeniu korpusów tekstów współczesnych. Poszczególne problemy omówione zostaną w kolejności ich pojawiania się w trakcie tworzenia korpusu. Przedstawimy także narzędzia, które powstały w trakcie realizacji projektu (stworzone na potrzeby projektu lub dostosowane do tych potrzeb). Po ogólnej prezentacji projektu !KorBa (założenia, finansowanie, zespół, stan obecny, przeznaczenie korpusu) omówione zostaną kwestie zasady doboru tekstów, problemy występujące przy pozyskiwaniu tekstów i włączaniu ich do bazy danych, problem ogromnego zróżnicowania ortograficznego tekstów i konieczność ich transkrypcji na współczesną ortografię, problemy analizy morfologicznej oraz narzędzia do ręcznego i automatycznego znakowania morfosyntaktycznego podkorpusu oraz przeszukiwania korpusu.|| |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''28 kwietnia 2025'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Manfred Stede''' (Universität Potsdam)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Discourse structure in the Potsdam Commentary Corpus: Human annotation, human disagreement, and automatic parsing'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienia w języku angielskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">The talk gives a brief introduction to Rhetorical Structure Theory (RST, [[https://www.sfu.ca/rst/05bibliographies/bibs/Mann_Thompson_1988.pdf|Mann/Thompson 1988]]) and then explains the design decisions for the Potsdam Commentary Corpus (PCC), which brings together RST, coreference, and other annotation layers on 175 German news editorials. After illustrating cross-layer queries on the corpus in the ANNIS linguistic database, we turn to the intricacies of manual RST annotation. I will give an overview of the annotation guidelines and their motivations, and present results from an (ongoing) study on annotator disagreements, from which we derive ideas for redesigning the annotation scheme (and potentially the underlying theory), with a comparison to the recent proposal of "eRST" by [[https://direct.mit.edu/coli/article/51/1/23/124464/eRST-A-Signaled-Graph-Theory-of-Discourse|Zeldes et al. (2024)]]. In the last part of the talk, I outline our results on automatic parsing using the system by [[https://aclanthology.org/P14-1002/|Ji and Eisenstein (2014)]].|| |
Line 62: | Line 81: |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''14 maja 2018'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Łukasz Kobyliński, Michał Wasiluk i Zbigniew Gawłowicz''' (Instytut Podstaw Informatyki PAN)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=QpmLVzqQfcM|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2018-05-14.pdf|MTAS: nowa wyszukiwarka korpusowa. Doświadczenia wdrożeniowe w kontekście polskich korpusów językowych]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Podczas seminarium omówimy nasze doświadczenia w kontekście języka polskiego z oprogramowaniem MTAS, które jest silnikiem przeszukiwania korpusów tekstowych. Przedstawimy dotychczasowe wdrożenia oprogramowania MTAS w takich projektach związanych z korpusami tekstowymi jak KORBA (korpus języka polskiego XVII i XVIII wieku), korpus XIX wieku, a także w przypadku Narodowego Korpusu Języka Polskiego. Omówimy również wstępne eksperymenty dotyczące wykorzystania oprogramowania MTAS w Korpusomacie – narzędziu do tworzenia własnych korpusów tekstowych. W trakcie prezentacji przedstawimy rozwiązania problemów, na które napotkaliśmy adaptując MTAS do wykorzystania w kontekście języka polskiego oraz wstępne wyniki testów wydajnościowych. Przedyskutujemy również możliwości wyszukiwania za pomocą tego silnika oraz plany dalszej adaptacji i rozwoju.|| |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''12 maja 2025''' ('''UWAGA: ''' wystąpienie odbędzie się o 12:00 w ramach [[https://ipipan.waw.pl/instytut/dzialalnosc-naukowa/seminaria/ogolnoinstytutowe|seminarium IPI PAN]])|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Maciej Ogrodniczuk''', '''Aleksandra Tomaszewska''', '''Bartosz Żuk''', '''Alina Wróblewska''' (Instytut Podstaw Informatyki PAN)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Tytuł wystąpienia (dot. modelu PLLuM) zostanie podany wkrótce'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienia w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Streszczenie wystąpienia udostępnimy w najbliższym czasie.|| |
Line 67: | Line 86: |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''21 maja 2018''' (prezentacja na seminarium IPI PAN)|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Piotr Borkowski''' (Instytut Podstaw Informatyki PAN)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=o2FFtfrqh3I|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2018-05-21.pdf|Metody semantycznej kategoryzacji w zadaniach analizy dokumentów tekstowych]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">W przygotowywanej pracy doktorskiej zatytułowanej „Metody semantycznej kategoryzacji w zadaniach analizy dokumentów tekstowych” zaproponowano oraz zbadano nowy algorytm semantycznej kategoryzacji dokumentów. Na jego podstawie opracowano nowy algorytm agregacji kategorii, rodzinę algorytmów semantycznych klasyfikatorów, a także heterogeniczny komitet klasyfikatorów (łączący algorytm semantycznej kategoryzacji i znanych dotąd klasyfikatorów). W ramach referatu przedstawię pokrótce ich koncepcję oraz wyniki badań ich skuteczności.|| |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''26 maja 2025'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Deniz Zeyrek''' (Middle East Technical University)|| ||<style="border:0;padding-left:30px;padding-bottom:15px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Tytuł wystąpienia zostanie podany wkrótce'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienia w języku angielskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:5px">Streszczenie wystąpienia udostępnimy w najbliższym czasie.|| |
Line 72: | Line 91: |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''28 maja 2018'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Krzysztof Wołk''' (Polsko-Japońska Akademia Technik Komputerowych)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=FyeVRSXbBOg|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2018-05-28.pdf|Eksploracja i wykorzystanie korpusów porównywalnych w tłumaczeniu maszynowym]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Problemem, który zostanie przedstawiony na seminarium, jest poprawa tłumaczenia maszynowego mowy z języka polskiego na angielski. Najpopularniejsze metodologie i narzędzia tłumaczenia nie są dobrze dostosowane do języka polskiego, a zatem wymagają adaptacji. Brakuje w zasobów językowych zarówno monolingwalnych jak i bilingwalnych dla języka polskiego. Dlatego głównym celem badania było opracowanie automatycznego zestawu narzędzi do przygotowywania zasobów tekstowych poprzez wydobywanie informacji z korpusów porównywalnych oraz prawie porównywalnych. Eksperymenty przeprowadzono głównie na swobodnej ludzkiej mowie, składającej się z wykładów, napisów do filmów, prac Parlamentu Europejskiego i tekstów Europejskiej Agencji Leków. Celem była rygorystyczna analiza problemów i poprawa jakości systemów bazowych, tj. dostosowanie technik i parametrów treningowych w celu zwiększenia wyniku Bilingual Evaluation Understudy (BLEU) w celu uzyskania maksymalnej wydajności. Kolejnym celem było stworzenie dodatkowych dwujęzycznych i jednojęzycznych zasobów tekstowych poprzez wykorzystanie dostępnych danych online oraz uzyskanie i wydobycie porównywalnych korpusów dla równoległych par zdań. Do tego zadania wykorzystano metodologię wykorzystującą maszynę wektorów pomocniczych i algorytm Needlemana-Wunscha wraz z łańcuchem specjalistycznych narzędzi.|| |
|
Line 77: | Line 92: |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''4 czerwca 2018'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Piotr Przybyła''' (University of Manchester)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''Wspomaganie przesiewania dokumentów w przeglądach systematycznych z użyciem uczenia maszynowego i eksploracji tekstu'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Przeglądy systematyczne, mające na celu zbiorczą analizę całej dostępnej literatury dotyczącej danego zagadnienia, są podstawowym narzędziem w badaniach medycznych. Ich najbardziej pracochłonny etap stanowi ręczne przesiewanie streszczeń tysięcy artykułów zwróconych przez wyszukiwarki w celu wskazania kilkudziesięciu rzeczywiście dotyczących wybranego tematu. Problem ten można przedstawić jako zadanie klasyfikacji dokumentów, i, przy wsparciu nienadzorowanych technik eksploracji tekstu, uzyskać znaczące przyspieszenie całego procesu. Prezentacja obejmie dostosowanie algorytmów uczenia maszynowego do specyfiki zadania, techniki wyszukiwania, wydobywania i wizualizacji tematów i pojęć w kolekcjach, wdrożenie systemu i ewaluację w NICE (National Institute for Health and Care Excellence), agencji opracowującej wytyczne dla służby zdrowia w Wielkiej Brytanii.|| |
|
Line 82: | Line 93: |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''11 czerwca 2018'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Danijel Korzinek''' (Polsko-Japońska Akademia Technik Komputerowych)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''Proces przygotowania korpusu mowy na podstawie nagrań Polskiej Kroniki Filmowej'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Na prezentacji zostanie omówiony proces tworzenia korpusu mowy oparty o nagrania z Polskiej Kroniki Filmowej, jaki stworzono w ramach projektu CLARIN-PL. Zasób ten jest niezwykle cenny ze względu na jego przydatność w badaniach lingwistycznych, szczególnie w kontekście mowy i języka historycznego. Za cel wybrano sobie okres w latach 1945–1960. W prezentacji zostaną omówione różne zagadnienia: od kwestii prawnych dotyczących uzyskania samych zasobów, do szczegółów technicznych dotyczących dostosowania narzędzi analizy mowy do tej nietypowej dziedziny.|| ||<style="border:0;padding-top:0px">Zapraszamy także do zapoznania się z [[http://nlp.ipipan.waw.pl/NLP-SEMINAR/previous-p.html|archiwum seminariów z lat 2000–15]] oraz [[http://zil.ipipan.waw.pl/seminarium-archiwum|listą wystąpień z lat 2015–17]].|| |
||<style="border:0;padding-top:15px">Zapraszamy także do zapoznania się z [[http://nlp.ipipan.waw.pl/NLP-SEMINAR/previous-p.html|archiwum seminariów z lat 2000–2015]] oraz [[http://zil.ipipan.waw.pl/seminarium-archiwum|listą wystąpień z lat 2015–2024]].|| |
Line 92: | Line 97: |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''7 października 2023'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Uczestnicy konkursu PolEval 2024''' || ||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Planowana seria prezentacji uczestników zadań PolEvalowych'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienia w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Lista wystąpień będzie dostępna wkrótce.|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''11 marca 2024'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Mateusz Krubiński''' (Uniwersytet Karola w Pradze)|| ||<style="border:0;padding-left:30px;padding-bottom:15px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Tytuł wystąpienia podamy wkrótce'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-top:15px;padding-bottom:5px">'''8 stycznia 2024''' (prezentacja wyników projektu DARIAH.Lab)|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Zespół projektu DARIAH.Lab''' (Instytut Podstaw Informatyki PAN)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''Tytuł wystąpienia poznamy wkrótce'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie po polsku.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Streszczenie wystąpienia udostępnimy w najbliższym czasie.|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''3 października 2022'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''...''' (...)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Tytuł wystąpienia podamy wkrótce'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Opis wystąpienia udostępnimy już niedługo.|| WOLNE TERMINY: ATLAS: Explaining abstractive summarization - Emilia Wiśnios? Albo coś z NASK-owych tematów dot. przetwarzania prawa? Czy to jest to samo? ||<style="border:0;padding-bottom:10px">'''UWAGA''': ze względu na zakaz wstępu do IPI PAN dla osób niezatrudnionych w Instytucie, w stacjonarnej części seminarium mogą brać udział tylko pracownicy IPI PAN i prelegenci (także zewnętrzni). Dla pozostałych uczestników seminarium będzie transmitowane – prosimy o korzystanie z linku przy tytule wystąpienia.|| Uczestnicy Akcji COST CA18231: Multi3Generation: Multi-task, Multilingual, Multi-modal Language Generation: – Marcin PAPRZYCKI (marcin.paprzycki@ibspan.waw.pl) – Maria GANZHA (m.ganzha@mini.pw.edu.pl) – Katarzyna WASIELEWSKA-MICHNIEWSKA (katarzyna.wasielewska@ibspan.waw.pl) ||<style="border:0;padding-top:5px;padding-bottom:5px">'''6 czerwca 2022'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Paula Czarnowska''' (University of Cambridge)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://teams.microsoft.com/l/meetup-join/19%3a06de5a6d7ed840f0a53c26bf62c9ec18%40thread.tacv2/1643554817614?context=%7b%22Tid%22%3a%220425f1d9-16b2-41e3-a01a-0c02a63d13d6%22%2c%22Oid%22%3a%22f5f2c910-5438-48a7-b9dd-683a5c3daf1e%22%7d|{{attachment:seminarium-archiwum/teams.png}}]] '''Tytuł wystąpienia podamy wkrótce'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Opis wystąpienia udostępnimy już niedługo.|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''2 kwietnia 2020'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Stan Matwin''' (Dalhousie University)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''Efficient training of word embeddings with a focus on negative examples'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}} {{attachment:seminarium-archiwum/icon-en.gif|Slajdy po angielsku.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">This presentation is based on our [[https://pdfs.semanticscholar.org/1f50/db5786913b43f9668f997fc4c97d9cd18730.pdf|AAAI 2018]] and [[https://aaai.org/ojs/index.php/AAAI/article/view/4683|AAAI 2019]] papers on English word embeddings. In particular, we examine the notion of “negative examples”, the unobserved or insignificant word-context co-occurrences, in spectral methods. we provide a new formulation for the word embedding problem by proposing a new intuitive objective function that perfectly justifies the use of negative examples. With the goal of efficient learning of embeddings, we propose a kernel similarity measure for the latent space that can effectively calculate the similarities in high dimensions. Moreover, we propose an approximate alternative to our algorithm using a modified Vantage Point tree and reduce the computational complexity of the algorithm with respect to the number of words in the vocabulary. We have trained various word embedding algorithms on articles of Wikipedia with 2.3 billion tokens and show that our method outperforms the state-of-the-art in most word similarity tasks by a good margin. We will round up our discussion with some general thought s about the use of embeddings in modern NLP.|| na [[https://www.youtube.com/ipipan|kanale YouTube]]. on [[https://www.youtube.com/ipipan|YouTube]]. Nowe typy: Aleksandra Gabryszak (DFKI Berlin): – https://aclanthology.org/people/a/aleksandra-gabryszak/ – https://www.researchgate.net/profile/Aleksandra-Gabryszak – miała tekst na warsztacie First Computing Social Responsibility Workshop (http://www.lrec-conf.org/proceedings/lrec2022/workshops/CSRNLP1/index.html) na LREC-u 2022: http://www.lrec-conf.org/proceedings/lrec2022/workshops/CSRNLP1/pdf/2022.csrnlp1-1.5.pdf Marcin Junczys-Dowmunt przy okazji świąt? Adam Jatowt? Piotrek Pęzik? Wrocław? Kwantyfikatory? MARCELL? Może Piotrek z Bartkiem? |
|
Line 96: | Line 165: |
Kto jeszcze? Może skorzystać z pieniędzy CLARIN-owych do zapraszania osób z całej Polski na seminaria? | |
Line 99: | Line 167: |
Michał Marcińczuk niebanalna lingwistycznie i informatycznie Kasia w związku z jej udziałem (i zwycięstwem) w zadaniu polevalowym? jeśli nie wypełni całego seminarium, to może Łukasz mógłby coś dopowiedzieć o tym zadaniu, ew. anotacji nowych danych? – Norbert o swoim zwycięstwie? – jakiś temat korbofleksowy? coś się działo w nowej Anotatorni, ale to może też można pokazać przy okazji tematu tagerowego – Witek obiecał, że opowiedzą w maju, – nowości w projekcie Aliny? |
|
Line 112: | Line 171: |
– Piotr Przybyła – pisałem, nie podjął tematu :) – Darek Cz. – pisałem |
|
Line 115: | Line 172: |
Temat: Proces przygotowania korpusu mowy na podstawie nagrań Polskiej Kroniki Filmowej | – jakieś wystąpienia PolEvalowe? |
Line 117: | Line 174: |
Opis: Na prezentacji zostanie omówiony proces tworzenia korpusu mowy oparty o nagrania z Polskiej Kroniki Filmowej, jaki stworzono w ramach projektu Clarin-PL. Zasób ten jest niezwykle cenny ze względu na jego przydatność w badaniach lingwistycznych, szczególnie w kontekście mowy i języka historycznego. Za cel wybrano sobie okres w latach 1945-1960. W prezentacji zostaną omówione różne zagadnienia: od kwestii prawnych dotyczących uzyskania samych zasobów, do szczegółów technicznych dotyczących dostosowania narzędzi analizy mowy do tej nietypowej dziedziny. | Tomek Dwojak i inni z https://zpjn.wmi.amu.edu.pl/seminar/? Będzie na Data Science Summit: Using topic modeling for differentiation based on Polish parliament plus person Aleksander Nosarzewski Statistician @ Citi Artykuł o GPT napisał Mateusz Litwin: https://www.linkedin.com/in/mateusz-litwin-06b3a919/ W OpenAI jest jeszcze https://www.linkedin.com/in/jakub-pachocki/ i https://www.linkedin.com/in/szymon-sidor-98164044/ |
Line 120: | Line 187: |
Title: Preparing a speech corpus using the recordings of the Polish Film Chronicle | Text data can be an invaluable source of information. In particular, what, how often and in which way we talk about given subjects can tell a lot about us. Unfortunately, manual scrambling through huge text datasets can be a cumbersome task. Luckily, there is a class of unsupervised models - topic models, which can perform this task for us, with very little input from our side. I will present how to use Structural Topic Model (STM) - an enhancement over popular LDA to obtain some kind of measure of differences between given groups or agents of interest, based on an example of Polish parliamentary speeches and political parties. |
Line 122: | Line 189: |
Description: The presentation will describe how a speech corpus based on the Polish Film Chronicle, a collection of short historical news segments, was created during the Clarin-PL project. This resource is an extremely useful tool for linguistic research, specifically in the context of historical speech and language. The years 1945-1960 were chosen for this purpose. The presentation will discuss various topics: from the legal issues of acquiring the resources, to more the more technical aspects of dealing with the adaptation of speech analysis tools to this, rather uncommon domain. | |
Line 124: | Line 190: |
28 V (LREC: 7-12 V) – Danijel Korzinek: Proces przygotowania korpusu mowy na podstawie nagrań Polskiej Kroniki Filmowej 11 VI (NAACL: 1-6 VI) – Krzysztof Wołk: Korpusy porównywalne jesień: – 1 października: prof. Bień: Elektroniczne indeksy leksykograficzne – jakieś wystąpienia PolEvalowe? – Marcin, Witek: Chronofleks – Krzysztof Wołk: NMT na subword units – Piotrek Pęzik obiecał coś wygłosić – Justyna Sarzyńska? – Marcin Junczys-Dowmunt przy okazji świąt? Tomek Dwojak i inni z https://zpjn.wmi.amu.edu.pl/seminar/? |
Seminarium „Przetwarzanie języka naturalnego” 2024–25
Seminarium Zespołu Inżynierii Lingwistycznej w Instytucie Podstaw Informatyki Polskiej Akademii Nauk odbywa się średnio co 2 tygodnie, zwykle w poniedziałki o godz. 10:15 (niekiedy online – prosimy o korzystanie z linku przy tytule wystąpienia) i ma charakter otwarty. Poszczególne referaty ogłaszane są na Polskiej Liście Językoznawczej oraz na stronie Lingwistyka komputerowa na Facebooku. Nagrania wystąpień dostępne są na kanale YouTube. |
7 października 2024 |
Janusz S. Bień (profesor emeritus Uniwersytetu Warszawskiego) |
|
Przetwarzanie tekstów wymaga ich zakodowania w odpowiednim standardzie, aktualnie praktyczne jedyną opcją jest standard Unicode. Niektóre czcionki stosowane w starodrukach są już uwzględnione w tym standardzie, niektóre są dostępne w specjalistycznych fontach za pomocą tzw. funkcji zecerskich. Niektóre czcionki, opisane w monumentalnym dziele „Polonia Typographica Saeculi Sedecimi”, nie mają jednak swoich odpowiedników w standardzie. W referacie omówię kilka takich czcionek. |
14 października 2024 |
Alexander Rosen (Uniwersytet Karola w Pradze) |
|
This study examines metrics of syntactic complexity (SC) and lexical diversity (LD) as tools for analyzing linguistic variation within and across languages. Using quantifiable measures based on cross-linguistically consistent (morpho)syntactic annotation (Universal Dependencies), the research utilizes parallel texts from a large multilingual corpus (InterCorp). Six SC and two LD metrics – covering the length and embedding levels of nominal and clausal constituents, mean dependency distance (MDD), and sentence length – are applied as metadata for sentences and texts. |
The presentation will address how these metrics can be visualized and incorporated into corpus queries, how they reflect structural differences across languages and text types, and whether SC and LD vary more across languages or text types. It will also consider the impact of language-specific annotation nuances and correlations among the measures. The analysis includes comparative examples from Polish, Czech, and other languages. |
Preliminary findings indicate higher SC in non-fiction compared to fiction across languages, with nominal and clausal metrics being dominant factors. The results suggest distinct patterns for MDD and sentence length, highlighting the impact of structural differences (e.g., analytic vs. synthetic morphology, dominant word-order patterns) and the influence of source text type and style. |
28 października 2024 |
Rafał Jaworski (Uniwersytet im. Adama Mickiewicza w Poznaniu) |
|
Podczas wystąpienia zreferuję moje badania naukowe z dziedziny przetwarzania języka naturalnego na potrzeby wspomagania tłumaczenia. Przedstawię w szczególności zestaw algorytmów Inter-language Vector Space służący do zrównoleglania zdań na poziomie słów i fraz wykorzystujących wielojęzyczne zanurzenia słów (word embeddings). |
Pierwszą funkcją zestawu jest generowanie reprezentacji wektorowych słów. Są one generowane przy użyciu sieci neuronowej typu auto-encoder na podstawie danych tekstowych – korpusu tekstu. W ten sposób powstają słowniki wektorowe dla poszczególnych języków. Reprezentacje wektorowe słów znajdujących się w tych słownikach stanowią przestrzenie wektorowe, które różnią się pomiędzy językami. |
Aby rozwiązać ten problem i uzyskać reprezentacje wektorowe słów, które byłyby porównywalne pomiędzy językami, stosuje się drugą funkcję zestawu Inter-language Vector Space. Służy on do zrównoleglania przestrzeni wektorowych pomiędzy językami z wykorzystaniem macierzy transformacji obliczanych metodą rozkładu według wartości osobliwych. Macierz ta jest obliczana na podstawie homonimów, tj. słów pisanych identycznie w języku przestrzeni X oraz Y. Dodatkowo, w celach wspomagających stosowany jest słownik dwujęzyczny. Obliczona w ten sposób macierz transformacji pozwala na dostosowanie przestrzeni X w taki sposób, aby w maksymalny możliwy sposób pokrywała się z przestrzenią Y. |
Ostatnia funkcja zestawu jest odpowiedzialna za stworzenie wielojęzycznej przestrzeni wektorowej. Do przestrzeni tej najpierw dodawana jest w całości i bez modyfikacji przestrzeń wektorowa dla języka angielskiego. Następnie, dla każdej innej przestrzeni wektorowej obliczana jest najpierw macierz transformacji tej przestrzeni do przestrzeni angielskiej. Wektory nowej przestrzeni są mnożone przez tę macierz i w ten sposób stają się porównywalne z wektorami reprezentującymi słowa angielskie. |
Zestaw algorytmów Inter-language Vector Space znajduje zastosowanie w systemach wspomagania tłumaczenia, na przykład w autorskim algorytmie automatycznego transferu znaczników nietłumaczonych ze zdania źródłowego do docelowego. |
4 listopada 2024 |
Jakub Kozakoszczak (Deutsche Telekom) |
ZIML: Język znaczników anotacyjnych do łatwego dopasowywania regeksami |
Przeszukiwanie regeksami warstwy anotacyjnej tekstu reprezentowanej wplecionymi znacznikami wymaga budowania wzorców, które szybko stają się nieczytelne i nie do utrzymania. Zupełnie niemożliwe jest stosowanie warunków na odległości wewnątrz tekstu, wydłużonych przez obecność tagów. Anotacja wydrębniona poza tekst co prawda zachowuje odległości, ale jest niewidoczna dla regeksów. |
Przedstawię język znaczników Zero Insertion Markup Language (ZIML), w którym każda kombinacja znaków i etykiet w zaanotowanym tekście jest reprezentowana przez pojedynczy „alloznak”, co zachowuje odległości wewnątrz dokumentu. Te same alloznaki wprowadzone są do regeksów w taki sposób, że zachowują pozycje dopasowań zwracanych przez standardowe silniki wyrażeń regularnych. W efekcie jedyną ingerencją w semantykę języka regeksów jest wzbogacenie jej o denotowanie etykiet przez dopasowanie alloznaków, które je reprezentują. |
Podam dowód poprawności tego przekształcenia i przedstawię implementację języka ZIML, w tym składnię dodawania odwołań do etykiet w treści wzorców. Omówię, w miarę możliwości czasowych, potencjalne zastosowania ZIML w językoznawstwie i przetwarzaniu języka naturalnego. Do zrozumienia prezentacji pomoże podstawowa wiedza na temat teorii modeli i wyszukiwania regeksami. |
21 listopada 2024 |
Christian Chiarcos (Uniwersytet w Augsburgu) |
|
Semantic technologies comprise a broad set of standards and technologies including aspects of knowledge representation, information management and computational inference. In this lecture, I will describe the application of knowledge representation standards to the realm of computational discourse, and especially, the annotation of discourse relations. In particular, this includes the formal modelling of discourse relations of different theoretical frameworks by means of modular, interlinked ontologies, the machine-readable edition of discourse marker inventories with OntoLex and techniques for the induction of discourse marker inventories. |
19 grudnia 2024 |
Piotr Przybyła (Uniwersytet Pompeu Fabry / Instytut Podstaw Informatyki PAN) |
|
W trakcie prezentacji przedstawiony zostanie system XARELLO: generator przykładów antagonistycznych dla testowania odporności klasyfikacji tekstu, zbudowany na bazie uczenia ze wzmocnieniem. Rozwiązanie to jest adaptacyjne, ponieważ obserwuje sukcesy i porażki wykonywanych ataków i dostosowuje się do słabości klasyfikatora-ofiary. Taka procedura odzwierciedla długoterminowe i ustawiczne ataki, które są typowe dla aktorów rozprzestrzeniających dezinformację. Przedstawimy także wyniki ewaluacji pokazującej, że podejście adaptacyjne prowadzi do odnajdywania przykładów antagonistycznych o lepszej jakości i z mniejszą liczbą prób, szczególnie w atakach na duże modele językowe. |
17 lutego 2025 |
Alicja Martinek (NASK, AGH), Ewelina Bartuzi-Trokielewicz (NASK, Politechnika Warszawska) |
|
Istniejące algorytmy wykrywania deepfake'ów często zawodzą w skutecznej identyfikacji materiałów stworzonych sztucznie. Te algorytmy koncentrują się głównie na technicznej analizie wideo i audio, często zaniedbując znaczenie samej treści. W niniejszym artykule przedstawiamy nowatorskie podejście, które kładzie nacisk na analizę transkryptów tekstowych, szczególnie tych pochodzących z reklam wygenerowanych przez AI, stawiając treść tekstową w centrum uwagi. Nasza metoda łączy cechy lingwistyczne, ocenę błędów gramatycznych oraz identyfikację technik manipulacyjnych powszechnie stosowanych w oszukańczych treściach. Poprzez badanie niezgodności stylistycznych oraz manipulacyjnych wzorców językowych, zwiększamy dokładność w rozróżnianiu między materiałami rzeczywistymi a deepfake'owymi. Aby zapewnić interpretowalność, zastosowaliśmy klasyczne modele uczenia maszynowego, co pozwoliło nam dostarczyć wyjaśnialne informacje na temat procesów decyzyjnych. Dodatkowo przeprowadziliśmy oceny zero-shot przy użyciu trzech dużych modeli językowych, aby ocenić ich wydajność w wykrywaniu treści deepfake. Wyniki eksperymentalne pokazują, że te czynniki dają dokładność na poziomie 90% w rozróżnianiu oszukańczych reklam opartych na deepfake od rzeczywistych. Dowodzi to skuteczności włączenia analizy opartej na treści do wykrywania deepfake'ów, oferując dodatkową warstwę w stosunku do istniejących technik audiowizualnych. |
24 marca 2025 |
Maciej Rapacz, Aleksander Smywiński-Pohl (AGH Akademia Górniczo-Hutnicza) |
|
Tłumaczenie interlinearne to specyficzna technika przekładu, w której każde słowo tekstu źródłowego otrzymuje swój odpowiednik w języku docelowym, umieszczany bezpośrednio pod nim lub nad nim, z zachowaniem oryginalnego szyku zdania. W przeciwieństwie do standardowych tłumaczeń, które dążą do naturalności i płynności wypowiedzi, przekład interlinearny skupia się na wiernym odwzorowaniu struktury gramatycznej i składniowej oryginału, nawet kosztem elegancji stylistycznej. Ta metoda jest szczególnie ceniona przez badaczy tekstów starożytnych, filologów oraz osoby uczące się języków, gdyż pozwala na bezpośredni wgląd w konstrukcję i znaczenie oryginalnego tekstu bez konieczności pełnego opanowania języka źródłowego. |
W ramach badań przeprowadziliśmy pierwszą próbę zastosowania tłumaczenia maszynowego do generowania przekładów interlinearnych z greki starożytnej na język polski i angielski. Porównaliśmy wydajność modeli specjalistycznych (GreTa, PhilTa) pretrenowanych na tekstach starogreckich z wielojęzycznym modelem ogólnego zastosowania (mT5). Przebadaliśmy 144 różne konfiguracje modeli, modyfikując model bazowy, metodę kodowania znaczników morfologicznych, zestaw znaczników oraz podejście do normalizacji tekstu, wykorzystując jako korpus teksty greckiego Nowego Testamentu. |
W trakcie wystąpienia przedstawimy przebieg naszych badań oraz omówimy uzyskane wyniki. Najlepsze rezultaty osiągnęły modele, w których zastosowaliśmy nowe dedykowane warstwy embeddingów do kodowania informacji morfologicznych, co pozwoliło uzyskać wyniki lepsze nawet o 35-38% (BLEU) w porównaniu ze scenariuszem bazowym. Dodatkowe szczegółowe badanie wykazało, że PhilTa radzi sobie lepiej niż mT5, szczególnie w scenariuszach z ograniczoną dostępnością danych. PhilTa osiągnęła najwyższe wyniki w tłumaczeniu na język angielski (60,40 BLEU), podczas gdy mT5-large najlepiej poradził sobie z językiem polskim (59,33 BLEU). |
14 kwietnia 2025 |
Ryszard Staruch, Filip Graliński (Uniwersytet im. Adama Mickiewicza w Poznaniu) |
|
Wielkie modele języka (LLM) są obecnie najskuteczniejszymi rozwiązaniami w wielu zadaniach przetwarzania języka naturalnego. Wciąż jednak nie wiadomo, jak dobrze radzą sobie z korektą tekstów w języku polskim. W celu zbadania ich efektywności opracowany został specjalistyczny zbiór danych korekty tekstu w języku polskim. Podczas wystąpienia zaprezentowany zostanie ten korpus oraz wyniki ewaluacji wybranych rozwiązań. W drugiej części seminarium omówione zostaną nowe techniki adaptacji wielkich modeli języka do zadania minimalnej korekty tekstów napisanych przez osoby uczące się języka – na przykładzie języka angielskiego. |
28 kwietnia 2025 |
Manfred Stede (Universität Potsdam) |
|
The talk gives a brief introduction to Rhetorical Structure Theory (RST, Mann/Thompson 1988) and then explains the design decisions for the Potsdam Commentary Corpus (PCC), which brings together RST, coreference, and other annotation layers on 175 German news editorials. After illustrating cross-layer queries on the corpus in the ANNIS linguistic database, we turn to the intricacies of manual RST annotation. I will give an overview of the annotation guidelines and their motivations, and present results from an (ongoing) study on annotator disagreements, from which we derive ideas for redesigning the annotation scheme (and potentially the underlying theory), with a comparison to the recent proposal of "eRST" by Zeldes et al. (2024). In the last part of the talk, I outline our results on automatic parsing using the system by Ji and Eisenstein (2014). |
12 maja 2025 (UWAGA: wystąpienie odbędzie się o 12:00 w ramach seminarium IPI PAN) |
Maciej Ogrodniczuk, Aleksandra Tomaszewska, Bartosz Żuk, Alina Wróblewska (Instytut Podstaw Informatyki PAN) |
|
Streszczenie wystąpienia udostępnimy w najbliższym czasie. |
26 maja 2025 |
Deniz Zeyrek (Middle East Technical University) |
Streszczenie wystąpienia udostępnimy w najbliższym czasie. |
Zapraszamy także do zapoznania się z archiwum seminariów z lat 2000–2015 oraz listą wystąpień z lat 2015–2024. |