Locked History Actions

Diff for "seminarium"

Differences between revisions 905 and 1001 (spanning 96 versions)
Revision 905 as of 2024-10-30 11:01:12
Size: 20783
Comment:
Revision 1001 as of 2025-08-18 22:41:31
Size: 10224
Comment:
Deletions are marked like this. Additions are marked like this.
Line 2: Line 2:
= Seminarium „Przetwarzanie języka naturalnego” 2024–25 = = Seminarium „Przetwarzanie języka naturalnego” 2025–26 =
Line 4: Line 4:
||<style="border:0;padding-bottom:10px">Seminarium [[http://nlp.ipipan.waw.pl/|Zespołu Inżynierii Lingwistycznej]] w&nbsp;[[http://www.ipipan.waw.pl/|Instytucie Podstaw Informatyki]] [[http://www.pan.pl/|Polskiej Akademii Nauk]] odbywa się średnio co 2 tygodnie, zwykle w&nbsp;poniedziałki o&nbsp;godz.&nbsp;10:15 (niekiedy online – prosimy o korzystanie z linku przy tytule wystąpienia) i&nbsp;ma charakter otwarty. Poszczególne referaty ogłaszane są na [[http://lists.nlp.ipipan.waw.pl/mailman/listinfo/ling|Polskiej Liście Językoznawczej]] oraz na stronie [[https://www.facebook.com/lingwistyka.komputerowa|Lingwistyka komputerowa]] na Facebooku. Nagrania wystąpień dostępne są na [[https://www.youtube.com/ipipan|kanale YouTube]].||<style="border:0;padding-left:30px;">[[seminar|{{attachment:seminarium-archiwum/en.png}}]]|| ||<style="border:0;padding-bottom:10px">Nowa edycja seminarium [[http://nlp.ipipan.waw.pl/|Zespołu Inżynierii Lingwistycznej]] w&nbsp;[[http://www.ipipan.waw.pl/|Instytucie Podstaw Informatyki]] [[http://www.pan.pl/|Polskiej Akademii Nauk]] rozpocznie się w październiku 2025 r. Seminarium odbywa się średnio co 2 tygodnie, zwykle w&nbsp;poniedziałki o&nbsp;godz.&nbsp;10:15 (niekiedy online – prosimy o korzystanie z linku przy tytule wystąpienia) i&nbsp;ma charakter otwarty. Poszczególne referaty ogłaszane są na [[http://lists.nlp.ipipan.waw.pl/mailman/listinfo/ling|Polskiej Liście Językoznawczej]] oraz na stronie [[https://www.facebook.com/lingwistyka.komputerowa|Lingwistyka komputerowa]] na Facebooku. Nagrania wystąpień dostępne są na [[https://www.youtube.com/ipipan|kanale YouTube]].||<style="border:0;padding-left:30px;">[[seminar|{{attachment:seminarium-archiwum/en.png}}]]||
Line 6: Line 6:
||<style="border:0;padding-top:5px;padding-bottom:5px">'''7 października 2024'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Janusz S. Bień''' (profesor emeritus Uniwersytetu Warszawskiego) ||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=2mLYixXC_Hw|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2024-10-07.pdf|Identyfikacja czcionek w XVI-wiecznych drukach. Analiza przypadku]]''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienia w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Przetwarzanie tekstów wymaga ich zakodowania w odpowiednim standardzie, aktualnie praktyczne jedyną opcją jest standard Unicode. Niektóre czcionki stosowane w starodrukach są już uwzględnione w tym standardzie, niektóre są dostępne w specjalistycznych fontach za pomocą tzw. funkcji zecerskich. Niektóre czcionki, opisane w monumentalnym dziele „[[https://crispa.uw.edu.pl/object/files/754258/display/Default|Polonia Typographica Saeculi Sedecimi]]”, nie mają jednak swoich odpowiedników w standardzie. W referacie omówię kilka takich czcionek.||

||<style="border:0;padding-top:5px;padding-bottom:5px">'''14 października 2024'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Alexander Rosen''' (Uniwersytet Karola w Pradze)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=E2ujmqt7Q2E|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2024-10-14.pdf|Lexical and syntactic variability of languages and text genres. A corpus-based study]]''' &#160;{{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:5px">This study examines metrics of syntactic complexity (SC) and lexical diversity (LD) as tools for analyzing linguistic variation within and across languages. Using quantifiable measures based on cross-linguistically consistent (morpho)syntactic annotation ([[https://universaldependencies.org/|Universal Dependencies]]), the research utilizes parallel texts from a large multilingual corpus ([[https://wiki.korpus.cz/doku.php/en:cnk:intercorp:verze16ud|InterCorp]]). Six SC and two LD metrics – covering the length and embedding levels of nominal and clausal constituents, mean dependency distance (MDD), and sentence length – are applied as metadata for sentences and texts.||
||<style="border:0;padding-left:30px;padding-bottom:5px">The presentation will address how these metrics can be visualized and incorporated into corpus queries, how they reflect structural differences across languages and text types, and whether SC and LD vary more across languages or text types. It will also consider the impact of language-specific annotation nuances and correlations among the measures. The analysis includes comparative examples from Polish, Czech, and other languages.||
||<style="border:0;padding-left:30px;padding-bottom:15px">Preliminary findings indicate higher SC in non-fiction compared to fiction across languages, with nominal and clausal metrics being dominant factors. The results suggest distinct patterns for MDD and sentence length, highlighting the impact of structural differences (e.g., analytic vs. synthetic morphology, dominant word-order patterns) and the influence of source text type and style.||

||<style="border:0;padding-top:5px;padding-bottom:5px">'''28 października 2024'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Rafał Jaworski''' (Uniwersytet im. Adama Mickiewicza w Poznaniu)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=52LZ976imBA|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2024-10-28.pdf|Zestaw algorytmów zrównoleglania i przechowywania wielojęzycznych zanurzeń słów na potrzeby obliczania prawdopodobieństwa tłumaczenia]]''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:5px">Podczas wystąpienia zreferuję moje badania naukowe z dziedziny przetwarzania języka naturalnego na potrzeby wspomagania tłumaczenia. Przedstawię w szczególności zestaw algorytmów ''Inter-language Vector Space'' służący do zrównoleglania zdań na poziomie słów i fraz wykorzystujących wielojęzyczne zanurzenia słów (''word embeddings'').||
||<style="border:0;padding-left:30px;padding-bottom:5px">Pierwszą funkcją zestawu jest generowanie reprezentacji wektorowych słów. Są one generowane przy użyciu sieci neuronowej typu ''auto-encoder'' na podstawie danych tekstowych – korpusu tekstu. W ten sposób powstają słowniki wektorowe dla poszczególnych języków. Reprezentacje wektorowe słów znajdujących się w tych słownikach stanowią przestrzenie wektorowe, które różnią się pomiędzy językami.||
||<style="border:0;padding-left:30px;padding-bottom:5px">Aby rozwiązać ten problem i uzyskać reprezentacje wektorowe słów, które byłyby porównywalne pomiędzy językami, stosuje się drugą funkcję zestawu ''Inter-language Vector Space''. Służy on do zrównoleglania przestrzeni wektorowych pomiędzy językami z wykorzystaniem macierzy transformacji obliczanych metodą rozkładu według wartości osobliwych. Macierz ta jest obliczana na podstawie homonimów, tj. słów pisanych identycznie w języku przestrzeni X oraz Y. Dodatkowo, w celach wspomagających stosowany jest słownik dwujęzyczny. Obliczona w ten sposób macierz transformacji pozwala na dostosowanie przestrzeni X w taki sposób, aby w maksymalny możliwy sposób pokrywała się z przestrzenią Y. ||
||<style="border:0;padding-left:30px;padding-bottom:5px">Ostatnia funkcja zestawu jest odpowiedzialna za stworzenie wielojęzycznej przestrzeni wektorowej. Do przestrzeni tej najpierw dodawana jest w całości i bez modyfikacji przestrzeń wektorowa dla języka angielskiego. Następnie, dla każdej innej przestrzeni wektorowej obliczana jest najpierw macierz transformacji tej przestrzeni do przestrzeni angielskiej. Wektory nowej przestrzeni są mnożone przez tę macierz i w ten sposób stają się porównywalne z wektorami reprezentującymi słowa angielskie.||
||<style="border:0;padding-left:30px;padding-bottom:15px">Zestaw algorytmów ''Inter-language Vector Space'' znajduje zastosowanie w systemach wspomagania tłumaczenia, na przykład w autorskim algorytmie automatycznego transferu znaczników nietłumaczonych ze zdania źródłowego do docelowego.||

||<style="border:0;padding-top:5px;padding-bottom:5px">'''4 listopada 2024'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Jakub Kozakoszczak''' (Deutsche Telekom)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''ZIML: Język znaczników anotacyjnych do łatwego dopasowywania regeksami''' &#160;{{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:5px">Przeszukiwanie regeksami warstwy anotacyjnej tekstu reprezentowanej wplecionymi znacznikami wymaga budowania wzorców, które szybko stają się nieczytelne i nie do utrzymania. Zupełnie niemożliwe jest stosowanie warunków na odległości wewnątrz tekstu, wydłużonych przez obecność tagów. Anotacja wydrębniona poza tekst co prawda zachowuje odległości, ale jest niewidoczna dla regeksów.||
||<style="border:0;padding-left:30px;padding-bottom:5px">Przedstawię język znaczników Zero Insertion Markup Language (ZIML), w którym każda kombinacja znaków i etykiet w zaanotowanym tekście jest reprezentowana przez pojedynczy „alloznak”, co zachowuje odległości wewnątrz dokumentu. Te same alloznaki wprowadzone są do regeksów w taki sposób, że zachowują pozycje dopasowań zwracanych przez standardowe silniki wyrażeń regularnych. W efekcie jedyną ingerencją w semantykę języka regeksów jest wzbogacenie jej o denotowanie etykiet przez dopasowanie alloznaków, które je reprezentują.||
||<style="border:0;padding-left:30px;padding-bottom:15px">Podam dowód poprawności tego przekształcenia i przedstawię implementację języka ZIML, w tym składnię dodawania odwołań do etykiet w treści wzorców. Omówię, w miarę możliwości czasowych, potencjalne zastosowania ZIML w językoznawstwie i przetwarzaniu języka naturalnego. Do zrozumienia prezentacji pomoże podstawowa wiedza na temat teorii modeli i wyszukiwania regeksami.||

||<style="border:0;padding-top:5px;padding-bottom:5px">'''21 listopada 2024'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Christian Chiarcos''' (Uniwersytet w Augsburgu)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Tytuł wystąpienia udostępnimy już niedługo''' &#160;{{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Treść streszczenia podamy po jej przekazaniu przez prelegenta.||

||<style="border:0;padding-top:5px;padding-bottom:5px">'''2 grudnia 2024'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Uczestnicy warsztatu !PolEval 2024'''||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Prezentacja wyników warsztatu''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Szczegółowy program wystąpień będzie dostępny po rozstrzygnięciu konkursu.||

||<style="border:0;padding-top:5px;padding-bottom:5px">'''19 grudnia 2024'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Piotr Przybyła''' (Uniwersytet Pompeu Fabry / Instytut Podstaw Informatyki PAN)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Adaptacyjne ataki na klasyfikację wiarygodności z wykorzystaniem uczenia ze wzmocnieniem''' &#160;{{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Treść streszczenia podamy po jej przekazaniu przez prelegenta.||

||<style="border:0;padding-top:15px">Zapraszamy także do zapoznania się z [[http://nlp.ipipan.waw.pl/NLP-SEMINAR/previous-p.html|archiwum seminariów z lat 2000–2015]] oraz [[http://zil.ipipan.waw.pl/seminarium-archiwum|listą wystąpień z lat 2015–2023]].||
||<style="border:0;padding-top:15px">Zapraszamy także do zapoznania się z [[http://nlp.ipipan.waw.pl/NLP-SEMINAR/previous-p.html|archiwum seminariów z lat 2000–2015]] oraz [[http://zil.ipipan.waw.pl/seminarium-archiwum|listą wystąpień z lat 2015–2025]].||

Seminarium „Przetwarzanie języka naturalnego” 2025–26

Nowa edycja seminarium Zespołu Inżynierii LingwistycznejInstytucie Podstaw Informatyki Polskiej Akademii Nauk rozpocznie się w październiku 2025 r. Seminarium odbywa się średnio co 2 tygodnie, zwykle w poniedziałki o godz. 10:15 (niekiedy online – prosimy o korzystanie z linku przy tytule wystąpienia) i ma charakter otwarty. Poszczególne referaty ogłaszane są na Polskiej Liście Językoznawczej oraz na stronie Lingwistyka komputerowa na Facebooku. Nagrania wystąpień dostępne są na kanale YouTube.

seminar

Zapraszamy także do zapoznania się z archiwum seminariów z lat 2000–2015 oraz listą wystąpień z lat 2015–2025.