Revision 898 as of 2024-10-21 12:36:50

Clear message
Locked History Actions

seminarium

Seminarium „Przetwarzanie języka naturalnego” 2024–25

Seminarium Zespołu Inżynierii LingwistycznejInstytucie Podstaw Informatyki Polskiej Akademii Nauk odbywa się średnio co 2 tygodnie, zwykle w poniedziałki o godz. 10:15 (niekiedy online – prosimy o korzystanie z linku przy tytule wystąpienia) i ma charakter otwarty. Poszczególne referaty ogłaszane są na Polskiej Liście Językoznawczej oraz na stronie Lingwistyka komputerowa na Facebooku. Nagrania wystąpień dostępne są na kanale YouTube.

seminar

7 października 2024

Janusz S. Bień (profesor emeritus Uniwersytetu Warszawskiego)

https://www.youtube.com/watch?v=2mLYixXC_Hw Identyfikacja czcionek w XVI-wiecznych drukach. Analiza przypadku  Wystąpienia w języku polskim.

Przetwarzanie tekstów wymaga ich zakodowania w odpowiednim standardzie, aktualnie praktyczne jedyną opcją jest standard Unicode. Niektóre czcionki stosowane w starodrukach są już uwzględnione w tym standardzie, niektóre są dostępne w specjalistycznych fontach za pomocą tzw. funkcji zecerskich. Niektóre czcionki, opisane w monumentalnym dziele „Polonia Typographica Saeculi Sedecimi”, nie mają jednak swoich odpowiedników w standardzie. W referacie omówię kilka takich czcionek.

14 października 2024

Alexander Rosen (Uniwersytet Karola w Pradze)

https://www.youtube.com/watch?v=E2ujmqt7Q2E Lexical and syntactic variability of languages and text genres. A corpus-based study  Wystąpienie w języku angielskim.

This study examines metrics of syntactic complexity (SC) and lexical diversity (LD) as tools for analyzing linguistic variation within and across languages. Using quantifiable measures based on cross-linguistically consistent (morpho)syntactic annotation (Universal Dependencies), the research utilizes parallel texts from a large multilingual corpus (InterCorp). Six SC and two LD metrics – covering the length and embedding levels of nominal and clausal constituents, mean dependency distance (MDD), and sentence length – are applied as metadata for sentences and texts.

The presentation will address how these metrics can be visualized and incorporated into corpus queries, how they reflect structural differences across languages and text types, and whether SC and LD vary more across languages or text types. It will also consider the impact of language-specific annotation nuances and correlations among the measures. The analysis includes comparative examples from Polish, Czech, and other languages.

Preliminary findings indicate higher SC in non-fiction compared to fiction across languages, with nominal and clausal metrics being dominant factors. The results suggest distinct patterns for MDD and sentence length, highlighting the impact of structural differences (e.g., analytic vs. synthetic morphology, dominant word-order patterns) and the influence of source text type and style.

28 października 2024 (UWAGA, seminarium odbędzie sie o godz. 12:00 i będzie połączone z seminarium instytutowym)

Rafał Jaworski (Uniwersytet Adama Mickiewicza w Poznaniu)

http://zil.ipipan.waw.pl/seminarium-online Modelowanie strukturalnych i semantycznych informacji lingwistycznych na potrzeby algorytmów analizy i przetwarzania języka naturalnego  Wystąpienie w języku polskim.

Podczas wystąpienia zreferuję moje badania naukowe z dziedziny przetwarzania języka naturalnego na potrzeby wspomagania tłumaczenia oraz badań lingwistycznych. Badanie te mają charakter interdyscyplinarny - stanowią wkład w informatykę techniczną oraz znajdują zastosowanie w lingwistyce.

Przedstawię w szczególności algorytmy zrównoleglania zdań na poziomie słów i fraz wykorzystujące wielojęzyczne zanurzenia słów (word embeddings). Opiszę autorski proces pozyskania i konwersji zanurzeń porównywalnych pomiędzy różnymi językami. Zanurzenia te znajdują zastosowanie w systemach wspomagania tłumaczenia, na przykład w autorskim algorytmie automatycznego transferu znaczników nietłumaczonych ze zdania źródłowego do docelowego. W nurcie badań nad wspomaganiem tłumaczenia znajduje się także algorytm optymalnego wyszukiwania konkordancji w pamięci tłumaczeń.

W nurcie badań nad wspomaganiem prac lingwistycznych przedstawię algorytm wspomagania anotacji tekstów pod kątem wybranych cech morfologicznych. Ponadto, opiszę algorytm wspomagania prac leksykograficznych, których celem było zbudowanie słownika tematyczno-chronologizacyjnego języka polskiego.

4 listopada 2024

Jakub Kozakoszczak (Deutsche Telekom)

http://zil.ipipan.waw.pl/seminarium-online ZIML: Język znaczników anotacyjnych do łatwego dopasowywania regeksami  Wystąpienie w języku angielskim.

Streszczenie wystąpienia pojawi się w najbliższym czasie.

21 listopada 2024

Christian Chiarcos (Uniwersytet w Augsburgu)

http://zil.ipipan.waw.pl/seminarium-online Tytuł wystąpienia udostępnimy już niedługo  Wystąpienie w języku angielskim.

Treść streszczenia podamy po jej przekazaniu przez prelegenta.

2 grudnia 2024

Uczestnicy warsztatu PolEval 2024

http://zil.ipipan.waw.pl/seminarium-online Prezentacja wyników warsztatu  Wystąpienie w języku polskim.

Szczegółowy program wystąpień będzie dostępny po rozstrzygnięciu konkursu.

19 grudnia 2024

Piotr Przybyła (Uniwersytet Pompeu Fabry / Instytut Podstaw Informatyki PAN)

http://zil.ipipan.waw.pl/seminarium-online Adaptacyjne ataki na klasyfikację wiarygodności z wykorzystaniem uczenia ze wzmocnieniem  Wystąpienie w języku angielskim.

Treść streszczenia podamy po jej przekazaniu przez prelegenta.

Zapraszamy także do zapoznania się z archiwum seminariów z lat 2000–2015 oraz listą wystąpień z lat 2015–2023.