Seminarium „Przetwarzanie języka naturalnego” 2024–25
Seminarium Zespołu Inżynierii Lingwistycznej w Instytucie Podstaw Informatyki Polskiej Akademii Nauk odbywa się średnio co 2 tygodnie, zwykle w poniedziałki o godz. 10:15 (niekiedy online – prosimy o korzystanie z linku przy tytule wystąpienia) i ma charakter otwarty. Poszczególne referaty ogłaszane są na Polskiej Liście Językoznawczej oraz na stronie Lingwistyka komputerowa na Facebooku. Nagrania wystąpień dostępne są na kanale YouTube. |
7 października 2024 |
Janusz S. Bień (profesor emeritus Uniwersytetu Warszawskiego) |
|
Przetwarzanie tekstów wymaga ich zakodowania w odpowiednim standardzie, aktualnie praktyczne jedyną opcją jest standard Unicode. Niektóre czcionki stosowane w starodrukach są już uwzględnione w tym standardzie, niektóre są dostępne w specjalistycznych fontach za pomocą tzw. funkcji zecerskich. Niektóre czcionki, opisane w monumentalnym dziele „Polonia Typographica Saeculi Sedecimi”, nie mają jednak swoich odpowiedników w standardzie. W referacie omówię kilka takich czcionek. |
14 października 2024 |
Alexander Rosen (Uniwersytet Karola w Pradze) |
|
Streszczenie wystąpienia pojawi się wkrótce. |
4 listopada 2024 |
Jakub Kozakoszczak (Deutsche Telekom) |
|
Streszczenie wystąpienia pojawi się w najbliższym czasie. |
21 listopada 2024 |
Christian Chiarcos (Uniwersytet w Augsburgu) |
Treść streszczenia podamy po jej przekazaniu przez prelegenta. |
2 grudnia 2024 |
Uczestnicy warsztatu PolEval 2024 |
Szczegółowy program wystąpień będzie dostępny po rozstrzygnięciu konkursu. |
Zapraszamy także do zapoznania się z archiwum seminariów z lat 2000–2015 oraz listą wystąpień z lat 2015–2023. |
7 października 2023
Uczestnicy konkursu PolEval 2024
Lista wystąpień będzie dostępna wkrótce.
11 marca 2024
Mateusz Krubiński (Uniwersytet Karola w Pradze)
8 stycznia 2024 (prezentacja wyników projektu DARIAH.Lab)
Zespół projektu DARIAH.Lab (Instytut Podstaw Informatyki PAN)
Tytuł wystąpienia poznamy wkrótce
Streszczenie wystąpienia udostępnimy w najbliższym czasie.
3 października 2022
... (...)
Opis wystąpienia udostępnimy już niedługo.
WOLNE TERMINY:
ATLAS: Explaining abstractive summarization - Emilia Wiśnios? Albo coś z NASK-owych tematów dot. przetwarzania prawa? Czy to jest to samo?
UWAGA: ze względu na zakaz wstępu do IPI PAN dla osób niezatrudnionych w Instytucie, w stacjonarnej części seminarium mogą brać udział tylko pracownicy IPI PAN i prelegenci (także zewnętrzni). Dla pozostałych uczestników seminarium będzie transmitowane – prosimy o korzystanie z linku przy tytule wystąpienia.
Uczestnicy Akcji COST CA18231: Multi3Generation: Multi-task, Multilingual, Multi-modal Language Generation: – Marcin PAPRZYCKI (marcin.paprzycki@ibspan.waw.pl) – Maria GANZHA (m.ganzha@mini.pw.edu.pl) – Katarzyna WASIELEWSKA-MICHNIEWSKA (katarzyna.wasielewska@ibspan.waw.pl)
6 czerwca 2022
Paula Czarnowska (University of Cambridge)
Opis wystąpienia udostępnimy już niedługo.
2 kwietnia 2020
Stan Matwin (Dalhousie University)
Efficient training of word embeddings with a focus on negative examples

This presentation is based on our AAAI 2018 and AAAI 2019 papers on English word embeddings. In particular, we examine the notion of “negative examples”, the unobserved or insignificant word-context co-occurrences, in spectral methods. we provide a new formulation for the word embedding problem by proposing a new intuitive objective function that perfectly justifies the use of negative examples. With the goal of efficient learning of embeddings, we propose a kernel similarity measure for the latent space that can effectively calculate the similarities in high dimensions. Moreover, we propose an approximate alternative to our algorithm using a modified Vantage Point tree and reduce the computational complexity of the algorithm with respect to the number of words in the vocabulary. We have trained various word embedding algorithms on articles of Wikipedia with 2.3 billion tokens and show that our method outperforms the state-of-the-art in most word similarity tasks by a good margin. We will round up our discussion with some general thought s about the use of embeddings in modern NLP.
na kanale YouTube. on YouTube.
Nowe typy:
Aleksandra Gabryszak (DFKI Berlin): – https://aclanthology.org/people/a/aleksandra-gabryszak/ – https://www.researchgate.net/profile/Aleksandra-Gabryszak – miała tekst na warsztacie First Computing Social Responsibility Workshop (http://www.lrec-conf.org/proceedings/lrec2022/workshops/CSRNLP1/index.html) na LREC-u 2022: http://www.lrec-conf.org/proceedings/lrec2022/workshops/CSRNLP1/pdf/2022.csrnlp1-1.5.pdf
Marcin Junczys-Dowmunt przy okazji świąt? Adam Jatowt? Piotrek Pęzik? Wrocław? Kwantyfikatory? MARCELL? Może Piotrek z Bartkiem?
Umówić się z Brylską, zapytać tę od okulografii, czy to jest PJN Agnieszka Kwiatkowska – zobaczyć ten jej tekst, moze też coś opowie? Ew. Kasia Brylska, Monika Płużyczka na seminarium? Marcin Napiórkowski z Karolem? Maciej Karpiński Demenko – dawno już ich nie było; można iść po kluczu HLT Days
MTAS? – NLP dla tekstów historycznych – Marcin/Witek? razem z KORBĄ, pokazać oba ręcznie znakowane korpusy i benchmarki na tagerach – maj, – może Wrocław mógłby coś pokazać? – pisałem do Maćka P.
– jakieś wystąpienia PolEvalowe?
Tomek Dwojak i inni z https://zpjn.wmi.amu.edu.pl/seminar/?
Będzie na Data Science Summit:
Using topic modeling for differentiation based on Polish parliament plus person Aleksander Nosarzewski Statistician @ Citi
Artykuł o GPT napisał Mateusz Litwin: https://www.linkedin.com/in/mateusz-litwin-06b3a919/ W OpenAI jest jeszcze https://www.linkedin.com/in/jakub-pachocki/ i https://www.linkedin.com/in/szymon-sidor-98164044/
Text data can be an invaluable source of information. In particular, what, how often and in which way we talk about given subjects can tell a lot about us. Unfortunately, manual scrambling through huge text datasets can be a cumbersome task. Luckily, there is a class of unsupervised models - topic models, which can perform this task for us, with very little input from our side. I will present how to use Structural Topic Model (STM) - an enhancement over popular LDA to obtain some kind of measure of differences between given groups or agents of interest, based on an example of Polish parliamentary speeches and political parties.
12 DATA 2017 (UWAGA: wystąpienie odbędzie się o 13:00 w ramach seminarium IPI PAN)
OSOBA (AFILIACJA)
Tytuł zostanie udostępniony w najbliższym czasie
Opis wystąpienia zostanie udostępniony wkrótce.
...

...