Seminarium „Przetwarzanie języka naturalnego” 2021–22
Seminarium Zespołu Inżynierii Lingwistycznej w Instytucie Podstaw Informatyki Polskiej Akademii Nauk odbywa się średnio co 2 tygodnie, zwykle w poniedziałki o godz. 10:15 (obecnie online – prosimy o korzystanie z linku przy tytule wystąpienia) i ma charakter otwarty. Poszczególne referaty ogłaszane są na Polskiej Liście Językoznawczej oraz na stronie Lingwistyka komputerowa na Facebooku. Nagrania wystąpień dostępne są na kanale YouTube. |
11 października 2021 (seminarium połączone z instytutowym) |
Adam Przepiórkowski (Instytut Podstaw Informatyki PAN, Uniwersytet Warszawski) |
O kwantyfikacji piszą prawie wszyscy semantycy i w prawie każdym tekście dotyczącym semantyki formalnej, lecz nikt i nigdy nie zaproponował pełnej analizy semantycznej zjawiska zilustrowanego niniejszym zdaniem. W zdaniu tym występują konstrukcje współrzędnie złożone składające się z wyrażeń kwantyfikatorowych pełniących różne funkcje w zdaniu: „prawie wszyscy semantycy i w prawie każdym tekście…” oraz „nikt i nigdy”. Konstrukcje takie są stosunkowo częste w języku polskim i występują także w innych językach słowiańskich oraz w pewnych językach sąsiadujących z językami słowiańskimi, np. w węgierskim. W niniejszym referacie zaproponuję analizę semantyczną takich konstrukcji opartą na pojęciu kwantyfikatorów uogólnionych (Mostowski; Lindström; Barwise i Cooper), a konkretnie — kwantyfikatorów poliadycznych (van Benthem; Keenan; Westerståhl). Do pełnego zrozumienia referatu powinno wystarczyć obycie z formułami logiki predykatów; wszystkie pojęcia lingwistyczne (w tym „konstrukcje współrzędnie złożone”, „funkcje w zdaniu”) i logiczne (w tym „kwantyfikatory uogólnione” i „kwantyfikatory poliadyczne”) zostaną wyjaśnione w referacie. |
18 października 2021 |
Przemysław Kazienko, Jan Kocoń (Politechnika Wrocławska) |
Wiele zadań z zakresu przetwarzania języka naturalnego, takich jak klasyfikacja tekstów obraźliwych czy emocjonalnych, ma z natury charakter subiektywny. Jest to duże wyzwanie, szczególnie w odniesieniu do procesu anotacji. Ludzie postrzegają treści w bardzo indywidualny sposób. Większość obecnie stosowanych procedur anotacji ma na celu osiągnięcie wysokiego poziomu zgodności. Większość istniejących metod uczenia maszynowego opiera się na uzgodnionych lub większościowych anotacjach. Jednakże, wytyczne dotyczące anotacji subiektywnych treści mogą ograniczać swobodę podejmowania decyzji przez anotatorów. Motywowani umiarkowaną zgodnością anotacji w zbiorach danych dotyczących obraźliwych i emocjonalnych treści, stawiamy hipotezę, że należy wprowadzić spersonalizowane podejście do tak subiektywnych zadań. Proponujemy nowe architektury głębokiego uczenia, które biorą pod uwagę nie tylko treść, ale również charakterystykę danego człowieka. Proponujemy różne podejścia do uczenia reprezentacji i przetwarzania danych o odbiorcach tekstów. Eksperymenty przeprowadziliśmy na czterech zestawach danych. Pierwsze trzy, to dyskusje z Wikipedii, anotowane takimi zjawiskami, jak atak, agresja i toksyczność. Czwarty zbiór to opinie anotowane dziesięcioma kategoriami emocji. Wszystkie nasze modele oparte o reprezentację człowieka znacząco poprawiają jakość predykcji w zadaniach subiektywnych, ocenianych z perspektywy jednostki. Dodatkowo, opracowaliśmy wymagania dotyczące procedur anotacji, personalizacji i przetwarzania treści, aby uczynić nasze rozwiązania zorientowanymi na człowieka. |
29 listopada 2021 (seminarium połączone z instytutowym) |
Piotr Przybyła (Instytut Podstaw Informatyki PAN) |
|
Automatyczna ocena wiarygodności tekstu jest ostatnio niezwykle popularnym zadaniem NLP, dla którego proponuje się wiele rozwiązań ewaluowanych na podstawie dokładności klasyfikacji. Tymczasem niewiele uwagi poświęca się scenariuszom wdrożenia tego typu modeli, które gwarantowałyby zgodne z oczekiwaniami ograniczenie rozprzestrzeniania się dezinformacji. W ramach wystąpienia przedstawione będą prace, w ramach których zaimplementowano dwa tego typu modele w formie rozszerzenia do przeglądarki internetowej i zbadano ich interakcję z użytkownikami, co pozwoliło odpowiedzieć na kilka ważnych pytań. Jak można skompresować duże modele klasyfikacji tekstu, aby wdrożyć je w środowisku o niewielkich zasobach? Jakie techniki wizualizacji i wyjaśniania modeli są najbardziej efektywne we współpracy z człowiekiem? Czy korzystanie z takich narzędzie w istocie zwiększa zdolność do rozpoznawania treści 'fake news'? |
20 grudnia 2021 |
Piotr Pęzik, Agnieszka Mikołajczyk, Adam Wawrzyński (Uniwersytet Łódzki / VoiceLab), Bartłomiej Nitoń, Maciej Ogrodniczuk (Instytut Podstaw Informatyki PAN) |
Zastosowania (pl)T5 w międzydziedzinowym wykrywaniu tematów |
Tematem wystąpienia jest ewaluacja zastosowań polskiej wersji modelu językowego T5 (plT5) w wydobywaniu słów kluczowych z krótkich tekstów. Autorzy opisują trening i testy modelu na opracowanym w ramach projektu CURLICAT Otwartym Korpusie Metadanych Nauki Polskiej. Porównana zostanie jakość słów kluczowych generowanych czterema różnymi metodami: a) plT5 jako model text-to-text, b) extremeText jako klasyfikator z nadzorem, c) TermoPL jako metoda ekstrakcji terminologii oraz d) KeyBERT jako alternatywny model transformerowy. Zilustrowana zostanie również nieoczekiwana przenośność wytrenowanego modelu plT5 do domen tematycznych niezwiązanych z korpusem streszczeń artykułów naukowych, takich jak teksty informacyjne, czy też transkrypcje dialogów telefonicznych. |
31 stycznia 2022 |
Tomasz Limisiewicz (Uniwersytet Karola w Pradze) |
Interpreting and Controlling Linguistic Features in Neural Networks’ Representations |
Opis wystąpienia zostanie udostępniony wkrótce. |
Zapraszamy także do zapoznania się z archiwum seminariów z lat 2000–2015 oraz listą wystąpień z lat 2015–2020. |
KOLEJNE TERMINY:
29 listopada 2021
6 grudnia 2021
20 grudnia 2021
17 stycznia 2022
31 stycznia 2022
14 lutego 2022
28 lutego 2022
14 marca 2022
28 marca 2022
11 kwietnia 2022
25 kwietnia 2022
9 maja 2022
23 maja 2022 – UWAGA, LREC 20–25 maja
6 czerwca 2022
20 czerwca 2022
UWAGA: ze względu na zakaz wstępu do IPI PAN dla osób niezatrudnionych w Instytucie, w stacjonarnej części seminarium mogą brać udział tylko pracownicy IPI PAN i prelegenci (także zewnętrzni). Dla pozostałych uczestników seminarium będzie transmitowane – prosimy o korzystanie z linku przy tytule wystąpienia.
w siedzibie IPI PAN (ul. Jana Kazimierza 5, Warszawa)
Pomysły na seminarium na bazie tekstów z EMNLP Findings: – Ewa Szymańska: https://www.aclweb.org/anthology/2020.emnlp-main.217/ – Olga Majewska: https://www.aclweb.org/anthology/2020.deelio-1.5/ – Marta Kwiatkowska: https://www.aclweb.org/anthology/2020.findings-emnlp.266/
https://www.aclweb.org/anthology/2020.findings-emnlp.295.pdf
Uczestnicy Akcji COST CA18231: Multi3Generation: Multi-task, Multilingual, Multi-modal Language Generation: – Marcin PAPRZYCKI (marcin.paprzycki@ibspan.waw.pl) – Maria GANZHA (m.ganzha@mini.pw.edu.pl) – Katarzyna WASIELEWSKA-MICHNIEWSKA (katarzyna.wasielewska@ibspan.waw.pl)
2 kwietnia 2020
Stan Matwin (Dalhousie University)
Efficient training of word embeddings with a focus on negative examples

This presentation is based on our AAAI 2018 and AAAI 2019 papers on English word embeddings. In particular, we examine the notion of “negative examples”, the unobserved or insignificant word-context co-occurrences, in spectral methods. we provide a new formulation for the word embedding problem by proposing a new intuitive objective function that perfectly justifies the use of negative examples. With the goal of efficient learning of embeddings, we propose a kernel similarity measure for the latent space that can effectively calculate the similarities in high dimensions. Moreover, we propose an approximate alternative to our algorithm using a modified Vantage Point tree and reduce the computational complexity of the algorithm with respect to the number of words in the vocabulary. We have trained various word embedding algorithms on articles of Wikipedia with 2.3 billion tokens and show that our method outperforms the state-of-the-art in most word similarity tasks by a good margin. We will round up our discussion with some general thought s about the use of embeddings in modern NLP.
na kanale YouTube. on YouTube.
Proponowane daty seminarów 2020-21: 1 lutego – Filip Graliński: Kleister 15 lutego 1 marca 15 marca 29 marca 12 kwietnia 26 kwietnia 10 maja 24 maja 7 czerwca 21 czerwca
Marcin Junczys-Dowmunt przy okazji świąt? Adam Jatowt? Piotrek Pęzik? Wrocław? Kwantyfikatory? MARCELL? Może Piotrek z Bartkiem?
Umówić się z Brylską, zapytać tę od okulografii, czy to jest PJN Agnieszka Kwiatkowska – zobaczyć ten jej tekst, moze też coś opowie? Ew. Kasia Brylska, Monika Płużyczka na seminarium? Marcin Napiórkowski z Karolem? Maciej Karpiński Demenko – dawno już ich nie było; można iść po kluczu HLT Days
MTAS? – NLP dla tekstów historycznych – Marcin/Witek? razem z KORBĄ, pokazać oba ręcznie znakowane korpusy i benchmarki na tagerach – maj, – może Wrocław mógłby coś pokazać? – pisałem do Maćka P.
– jakieś wystąpienia PolEvalowe?
Tomek Dwojak i inni z https://zpjn.wmi.amu.edu.pl/seminar/?
Będzie na Data Science Summit:
Using topic modeling for differentiation based on Polish parliament plus person Aleksander Nosarzewski Statistician @ Citi
Artykuł o GPT napisał Mateusz Litwin: https://www.linkedin.com/in/mateusz-litwin-06b3a919/ W OpenAI jest jeszcze https://www.linkedin.com/in/jakub-pachocki/ i https://www.linkedin.com/in/szymon-sidor-98164044/
Text data can be an invaluable source of information. In particular, what, how often and in which way we talk about given subjects can tell a lot about us. Unfortunately, manual scrambling through huge text datasets can be a cumbersome task. Luckily, there is a class of unsupervised models - topic models, which can perform this task for us, with very little input from our side. I will present how to use Structural Topic Model (STM) - an enhancement over popular LDA to obtain some kind of measure of differences between given groups or agents of interest, based on an example of Polish parliamentary speeches and political parties.
12 DATA 2017 (UWAGA: wystąpienie odbędzie się o 13:00 w ramach seminarium IPI PAN)
OSOBA (AFILIACJA)
Tytuł zostanie udostępniony w najbliższym czasie
Opis wystąpienia zostanie udostępniony wkrótce.
...

...