Locked History Actions

seminarium

Seminarium „Przetwarzanie języka naturalnego” 2021–22

Seminarium Zespołu Inżynierii LingwistycznejInstytucie Podstaw Informatyki Polskiej Akademii Nauk odbywa się średnio co 2 tygodnie, zwykle w poniedziałki o godz. 10:15 (obecnie online – prosimy o korzystanie z linku przy tytule wystąpienia) i ma charakter otwarty. Poszczególne referaty ogłaszane są na Polskiej Liście Językoznawczej oraz na stronie Lingwistyka komputerowa na Facebooku. Nagrania wystąpień dostępne są na kanale YouTube.

seminar

11 października 2021 (seminarium połączone z instytutowym)

Adam Przepiórkowski (Instytut Podstaw Informatyki PAN, Uniwersytet Warszawski)

Kwantyfikatory a sprawa polska  Wystąpienie w języku polskim.

O kwantyfikacji piszą prawie wszyscy semantycy i w prawie każdym tekście dotyczącym semantyki formalnej, lecz nikt i nigdy nie zaproponował pełnej analizy semantycznej zjawiska zilustrowanego niniejszym zdaniem. W zdaniu tym występują konstrukcje współrzędnie złożone składające się z wyrażeń kwantyfikatorowych pełniących różne funkcje w zdaniu: „prawie wszyscy semantycy i w prawie każdym tekście…” oraz „nikt i nigdy”. Konstrukcje takie są stosunkowo częste w języku polskim i występują także w innych językach słowiańskich oraz w pewnych językach sąsiadujących z językami słowiańskimi, np. w węgierskim. W niniejszym referacie zaproponuję analizę semantyczną takich konstrukcji opartą na pojęciu kwantyfikatorów uogólnionych (Mostowski; Lindström; Barwise i Cooper), a konkretnie — kwantyfikatorów poliadycznych (van Benthem; Keenan; Westerståhl). Do pełnego zrozumienia referatu powinno wystarczyć obycie z formułami logiki predykatów; wszystkie pojęcia lingwistyczne (w tym „konstrukcje współrzędnie złożone”, „funkcje w zdaniu”) i logiczne (w tym „kwantyfikatory uogólnione” i „kwantyfikatory poliadyczne”) zostaną wyjaśnione w referacie.

18 października 2021

Przemysław Kazienko, Jan Kocoń (Politechnika Wrocławska)

https://www.youtube.com/watch?v=mvjO4R1r6gM Spersonalizowane przetwarzanie języka naturalnego  Wystąpienie w języku angielskim.

Wiele zadań z zakresu przetwarzania języka naturalnego, takich jak klasyfikacja tekstów obraźliwych czy emocjonalnych, ma z natury charakter subiektywny. Jest to duże wyzwanie, szczególnie w odniesieniu do procesu anotacji. Ludzie postrzegają treści w bardzo indywidualny sposób. Większość obecnie stosowanych procedur anotacji ma na celu osiągnięcie wysokiego poziomu zgodności. Większość istniejących metod uczenia maszynowego opiera się na uzgodnionych lub większościowych anotacjach. Jednakże, wytyczne dotyczące anotacji subiektywnych treści mogą ograniczać swobodę podejmowania decyzji przez anotatorów. Motywowani umiarkowaną zgodnością anotacji w zbiorach danych dotyczących obraźliwych i emocjonalnych treści, stawiamy hipotezę, że należy wprowadzić spersonalizowane podejście do tak subiektywnych zadań. Proponujemy nowe architektury głębokiego uczenia, które biorą pod uwagę nie tylko treść, ale również charakterystykę danego człowieka. Proponujemy różne podejścia do uczenia reprezentacji i przetwarzania danych o odbiorcach tekstów. Eksperymenty przeprowadziliśmy na czterech zestawach danych. Pierwsze trzy, to dyskusje z Wikipedii, anotowane takimi zjawiskami, jak atak, agresja i toksyczność. Czwarty zbiór to opinie anotowane dziesięcioma kategoriami emocji. Wszystkie nasze modele oparte o reprezentację człowieka znacząco poprawiają jakość predykcji w zadaniach subiektywnych, ocenianych z perspektywy jednostki. Dodatkowo, opracowaliśmy wymagania dotyczące procedur anotacji, personalizacji i przetwarzania treści, aby uczynić nasze rozwiązania zorientowanymi na człowieka.

8 listopada 2021

Ryszard Tuora, Łukasz Kobyliński (Instytut Podstaw Informatyki PAN)

https://www.youtube.com/watch?v=KeeVWXXQlw8 Wykorzystanie analizy zależnościowej w automatycznej odmianie wyrażeń wielowyrazowych dla języka polskiego  Wystąpienie w języku polskim.

Generowanie języka naturalnego dla języków o bogatej morfologii może zyskać na automatycznych systemach do odmiany słów. W tej pracy prezentujemy system, który potrafi radzić sobie z tym zadaniem, ze szczególnym naciskiem na pracę z wyrażeniami wielowyrazowymi (MWE). Procedura opiera się na regułach wydobytych automatycznie z treebanku zależnościowego. Utworzony system jest następnie ewaluowany na słowniku polskich wyrażeń wielowyrazowych. Dodatkowo, zbliżony algorytm może zostać wykorzystany do lematyzacji wyrażeń wielowyrazowych. Sam system może zostać zaś zaaplikowany także do innych języków, o zbliżonych mechanizmach morfologicznych – zaprezentujemy proste rozwiązanie przygotowane dla języka rosyjskiego.

29 listopada 2021 (seminarium połączone z instytutowym)

Piotr Przybyła (Instytut Podstaw Informatyki PAN)

https://www.youtube.com/watch?v=zJssN3-5cyg Kiedy dokładność klasyfikacji to za mało: wyjaśnianie oceny wiarygodności tekstu i pomiar reakcji użytkowników  Wystąpienie w języku polskim.

Automatyczna ocena wiarygodności tekstu jest ostatnio niezwykle popularnym zadaniem NLP, dla którego proponuje się wiele rozwiązań ewaluowanych na podstawie dokładności klasyfikacji. Tymczasem niewiele uwagi poświęca się scenariuszom wdrożenia tego typu modeli, które gwarantowałyby zgodne z oczekiwaniami ograniczenie rozprzestrzeniania się dezinformacji. W ramach wystąpienia przedstawiamy prace, w ramach których zaimplementowano dwa tego typu modele w formie rozszerzenia do przeglądarki internetowej i zbadano ich interakcję z użytkownikami, co pozwoliło odpowiedzieć na kilka ważnych pytań. Jak można skompresować duże modele klasyfikacji tekstu, aby wdrożyć je w środowisku o niewielkich zasobach? Jakie techniki wizualizacji i wyjaśniania modeli są najbardziej efektywne we współpracy z człowiekiem? Czy korzystanie z takich narzędzie w istocie zwiększa zdolność do rozpoznawania treści 'fake news'?

6 grudnia 2021

Joanna Byszuk (Instytut Języka Polskiego PAN)

W kierunku stylometrii multimodalnej – możliwości i wyzwania nowego podejścia do analizy filmów i seriali  Wystąpienie w języku polskim.

W wystąpieniu przedstawiamy nowe podejście do ilościowej analizy utworów multimodalnych, na przykładzie korpusu serialu telewizyjnego Doctor Who, oparte na stylometrii oraz teorii multimodalnej analizy filmowej. Metody stylometryczne od dawna cieszą się popularnością w analizie literatury. Zwykle opierają się na porównywaniu tekstów pod względem częstotliwości użycia określonych cech, które tworzą tak zwane „stylometryczne odciski palca”, czyli wzorce charakterystyczne dla autorów, gatunków lub innych czynników. Metody te jednak rzadko stosuje się do danych innych niż tekst, choć w ostatnich latach pojawiły się badania wykorzystujące stylometrię do analizy ruchów w tańcu (Miguel Escobar Varela) czy muzyce (Backer i Kranenburg). Teoria multimodalnej analizy filmu jest z kolei dość nowym podejściem, rozwijanym głównie przez Johna Batemana i Janinę Wildfeuer, podkreślającym istotność badania informacji pochodzących z różnych modalności wizualnych, językowych i dźwiękowych dla pełniejszej interpretacji. W prezentowanym podejściu stylometryczne metody porównywania utworów są zastosowane do różnych typów cech zaczerpniętych z obrazu, dźwięku oraz treści dialogów. W wystąpieniu omawiamy zalety i wyzwania takiego podejścia, a także ogólne możliwości ilościowej analizy mediów filmowych.

20 grudnia 2021

Piotr Pęzik (Uniwersytet Łódzki / VoiceLab), Agnieszka Mikołajczyk, Adam Wawrzyński (VoiceLab), Bartłomiej Nitoń, Maciej Ogrodniczuk (Instytut Podstaw Informatyki PAN)

Generowanie słów kluczowych z krótkich tekstów za pomocą modelu T5  Wystąpienie w języku polskim.

Tematem wystąpienia jest ewaluacja zastosowań polskiej wersji modelu językowego T5 (plT5) w wydobywaniu słów kluczowych z krótkich tekstów. Autorzy opisują trening i testy modelu na opracowanym w ramach projektu CURLICAT Otwartym Korpusie Metadanych Nauki Polskiej. Porównana zostanie jakość słów kluczowych generowanych czterema różnymi metodami: a) plT5 jako model text-to-text, b) extremeText jako klasyfikator z nadzorem, c) TermoPL jako metoda ekstrakcji terminologii oraz d) KeyBERT jako alternatywny model transformerowy. Zilustrowana zostanie również nieoczekiwana przenośność wytrenowanego modelu plT5 do domen tematycznych niezwiązanych z korpusem streszczeń artykułów naukowych, takich jak teksty informacyjne, czy też transkrypcje dialogów telefonicznych.

31 stycznia 2022

Tomasz Limisiewicz (Uniwersytet Karola w Pradze)

https://www.youtube.com/watch?v=d1WHbE2gLjk Interpretacja i kontrola cech językowych w reprezentacjach sieci neuronowych  Wystąpienie w języku angielskim.

Sieci neuronowe osiągają niedoścignione wyniki w wielu zadaniach związanych z przetwarzaniem języka naturalnego. Niestety, modele neuronowe są czarnymi skrzynkami; nie rozumiemy mechanizmów stojących za ich sukcesami. W swoim wystąpieniu przedstawiam narzędzia i metody używane do interpretacji modeli. Skupiam się przede wszystkim na reprezentacjach w modelach językowych typu Transformer i nowej metodzie – sondzie ortogonalnej (ang. orthogonal probe), która oferuje dobry wgląd w stany ukryte sieci. Wyniki pokazują, że poszczególne sygnały językowe są zakodowane w Transformerach w sposób odrębny, dzięki temu możemy rozdzielić je w reprezentacji wektorowej. Identyfikacja specyficznych informacji zakodowanych w sieci pozwala na usunięcie niepożądanego ukierunkowania modelu (ang. model bias).

28 lutego 2022

Maciej Chrabąszcz (Sages)

https://www.youtube.com/watch?v=zB26bW-t5wA Generowanie języka naturalnego na przykładzie opisywania zdjęć  Wystąpienie w języku polskim.

Podczas seminarium omawiam problem generacji opisów obrazów. Prezentuję modele testowane w ramach tworzenia rozwiązania do automatycznego opisywania zdjęć, m.in. modele z atencją, wykorzystujące wcześniej przetrenowane modele wizyjne i generujące tekst.

28 marca 2022

Tomasz Stanisławek (Applica)

https://www.youtube.com/watch?v=NrDh-UIfgwU Ekstrakcja informacji z dokumentów o bogatej strukturze graficznej  Wystąpienie w języku polskim.

Szybki rozwój dziedziny NLP w ostatnich latach (pojawienie się modeli języka BERT, RoBERTa, T5, …) spopularyzował użycie technik ekstrakcji informacji w celu automatyzacji procesów biznesowych. Niestety, większość dokumentów biznesowych zawiera w sobie nie tylko zwykły tekst, ale również różnego rodzaju struktury graficzne (przykładowo: tabele, listy, tekst pogrubiony czy formularze), które uniemożliwiają poprawne przetwarzanie aktualnie istniejącymi metodami (tekst wczytywany do modelu w postaci sekwencji tokenów). W trakcie wystąpienia omówię: a) problemy istniejących metod wykorzystywanych do ekstrakcji informacji, b) Kleister – nowe zbiory danych utworzone na potrzeby testowania nowych modeli c) LAMBERT – nowy model języka z wstrzykniętą informacją o pozycji tokenów na stronie, d) dalsze kierunki rozwoju dziedziny.

11 kwietnia 2022

Daniel Ziembicki (Uniwersytet Warszawski), Anna Wróblewska, Karolina Seweryn (Politechnika Warszawska)

https://www.youtube.com/watch?v=cU1y78uFCps Wnioskowanie i faktywność w języku polskim — zbiór danych eksperckich i benchmarki  Wystąpienie w języku polskim.

Przedmiotem wystąpienia będą cztery zagadnienia: (1) zjawisko faktywności we współczesnej polszczyźnie, (2) wykrywanie relacji wynikania, sprzeczności i niezależności w tekście, (3) stworzony przez nas językowy zbiór danych skupiony na opozycji faktywność-niefaktywność oraz (4) omówienie wyników wytrenowanych na zbiorze danych z punktu (3) modeli ML, których celem było przewidywanie relacji semantycznych z punktu (2).

16 maja 2022

Inez Okulska, Anna Zawadzka, Michał Szczyszek, Anna Kołos, Zofia Cieślińska (NASK)

https://www.youtube.com/watch?v=u5A3SNw0a7M Efekt(ywność) stylu, czyli jak i po co kodować wskaźniki morfosyntaktyczne całych dokumentów  Wystąpienie w języku polskim.

A gdyby tak reprezentować tekst dowolnej długości za pomocą jednego, równego, i dodatkowo w pełni interpretowalnego wektora? Bez korpusu do uczenia, bez słownika pretrenowanych osadzeń, pojedynczo, na miejscu lub na wynos? Czemu nie! Wektory StyloMetrix to wykorzystująca bogactwo biblioteki spaCy kombinacja lingwistycznych metryk. Takie podejście oczywiście pomija reprezentację semantyki pojedynczych słów czy fraz i teoretycznie nie pozwala na detekcję konkretnych tematów. Chyba że – semantyka niesiona jest również przez styl? Dotychczasowe eksperymenty, jak i rezultaty badań filologicznych pokazują, że obszary te są ze sobą mocno splecione. Okazuje się bowiem, że – przykładowo – treści niewłaściwe dla dzieci czy młodzieży to nie tylko oczywisty zestaw zakazanej leksyki, lecz także kombinacja charakterystycznych wskaźników morfosyntaktycznych tekstu. Są one tak wyraziste i dystynktywne, że korzystając wyłącznie z reprezentacji StyloMetrix, można osiągnąć precyzję na poziomie 90% w zadaniu klasyfikacji wieloklasowej. Ponadto okazuje się, że skoro każda wartość wektora jest znormalizowanym wskaźnikiem konkretnej gramatycznej cechy dokumentu, to można się również czegoś dowiedzieć na temat lingwistycznych wyznaczników danego stylu. Taka konstrukcja metryk to też krok w stronę interpretowalności algebraicznych metod selekcji cech. Przedstawione w wystąpieniu eksperymenty będą opierały się na treściach opublikowanych w Internecie.

23 maja 2022

Karolina Stańczak (Uniwersytet Kopenhaski)

https://teams.microsoft.com/l/meetup-join/19%3a2a54bf781d2a466da1e9adec3c87e6c2%40thread.tacv2/1649072330756?context=%7b%22Tid%22%3a%220425f1d9-16b2-41e3-a01a-0c02a63d13d6%22%2c%22Oid%22%3a%22f5f2c910-5438-48a7-b9dd-683a5c3daf1e%22%7d Model ze zmienną ukrytą do sondowania wewnętrznego  Wystąpienie w języku polskim.

Sukces wstępnie wytrenowanych kontekstowych reprezentacji skłonił badaczy do ich analizy pod kątem obecności informacji lingwistycznej. Naturalne jest założenie, że takie reprezentacje kodują pewien poziom wiedzy językowej, ponieważ empirycznie przyniosły one znaczącą poprawę w wielu różnych zadaniach NLP, co sugeruje, że uczą się one prawdziwej generalizacji językowej. W niniejszej pracy koncentrujemy się na sondowaniu wewnętrznym, technice analizy, której celem jest nie tylko określenie, czy reprezentacja koduje dany atrybut językowy, ale także wskazanie, gdzie ten atrybut jest zakodowany. Proponujemy nową metodę zmiennej ukrytej do konstruowania sond wewnętrznych przy użyciu spolegliwej wariacyjnej aproksymacji log-likelihood. Wyniki pokazują, że nasz model jest uniwersalny i pozwala uzyskać dokładniejsze oszacowania informacji wzajemnej niż dwie sondy wewnętrzne zaproponowane wcześniej w literaturze. Znajdujemy również empiryczne dowody na to, że wstępnie wyszkolone reprezentacje wykształcają międzyjęzykowe pojęcie morfoskładni.

6 czerwca 2022

Cezary Klamra, Grzegorz Wojdyga (Instytut Podstaw Informatyki PAN), Sebastian Żurowski (Uniwersytet Mikołaja Kopernika), Paulina Rosalska (Uniwersytet Mikołaja Kopernika / Applica.ai), Matylda Kozłowska (Oracle Polska), Maciej Ogrodniczuk (Instytut Podstaw Informatyki PAN)

https://teams.microsoft.com/l/meetup-join/19%3a06de5a6d7ed840f0a53c26bf62c9ec18%40thread.tacv2/1643554817614?context=%7b%22Tid%22%3a%220425f1d9-16b2-41e3-a01a-0c02a63d13d6%22%2c%22Oid%22%3a%22f5f2c910-5438-48a7-b9dd-683a5c3daf1e%22%7d Dewulgaryzacja polskich tekstów z wykorzystaniem pretrenowanych modeli językowych  Wystąpienie w języku polskim.

Przedstawimy metodę transferu stylu tekstu do zastępowania wyrażeń wulgarnych ich niewulgarnymi odpowiednikami polegającą na dostrojeniu trzech wstępnie wytrenowanych modeli językowych (GPT-2, GPT-3 i T-5) na nowo powstałym korpusie równoległym par zdań wulgarnych i niewulgarnych. Następnie ocenimy otrzymane modele, sprawdzając ich dokładność transferu stylu, zachowanie treści i jakość języka. Zgodnie z naszą najlepszą wiedzą, proponowane rozwiązanie jest pierwszym tego typu dla języka polskiego. Tekst opisujący prezentowane rozwiązanie został przyjęty na konferencję ICCS 2022.

13 czerwca 2022

Michał Ulewicz

http://zil.ipipan.waw.pl/seminarium-online Semantic Role Labeling – dane i modele  Wystąpienie w języku polskim.

Semantic Role Labeling (SRL) pozwala przedstawić znaczenie zdania w postaci struktur (tzw. ramek) składających się z orzeczenia i argumentów związanych z tym orzeczeniem. Takie podejście pozwala podzielić zdanie na istotne znaczeniowo fragmenty i precyzyjnie znaleźć odpowiedzi na pytania: kto, co, komu, kiedy i jak zrobił dla każdego z tych fragmentów. W pierwszym etapie znajdowane są orzeczenia i ujednoznaczniane ich znaczenia. W drugim etapie dla każdej ramki identyfikowane i klasyfikowane są argumenty. Do budowy skutecznych modeli SRL potrzebne są dane i o ile dla języka angielskiego istnieją wysokiej jakości zestawy danych (propbank), to dla pozostałych języków takie zbiory praktycznie nie istnieją, głównie ze względu na wysoki nakład pracy i koszt potrzebny do ich stworzenia. Podczas wystąpienia opowiem jak SRL może pomóc w precyzyjnym przetwarzaniu tekstu. Przedstawię próby automatycznego generowania zestawów danych dla różnych języków w tym języka polskiego z wykorzystaniem techniki rzutowania anotacji (ang. annotation projection). Przedstawię zidentyfikowane problemy związane z automatycznym rzutowaniem anotacji z języka angielskiego na język polski. Opowiem o modelach SRL, które zbudowałem na bazie modeli typu Transformer.

Zapraszamy także do zapoznania się z archiwum seminariów z lat 2000–2015 oraz listą wystąpień z lat 2015–2020.