Locked History Actions

seminarium

Seminarium „Przetwarzanie języka naturalnego” 2022–23

Seminarium Zespołu Inżynierii LingwistycznejInstytucie Podstaw Informatyki Polskiej Akademii Nauk odbywa się średnio co 2 tygodnie, zwykle w poniedziałki o godz. 10:15 (niekiedy online – prosimy o korzystanie z linku przy tytule wystąpienia) i ma charakter otwarty. Poszczególne referaty ogłaszane są na Polskiej Liście Językoznawczej oraz na stronie Lingwistyka komputerowa na Facebooku. Nagrania wystąpień dostępne są na kanale YouTube.

seminar

3 października 2022

Sławomir Dadas (Ośrodek Przetwarzania Informacji)

https://www.youtube.com/watch?v=TGwLeE1Y5X4 Doświadczenia z trenowania neuronowych enkoderów zdaniowych dla języka polskiego  Wystąpienie w języku polskim.

Transformacja zdań lub krótkich tekstów do postaci gęstych wektorów o stałej liczbie wymiarów znajduje zastosowanie w zadaniach takich jak wyszukiwanie informacji, odpowiadanie na pytania, grupowanie tekstów czy detekcja plagiatów. Prostym sposobem na konstrukcję tego typu reprezentacji jest agregacja wektorów wygenerowanych przez model języka lub pochodzących z zanurzeń słów. Natomiast wyższej jakości reprezentacje można uzyskać poprzez dodatkowy fine-tuning modelu języka na parach zdań semantycznie podobnych. W prezentacji przedstawione zostaną metody uczenia enkoderów zdaniowych bazujących na architekturze Transformer oraz nasze doświadczenia z trenowaniem takich modeli dla języka polskiego. Ponadto omówimy sposoby na automatyczne pozyskanie dużych zbiorów parafraz korzystając z publicznie dostępnych korpusów. Pokazany zostanie także przykład zastosowania enkoderów zdaniowych w praktyce, w systemie informatycznym służącym do wykrywania niedozwolonych zapisów w umowach konsumenckich.

14 listopada 2022

Łukasz Augustyniak, Kamil Tagowski, Albert Sawczyn, Denis Janiak, Roman Bartusiak, Adrian Dominik Szymczak, Arkadiusz Janz, Piotr Szymański, Marcin Wątroba, Mikołaj Morzy, Tomasz Jan Kajdanowicz, Maciej Piasecki (Politechnika Wrocławska)

https://pwr-edu.zoom.us/j/96657909989?pwd=VXFmcEc5blNyM0M3ekxvNGc3Q2Rsdz09 LEPISZCZE, kompleksowy benchmark NLP dla języka polskiego  Wystąpienie w języku polskim. Slajdy po angielsku.

Coraz szersza dostępność zasobów obliczeniowych i danych do trenowania dużych modeli językowych zwiększa zapotrzebowanie na tworzenie solidnych środowisk ewaluacyjnych pozwalających na rzetelne oszacowanie postępów w modelowaniu języka. W ostatnich latach zauważalny jest znaczący postęp prac nad standaryzacją środowisk ewaluacyjnych dla języka angielskiego. Środowiska takie jak GLUE, SuperGLUE czy KILT stały się standardowymi narzędziami do oceny modeli językowych. W tworzeniu środowisk dla innych języków wielu badaczy koncentrowało się na replikowaniu środowiska GLUE, czego przykładem jest polski benchmark KLEJ. W niniejszej pracy przedstawiamy przegląd prac nad tworzeniem środowisk ewaluacyjnych dla języków nisko-zasobowych. Pokazujemy, że wciąż wiele języków nie posiada wyczerpującego zestawu danych testowych do oceny modeli językowych. Wskazujemy obecne w środowiskach ewaluacyjnych luki i porównujemy dostępne w ramach tych środowisk zadania odnosząc się przy tym do języka angielskiego i języka chińskiego - języków o licznych zasobach treningowo-testowych. Głównym wynikiem niniejszej pracy jest LEPISZCZE – nowe środowisko ewaluacyjne dla polskiej technologii językowej opartej na modelowaniu języka, z szerokim zestawem różnorodnych zadań testowych. Zaproponowane środowisko zostało zaprojektowane z myślą o elastyczności w dodawaniu zadań, wprowadzaniu nowych modeli językowych, nadsyłaniu wyników oraz wersjonowaniu danych i modeli. Wraz ze środowiskiem dostarczamy również ocenę kilku nowych modeli językowych oraz dołączamy zarówno poprawione zbiory istniejące w literaturze jak również i nowe zbiory testowe dla nowych zadań. W środowisku zawarto 5 istniejących zbiorów danych i 8 nowych zbiorów danych, które dotychczas nie były używane w ewaluacji modeli językowych. W pracy zawarto również doświadczenia i wnioski wynikające z pracy nad tworzeniem środowiska ewaluacyjnego LEPISZCZE jako wskazówki dla projektantów podobnych środowisk w innych językach o ograniczonych zasobach językowych.

28 listopada 2022

Aleksander Wawer (Instytut Podstaw Informatyki PAN), Justyna Sarzyńska-Wawer (Instytut Psychologii PAN)

https://www.youtube.com/watch?v=zVbQ7gmbqvA Kłamanie po polsku: analiza języka oraz automatyczne metody wykrywania  Wystąpienie w języku polskim.

Kłamstwo jest integralną częścią codziennej komunikacji zarówno w formie pisemnej, jak i ustnej. W niniejszym wystąpieniu przedstawimy wyniki uzyskane na zbiorze blisko 1500 prawdziwych i fałszywych wypowiedzi, z których połowa to transkrypcje, a druga połowa to wypowiedzi pisemne, pochodzące z prawdopodobnie największego badania nad kłamaniem w języku polskim. W pierwszej części referatu zbadamy różnice między twierdzeniami prawdziwymi i fałszywymi: sprawdzimy, czy różnią się pod względem złożoności i wydźwięku, a także cech takich jak długość wypowiedzi, konkretność i rozkład części mowy. W drugiej części referatu opowiemy o budowaniu modeli, które automatycznie odróżniają prawdziwe od fałszywych wypowiedzi, uwzględniając proste podejścia, jak modele trenowane na cechach słownikowych, jak i bardziej złożone, pre-trenowane sieci neuronowe typu transformer. Opowiemy także o próbie wykrywania kłamania z wykorzystaniem metod automatycznego fact-checkingu i przedstawimy wstępne wyniki prac nad interpretowalnością (objaśnialnością) modeli wykrywających kłamanie.

19 grudnia 2022

Wojciech Kryściński (Salesforce Research)

https://www.youtube.com/watch?v=54qidiBmiok Automatyczne streszczanie tekstu  Wystąpienie i slajdy po angielsku.

Automatyczne streszczanie tekstu stanowi zadanie z dziedziny przetwarzania języka naturalnego (NLP) wymagające zaawansowanych zdolności rozumienia języka (NLU) i możliwości jego generowania (NLG). Dzięki wysiłkom społeczności naukowej i osiągniętemu rozwojowi w dziedzinie NLP w ostatnich latach poczyniono znaczne postępy w opracowywaniu modeli neuronowych dla tego zadania. Pomimo tych postępów, automatyczne streszczanie tekstu pozostaje zadaniem trudnym, które jest dalekie od rozwiązania. Prezentację zaczniemy od omówienia wczesnych podejść do zagadnienia AST oraz obecnego stanu wiedzy w tej dziedzinie. Następnie dokonamy krytycznej oceny kluczowych składników istniejącej konfiguracji badawczej: zestawów danych, metryk oceny i modeli. Na koniec skoncentrujemy się na pojawiających się kierunkach badawczych i rozważymy przyszłość automatycznego streszczenia tekstów.

9 stycznia 2023

Marzena Karpińska (University of Massachusetts Amherst)

Wyzwania związane z oceną tekstu generowanego maszynowo  Wystąpienie w języku polskim.

Postęp w generowaniu języka naturalnego (NLG) utrudnił badaczom skuteczne ocenianie wyników najnowszych modeli. Klasyczne metryki, takie jak BLEU czy ROUGE, nie są już wystarczające, aby odróżnić wysokiej jakości teksty od tych o niższej jakości, zwłaszcza w kreatywnych taskach takich jak generowanie opowieści czy poezji, lub też w przypadku oceny dłuższych tekstów w odróżnieniu od ewaluacji pojedynczych zdań. W rezultacie wielu badaczy ucieka się do crowdsourcingu, korzystając z platform, takich jak Amazon Mechanical Turk (AMT), aby ocenić spójność czy gramatyczność wygenerowanych tekstów. W tej prezentacji przedstawię najpierw serię eksperymentów pokazującą wyzwania takiej ewaluacji, demonstrując, że nawet eksperci mogą mieć trudności z ocenianiem tekstu wygenerowanego przez modele przy użyciu skali Likerta, zwłaszcza gdy oceniają oni kreatywny tekst. W drugiej części omówię podobne kwestie związane z automatycznym ocenianiem tłumaczenia maszynowego literatury pięknej oraz wyjaśnię niektóre unikalne wyzwania związane z samym zadaniem tłumaczenia takich tekstów.

6 lutego 2023

Agnieszka Mikołajczyk-Bareła (VoiceLab / Politechnika Gdańska / HearAI)

http://zil.ipipan.waw.pl/seminarium-online HearAI: w stronę rozpoznawania języka migowego opartego na głębokim uczeniu  Wystąpienie w języku polskim.

Osoby głuche i niedosłyszące mają ogromną barierę komunikacyjną. Różne narodowości używają różnych języków migowych i nie ma jednego uniwersalnego, ponieważ są to naturalne języki ludzkie z własnymi regułami gramatycznymi i leksykonami. Metody oparte na głębokim uczeniu do tłumaczenia języka migowego potrzebują wielu odpowiednio oznakowanych danych treningowych, aby dobrze sobie radzić. W projekcie non-profit HearAI zajęliśmy się tym problemem i zbadaliśmy różne wielojęzyczne otwarte korpusy języka migowego oznaczone przez lingwistów w neutralnym językowo systemie Hamburg Notation System (HamNoSys). Po pierwsze, uprościliśmy trudną do zrozumienia strukturę HamNoSys bez znaczącej utraty znaczenia glosariusza poprzez wprowadzenie multietykiet numerycznych. Po drugie, do rozpoznania pojedynczych pojęć wykorzystaliśmy punkty orientacyjne oraz wybrane cechy na poziomie obrazu. Oddzielnie analizowaliśmy możliwości położenia ręki dominującej, jej pozycję i kształt oraz ogólną symetrię ruchu, co pozwoliło nam dogłębnie zbadać przydatność HamNoSys do rozpoznawania pojęć.

13 lutego 2023

Artur Nowakowski, Gabriela Pałka, Kamil Guttmann, Mikołaj Pokrywka (Uniwersytet Adama Mickiewicza)

UAM na WMT 2022: nowoczesne metody tworzenia systemów tłumaczenia maszynowego  Wystąpienie w języku polskim.

Większość systemów tłumaczenia automatycznego opiera się na trenowaniu modeli na poziomie zdań. Jednak współcześnie coraz częściej oczekuje się, że system tłumaczenia będzie uwzględniał kontekst całego dokumentu. W odpowiedzi na te oczekiwania, organizatorzy konferencji WMT 2022 stworzyli zadanie General MT Task, polegające na tłumaczeniu dokumentów z różnych dziedzin: newsów, treści z portali społecznościowych, konwersacji i tekstów z dziedziny e-commerce.

Podczas prezentacji omówione zostanie zadanie, z jakim przyszło się zmierzyć podczas konferencji WMT 2022 w kierunkach tłumaczenia czeski-ukraiński oraz ukraiński-czeski. Przedstawione zostaną napotkane problemy, takie jak poprawne tłumaczenie jednostek nazwanych, uwzględnienie kontekstu dokumentu oraz poprawne uwzględnienie rzadko występujących znaków, takich jak emoji. Pokazane zostaną także metody wspomagające wybór najlepszego tłumaczenia spośród tłumaczeń wygenerowanych przez system, oparte na modelach automatycznej oceny jakości tłumaczenia. Celem prezentacji jest przede wszystkim zaprezentowanie składowych systemu, które pomogły osiągnąć najlepszy wynik spośród wszystkich uczestników konkursu.

27 lutego 2023

Sebastian Vincent (University of Sheffield)

MTCue: Nauka pozatekstowych atrybutów „zero-shot” przez użycie nieustruktyruzowanego kontekstu w tłumaczeniu maszynowym  Wystąpienie w języku polskim.

Wydajne użycie kontekstu pochodzącego z wewnątrz lub spoza tłumaczonego tekstu pozostaje jedną z krytycznych luk pomiędzy tłumaczeniem profesjonalnym a maszynowym. Dotychczasowo, badania koncentrowały się głównie na pojedynczych, dobrze zdefiniowanych typach kontekstu, takich jak poprzednie zdania, lub dyskretne zmienne (np. płeć mówcy). Niniejsza praca przedstawia MTCue, framework neuronowego tłumaczenia maszynowego, który, przepisując dyskretny kontekst na tekst, uczy się abstrakcyjnej reprezentacji kontekstu pozwalającej na transfer pomiędzy różnymi ustawieniami danych oraz wykorzystanie podobnych sygnałów, gdy danych jest niewiele. Eksperymenty w sześciu parach językowych w domenie dialogu z dostępem do metadanych i poprzednich zdań wykazują wyraźny wzrost jakości tłumaczenia w stosunku do bezkontekstowego systemu. Dalsza analiza pokazuje, że enkoder kontekstu w MTCue uczy się reprezentacji zorganizowanej w odniesieniu do specyficznych atrybutów, takich jak formalność, efektywnie umożliwiając ich kontrolę bez trenowania. Wstępne szkolenie na metadanych i poprzednich zdaniach pozwala również MTCue uczyć się nowych kodów kontrolnych z mniejszą ilością danych.

Zapraszamy także do zapoznania się z archiwum seminariów z lat 2000–2015 oraz listą wystąpień z lat 2015–2022.