Revision 722 as of 2022-11-07 13:19:49

Clear message
Locked History Actions

seminarium

Seminarium „Przetwarzanie języka naturalnego” 2022–23

Seminarium Zespołu Inżynierii LingwistycznejInstytucie Podstaw Informatyki Polskiej Akademii Nauk odbywa się średnio co 2 tygodnie, zwykle w poniedziałki o godz. 10:15 (niekiedy online – prosimy o korzystanie z linku przy tytule wystąpienia) i ma charakter otwarty. Poszczególne referaty ogłaszane są na Polskiej Liście Językoznawczej oraz na stronie Lingwistyka komputerowa na Facebooku. Nagrania wystąpień dostępne są na kanale YouTube.

seminar

3 października 2022

Sławomir Dadas (Ośrodek Przetwarzania Informacji)

https://www.youtube.com/watch?v=TGwLeE1Y5X4 Doświadczenia z trenowania neuronowych enkoderów zdaniowych dla języka polskiego  Wystąpienie w języku polskim.

Transformacja zdań lub krótkich tekstów do postaci gęstych wektorów o stałej liczbie wymiarów znajduje zastosowanie w zadaniach takich jak wyszukiwanie informacji, odpowiadanie na pytania, grupowanie tekstów czy detekcja plagiatów. Prostym sposobem na konstrukcję tego typu reprezentacji jest agregacja wektorów wygenerowanych przez model języka lub pochodzących z zanurzeń słów. Natomiast wyższej jakości reprezentacje można uzyskać poprzez dodatkowy fine-tuning modelu języka na parach zdań semantycznie podobnych. W prezentacji przedstawione zostaną metody uczenia enkoderów zdaniowych bazujących na architekturze Transformer oraz nasze doświadczenia z trenowaniem takich modeli dla języka polskiego. Ponadto omówimy sposoby na automatyczne pozyskanie dużych zbiorów parafraz korzystając z publicznie dostępnych korpusów. Pokazany zostanie także przykład zastosowania enkoderów zdaniowych w praktyce, w systemie informatycznym służącym do wykrywania niedozwolonych zapisów w umowach konsumenckich.

14 listopada 2022

Łukasz Augustyniak, Kamil Tagowski, Albert Sawczyn, Denis Janiak, Roman Bartusiak, Adrian Dominik Szymczak, Arkadiusz Janz, Piotr Szymański, Marcin Wątroba, Mikołaj Morzy, Tomasz Jan Kajdanowicz, Maciej Piasecki (Politechnika Wrocławska)

This is the way: designing and compiling LEPISZCZE, a comprehensive NLP benchmark for Polish  Wystąpienie w języku polskim.

Coraz szersza dostępność zasobów obliczeniowych i danych do trenowania dużych modeli językowych zwiększa zapotrzebowanie na tworzenie solidnych środowisk ewaluacyjnych pozwalających na rzetelne oszacowanie postępów w modelowaniu języka. W ostatnich latach zauważalny jest znaczący postęp prac nad standaryzacją środowisk ewaluacyjnych dla języka angielskiego. Środowiska takie jak GLUE, SuperGLUE czy KILT stały się standardowymi narzędziami do oceny modeli językowych. W tworzeniu środowisk dla innych języków wielu badaczy koncentrowało się na replikowaniu środowiska GLUE, czego przykładem jest polski benchmark KLEJ. W niniejszej pracy przedstawiamy przegląd prac nad tworzeniem środowisk ewaluacyjnych dla języków nisko-zasobowych. Pokazujemy, że wciąż wiele języków nie posiada wyczerpującego zestawu danych testowych do oceny modeli językowych. Wskazujemy obecne w środowiskach ewaluacyjnych luki i porównujemy dostępne w ramach tych środowisk zadania odnosząc się przy tym do języka angielskiego i języka chińskiego - języków o licznych zasobach treningowo-testowych. Głównym wynikiem niniejszej pracy jest LEPISZCZE – nowe środowisko ewaluacyjne dla polskiej technologii językowej opartej na modelowaniu języka, z szerokim zestawem różnorodnych zadań testowych. Zaproponowane środowisko zostało zaprojektowane z myślą o elastyczności w dodawaniu zadań, wprowadzaniu nowych modeli językowych, nadsyłaniu wyników oraz wersjonowaniu danych i modeli. Wraz ze środowiskiem dostarczamy również ocenę kilku nowych modeli językowych oraz dołączamy zarówno poprawione zbiory istniejące w literaturze jak również i nowe zbiory testowe dla nowych zadań. W środowisku zawarto 5 istniejących zbiorów danych i 8 nowych zbiorów danych, które dotychczas nie były używane w ewaluacji modeli językowych. W pracy zawarto również doświadczenia i wnioski wynikające z pracy nad tworzeniem środowiska ewaluacyjnego LEPISZCZE jako wskazówki dla projektantów podobnych środowisk w innych językach o ograniczonych zasobach językowych.

28 listopada 2022

Aleksander Wawer (Instytut Podstaw Informatyki PAN), Justyna Sarzyńska-Wawer (Instytut Psychologii PAN)

Tytuł wystąpienia udostępnimy już niedługo  Wystąpienie w języku polskim.

Streszczenie wystąpienia będzie dostępne już wkrótce.

12 grudnia 2022

Paula Czarnowska (University of Cambridge)

Tytuł wystąpienia udostępnimy już niedługo  Wystąpienie w języku polskim.

Streszczenie wystąpienia będzie dostępne już wkrótce.

19 grudnia 2022

Wojciech Kryściński (Salesforce Research)

Current state, challenges, and approaches to Text Summarization  Wystąpienie w języku polskim.  Slajdy po angielsku.

Streszczenie wystąpienia będzie dostępne już wkrótce.

9 stycznia 2023

Marzena Karpińska (University of Massachusetts Amherst)

Tytuł wystąpienia udostępnimy już niedługo  Wystąpienie w języku polskim.

Streszczenie wystąpienia będzie dostępne już wkrótce.

23 stycznia 2023

Agnieszka Mikołajczyk (VoiceLab / Politechnika Gdańska / hear.ai)

Tytuł wystąpienia udostępnimy już niedługo  Wystąpienie w języku polskim.

Streszczenie wystąpienia będzie dostępne już wkrótce.

6 lutego 2023

Artur Nowakowski, Kamil Guttmann, Mikołaj Pokrywka (Uniwersytet Adama Mickiewicza)

Tytuł wystąpienia udostępnimy już niedługo  Wystąpienie w języku polskim.

Streszczenie wystąpienia będzie dostępne już wkrótce.

Zapraszamy także do zapoznania się z archiwum seminariów z lat 2000–2015 oraz listą wystąpień z lat 2015–2022.