Locked History Actions

Diff for "seminarium"

Differences between revisions 723 and 779 (spanning 56 versions)
Revision 723 as of 2022-11-07 13:23:23
Size: 16835
Comment:
Revision 779 as of 2023-09-09 21:04:22
Size: 9582
Comment:
Deletions are marked like this. Additions are marked like this.
Line 2: Line 2:
= Seminarium „Przetwarzanie języka naturalnego” 2022–23 = = Seminarium „Przetwarzanie języka naturalnego” 2023–24 =
Line 6: Line 6:
||<style="border:0;padding-top:5px;padding-bottom:5px">'''3 października 2022'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Sławomir Dadas''' (Ośrodek Przetwarzania Informacji)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=TGwLeE1Y5X4|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2022-10-03.pdf|Doświadczenia z trenowania neuronowych enkoderów zdaniowych dla języka polskiego]]''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Transformacja zdań lub krótkich tekstów do postaci gęstych wektorów o stałej liczbie wymiarów znajduje zastosowanie w zadaniach takich jak wyszukiwanie informacji, odpowiadanie na pytania, grupowanie tekstów czy detekcja plagiatów. Prostym sposobem na konstrukcję tego typu reprezentacji jest agregacja wektorów wygenerowanych przez model języka lub pochodzących z zanurzeń słów. Natomiast wyższej jakości reprezentacje można uzyskać poprzez dodatkowy fine-tuning modelu języka na parach zdań semantycznie podobnych. W prezentacji przedstawione zostaną metody uczenia enkoderów zdaniowych bazujących na architekturze Transformer oraz nasze doświadczenia z trenowaniem takich modeli dla języka polskiego. Ponadto omówimy sposoby na automatyczne pozyskanie dużych zbiorów parafraz korzystając z publicznie dostępnych korpusów. Pokazany zostanie także przykład zastosowania enkoderów zdaniowych w praktyce, w systemie informatycznym służącym do wykrywania niedozwolonych zapisów w umowach konsumenckich.||
||<style="border:0;padding-top:5px;padding-bottom:5px">'''2 października 2023'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Agnieszka Mikołajczyk''' (!VoiceLab), '''Piotr Pęzik''' (Uniwersytet Łódzki / !VoiceLab)||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''Tytuł zostanie podany wkrótce''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Streszczenie zostanie podane wkrótce.||
Line 11: Line 11:
||<style="border:0;padding-top:5px;padding-bottom:5px">'''14 listopada 2022'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Łukasz Augustyniak''', '''Kamil Tagowski''', '''Albert Sawczyn''', '''Denis Janiak''', '''Roman Bartusiak''', '''Adrian Dominik Szymczak''', '''Arkadiusz Janz''', '''Piotr Szymański''', '''Marcin Wątroba''', '''Mikołaj Morzy''', '''Tomasz Jan Kajdanowicz''', '''Maciej Piasecki''' (Politechnika Wrocławska)||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''This is the way: designing and compiling LEPISZCZE, a comprehensive NLP benchmark for Polish''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Coraz szersza dostępność zasobów obliczeniowych i danych do trenowania dużych modeli językowych zwiększa zapotrzebowanie na tworzenie solidnych środowisk ewaluacyjnych pozwalających na rzetelne oszacowanie postępów w modelowaniu języka. W ostatnich latach zauważalny jest znaczący postęp prac nad standaryzacją środowisk ewaluacyjnych dla języka angielskiego. Środowiska takie jak GLUE, SuperGLUE czy KILT stały się standardowymi narzędziami do oceny modeli językowych. W tworzeniu środowisk dla innych języków wielu badaczy koncentrowało się na replikowaniu środowiska GLUE, czego przykładem jest polski benchmark KLEJ. W niniejszej pracy przedstawiamy przegląd prac nad tworzeniem środowisk ewaluacyjnych dla języków nisko-zasobowych. Pokazujemy, że wciąż wiele języków nie posiada wyczerpującego zestawu danych testowych do oceny modeli językowych. Wskazujemy obecne w środowiskach ewaluacyjnych luki i porównujemy dostępne w ramach tych środowisk zadania odnosząc się przy tym do języka angielskiego i języka chińskiego - języków o licznych zasobach treningowo-testowych. Głównym wynikiem niniejszej pracy jest LEPISZCZE – nowe środowisko ewaluacyjne dla polskiej technologii językowej opartej na modelowaniu języka, z szerokim zestawem różnorodnych zadań testowych. Zaproponowane środowisko zostało zaprojektowane z myślą o elastyczności w dodawaniu zadań, wprowadzaniu nowych modeli językowych, nadsyłaniu wyników oraz wersjonowaniu danych i modeli. Wraz ze środowiskiem dostarczamy również ocenę kilku nowych modeli językowych oraz dołączamy zarówno poprawione zbiory istniejące w literaturze jak również i nowe zbiory testowe dla nowych zadań. W środowisku zawarto 5 istniejących zbiorów danych i 8 nowych zbiorów danych, które dotychczas nie były używane w ewaluacji modeli językowych. W pracy zawarto również doświadczenia i wnioski wynikające z pracy nad tworzeniem środowiska ewaluacyjnego LEPISZCZE jako wskazówki dla projektantów podobnych środowisk w innych językach o ograniczonych zasobach językowych.||
||<style="border:0;padding-top:5px;padding-bottom:5px">'''23 października 2023'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Piotr Rybak''' (Instytut Podstaw Informatyki PAN)||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''Najnowsze postępy w rozwoju systemów do odpowiadania na pytania w języku polskim''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Streszczenie zostanie podane wkrótce.||
Line 16: Line 16:
||<style="border:0;padding-top:5px;padding-bottom:5px">'''28 listopada 2022'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Aleksander Wawer''' (Instytut Podstaw Informatyki PAN), Justyna Sarzyńska-Wawer (Instytut Psychologii PAN)||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''Tytuł wystąpienia udostępnimy już niedługo''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Streszczenie wystąpienia będzie dostępne już wkrótce.||

||<style="border:0;padding-top:5px;padding-bottom:5px">'''12 grudnia 2022'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Paula Czarnowska''' (University of Cambridge)||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''Tytuł wystąpienia udostępnimy już niedługo''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Streszczenie wystąpienia będzie dostępne już wkrótce.||

||<style="border:0;padding-top:5px;padding-bottom:5px">'''19 grudnia 2022'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Wojciech Kryściński''' (Salesforce Research)||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''Current state, challenges, and approaches to Text Summarization''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}} &#160;{{attachment:seminarium-archiwum/icon-en.gif|Slajdy po angielsku.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Streszczenie wystąpienia będzie dostępne już wkrótce.||

||<style="border:0;padding-top:5px;padding-bottom:5px">'''9 stycznia 2023'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Marzena Karpińska''' (University of Massachusetts Amherst)||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''Tytuł wystąpienia udostępnimy już niedługo''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Streszczenie wystąpienia będzie dostępne już wkrótce.||

||<style="border:0;padding-top:5px;padding-bottom:5px">'''23 stycznia 2023'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Agnieszka Mikołajczyk''' (!VoiceLab / Politechnika Gdańska / hear.ai)||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''Tytuł wystąpienia udostępnimy już niedługo''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Streszczenie wystąpienia będzie dostępne już wkrótce.||

||<style="border:0;padding-top:5px;padding-bottom:5px">'''6 lutego 2023'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Artur Nowakowski, Gabriela Pałka, Kamil Guttmann, Mikołaj Pokrywka''' (Uniwersytet Adama Mickiewicza)||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''Tytuł wystąpienia udostępnimy już niedługo''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Streszczenie wystąpienia będzie dostępne już wkrótce.||





||<style="border:0;padding-top:0px">Zapraszamy także do zapoznania się z [[http://nlp.ipipan.waw.pl/NLP-SEMINAR/previous-p.html|archiwum seminariów z lat 2000–2015]] oraz [[http://zil.ipipan.waw.pl/seminarium-archiwum|listą wystąpień z lat 2015–2022]].||
||<style="border:0;padding-top:0px">Zapraszamy także do zapoznania się z [[http://nlp.ipipan.waw.pl/NLP-SEMINAR/previous-p.html|archiwum seminariów z lat 2000–2015]] oraz [[http://zil.ipipan.waw.pl/seminarium-archiwum|listą wystąpień z lat 2015–2023]].||
Line 64: Line 29:
||<style="border:0;padding-top:5px;padding-bottom:5px">'''14 lutego 2022'''||
||<style="border:0;padding-top:5px;padding-bottom:5px">'''14 marca 2022'''||
||<style="border:0;padding-top:5px;padding-bottom:5px">'''25 kwietnia 2022'''|| – UWAGA, jest KJK
||<style="border:0;padding-top:5px;padding-bottom:5px">'''9 maja 2022'''|| – Adam Grycner?
||<style="border:0;padding-top:5px;padding-bottom:5px">'''23 maja 2022''' – UWAGA, LREC 20–25 maja||
||<style="border:0;padding-top:5px;padding-bottom:5px">'''20 czerwca 2022'''|| – UWAGA, jest KJK
ATLAS: Explaining abstractive summarization - Emilia Wiśnios? Albo coś z NASK-owych tematów dot. przetwarzania prawa? Czy to jest to samo?
Line 77: Line 37:

Seminarium „Przetwarzanie języka naturalnego” 2023–24

Seminarium Zespołu Inżynierii LingwistycznejInstytucie Podstaw Informatyki Polskiej Akademii Nauk odbywa się średnio co 2 tygodnie, zwykle w poniedziałki o godz. 10:15 (niekiedy online – prosimy o korzystanie z linku przy tytule wystąpienia) i ma charakter otwarty. Poszczególne referaty ogłaszane są na Polskiej Liście Językoznawczej oraz na stronie Lingwistyka komputerowa na Facebooku. Nagrania wystąpień dostępne są na kanale YouTube.

seminar

2 października 2023

Agnieszka Mikołajczyk (VoiceLab), Piotr Pęzik (Uniwersytet Łódzki / VoiceLab)

Tytuł zostanie podany wkrótce  Wystąpienie w języku polskim.

Streszczenie zostanie podane wkrótce.

23 października 2023

Piotr Rybak (Instytut Podstaw Informatyki PAN)

Najnowsze postępy w rozwoju systemów do odpowiadania na pytania w języku polskim  Wystąpienie w języku polskim.

Streszczenie zostanie podane wkrótce.

Zapraszamy także do zapoznania się z archiwum seminariów z lat 2000–2015 oraz listą wystąpień z lat 2015–2023.