|
Size: 16835
Comment:
|
Size: 9582
Comment:
|
| Deletions are marked like this. | Additions are marked like this. |
| Line 2: | Line 2: |
| = Seminarium „Przetwarzanie języka naturalnego” 2022–23 = | = Seminarium „Przetwarzanie języka naturalnego” 2023–24 = |
| Line 6: | Line 6: |
| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''3 października 2022'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Sławomir Dadas''' (Ośrodek Przetwarzania Informacji)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=TGwLeE1Y5X4|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2022-10-03.pdf|Doświadczenia z trenowania neuronowych enkoderów zdaniowych dla języka polskiego]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Transformacja zdań lub krótkich tekstów do postaci gęstych wektorów o stałej liczbie wymiarów znajduje zastosowanie w zadaniach takich jak wyszukiwanie informacji, odpowiadanie na pytania, grupowanie tekstów czy detekcja plagiatów. Prostym sposobem na konstrukcję tego typu reprezentacji jest agregacja wektorów wygenerowanych przez model języka lub pochodzących z zanurzeń słów. Natomiast wyższej jakości reprezentacje można uzyskać poprzez dodatkowy fine-tuning modelu języka na parach zdań semantycznie podobnych. W prezentacji przedstawione zostaną metody uczenia enkoderów zdaniowych bazujących na architekturze Transformer oraz nasze doświadczenia z trenowaniem takich modeli dla języka polskiego. Ponadto omówimy sposoby na automatyczne pozyskanie dużych zbiorów parafraz korzystając z publicznie dostępnych korpusów. Pokazany zostanie także przykład zastosowania enkoderów zdaniowych w praktyce, w systemie informatycznym służącym do wykrywania niedozwolonych zapisów w umowach konsumenckich.|| |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''2 października 2023'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Agnieszka Mikołajczyk''' (!VoiceLab), '''Piotr Pęzik''' (Uniwersytet Łódzki / !VoiceLab)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''Tytuł zostanie podany wkrótce'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Streszczenie zostanie podane wkrótce.|| |
| Line 11: | Line 11: |
| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''14 listopada 2022'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Łukasz Augustyniak''', '''Kamil Tagowski''', '''Albert Sawczyn''', '''Denis Janiak''', '''Roman Bartusiak''', '''Adrian Dominik Szymczak''', '''Arkadiusz Janz''', '''Piotr Szymański''', '''Marcin Wątroba''', '''Mikołaj Morzy''', '''Tomasz Jan Kajdanowicz''', '''Maciej Piasecki''' (Politechnika Wrocławska)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''This is the way: designing and compiling LEPISZCZE, a comprehensive NLP benchmark for Polish'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Coraz szersza dostępność zasobów obliczeniowych i danych do trenowania dużych modeli językowych zwiększa zapotrzebowanie na tworzenie solidnych środowisk ewaluacyjnych pozwalających na rzetelne oszacowanie postępów w modelowaniu języka. W ostatnich latach zauważalny jest znaczący postęp prac nad standaryzacją środowisk ewaluacyjnych dla języka angielskiego. Środowiska takie jak GLUE, SuperGLUE czy KILT stały się standardowymi narzędziami do oceny modeli językowych. W tworzeniu środowisk dla innych języków wielu badaczy koncentrowało się na replikowaniu środowiska GLUE, czego przykładem jest polski benchmark KLEJ. W niniejszej pracy przedstawiamy przegląd prac nad tworzeniem środowisk ewaluacyjnych dla języków nisko-zasobowych. Pokazujemy, że wciąż wiele języków nie posiada wyczerpującego zestawu danych testowych do oceny modeli językowych. Wskazujemy obecne w środowiskach ewaluacyjnych luki i porównujemy dostępne w ramach tych środowisk zadania odnosząc się przy tym do języka angielskiego i języka chińskiego - języków o licznych zasobach treningowo-testowych. Głównym wynikiem niniejszej pracy jest LEPISZCZE – nowe środowisko ewaluacyjne dla polskiej technologii językowej opartej na modelowaniu języka, z szerokim zestawem różnorodnych zadań testowych. Zaproponowane środowisko zostało zaprojektowane z myślą o elastyczności w dodawaniu zadań, wprowadzaniu nowych modeli językowych, nadsyłaniu wyników oraz wersjonowaniu danych i modeli. Wraz ze środowiskiem dostarczamy również ocenę kilku nowych modeli językowych oraz dołączamy zarówno poprawione zbiory istniejące w literaturze jak również i nowe zbiory testowe dla nowych zadań. W środowisku zawarto 5 istniejących zbiorów danych i 8 nowych zbiorów danych, które dotychczas nie były używane w ewaluacji modeli językowych. W pracy zawarto również doświadczenia i wnioski wynikające z pracy nad tworzeniem środowiska ewaluacyjnego LEPISZCZE jako wskazówki dla projektantów podobnych środowisk w innych językach o ograniczonych zasobach językowych.|| |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''23 października 2023'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Piotr Rybak''' (Instytut Podstaw Informatyki PAN)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''Najnowsze postępy w rozwoju systemów do odpowiadania na pytania w języku polskim'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Streszczenie zostanie podane wkrótce.|| |
| Line 16: | Line 16: |
| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''28 listopada 2022'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Aleksander Wawer''' (Instytut Podstaw Informatyki PAN), Justyna Sarzyńska-Wawer (Instytut Psychologii PAN)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''Tytuł wystąpienia udostępnimy już niedługo'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Streszczenie wystąpienia będzie dostępne już wkrótce.|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''12 grudnia 2022'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Paula Czarnowska''' (University of Cambridge)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''Tytuł wystąpienia udostępnimy już niedługo'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Streszczenie wystąpienia będzie dostępne już wkrótce.|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''19 grudnia 2022'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Wojciech Kryściński''' (Salesforce Research)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''Current state, challenges, and approaches to Text Summarization'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}  {{attachment:seminarium-archiwum/icon-en.gif|Slajdy po angielsku.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Streszczenie wystąpienia będzie dostępne już wkrótce.|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''9 stycznia 2023'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Marzena Karpińska''' (University of Massachusetts Amherst)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''Tytuł wystąpienia udostępnimy już niedługo'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Streszczenie wystąpienia będzie dostępne już wkrótce.|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''23 stycznia 2023'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Agnieszka Mikołajczyk''' (!VoiceLab / Politechnika Gdańska / hear.ai)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''Tytuł wystąpienia udostępnimy już niedługo'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Streszczenie wystąpienia będzie dostępne już wkrótce.|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''6 lutego 2023'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Artur Nowakowski, Gabriela Pałka, Kamil Guttmann, Mikołaj Pokrywka''' (Uniwersytet Adama Mickiewicza)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''Tytuł wystąpienia udostępnimy już niedługo'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Streszczenie wystąpienia będzie dostępne już wkrótce.|| ||<style="border:0;padding-top:0px">Zapraszamy także do zapoznania się z [[http://nlp.ipipan.waw.pl/NLP-SEMINAR/previous-p.html|archiwum seminariów z lat 2000–2015]] oraz [[http://zil.ipipan.waw.pl/seminarium-archiwum|listą wystąpień z lat 2015–2022]].|| |
||<style="border:0;padding-top:0px">Zapraszamy także do zapoznania się z [[http://nlp.ipipan.waw.pl/NLP-SEMINAR/previous-p.html|archiwum seminariów z lat 2000–2015]] oraz [[http://zil.ipipan.waw.pl/seminarium-archiwum|listą wystąpień z lat 2015–2023]].|| |
| Line 64: | Line 29: |
| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''14 lutego 2022'''|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''14 marca 2022'''|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''25 kwietnia 2022'''|| – UWAGA, jest KJK ||<style="border:0;padding-top:5px;padding-bottom:5px">'''9 maja 2022'''|| – Adam Grycner? ||<style="border:0;padding-top:5px;padding-bottom:5px">'''23 maja 2022''' – UWAGA, LREC 20–25 maja|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''20 czerwca 2022'''|| – UWAGA, jest KJK |
ATLAS: Explaining abstractive summarization - Emilia Wiśnios? Albo coś z NASK-owych tematów dot. przetwarzania prawa? Czy to jest to samo? |
| Line 77: | Line 37: |
Seminarium „Przetwarzanie języka naturalnego” 2023–24
Seminarium Zespołu Inżynierii Lingwistycznej w Instytucie Podstaw Informatyki Polskiej Akademii Nauk odbywa się średnio co 2 tygodnie, zwykle w poniedziałki o godz. 10:15 (niekiedy online – prosimy o korzystanie z linku przy tytule wystąpienia) i ma charakter otwarty. Poszczególne referaty ogłaszane są na Polskiej Liście Językoznawczej oraz na stronie Lingwistyka komputerowa na Facebooku. Nagrania wystąpień dostępne są na kanale YouTube. |
2 października 2023 |
Agnieszka Mikołajczyk (VoiceLab), Piotr Pęzik (Uniwersytet Łódzki / VoiceLab) |
Tytuł zostanie podany wkrótce |
Streszczenie zostanie podane wkrótce. |
23 października 2023 |
Piotr Rybak (Instytut Podstaw Informatyki PAN) |
Najnowsze postępy w rozwoju systemów do odpowiadania na pytania w języku polskim |
Streszczenie zostanie podane wkrótce. |
Zapraszamy także do zapoznania się z archiwum seminariów z lat 2000–2015 oraz listą wystąpień z lat 2015–2023. |


