Differences between revisions 719 and 1001 (spanning 282 versions)
Size: 13515
Comment:
|
← Revision 1001 as of 2025-08-18 22:41:31 ⇥
Size: 10224
Comment:
|
Deletions are marked like this. | Additions are marked like this. |
Line 2: | Line 2: |
= Seminarium „Przetwarzanie języka naturalnego” 2022–23 = | = Seminarium „Przetwarzanie języka naturalnego” 2025–26 = |
Line 4: | Line 4: |
||<style="border:0;padding-bottom:10px">Seminarium [[http://nlp.ipipan.waw.pl/|Zespołu Inżynierii Lingwistycznej]] w [[http://www.ipipan.waw.pl/|Instytucie Podstaw Informatyki]] [[http://www.pan.pl/|Polskiej Akademii Nauk]] odbywa się średnio co 2 tygodnie, zwykle w poniedziałki o godz. 10:15 (niekiedy online – prosimy o korzystanie z linku przy tytule wystąpienia) i ma charakter otwarty. Poszczególne referaty ogłaszane są na [[http://lists.nlp.ipipan.waw.pl/mailman/listinfo/ling|Polskiej Liście Językoznawczej]] oraz na stronie [[https://www.facebook.com/lingwistyka.komputerowa|Lingwistyka komputerowa]] na Facebooku. Nagrania wystąpień dostępne są na [[https://www.youtube.com/ipipan|kanale YouTube]].||<style="border:0;padding-left:30px;">[[seminar|{{attachment:seminarium-archiwum/en.png}}]]|| | ||<style="border:0;padding-bottom:10px">Nowa edycja seminarium [[http://nlp.ipipan.waw.pl/|Zespołu Inżynierii Lingwistycznej]] w [[http://www.ipipan.waw.pl/|Instytucie Podstaw Informatyki]] [[http://www.pan.pl/|Polskiej Akademii Nauk]] rozpocznie się w październiku 2025 r. Seminarium odbywa się średnio co 2 tygodnie, zwykle w poniedziałki o godz. 10:15 (niekiedy online – prosimy o korzystanie z linku przy tytule wystąpienia) i ma charakter otwarty. Poszczególne referaty ogłaszane są na [[http://lists.nlp.ipipan.waw.pl/mailman/listinfo/ling|Polskiej Liście Językoznawczej]] oraz na stronie [[https://www.facebook.com/lingwistyka.komputerowa|Lingwistyka komputerowa]] na Facebooku. Nagrania wystąpień dostępne są na [[https://www.youtube.com/ipipan|kanale YouTube]].||<style="border:0;padding-left:30px;">[[seminar|{{attachment:seminarium-archiwum/en.png}}]]|| |
Line 6: | Line 6: |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''3 października 2022'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Sławomir Dadas''' (Ośrodek Przetwarzania Informacji)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=TGwLeE1Y5X4|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2022-10-03.pdf|Doświadczenia z trenowania neuronowych enkoderów zdaniowych dla języka polskiego]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Transformacja zdań lub krótkich tekstów do postaci gęstych wektorów o stałej liczbie wymiarów znajduje zastosowanie w zadaniach takich jak wyszukiwanie informacji, odpowiadanie na pytania, grupowanie tekstów czy detekcja plagiatów. Prostym sposobem na konstrukcję tego typu reprezentacji jest agregacja wektorów wygenerowanych przez model języka lub pochodzących z zanurzeń słów. Natomiast wyższej jakości reprezentacje można uzyskać poprzez dodatkowy fine-tuning modelu języka na parach zdań semantycznie podobnych. W prezentacji przedstawione zostaną metody uczenia enkoderów zdaniowych bazujących na architekturze Transformer oraz nasze doświadczenia z trenowaniem takich modeli dla języka polskiego. Ponadto omówimy sposoby na automatyczne pozyskanie dużych zbiorów parafraz korzystając z publicznie dostępnych korpusów. Pokazany zostanie także przykład zastosowania enkoderów zdaniowych w praktyce, w systemie informatycznym służącym do wykrywania niedozwolonych zapisów w umowach konsumenckich.|| |
||<style="border:0;padding-top:15px">Zapraszamy także do zapoznania się z [[http://nlp.ipipan.waw.pl/NLP-SEMINAR/previous-p.html|archiwum seminariów z lat 2000–2015]] oraz [[http://zil.ipipan.waw.pl/seminarium-archiwum|listą wystąpień z lat 2015–2025]].|| |
Line 11: | Line 8: |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''14 listopada 2022'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Łukasz Augustyniak''', '''Kamil Tagowski''', '''Albert Sawczyn''', '''Denis Janiak''', '''Roman Bartusiak''', '''Adrian Dominik Szymczak''', '''Arkadiusz Janz''', '''Piotr Szymański''', '''Marcin Wątroba''', '''Mikołaj Morzy''', '''Tomasz Jan Kajdanowicz''', '''Maciej Piasecki''' (Politechnika Wrocławska)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''This is the way: designing and compiling LEPISZCZE, a comprehensive NLP benchmark for Polish'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Coraz szersza dostępność zasobów obliczeniowych i danych do trenowania dużych modeli językowych zwiększa zapotrzebowanie na tworzenie solidnych środowisk ewaluacyjnych pozwalających na rzetelne oszacowanie postępów w modelowaniu języka. W ostatnich latach zauważalny jest znaczący postęp prac nad standaryzacją środowisk ewaluacyjnych dla języka angielskiego. Środowiska takie jak GLUE, SuperGLUE czy KILT stały się standardowymi narzędziami do oceny modeli językowych. W tworzeniu środowisk dla innych języków wielu badaczy koncentrowało się na replikowaniu środowiska GLUE, czego przykładem jest polski benchmark KLEJ. W niniejszej pracy przedstawiamy przegląd prac nad tworzeniem środowisk ewaluacyjnych dla języków nisko-zasobowych. Pokazujemy, że wciąż wiele języków nie posiada wyczerpującego zestawu danych testowych do oceny modeli językowych. Wskazujemy obecne w środowiskach ewaluacyjnych luki i porównujemy dostępne w ramach tych środowisk zadania odnosząc się przy tym do języka angielskiego i języka chińskiego - języków o licznych zasobach treningowo-testowych. Głównym wynikiem niniejszej pracy jest LEPISZCZE – nowe środowisko ewaluacyjne dla polskiej technologii językowej opartej na modelowaniu języka, z szerokim zestawem różnorodnych zadań testowych. Zaproponowane środowisko zostało zaprojektowane z myślą o elastyczności w dodawaniu zadań, wprowadzaniu nowych modeli językowych, nadsyłaniu wyników oraz wersjonowaniu danych i modeli. Wraz ze środowiskiem dostarczamy również ocenę kilku nowych modeli językowych oraz dołączamy zarówno poprawione zbiory istniejące w literaturze jak również i nowe zbiory testowe dla nowych zadań. W środowisku zawarto 5 istniejących zbiorów danych i 8 nowych zbiorów danych, które dotychczas nie były używane w ewaluacji modeli językowych. W pracy zawarto również doświadczenia i wnioski wynikające z pracy nad tworzeniem środowiska ewaluacyjnego LEPISZCZE jako wskazówki dla projektantów podobnych środowisk w innych językach o ograniczonych zasobach językowych.|| |
{{{#!wiki comment |
Line 16: | Line 10: |
||<style="border:0;padding-top:0px">Zapraszamy także do zapoznania się z [[http://nlp.ipipan.waw.pl/NLP-SEMINAR/previous-p.html|archiwum seminariów z lat 2000–2015]] oraz [[http://zil.ipipan.waw.pl/seminarium-archiwum|listą wystąpień z lat 2015–2022]].|| | ||<style="border:0;padding-top:5px;padding-bottom:5px">'''7 października 2023'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Uczestnicy konkursu PolEval 2024''' || ||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Planowana seria prezentacji uczestników zadań PolEvalowych'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienia w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Lista wystąpień będzie dostępna wkrótce.|| |
Line 19: | Line 16: |
{{{#!wiki comment | ||<style="border:0;padding-top:5px;padding-bottom:5px">'''11 marca 2024'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Mateusz Krubiński''' (Uniwersytet Karola w Pradze)|| ||<style="border:0;padding-left:30px;padding-bottom:15px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Tytuł wystąpienia podamy wkrótce'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-top:15px;padding-bottom:5px">'''8 stycznia 2024''' (prezentacja wyników projektu DARIAH.Lab)|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Zespół projektu DARIAH.Lab''' (Instytut Podstaw Informatyki PAN)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''Tytuł wystąpienia poznamy wkrótce'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie po polsku.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Streszczenie wystąpienia udostępnimy w najbliższym czasie.|| |
Line 30: | Line 37: |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''14 lutego 2022'''|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''14 marca 2022'''|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''25 kwietnia 2022'''|| – UWAGA, jest KJK ||<style="border:0;padding-top:5px;padding-bottom:5px">'''9 maja 2022'''|| – Adam Grycner? ||<style="border:0;padding-top:5px;padding-bottom:5px">'''23 maja 2022''' – UWAGA, LREC 20–25 maja|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''20 czerwca 2022'''|| – UWAGA, jest KJK |
ATLAS: Explaining abstractive summarization - Emilia Wiśnios? Albo coś z NASK-owych tematów dot. przetwarzania prawa? Czy to jest to samo? |
Line 43: | Line 45: |
Seminarium „Przetwarzanie języka naturalnego” 2025–26
Nowa edycja seminarium Zespołu Inżynierii Lingwistycznej w Instytucie Podstaw Informatyki Polskiej Akademii Nauk rozpocznie się w październiku 2025 r. Seminarium odbywa się średnio co 2 tygodnie, zwykle w poniedziałki o godz. 10:15 (niekiedy online – prosimy o korzystanie z linku przy tytule wystąpienia) i ma charakter otwarty. Poszczególne referaty ogłaszane są na Polskiej Liście Językoznawczej oraz na stronie Lingwistyka komputerowa na Facebooku. Nagrania wystąpień dostępne są na kanale YouTube. |
Zapraszamy także do zapoznania się z archiwum seminariów z lat 2000–2015 oraz listą wystąpień z lat 2015–2025. |