Locked History Actions

Diff for "seminarium"

Differences between revisions 719 and 1001 (spanning 282 versions)
Revision 719 as of 2022-10-15 15:05:04
Size: 13515
Comment:
Revision 1001 as of 2025-08-18 22:41:31
Size: 10224
Comment:
Deletions are marked like this. Additions are marked like this.
Line 2: Line 2:
= Seminarium „Przetwarzanie języka naturalnego” 2022–23 = = Seminarium „Przetwarzanie języka naturalnego” 2025–26 =
Line 4: Line 4:
||<style="border:0;padding-bottom:10px">Seminarium [[http://nlp.ipipan.waw.pl/|Zespołu Inżynierii Lingwistycznej]] w&nbsp;[[http://www.ipipan.waw.pl/|Instytucie Podstaw Informatyki]] [[http://www.pan.pl/|Polskiej Akademii Nauk]] odbywa się średnio co 2 tygodnie, zwykle w&nbsp;poniedziałki o&nbsp;godz.&nbsp;10:15 (niekiedy online – prosimy o korzystanie z linku przy tytule wystąpienia) i&nbsp;ma charakter otwarty. Poszczególne referaty ogłaszane są na [[http://lists.nlp.ipipan.waw.pl/mailman/listinfo/ling|Polskiej Liście Językoznawczej]] oraz na stronie [[https://www.facebook.com/lingwistyka.komputerowa|Lingwistyka komputerowa]] na Facebooku. Nagrania wystąpień dostępne są na [[https://www.youtube.com/ipipan|kanale YouTube]].||<style="border:0;padding-left:30px;">[[seminar|{{attachment:seminarium-archiwum/en.png}}]]|| ||<style="border:0;padding-bottom:10px">Nowa edycja seminarium [[http://nlp.ipipan.waw.pl/|Zespołu Inżynierii Lingwistycznej]] w&nbsp;[[http://www.ipipan.waw.pl/|Instytucie Podstaw Informatyki]] [[http://www.pan.pl/|Polskiej Akademii Nauk]] rozpocznie się w październiku 2025 r. Seminarium odbywa się średnio co 2 tygodnie, zwykle w&nbsp;poniedziałki o&nbsp;godz.&nbsp;10:15 (niekiedy online – prosimy o korzystanie z linku przy tytule wystąpienia) i&nbsp;ma charakter otwarty. Poszczególne referaty ogłaszane są na [[http://lists.nlp.ipipan.waw.pl/mailman/listinfo/ling|Polskiej Liście Językoznawczej]] oraz na stronie [[https://www.facebook.com/lingwistyka.komputerowa|Lingwistyka komputerowa]] na Facebooku. Nagrania wystąpień dostępne są na [[https://www.youtube.com/ipipan|kanale YouTube]].||<style="border:0;padding-left:30px;">[[seminar|{{attachment:seminarium-archiwum/en.png}}]]||
Line 6: Line 6:
||<style="border:0;padding-top:5px;padding-bottom:5px">'''3 października 2022'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Sławomir Dadas''' (Ośrodek Przetwarzania Informacji)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=TGwLeE1Y5X4|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2022-10-03.pdf|Doświadczenia z trenowania neuronowych enkoderów zdaniowych dla języka polskiego]]''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Transformacja zdań lub krótkich tekstów do postaci gęstych wektorów o stałej liczbie wymiarów znajduje zastosowanie w zadaniach takich jak wyszukiwanie informacji, odpowiadanie na pytania, grupowanie tekstów czy detekcja plagiatów. Prostym sposobem na konstrukcję tego typu reprezentacji jest agregacja wektorów wygenerowanych przez model języka lub pochodzących z zanurzeń słów. Natomiast wyższej jakości reprezentacje można uzyskać poprzez dodatkowy fine-tuning modelu języka na parach zdań semantycznie podobnych. W prezentacji przedstawione zostaną metody uczenia enkoderów zdaniowych bazujących na architekturze Transformer oraz nasze doświadczenia z trenowaniem takich modeli dla języka polskiego. Ponadto omówimy sposoby na automatyczne pozyskanie dużych zbiorów parafraz korzystając z publicznie dostępnych korpusów. Pokazany zostanie także przykład zastosowania enkoderów zdaniowych w praktyce, w systemie informatycznym służącym do wykrywania niedozwolonych zapisów w umowach konsumenckich.||
||<style="border:0;padding-top:15px">Zapraszamy także do zapoznania się z [[http://nlp.ipipan.waw.pl/NLP-SEMINAR/previous-p.html|archiwum seminariów z lat 2000–2015]] oraz [[http://zil.ipipan.waw.pl/seminarium-archiwum|listą wystąpień z lat 2015–2025]].||
Line 11: Line 8:
||<style="border:0;padding-top:5px;padding-bottom:5px">'''14 listopada 2022'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Łukasz Augustyniak''', '''Kamil Tagowski''', '''Albert Sawczyn''', '''Denis Janiak''', '''Roman Bartusiak''', '''Adrian Dominik Szymczak''', '''Arkadiusz Janz''', '''Piotr Szymański''', '''Marcin Wątroba''', '''Mikołaj Morzy''', '''Tomasz Jan Kajdanowicz''', '''Maciej Piasecki''' (Politechnika Wrocławska)||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''This is the way: designing and compiling LEPISZCZE, a comprehensive NLP benchmark for Polish''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Coraz szersza dostępność zasobów obliczeniowych i danych do trenowania dużych modeli językowych zwiększa zapotrzebowanie na tworzenie solidnych środowisk ewaluacyjnych pozwalających na rzetelne oszacowanie postępów w modelowaniu języka. W ostatnich latach zauważalny jest znaczący postęp prac nad standaryzacją środowisk ewaluacyjnych dla języka angielskiego. Środowiska takie jak GLUE, SuperGLUE czy KILT stały się standardowymi narzędziami do oceny modeli językowych. W tworzeniu środowisk dla innych języków wielu badaczy koncentrowało się na replikowaniu środowiska GLUE, czego przykładem jest polski benchmark KLEJ. W niniejszej pracy przedstawiamy przegląd prac nad tworzeniem środowisk ewaluacyjnych dla języków nisko-zasobowych. Pokazujemy, że wciąż wiele języków nie posiada wyczerpującego zestawu danych testowych do oceny modeli językowych. Wskazujemy obecne w środowiskach ewaluacyjnych luki i porównujemy dostępne w ramach tych środowisk zadania odnosząc się przy tym do języka angielskiego i języka chińskiego - języków o licznych zasobach treningowo-testowych. Głównym wynikiem niniejszej pracy jest LEPISZCZE – nowe środowisko ewaluacyjne dla polskiej technologii językowej opartej na modelowaniu języka, z szerokim zestawem różnorodnych zadań testowych. Zaproponowane środowisko zostało zaprojektowane z myślą o elastyczności w dodawaniu zadań, wprowadzaniu nowych modeli językowych, nadsyłaniu wyników oraz wersjonowaniu danych i modeli. Wraz ze środowiskiem dostarczamy również ocenę kilku nowych modeli językowych oraz dołączamy zarówno poprawione zbiory istniejące w literaturze jak również i nowe zbiory testowe dla nowych zadań. W środowisku zawarto 5 istniejących zbiorów danych i 8 nowych zbiorów danych, które dotychczas nie były używane w ewaluacji modeli językowych. W pracy zawarto również doświadczenia i wnioski wynikające z pracy nad tworzeniem środowiska ewaluacyjnego LEPISZCZE jako wskazówki dla projektantów podobnych środowisk w innych językach o ograniczonych zasobach językowych.||
{{{#!wiki comment
Line 16: Line 10:
||<style="border:0;padding-top:0px">Zapraszamy także do zapoznania się z [[http://nlp.ipipan.waw.pl/NLP-SEMINAR/previous-p.html|archiwum seminariów z lat 2000–2015]] oraz [[http://zil.ipipan.waw.pl/seminarium-archiwum|listą wystąpień z lat 2015–2022]].|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''7 października 2023'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Uczestnicy konkursu PolEval 2024''' ||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Planowana seria prezentacji uczestników zadań PolEvalowych''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienia w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Lista wystąpień będzie dostępna wkrótce.||
Line 19: Line 16:
{{{#!wiki comment ||<style="border:0;padding-top:5px;padding-bottom:5px">'''11 marca 2024'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Mateusz Krubiński''' (Uniwersytet Karola w Pradze)||
||<style="border:0;padding-left:30px;padding-bottom:15px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Tytuł wystąpienia podamy wkrótce''' &#160;{{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku polskim.}}||



||<style="border:0;padding-top:15px;padding-bottom:5px">'''8 stycznia 2024''' (prezentacja wyników projektu DARIAH.Lab)||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Zespół projektu DARIAH.Lab''' (Instytut Podstaw Informatyki PAN)||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''Tytuł wystąpienia poznamy wkrótce''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie po polsku.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Streszczenie wystąpienia udostępnimy w najbliższym czasie.||
Line 30: Line 37:
||<style="border:0;padding-top:5px;padding-bottom:5px">'''14 lutego 2022'''||
||<style="border:0;padding-top:5px;padding-bottom:5px">'''14 marca 2022'''||
||<style="border:0;padding-top:5px;padding-bottom:5px">'''25 kwietnia 2022'''|| – UWAGA, jest KJK
||<style="border:0;padding-top:5px;padding-bottom:5px">'''9 maja 2022'''|| – Adam Grycner?
||<style="border:0;padding-top:5px;padding-bottom:5px">'''23 maja 2022''' – UWAGA, LREC 20–25 maja||
||<style="border:0;padding-top:5px;padding-bottom:5px">'''20 czerwca 2022'''|| – UWAGA, jest KJK
ATLAS: Explaining abstractive summarization - Emilia Wiśnios? Albo coś z NASK-owych tematów dot. przetwarzania prawa? Czy to jest to samo?
Line 43: Line 45:

Seminarium „Przetwarzanie języka naturalnego” 2025–26

Nowa edycja seminarium Zespołu Inżynierii LingwistycznejInstytucie Podstaw Informatyki Polskiej Akademii Nauk rozpocznie się w październiku 2025 r. Seminarium odbywa się średnio co 2 tygodnie, zwykle w poniedziałki o godz. 10:15 (niekiedy online – prosimy o korzystanie z linku przy tytule wystąpienia) i ma charakter otwarty. Poszczególne referaty ogłaszane są na Polskiej Liście Językoznawczej oraz na stronie Lingwistyka komputerowa na Facebooku. Nagrania wystąpień dostępne są na kanale YouTube.

seminar

Zapraszamy także do zapoznania się z archiwum seminariów z lat 2000–2015 oraz listą wystąpień z lat 2015–2025.