|
Size: 17151
Comment:
|
Size: 13144
Comment:
|
| Deletions are marked like this. | Additions are marked like this. |
| Line 2: | Line 2: |
| = Seminarium „Przetwarzanie języka naturalnego” 2022–23 = | = Seminarium „Przetwarzanie języka naturalnego” 2024–25 = |
| Line 6: | Line 6: |
| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''3 października 2022'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Sławomir Dadas''' (Ośrodek Przetwarzania Informacji)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=TGwLeE1Y5X4|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2022-10-03.pdf|Doświadczenia z trenowania neuronowych enkoderów zdaniowych dla języka polskiego]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Transformacja zdań lub krótkich tekstów do postaci gęstych wektorów o stałej liczbie wymiarów znajduje zastosowanie w zadaniach takich jak wyszukiwanie informacji, odpowiadanie na pytania, grupowanie tekstów czy detekcja plagiatów. Prostym sposobem na konstrukcję tego typu reprezentacji jest agregacja wektorów wygenerowanych przez model języka lub pochodzących z zanurzeń słów. Natomiast wyższej jakości reprezentacje można uzyskać poprzez dodatkowy fine-tuning modelu języka na parach zdań semantycznie podobnych. W prezentacji przedstawione zostaną metody uczenia enkoderów zdaniowych bazujących na architekturze Transformer oraz nasze doświadczenia z trenowaniem takich modeli dla języka polskiego. Ponadto omówimy sposoby na automatyczne pozyskanie dużych zbiorów parafraz korzystając z publicznie dostępnych korpusów. Pokazany zostanie także przykład zastosowania enkoderów zdaniowych w praktyce, w systemie informatycznym służącym do wykrywania niedozwolonych zapisów w umowach konsumenckich.|| |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''7 października 2024'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Janusz S. Bień''' (profesor emeritus Uniwersytetu Warszawskiego) || ||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Identyfikacja czcionek w XVI-wiecznych drukach. Analiza przypadku'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienia w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Przetwarzanie tekstów wymaga ich zakodowania w odpowiednim standardzie, aktualnie praktyczne jedyną opcją jest standard Unicode. Niektóre czcionki stosowane w starodrukach są już uwzględnione w tym standardzie, niektóre sa dostępne w specjalistycznych fontach za pomocą tzw. funkcji zecerskich. Niektóre czcionki, opisane w monumentalnym dziele „[[https://polona.pl/preview/2177789b-4c73-48ae-ab76-f33d7f6f2070+Polonia Typographica Saeculi Sedecimi]]”, nie maja jednak swoich odpowiedników w standardzie. W referacie omówię kilka takich czcionek.|| |
| Line 11: | Line 11: |
| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''14 listopada 2022'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Łukasz Augustyniak''', '''Kamil Tagowski''', '''Albert Sawczyn''', '''Denis Janiak''', '''Roman Bartusiak''', '''Adrian Dominik Szymczak''', '''Arkadiusz Janz''', '''Piotr Szymański''', '''Marcin Wątroba''', '''Mikołaj Morzy''', '''Tomasz Jan Kajdanowicz''', '''Maciej Piasecki''' (Politechnika Wrocławska)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://pwr-edu.zoom.us/j/96657909989?pwd=VXFmcEc5blNyM0M3ekxvNGc3Q2Rsdz09|{{attachment:seminarium-archiwum/zoom.png}}]] '''This is the way: designing and compiling LEPISZCZE, a comprehensive NLP benchmark for Polish'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Coraz szersza dostępność zasobów obliczeniowych i danych do trenowania dużych modeli językowych zwiększa zapotrzebowanie na tworzenie solidnych środowisk ewaluacyjnych pozwalających na rzetelne oszacowanie postępów w modelowaniu języka. W ostatnich latach zauważalny jest znaczący postęp prac nad standaryzacją środowisk ewaluacyjnych dla języka angielskiego. Środowiska takie jak GLUE, SuperGLUE czy KILT stały się standardowymi narzędziami do oceny modeli językowych. W tworzeniu środowisk dla innych języków wielu badaczy koncentrowało się na replikowaniu środowiska GLUE, czego przykładem jest polski benchmark KLEJ. W niniejszej pracy przedstawiamy przegląd prac nad tworzeniem środowisk ewaluacyjnych dla języków nisko-zasobowych. Pokazujemy, że wciąż wiele języków nie posiada wyczerpującego zestawu danych testowych do oceny modeli językowych. Wskazujemy obecne w środowiskach ewaluacyjnych luki i porównujemy dostępne w ramach tych środowisk zadania odnosząc się przy tym do języka angielskiego i języka chińskiego - języków o licznych zasobach treningowo-testowych. Głównym wynikiem niniejszej pracy jest LEPISZCZE – nowe środowisko ewaluacyjne dla polskiej technologii językowej opartej na modelowaniu języka, z szerokim zestawem różnorodnych zadań testowych. Zaproponowane środowisko zostało zaprojektowane z myślą o elastyczności w dodawaniu zadań, wprowadzaniu nowych modeli językowych, nadsyłaniu wyników oraz wersjonowaniu danych i modeli. Wraz ze środowiskiem dostarczamy również ocenę kilku nowych modeli językowych oraz dołączamy zarówno poprawione zbiory istniejące w literaturze jak również i nowe zbiory testowe dla nowych zadań. W środowisku zawarto 5 istniejących zbiorów danych i 8 nowych zbiorów danych, które dotychczas nie były używane w ewaluacji modeli językowych. W pracy zawarto również doświadczenia i wnioski wynikające z pracy nad tworzeniem środowiska ewaluacyjnego LEPISZCZE jako wskazówki dla projektantów podobnych środowisk w innych językach o ograniczonych zasobach językowych.|| |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''14 października 2024'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Alexander Rosen''' (Uniwersytet Karola w Pradze)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Lexical and syntactic variability of languages and text genres. A corpus-based study'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Streszczenie wystąpienia pojawi się wkrótce.|| |
| Line 16: | Line 16: |
| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''28 listopada 2022'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Aleksander Wawer''' (Instytut Podstaw Informatyki PAN), Justyna Sarzyńska-Wawer (Instytut Psychologii PAN)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''Tytuł wystąpienia udostępnimy już niedługo'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Streszczenie wystąpienia będzie dostępne już wkrótce.|| |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''4 listopada 2024'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Jakub Kozakoszczak'''|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''[[Tytuł wystąpienia podamy wkrótce]]'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:5px">Streszczeni wystąpienia pojawi się w najbliższym czasie.|| |
| Line 21: | Line 21: |
| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''19 grudnia 2022'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Wojciech Kryściński''' (Salesforce Research)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''Current state, challenges, and approaches to Text Summarization'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}} {{attachment:seminarium-archiwum/icon-en.gif|Slajdy po angielsku.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Neural Text Summarization is a challenging task within Natural Language Processing that requires advanced language understanding and generation capabilities. In recent years substantial progress has been made in developing neural models for the task thanks to the efforts of the research community and advancements in the broader field of NLP. Despite this progress, text summarization remains a challenging task that is far from being solved. In this talk, we will first discuss the early approaches and the current state of the field. Next, we will critically evaluate key ingredients of the existing research setup: datasets, evaluation metrics, and models. Finally, we will focus on emerging research directions and consider the future of text summarization.|| |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''21 listopada 2024'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Christian Chiarcos''' (Uniwersytet w Augsburgu)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Tytuł wystąpienia udostępnimy już niedługo'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Treść streszczenia podamy po jej przekazaniu przez prelegenta.|| |
| Line 26: | Line 26: |
| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''9 stycznia 2023'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Marzena Karpińska''' (University of Massachusetts Amherst)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''Tytuł wystąpienia udostępnimy już niedługo'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Streszczenie wystąpienia będzie dostępne już wkrótce.|| |
||<style="border:0;padding-top:15px">Zapraszamy także do zapoznania się z [[http://nlp.ipipan.waw.pl/NLP-SEMINAR/previous-p.html|archiwum seminariów z lat 2000–2015]] oraz [[http://zil.ipipan.waw.pl/seminarium-archiwum|listą wystąpień z lat 2015–2023]].|| |
| Line 31: | Line 28: |
| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''23 stycznia 2023'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Agnieszka Mikołajczyk''' (!VoiceLab / Politechnika Gdańska / hear.ai)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''Tytuł wystąpienia udostępnimy już niedługo'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Streszczenie wystąpienia będzie dostępne już wkrótce.|| |
{{{#!wiki comment |
| Line 36: | Line 30: |
| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''6 lutego 2023'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Artur Nowakowski, Gabriela Pałka, Kamil Guttmann, Mikołaj Pokrywka''' (Uniwersytet Adama Mickiewicza)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''Tytuł wystąpienia udostępnimy już niedługo'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Streszczenie wystąpienia będzie dostępne już wkrótce.|| |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''7 października 2023'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Uczestnicy konkursu PolEval 2024''' || ||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Planowana seria prezentacji uczestników zadań PolEvalowych'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienia w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Lista wystąpień będzie dostępna wkrótce.|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''11 marca 2024'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Mateusz Krubiński''' (Uniwersytet Karola w Pradze)|| ||<style="border:0;padding-left:30px;padding-bottom:15px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Tytuł wystąpienia podamy wkrótce'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku polskim.}}|| |
| Line 43: | Line 42: |
| ||<style="border:0;padding-top:15px;padding-bottom:5px">'''8 stycznia 2024''' (prezentacja wyników projektu DARIAH.Lab)|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Zespół projektu DARIAH.Lab''' (Instytut Podstaw Informatyki PAN)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''Tytuł wystąpienia poznamy wkrótce'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie po polsku.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Streszczenie wystąpienia udostępnimy w najbliższym czasie.|| |
|
| Line 44: | Line 47: |
||<style="border:0;padding-top:0px">Zapraszamy także do zapoznania się z [[http://nlp.ipipan.waw.pl/NLP-SEMINAR/previous-p.html|archiwum seminariów z lat 2000–2015]] oraz [[http://zil.ipipan.waw.pl/seminarium-archiwum|listą wystąpień z lat 2015–2022]].|| {{{#!wiki comment |
|
| Line 59: | Line 57: |
| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''14 lutego 2022'''|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''14 marca 2022'''|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''25 kwietnia 2022'''|| – UWAGA, jest KJK ||<style="border:0;padding-top:5px;padding-bottom:5px">'''9 maja 2022'''|| – Adam Grycner? ||<style="border:0;padding-top:5px;padding-bottom:5px">'''23 maja 2022''' – UWAGA, LREC 20–25 maja|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''20 czerwca 2022'''|| – UWAGA, jest KJK |
ATLAS: Explaining abstractive summarization - Emilia Wiśnios? Albo coś z NASK-owych tematów dot. przetwarzania prawa? Czy to jest to samo? |
| Line 72: | Line 65: |
Seminarium „Przetwarzanie języka naturalnego” 2024–25
Seminarium Zespołu Inżynierii Lingwistycznej w Instytucie Podstaw Informatyki Polskiej Akademii Nauk odbywa się średnio co 2 tygodnie, zwykle w poniedziałki o godz. 10:15 (niekiedy online – prosimy o korzystanie z linku przy tytule wystąpienia) i ma charakter otwarty. Poszczególne referaty ogłaszane są na Polskiej Liście Językoznawczej oraz na stronie Lingwistyka komputerowa na Facebooku. Nagrania wystąpień dostępne są na kanale YouTube. |
7 października 2024 |
Janusz S. Bień (profesor emeritus Uniwersytetu Warszawskiego) |
|
Przetwarzanie tekstów wymaga ich zakodowania w odpowiednim standardzie, aktualnie praktyczne jedyną opcją jest standard Unicode. Niektóre czcionki stosowane w starodrukach są już uwzględnione w tym standardzie, niektóre sa dostępne w specjalistycznych fontach za pomocą tzw. funkcji zecerskich. Niektóre czcionki, opisane w monumentalnym dziele „https://polona.pl/preview/2177789b-4c73-48ae-ab76-f33d7f6f2070+Polonia Typographica Saeculi Sedecimi”, nie maja jednak swoich odpowiedników w standardzie. W referacie omówię kilka takich czcionek. |
14 października 2024 |
Alexander Rosen (Uniwersytet Karola w Pradze) |
|
Streszczenie wystąpienia pojawi się wkrótce. |
4 listopada 2024 |
Jakub Kozakoszczak |
Streszczeni wystąpienia pojawi się w najbliższym czasie. |
21 listopada 2024 |
Christian Chiarcos (Uniwersytet w Augsburgu) |
Treść streszczenia podamy po jej przekazaniu przez prelegenta. |
Zapraszamy także do zapoznania się z archiwum seminariów z lat 2000–2015 oraz listą wystąpień z lat 2015–2023. |


