Locked History Actions

Diff for "seminarium"

Differences between revisions 718 and 1007 (spanning 289 versions)
Revision 718 as of 2022-10-03 18:54:46
Size: 10632
Comment:
Revision 1007 as of 2025-09-23 22:30:43
Size: 13657
Comment:
Deletions are marked like this. Additions are marked like this.
Line 2: Line 2:
= Seminarium „Przetwarzanie języka naturalnego” 2022–23 = = Seminarium „Przetwarzanie języka naturalnego” 2025–26 =
Line 4: Line 4:
||<style="border:0;padding-bottom:10px">Seminarium [[http://nlp.ipipan.waw.pl/|Zespołu Inżynierii Lingwistycznej]] w&nbsp;[[http://www.ipipan.waw.pl/|Instytucie Podstaw Informatyki]] [[http://www.pan.pl/|Polskiej Akademii Nauk]] odbywa się średnio co 2 tygodnie, zwykle w&nbsp;poniedziałki o&nbsp;godz.&nbsp;10:15 (niekiedy online – prosimy o korzystanie z linku przy tytule wystąpienia) i&nbsp;ma charakter otwarty. Poszczególne referaty ogłaszane są na [[http://lists.nlp.ipipan.waw.pl/mailman/listinfo/ling|Polskiej Liście Językoznawczej]] oraz na stronie [[https://www.facebook.com/lingwistyka.komputerowa|Lingwistyka komputerowa]] na Facebooku. Nagrania wystąpień dostępne są na [[https://www.youtube.com/ipipan|kanale YouTube]].||<style="border:0;padding-left:30px;">[[seminar|{{attachment:seminarium-archiwum/en.png}}]]|| ||<style="border:0;padding-bottom:10px">Nowa edycja seminarium [[http://nlp.ipipan.waw.pl/|Zespołu Inżynierii Lingwistycznej]] w&nbsp;[[http://www.ipipan.waw.pl/|Instytucie Podstaw Informatyki]] [[http://www.pan.pl/|Polskiej Akademii Nauk]] rozpocznie się w październiku 2025 r. Seminarium odbywa się średnio co 2 tygodnie, zwykle w&nbsp;poniedziałki o&nbsp;godz.&nbsp;10:15 (niekiedy online – prosimy o korzystanie z linku przy tytule wystąpienia) i&nbsp;ma charakter otwarty. Poszczególne referaty ogłaszane są na [[http://lists.nlp.ipipan.waw.pl/mailman/listinfo/ling|Polskiej Liście Językoznawczej]] oraz na stronie [[https://www.facebook.com/lingwistyka.komputerowa|Lingwistyka komputerowa]] na Facebooku. Nagrania wystąpień dostępne są na [[https://www.youtube.com/ipipan|kanale YouTube]].||<style="border:0;padding-left:30px;">[[seminar|{{attachment:seminarium-archiwum/en.png}}]]||
Line 6: Line 6:
||<style="border:0;padding-top:5px;padding-bottom:5px">'''3 października 2022'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Sławomir Dadas''' (Ośrodek Przetwarzania Informacji)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=TGwLeE1Y5X4|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2022-10-03.pdf|Doświadczenia z trenowania neuronowych enkoderów zdaniowych dla języka polskiego]]''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Transformacja zdań lub krótkich tekstów do postaci gęstych wektorów o stałej liczbie wymiarów znajduje zastosowanie w zadaniach takich jak wyszukiwanie informacji, odpowiadanie na pytania, grupowanie tekstów czy detekcja plagiatów. Prostym sposobem na konstrukcję tego typu reprezentacji jest agregacja wektorów wygenerowanych przez model języka lub pochodzących z zanurzeń słów. Natomiast wyższej jakości reprezentacje można uzyskać poprzez dodatkowy fine-tuning modelu języka na parach zdań semantycznie podobnych. W prezentacji przedstawione zostaną metody uczenia enkoderów zdaniowych bazujących na architekturze Transformer oraz nasze doświadczenia z trenowaniem takich modeli dla języka polskiego. Ponadto omówimy sposoby na automatyczne pozyskanie dużych zbiorów parafraz korzystając z publicznie dostępnych korpusów. Pokazany zostanie także przykład zastosowania enkoderów zdaniowych w praktyce, w systemie informatycznym służącym do wykrywania niedozwolonych zapisów w umowach konsumenckich.||
||<style="border:0;padding-top:5px;padding-bottom:5px">'''15 września 2025'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Louis Esteve''' (Universite Paris-Saclay) ||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''[[attachment:seminarium-archiwum/2025-09-15.pdf|Diversity and dataset size – a quantitative perspective]]''' &#160;{{attachment:seminarium-archiwum/icon-en.gif|Wystąpienia w języku angielskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">The field of Natural Language Processing (NLP) studies the abilities of computer systems to process and generate natural language, and has received increasing attention from the general population since the democratisation of generative and conversational models. However, behind the scenes, state-of-the-art NLP models are trained on ever-larger datasets, reaching trillions of tokens. It may be argued that the creation and use of such immense datasets is motivated by the idea that 'the larger the dataset, the more diverse it is', and that in turn 'if the training set is more diverse, it shall yield better models'. However, these statements thus far remain intuitions and need to be properly tested. To this end, this presentation will tackle methods and caveats of formal diversity quantification including limitations of the literature, a preliminary discussion on the link between diversity and dataset size, as well as their impact on downstream applications.||

||<style="border:0;padding-top:5px;padding-bottom:5px">'''6 października 2025'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Stan Matwin''' (Dalhousie University / IPI PAN) ||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Głębokie, wielopostaciowe uczenie się diagnozowania zaburzeń psychicznych z zapisów wywiadów klinicznych''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienia w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Kluczowe cechy chorób psychicznych znajdują odzwierciedlenie w zapisach audio wywiadów klinicznych z pacjentami i ich rodzinami. Zbudowaliśmy metodę głębokiego uczenia się, która automatycznie wyodrębnia istotne cechy niezbędne do diagnozy chorób psychicznych (ADHD, depresji, choroby afektywnej dwubiegunowej i schizofrenii) z tego rodzaju wywiadów. Wykorzystujemy różnorodne, wstępnie wytrenowane modele do ekstrakcji reprezentacji zarówno z dźwiękowych segmentów tych wywiadów, jak i ich wersji tekstowych. Używamy kilku nowoczesnych technik reprezentacyjnych (embeddings). Stosujemy podejście Big Data eksplorując istniejące korpusy dźwiękowe i tekstowe adnotowane etykietami emocjonalnymi. Problem niedoboru adnotowanych danych rozwiązujemy za co pomocą parametrycznego dostrajania modelu (Parameter Efficient Fine-Tuning). Wszystkie te reprezentacje są następnie łączone w jedną formę wielopostaciowa. Do diagnozowania powyższych zaburzeń psychicznych stosujemy uczenie się przez kontrast oraz syntezę modeli za pomocą komitetu ekspertów (Mixture of Experts). Otrzymane wyniki pokazują że poprzez multimodalną analizę wywiadów klinicznych można diagnozować zaburzenia psychiczne z zadowalającą dokładnością (projekt prowadzony we współpracy z H. Naderi i R. Uherem).||
Line 12: Line 17:
||<style="border:0;padding-top:0px">Zapraszamy także do zapoznania się z [[http://nlp.ipipan.waw.pl/NLP-SEMINAR/previous-p.html|archiwum seminariów z lat 2000–2015]] oraz [[http://zil.ipipan.waw.pl/seminarium-archiwum|listą wystąpień z lat 2015–2022]].|| ||<style="border:0;padding-top:15px">Zapraszamy także do zapoznania się z [[http://nlp.ipipan.waw.pl/NLP-SEMINAR/previous-p.html|archiwum seminariów z lat 2000–2015]] oraz [[http://zil.ipipan.waw.pl/seminarium-archiwum|listą wystąpień z lat 2015–2025]].||

{{{#!wiki comment

||<style="border:0;padding-top:5px;padding-bottom:5px">'''7 października 2023'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Uczestnicy konkursu PolEval 2024''' ||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Planowana seria prezentacji uczestników zadań PolEvalowych''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienia w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Lista wystąpień będzie dostępna wkrótce.||
Line 15: Line 27:
{{{#!wiki comment ||<style="border:0;padding-top:5px;padding-bottom:5px">'''11 marca 2024'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Mateusz Krubiński''' (Uniwersytet Karola w Pradze)||
||<style="border:0;padding-left:30px;padding-bottom:15px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Tytuł wystąpienia podamy wkrótce''' &#160;{{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku polskim.}}||



||<style="border:0;padding-top:15px;padding-bottom:5px">'''8 stycznia 2024''' (prezentacja wyników projektu DARIAH.Lab)||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Zespół projektu DARIAH.Lab''' (Instytut Podstaw Informatyki PAN)||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''Tytuł wystąpienia poznamy wkrótce''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie po polsku.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Streszczenie wystąpienia udostępnimy w najbliższym czasie.||
Line 26: Line 48:
||<style="border:0;padding-top:5px;padding-bottom:5px">'''14 lutego 2022'''||
||<style="border:0;padding-top:5px;padding-bottom:5px">'''14 marca 2022'''||
||<style="border:0;padding-top:5px;padding-bottom:5px">'''25 kwietnia 2022'''|| – UWAGA, jest KJK
||<style="border:0;padding-top:5px;padding-bottom:5px">'''9 maja 2022'''|| – Adam Grycner?
||<style="border:0;padding-top:5px;padding-bottom:5px">'''23 maja 2022''' – UWAGA, LREC 20–25 maja||
||<style="border:0;padding-top:5px;padding-bottom:5px">'''20 czerwca 2022'''|| – UWAGA, jest KJK
ATLAS: Explaining abstractive summarization - Emilia Wiśnios? Albo coś z NASK-owych tematów dot. przetwarzania prawa? Czy to jest to samo?
Line 39: Line 56:

Seminarium „Przetwarzanie języka naturalnego” 2025–26

Nowa edycja seminarium Zespołu Inżynierii LingwistycznejInstytucie Podstaw Informatyki Polskiej Akademii Nauk rozpocznie się w październiku 2025 r. Seminarium odbywa się średnio co 2 tygodnie, zwykle w poniedziałki o godz. 10:15 (niekiedy online – prosimy o korzystanie z linku przy tytule wystąpienia) i ma charakter otwarty. Poszczególne referaty ogłaszane są na Polskiej Liście Językoznawczej oraz na stronie Lingwistyka komputerowa na Facebooku. Nagrania wystąpień dostępne są na kanale YouTube.

seminar

15 września 2025

Louis Esteve (Universite Paris-Saclay)

Diversity and dataset size – a quantitative perspective  Wystąpienia w języku angielskim.

The field of Natural Language Processing (NLP) studies the abilities of computer systems to process and generate natural language, and has received increasing attention from the general population since the democratisation of generative and conversational models. However, behind the scenes, state-of-the-art NLP models are trained on ever-larger datasets, reaching trillions of tokens. It may be argued that the creation and use of such immense datasets is motivated by the idea that 'the larger the dataset, the more diverse it is', and that in turn 'if the training set is more diverse, it shall yield better models'. However, these statements thus far remain intuitions and need to be properly tested. To this end, this presentation will tackle methods and caveats of formal diversity quantification including limitations of the literature, a preliminary discussion on the link between diversity and dataset size, as well as their impact on downstream applications.

6 października 2025

Stan Matwin (Dalhousie University / IPI PAN)

http://zil.ipipan.waw.pl/seminarium-online Głębokie, wielopostaciowe uczenie się diagnozowania zaburzeń psychicznych z zapisów wywiadów klinicznych  Wystąpienia w języku polskim.

Kluczowe cechy chorób psychicznych znajdują odzwierciedlenie w zapisach audio wywiadów klinicznych z pacjentami i ich rodzinami. Zbudowaliśmy metodę głębokiego uczenia się, która automatycznie wyodrębnia istotne cechy niezbędne do diagnozy chorób psychicznych (ADHD, depresji, choroby afektywnej dwubiegunowej i schizofrenii) z tego rodzaju wywiadów. Wykorzystujemy różnorodne, wstępnie wytrenowane modele do ekstrakcji reprezentacji zarówno z dźwiękowych segmentów tych wywiadów, jak i ich wersji tekstowych. Używamy kilku nowoczesnych technik reprezentacyjnych (embeddings). Stosujemy podejście Big Data eksplorując istniejące korpusy dźwiękowe i tekstowe adnotowane etykietami emocjonalnymi. Problem niedoboru adnotowanych danych rozwiązujemy za co pomocą parametrycznego dostrajania modelu (Parameter Efficient Fine-Tuning). Wszystkie te reprezentacje są następnie łączone w jedną formę wielopostaciowa. Do diagnozowania powyższych zaburzeń psychicznych stosujemy uczenie się przez kontrast oraz syntezę modeli za pomocą komitetu ekspertów (Mixture of Experts). Otrzymane wyniki pokazują że poprzez multimodalną analizę wywiadów klinicznych można diagnozować zaburzenia psychiczne z zadowalającą dokładnością (projekt prowadzony we współpracy z H. Naderi i R. Uherem).

Zapraszamy także do zapoznania się z archiwum seminariów z lat 2000–2015 oraz listą wystąpień z lat 2015–2025.