Size: 5379
Comment:
|
← Revision 1006 as of 2025-09-21 00:01:08 ⇥
Size: 13647
Comment:
|
Deletions are marked like this. | Additions are marked like this. |
Line 1: | Line 1: |
## page was renamed from seminarium-archiwum | |
Line 3: | Line 2: |
= Seminarium „Przetwarzanie języka naturalnego” 2016–2017 = | = Seminarium „Przetwarzanie języka naturalnego” 2025–26 = |
Line 5: | Line 4: |
||<style="border:0;padding-bottom:10px">Seminarium [[http://nlp.ipipan.waw.pl/|Zespołu Inżynierii Lingwistycznej]] w [[http://www.ipipan.waw.pl/|Instytucie Podstaw Informatyki]] [[http://www.pan.pl/|Polskiej Akademii Nauk]] odbywa się nieregularnie w poniedziałki zwykle o godz. 10:15 w siedzibie IPI PAN (ul. Jana Kazimierza 5, Warszawa) i ma charakter otwarty. Poszczególne referaty ogłaszane są na [[http://lists.nlp.ipipan.waw.pl/mailman/listinfo/ling|Polskiej Liście Językoznawczej]] oraz na stronie [[https://www.facebook.com/lingwistyka.komputerowa|Lingwistyka komputerowa]] na Facebooku. ||<style="border:0;padding-left:30px;">[[seminar|{{attachment:seminarium-archiwum/en.png}}]]|| | ||<style="border:0;padding-bottom:10px">Nowa edycja seminarium [[http://nlp.ipipan.waw.pl/|Zespołu Inżynierii Lingwistycznej]] w [[http://www.ipipan.waw.pl/|Instytucie Podstaw Informatyki]] [[http://www.pan.pl/|Polskiej Akademii Nauk]] rozpocznie się w październiku 2025 r. Seminarium odbywa się średnio co 2 tygodnie, zwykle w poniedziałki o godz. 10:15 (niekiedy online – prosimy o korzystanie z linku przy tytule wystąpienia) i ma charakter otwarty. Poszczególne referaty ogłaszane są na [[http://lists.nlp.ipipan.waw.pl/mailman/listinfo/ling|Polskiej Liście Językoznawczej]] oraz na stronie [[https://www.facebook.com/lingwistyka.komputerowa|Lingwistyka komputerowa]] na Facebooku. Nagrania wystąpień dostępne są na [[https://www.youtube.com/ipipan|kanale YouTube]].||<style="border:0;padding-left:30px;">[[seminar|{{attachment:seminarium-archiwum/en.png}}]]|| |
Line 7: | Line 6: |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''10 października 2016'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Katarzyna Pakulska''' (Samsung), '''Barbara Rychalska''' (Samsung podczas realizacji zadania), '''Krystyna Chodorowska''' (Samsung podczas realizacji zadania, ICM obecnie), '''Wojciech Walczak''' (Samsung), '''Piotr Andruszkiewicz''' (Samsung)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''[[attachment:seminarium-archiwum/2016-10-10.pdf|Detektor Parafraz – polskie rozwiązanie, które wygrało !SemEval 2016]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Celem seminarium jest przedstawienie systemu opracowanego w celu wykrywania semantycznego podobieństwa tekstu w języku angielskim. Przedstawiane rozwiązanie osiągnęło najwyższe wyniki w swoim zadaniu podczas konkursu !SemEval 2016. Celem zadania było zmierzenie podobieństwa semantycznego między dwoma zdaniami w skali 0-5 w sposób zbliżony do oceny ludzkiej. Prezentowana metoda jest nowatorskim połączeniem rekursywnych auto-enkoderów używanych do trenowania sieci głębokich (RAE) oraz systemu kar i nagród opartego o bibliotekę !WordNet. W celu osiagnięcia lepszych wyników rozszerzono model rozwiązania o zestaw klasyfikatorów obejmujący wiodące rozwiązania w swojej klasie oraz wiele innych cech używanych jako wejścia do regresji liniowej dla metody wektorów nośnych.|| |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''15 września 2025'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Louis Esteve''' (Universite Paris-Saclay) || ||<style="border:0;padding-left:30px;padding-bottom:5px">'''[[attachment:seminarium-archiwum/2025-09-15.pdf|Diversity and dataset size – a quantitative perspective]]'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienia w języku angielskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">The field of Natural Language Processing (NLP) studies the abilities of computer systems to process and generate natural language, and has received increasing attention from the general population since the democratisation of generative and conversational models. However, behind the scenes, state-of-the-art NLP models are trained on ever-larger datasets, reaching trillions of tokens. It may be argued that the creation and use of such immense datasets is motivated by the idea that 'the larger the dataset, the more diverse it is', and that in turn 'if the training set is more diverse, it shall yield better models'. However, these statements thus far remain intuitions and need to be properly tested. To this end, this presentation will tackle methods and caveats of formal diversity quantification including limitations of the literature, a preliminary discussion on the link between diversity and dataset size, as well as their impact on downstream applications.|| |
Line 12: | Line 11: |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''24 października 2016'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Adam Przepiórkowski, Jakub Kozakoszczak, Jan Winkowski, Daniel Ziembicki, Tadeusz Teleżyński''' (Instytut Podstaw Informatyki PAN, Uniwersytet Warszawski)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''Korpus sformalizowanych kroków wynikania tekstowego'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Opis wystąpienia zostanie podany wkrótce.|| |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''6 października 2025'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Stan Matwin''' (Dalhousie University) || ||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Głębokie, wielopostaciowe uczenie się diagnozowania zaburzeń psychicznych z zapisów wywiadów klinicznych'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienia w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Kluczowe cechy chorób psychicznych znajdują odzwierciedlenie w zapisach audio wywiadów klinicznych z pacjentami i ich rodzinami. Zbudowaliśmy metodę głębokiego uczenia się, która automatycznie wyodrębnia istotne cechy niezbędne do diagnozy chorób psychicznych (ADHD, depresji, choroby afektywnej dwubiegunowej i schizofrenii) z tego rodzaju wywiadów. Wykorzystujemy różnorodne, wstępnie wytrenowane modele do ekstrakcji reprezentacji zarówno z dźwiękowych segmentów tych wywiadów, jak i ich wersji tekstowych. Używamy kilku nowoczesnych technik reprezentacyjnych (embeddings). Stosujemy podejście Big Data eksplorując istniejące korpusy dźwiękowe i tekstowe adnotowane etykietami emocjonalnymi. Problem niedoboru adnotowanych danych rozwiązujemy za co pomocą parametrycznego dostrajania modelu (Parameter Efficient Fine-Tuning). Wszystkie te reprezentacje są następnie łączone w jedną formę wielopostaciowa. Do diagnozowania powyższych zaburzeń psychicznych stosujemy uczenie się przez kontrast oraz syntezę modeli za pomocą komitetu ekspertów (Mixture of Experts). Otrzymane wyniki pokazują że poprzez multimodalną analizę wywiadów klinicznych można diagnozować zaburzenia psychiczne z zadowalającą dokładnością (projekt prowadzony we współpracy z H. Naderi i R. Uherem).|| |
Line 17: | Line 16: |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''7 listopada 2016'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Norbert Ryciak, Aleksander Wawer''' (Instytut Podstaw Informatyki PAN)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''Rekurencyjne obliczanie semantyki fraz na podstawie informacji składniowej z użyciem głębokiego uczenia'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Opis wystąpienia zostanie podany wkrótce.|| |
|
Line 22: | Line 17: |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''21 listopada 2016'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Rafał Jaworski''' (Uniwersytet Adama Mickiewicza w Poznaniu)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''Concordia – algorytm przeszukiwania pamięci tłumaczeń'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Opis wystąpienia zostanie podany wkrótce.|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''9 stycznia 2017'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Agnieszka Pluwak''' (Instytut Slawistyki PAN)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''Tytuł wystąpienia zostanie podany wkrótce'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Opis wystąpienia zostanie podany wkrótce.|| ||<style="border:0;padding-top:0px">Zapraszamy także do zapoznania się z [[http://nlp.ipipan.waw.pl/NLP-SEMINAR/previous-p.html|archiwum seminariów z lat 2000-2015]] oraz [[http://zil.ipipan.waw.pl/seminarium-archiwum|listą wystąpień z roku 2015-16]].|| |
||<style="border:0;padding-top:15px">Zapraszamy także do zapoznania się z [[http://nlp.ipipan.waw.pl/NLP-SEMINAR/previous-p.html|archiwum seminariów z lat 2000–2015]] oraz [[http://zil.ipipan.waw.pl/seminarium-archiwum|listą wystąpień z lat 2015–2025]].|| |
Line 37: | Line 21: |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''7 października 2023'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Uczestnicy konkursu PolEval 2024''' || ||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Planowana seria prezentacji uczestników zadań PolEvalowych'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienia w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Lista wystąpień będzie dostępna wkrótce.|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''11 marca 2024'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Mateusz Krubiński''' (Uniwersytet Karola w Pradze)|| ||<style="border:0;padding-left:30px;padding-bottom:15px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Tytuł wystąpienia podamy wkrótce'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-top:15px;padding-bottom:5px">'''8 stycznia 2024''' (prezentacja wyników projektu DARIAH.Lab)|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Zespół projektu DARIAH.Lab''' (Instytut Podstaw Informatyki PAN)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''Tytuł wystąpienia poznamy wkrótce'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie po polsku.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Streszczenie wystąpienia udostępnimy w najbliższym czasie.|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''3 października 2022'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''...''' (...)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Tytuł wystąpienia podamy wkrótce'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Opis wystąpienia udostępnimy już niedługo.|| WOLNE TERMINY: ATLAS: Explaining abstractive summarization - Emilia Wiśnios? Albo coś z NASK-owych tematów dot. przetwarzania prawa? Czy to jest to samo? ||<style="border:0;padding-bottom:10px">'''UWAGA''': ze względu na zakaz wstępu do IPI PAN dla osób niezatrudnionych w Instytucie, w stacjonarnej części seminarium mogą brać udział tylko pracownicy IPI PAN i prelegenci (także zewnętrzni). Dla pozostałych uczestników seminarium będzie transmitowane – prosimy o korzystanie z linku przy tytule wystąpienia.|| Uczestnicy Akcji COST CA18231: Multi3Generation: Multi-task, Multilingual, Multi-modal Language Generation: – Marcin PAPRZYCKI (marcin.paprzycki@ibspan.waw.pl) – Maria GANZHA (m.ganzha@mini.pw.edu.pl) – Katarzyna WASIELEWSKA-MICHNIEWSKA (katarzyna.wasielewska@ibspan.waw.pl) ||<style="border:0;padding-top:5px;padding-bottom:5px">'''6 czerwca 2022'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Paula Czarnowska''' (University of Cambridge)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://teams.microsoft.com/l/meetup-join/19%3a06de5a6d7ed840f0a53c26bf62c9ec18%40thread.tacv2/1643554817614?context=%7b%22Tid%22%3a%220425f1d9-16b2-41e3-a01a-0c02a63d13d6%22%2c%22Oid%22%3a%22f5f2c910-5438-48a7-b9dd-683a5c3daf1e%22%7d|{{attachment:seminarium-archiwum/teams.png}}]] '''Tytuł wystąpienia podamy wkrótce'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Opis wystąpienia udostępnimy już niedługo.|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''2 kwietnia 2020'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Stan Matwin''' (Dalhousie University)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''Efficient training of word embeddings with a focus on negative examples'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}} {{attachment:seminarium-archiwum/icon-en.gif|Slajdy po angielsku.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">This presentation is based on our [[https://pdfs.semanticscholar.org/1f50/db5786913b43f9668f997fc4c97d9cd18730.pdf|AAAI 2018]] and [[https://aaai.org/ojs/index.php/AAAI/article/view/4683|AAAI 2019]] papers on English word embeddings. In particular, we examine the notion of “negative examples”, the unobserved or insignificant word-context co-occurrences, in spectral methods. we provide a new formulation for the word embedding problem by proposing a new intuitive objective function that perfectly justifies the use of negative examples. With the goal of efficient learning of embeddings, we propose a kernel similarity measure for the latent space that can effectively calculate the similarities in high dimensions. Moreover, we propose an approximate alternative to our algorithm using a modified Vantage Point tree and reduce the computational complexity of the algorithm with respect to the number of words in the vocabulary. We have trained various word embedding algorithms on articles of Wikipedia with 2.3 billion tokens and show that our method outperforms the state-of-the-art in most word similarity tasks by a good margin. We will round up our discussion with some general thought s about the use of embeddings in modern NLP.|| na [[https://www.youtube.com/ipipan|kanale YouTube]]. on [[https://www.youtube.com/ipipan|YouTube]]. Nowe typy: Aleksandra Gabryszak (DFKI Berlin): – https://aclanthology.org/people/a/aleksandra-gabryszak/ – https://www.researchgate.net/profile/Aleksandra-Gabryszak – miała tekst na warsztacie First Computing Social Responsibility Workshop (http://www.lrec-conf.org/proceedings/lrec2022/workshops/CSRNLP1/index.html) na LREC-u 2022: http://www.lrec-conf.org/proceedings/lrec2022/workshops/CSRNLP1/pdf/2022.csrnlp1-1.5.pdf Marcin Junczys-Dowmunt przy okazji świąt? Adam Jatowt? Piotrek Pęzik? Wrocław? Kwantyfikatory? MARCELL? Może Piotrek z Bartkiem? Umówić się z Brylską, zapytać tę od okulografii, czy to jest PJN Agnieszka Kwiatkowska – zobaczyć ten jej tekst, moze też coś opowie? |
|
Line 38: | Line 89: |
Kto jeszcze? Może skorzystać z pieniędzy CLARIN-owych do zapraszania osób z całej Polski na seminaria? | Maciej Karpiński Demenko – dawno już ich nie było; można iść po kluczu HLT Days |
Line 40: | Line 92: |
5 grudnia | MTAS? – NLP dla tekstów historycznych – Marcin/Witek? razem z KORBĄ, pokazać oba ręcznie znakowane korpusy i benchmarki na tagerach – maj, – może Wrocław mógłby coś pokazać? – pisałem do Maćka P. |
Line 42: | Line 96: |
COLING: 11-16 grudnia | – jakieś wystąpienia PolEvalowe? |
Line 44: | Line 98: |
9 stycznia 23 stycznia 6 lutego |
Tomek Dwojak i inni z https://zpjn.wmi.amu.edu.pl/seminar/? |
Line 48: | Line 100: |
FERIE: 13–26 lutego | Będzie na Data Science Summit: |
Line 50: | Line 102: |
27 lutego 13 marca 27 marca |
Using topic modeling for differentiation based on Polish parliament plus person Aleksander Nosarzewski Statistician @ Citi |
Line 54: | Line 106: |
EACL: 3-7 kwietnia | Artykuł o GPT napisał Mateusz Litwin: https://www.linkedin.com/in/mateusz-litwin-06b3a919/ W OpenAI jest jeszcze https://www.linkedin.com/in/jakub-pachocki/ i https://www.linkedin.com/in/szymon-sidor-98164044/ |
Line 56: | Line 110: |
10 kwietnia | |
Line 58: | Line 111: |
WIELKANOC: 16-17 kwietnia | Text data can be an invaluable source of information. In particular, what, how often and in which way we talk about given subjects can tell a lot about us. Unfortunately, manual scrambling through huge text datasets can be a cumbersome task. Luckily, there is a class of unsupervised models - topic models, which can perform this task for us, with very little input from our side. I will present how to use Structural Topic Model (STM) - an enhancement over popular LDA to obtain some kind of measure of differences between given groups or agents of interest, based on an example of Polish parliamentary speeches and political parties. |
Line 60: | Line 113: |
24 kwietnia 8 maja 22 maja 5 czerwca 19 czerwca |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''12 DATA 2017''' ('''UWAGA: ''' wystąpienie odbędzie się o 13:00 w ramach [[https://ipipan.waw.pl/instytut/dzialalnosc-naukowa/seminaria/ogolnoinstytutowe|seminarium IPI PAN]])|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''OSOBA''' (AFILIACJA)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''Tytuł zostanie udostępniony w najbliższym czasie'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Opis wystąpienia zostanie udostępniony wkrótce.|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''[[attachment:seminarium-archiwum/201--.pdf|...]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}} {{attachment:seminarium-archiwum/icon-en.gif|Slajdy w języku angielskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">...|| |
Seminarium „Przetwarzanie języka naturalnego” 2025–26
Nowa edycja seminarium Zespołu Inżynierii Lingwistycznej w Instytucie Podstaw Informatyki Polskiej Akademii Nauk rozpocznie się w październiku 2025 r. Seminarium odbywa się średnio co 2 tygodnie, zwykle w poniedziałki o godz. 10:15 (niekiedy online – prosimy o korzystanie z linku przy tytule wystąpienia) i ma charakter otwarty. Poszczególne referaty ogłaszane są na Polskiej Liście Językoznawczej oraz na stronie Lingwistyka komputerowa na Facebooku. Nagrania wystąpień dostępne są na kanale YouTube. |
15 września 2025 |
Louis Esteve (Universite Paris-Saclay) |
The field of Natural Language Processing (NLP) studies the abilities of computer systems to process and generate natural language, and has received increasing attention from the general population since the democratisation of generative and conversational models. However, behind the scenes, state-of-the-art NLP models are trained on ever-larger datasets, reaching trillions of tokens. It may be argued that the creation and use of such immense datasets is motivated by the idea that 'the larger the dataset, the more diverse it is', and that in turn 'if the training set is more diverse, it shall yield better models'. However, these statements thus far remain intuitions and need to be properly tested. To this end, this presentation will tackle methods and caveats of formal diversity quantification including limitations of the literature, a preliminary discussion on the link between diversity and dataset size, as well as their impact on downstream applications. |
Zapraszamy także do zapoznania się z archiwum seminariów z lat 2000–2015 oraz listą wystąpień z lat 2015–2025. |