Size: 10960
Comment:
|
← Revision 1004 as of 2025-09-10 20:03:36 ⇥
Size: 11752
Comment:
|
Deletions are marked like this. | Additions are marked like this. |
Line 2: | Line 2: |
= Seminarium „Przetwarzanie języka naturalnego” 2021–22 = | = Seminarium „Przetwarzanie języka naturalnego” 2025–26 = |
Line 4: | Line 4: |
||<style="border:0;padding-bottom:10px">Seminarium [[http://nlp.ipipan.waw.pl/|Zespołu Inżynierii Lingwistycznej]] w [[http://www.ipipan.waw.pl/|Instytucie Podstaw Informatyki]] [[http://www.pan.pl/|Polskiej Akademii Nauk]] odbywa się średnio co 2 tyggodnie, zwykle w poniedziałki o godz. 10:15 (obecnie online – prosimy o korzystanie z linku przy tytule wystąpienia) i ma charakter otwarty. Poszczególne referaty ogłaszane są na [[http://lists.nlp.ipipan.waw.pl/mailman/listinfo/ling|Polskiej Liście Językoznawczej]] oraz na stronie [[https://www.facebook.com/lingwistyka.komputerowa|Lingwistyka komputerowa]] na Facebooku. Nagrania wystąpień dostępne są na [[https://www.youtube.com/ipipan|kanale YouTube]].||<style="border:0;padding-left:30px;">[[seminar|{{attachment:seminarium-archiwum/en.png}}]]|| | ||<style="border:0;padding-bottom:10px">Nowa edycja seminarium [[http://nlp.ipipan.waw.pl/|Zespołu Inżynierii Lingwistycznej]] w [[http://www.ipipan.waw.pl/|Instytucie Podstaw Informatyki]] [[http://www.pan.pl/|Polskiej Akademii Nauk]] rozpocznie się w październiku 2025 r. Seminarium odbywa się średnio co 2 tygodnie, zwykle w poniedziałki o godz. 10:15 (niekiedy online – prosimy o korzystanie z linku przy tytule wystąpienia) i ma charakter otwarty. Poszczególne referaty ogłaszane są na [[http://lists.nlp.ipipan.waw.pl/mailman/listinfo/ling|Polskiej Liście Językoznawczej]] oraz na stronie [[https://www.facebook.com/lingwistyka.komputerowa|Lingwistyka komputerowa]] na Facebooku. Nagrania wystąpień dostępne są na [[https://www.youtube.com/ipipan|kanale YouTube]].||<style="border:0;padding-left:30px;">[[seminar|{{attachment:seminarium-archiwum/en.png}}]]|| |
Line 6: | Line 6: |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''4 października 2021'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Joanna Byszuk''' (Instytut Języka Polskiego PAN)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''Tytuł wystąpienia podamy już wkrótce'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Streszczenie wystąpienia podamy już niedługo.|| |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''15 września 2025'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Louis Esteve''' (Universite Paris-Saclay) || ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Diversity and dataset size – a quantitative perspective'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienia w języku angielskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">The field of Natural Language Processing (NLP) studies the abilities of computer systems to process and generate natural language, and has received increasing attention from the general population since the democratisation of generative and conversational models. However, behind the scenes, state-of-the-art NLP models are trained on ever-larger datasets, reaching trillions of tokens. It may be argued that the creation and use of such immense datasets is motivated by the idea that 'the larger the dataset, the more diverse it is', and that in turn 'if the training set is more diverse, it shall yield better models'. However, these statements thus far remain intuitions and need to be properly tested. To this end, this presentation will tackle methods and caveats of formal diversity quantification including limitations of the literature, a preliminary discussion on the link between diversity and dataset size, as well as their impact on downstream applications.|| |
Line 11: | Line 11: |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''18 października 2021'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Jan Kocoń''', '''Przemysław Kazienko''' (Politechnika Wrocławska)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''Spersonalizowane przetwarzanie języka naturalnego'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Wiele zadań z zakresu przetwarzania języka naturalnego, takich jak klasyfikacja tekstów obraźliwych czy emocjonalnych, ma z natury charakter subiektywny. Jest to duże wyzwanie, szczególnie w odniesieniu do procesu anotacji. Ludzie postrzegają treści w bardzo indywidualny sposób. Większość obecnie stosowanych procedur anotacji ma na celu osiągnięcie wysokiego poziomu zgodności. Większość istniejących metod uczenia maszynowego opiera się na uzgodnionych lub większościowych anotacjach. Jednakże, wytyczne dotyczące anotacji subiektywnych treści mogą ograniczać swobodę podejmowania decyzji przez anotatorów. Motywowani umiarkowaną zgodnością anotacji w zbiorach danych dotyczących obraźliwych i emocjonalnych treści, stawiamy hipotezę, że należy wprowadzić spersonalizowane podejście do tak subiektywnych zadań. Proponujemy nowe architektury głębokiego uczenia, które biorą pod uwagę nie tylko treść, ale również charakterystykę danego człowieka. Proponujemy różne podejścia do uczenia reprezentacji i przetwarzania danych o odbiorcach tekstów. Eksperymenty przeprowadziliśmy na czterech zestawach danych. Pierwsze trzy, to dyskusje z Wikipedii, anotowane takimi zjawiskami, jak atak, agresja i toksyczność. Czwarty zbiór to opinie anotowane dziesięcioma kategoriami emocji. Wszystkie nasze modele oparte o reprezentację człowieka znacząco poprawiają jakość predykcji w zadaniach subiektywnych, ocenianych z perspektywy jednostki. Dodatkowo, opracowaliśmy wymagania dotyczące procedur anotacji, personalizacji i przetwarzania treści, aby uczynić nasze rozwiązania zorientowanymi na człowieka.|| |
|
Line 16: | Line 12: |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''8 listopada 2021'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Ryszard Tuora''', '''Łukasz Kobyliński''' (Instytut Podstaw Informatyki PAN)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''Wykorzystanie analizy zależnościowej w automatycznej odmianie wyrażeń wielowyrazowych dla języka polskiego'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Streszczenie wystąpienia podamy już niedługo.|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''22 listopada 2021'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Piotr Przybyła''' (Instytut Podstaw Informatyki PAN)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''Tytuł wystąpienia podamy już wkrótce'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Streszczenie wystąpienia podamy już niedługo.|| ||<style="border:0;padding-top:0px">Zapraszamy także do zapoznania się z [[http://nlp.ipipan.waw.pl/NLP-SEMINAR/previous-p.html|archiwum seminariów z lat 2000–2015]] oraz [[http://zil.ipipan.waw.pl/seminarium-archiwum|listą wystąpień z lat 2015–2020]].|| |
||<style="border:0;padding-top:15px">Zapraszamy także do zapoznania się z [[http://nlp.ipipan.waw.pl/NLP-SEMINAR/previous-p.html|archiwum seminariów z lat 2000–2015]] oraz [[http://zil.ipipan.waw.pl/seminarium-archiwum|listą wystąpień z lat 2015–2025]].|| |
Line 31: | Line 16: |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''7 października 2023'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Uczestnicy konkursu PolEval 2024''' || ||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Planowana seria prezentacji uczestników zadań PolEvalowych'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienia w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Lista wystąpień będzie dostępna wkrótce.|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''11 marca 2024'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Mateusz Krubiński''' (Uniwersytet Karola w Pradze)|| ||<style="border:0;padding-left:30px;padding-bottom:15px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Tytuł wystąpienia podamy wkrótce'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-top:15px;padding-bottom:5px">'''8 stycznia 2024''' (prezentacja wyników projektu DARIAH.Lab)|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Zespół projektu DARIAH.Lab''' (Instytut Podstaw Informatyki PAN)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''Tytuł wystąpienia poznamy wkrótce'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie po polsku.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Streszczenie wystąpienia udostępnimy w najbliższym czasie.|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''3 października 2022'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''...''' (...)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Tytuł wystąpienia podamy wkrótce'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Opis wystąpienia udostępnimy już niedługo.|| WOLNE TERMINY: ATLAS: Explaining abstractive summarization - Emilia Wiśnios? Albo coś z NASK-owych tematów dot. przetwarzania prawa? Czy to jest to samo? |
|
Line 32: | Line 46: |
w siedzibie IPI PAN (ul. Jana Kazimierza 5, Warszawa) Pomysły na seminarium na bazie tekstów z EMNLP Findings: – Ewa Szymańska: https://www.aclweb.org/anthology/2020.emnlp-main.217/ – Olga Majewska: https://www.aclweb.org/anthology/2020.deelio-1.5/ – Marta Kwiatkowska: https://www.aclweb.org/anthology/2020.findings-emnlp.266/ https://www.aclweb.org/anthology/2020.findings-emnlp.295.pdf |
|
Line 46: | Line 51: |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''6 czerwca 2022'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Paula Czarnowska''' (University of Cambridge)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://teams.microsoft.com/l/meetup-join/19%3a06de5a6d7ed840f0a53c26bf62c9ec18%40thread.tacv2/1643554817614?context=%7b%22Tid%22%3a%220425f1d9-16b2-41e3-a01a-0c02a63d13d6%22%2c%22Oid%22%3a%22f5f2c910-5438-48a7-b9dd-683a5c3daf1e%22%7d|{{attachment:seminarium-archiwum/teams.png}}]] '''Tytuł wystąpienia podamy wkrótce'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Opis wystąpienia udostępnimy już niedługo.|| |
|
Line 56: | Line 68: |
Proponowane daty seminarów 2020-21: 1 lutego – Filip Graliński: Kleister 15 lutego 1 marca 15 marca 29 marca 12 kwietnia 26 kwietnia 10 maja 24 maja 7 czerwca 21 czerwca |
Nowe typy: Aleksandra Gabryszak (DFKI Berlin): – https://aclanthology.org/people/a/aleksandra-gabryszak/ – https://www.researchgate.net/profile/Aleksandra-Gabryszak – miała tekst na warsztacie First Computing Social Responsibility Workshop (http://www.lrec-conf.org/proceedings/lrec2022/workshops/CSRNLP1/index.html) na LREC-u 2022: http://www.lrec-conf.org/proceedings/lrec2022/workshops/CSRNLP1/pdf/2022.csrnlp1-1.5.pdf |
Line 102: | Line 108: |
Seminarium „Przetwarzanie języka naturalnego” 2025–26
Nowa edycja seminarium Zespołu Inżynierii Lingwistycznej w Instytucie Podstaw Informatyki Polskiej Akademii Nauk rozpocznie się w październiku 2025 r. Seminarium odbywa się średnio co 2 tygodnie, zwykle w poniedziałki o godz. 10:15 (niekiedy online – prosimy o korzystanie z linku przy tytule wystąpienia) i ma charakter otwarty. Poszczególne referaty ogłaszane są na Polskiej Liście Językoznawczej oraz na stronie Lingwistyka komputerowa na Facebooku. Nagrania wystąpień dostępne są na kanale YouTube. |
15 września 2025 |
Louis Esteve (Universite Paris-Saclay) |
The field of Natural Language Processing (NLP) studies the abilities of computer systems to process and generate natural language, and has received increasing attention from the general population since the democratisation of generative and conversational models. However, behind the scenes, state-of-the-art NLP models are trained on ever-larger datasets, reaching trillions of tokens. It may be argued that the creation and use of such immense datasets is motivated by the idea that 'the larger the dataset, the more diverse it is', and that in turn 'if the training set is more diverse, it shall yield better models'. However, these statements thus far remain intuitions and need to be properly tested. To this end, this presentation will tackle methods and caveats of formal diversity quantification including limitations of the literature, a preliminary discussion on the link between diversity and dataset size, as well as their impact on downstream applications. |
Zapraszamy także do zapoznania się z archiwum seminariów z lat 2000–2015 oraz listą wystąpień z lat 2015–2025. |