Differences between revisions 652 and 1001 (spanning 349 versions)
Size: 20141
Comment:
|
← Revision 1001 as of 2025-08-18 22:41:31 ⇥
Size: 10224
Comment:
|
Deletions are marked like this. | Additions are marked like this. |
Line 2: | Line 2: |
= Seminarium „Przetwarzanie języka naturalnego” 2021–22 = | = Seminarium „Przetwarzanie języka naturalnego” 2025–26 = |
Line 4: | Line 4: |
||<style="border:0;padding-bottom:10px">Seminarium [[http://nlp.ipipan.waw.pl/|Zespołu Inżynierii Lingwistycznej]] w [[http://www.ipipan.waw.pl/|Instytucie Podstaw Informatyki]] [[http://www.pan.pl/|Polskiej Akademii Nauk]] odbywa się średnio co 2 tygodnie, zwykle w poniedziałki o godz. 10:15 (obecnie online – prosimy o korzystanie z linku przy tytule wystąpienia) i ma charakter otwarty. Poszczególne referaty ogłaszane są na [[http://lists.nlp.ipipan.waw.pl/mailman/listinfo/ling|Polskiej Liście Językoznawczej]] oraz na stronie [[https://www.facebook.com/lingwistyka.komputerowa|Lingwistyka komputerowa]] na Facebooku. Nagrania wystąpień dostępne są na [[https://www.youtube.com/ipipan|kanale YouTube]].||<style="border:0;padding-left:30px;">[[seminar|{{attachment:seminarium-archiwum/en.png}}]]|| | ||<style="border:0;padding-bottom:10px">Nowa edycja seminarium [[http://nlp.ipipan.waw.pl/|Zespołu Inżynierii Lingwistycznej]] w [[http://www.ipipan.waw.pl/|Instytucie Podstaw Informatyki]] [[http://www.pan.pl/|Polskiej Akademii Nauk]] rozpocznie się w październiku 2025 r. Seminarium odbywa się średnio co 2 tygodnie, zwykle w poniedziałki o godz. 10:15 (niekiedy online – prosimy o korzystanie z linku przy tytule wystąpienia) i ma charakter otwarty. Poszczególne referaty ogłaszane są na [[http://lists.nlp.ipipan.waw.pl/mailman/listinfo/ling|Polskiej Liście Językoznawczej]] oraz na stronie [[https://www.facebook.com/lingwistyka.komputerowa|Lingwistyka komputerowa]] na Facebooku. Nagrania wystąpień dostępne są na [[https://www.youtube.com/ipipan|kanale YouTube]].||<style="border:0;padding-left:30px;">[[seminar|{{attachment:seminarium-archiwum/en.png}}]]|| |
Line 6: | Line 6: |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''11 października 2021''' (seminarium połączone z [[https://www.ipipan.waw.pl/instytut/dzialalnosc-naukowa/seminaria/ogolnoinstytutowe|instytutowym]]) || ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Adam Przepiórkowski''' (Instytut Podstaw Informatyki PAN, Uniwersytet Warszawski)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''[[attachment:seminarium-archiwum/2021-10-11.pdf|Kwantyfikatory a sprawa polska]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">O kwantyfikacji piszą prawie wszyscy semantycy i w prawie każdym tekście dotyczącym semantyki formalnej, lecz nikt i nigdy nie zaproponował pełnej analizy semantycznej zjawiska zilustrowanego niniejszym zdaniem. W zdaniu tym występują konstrukcje współrzędnie złożone składające się z wyrażeń kwantyfikatorowych pełniących różne funkcje w zdaniu: „prawie wszyscy semantycy i w prawie każdym tekście…” oraz „nikt i nigdy”. Konstrukcje takie są stosunkowo częste w języku polskim i występują także w innych językach słowiańskich oraz w pewnych językach sąsiadujących z językami słowiańskimi, np. w węgierskim. W niniejszym referacie zaproponuję analizę semantyczną takich konstrukcji opartą na pojęciu kwantyfikatorów uogólnionych (Mostowski; Lindström; Barwise i Cooper), a konkretnie — kwantyfikatorów poliadycznych (van Benthem; Keenan; Westerståhl). Do pełnego zrozumienia referatu powinno wystarczyć obycie z formułami logiki predykatów; wszystkie pojęcia lingwistyczne (w tym „konstrukcje współrzędnie złożone”, „funkcje w zdaniu”) i logiczne (w tym „kwantyfikatory uogólnione” i „kwantyfikatory poliadyczne”) zostaną wyjaśnione w referacie.|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''18 października 2021'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Przemysław Kazienko''', '''Jan Kocoń''' (Politechnika Wrocławska)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=mvjO4R1r6gM|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2021-10-18.pdf|Spersonalizowane przetwarzanie języka naturalnego]]'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Wiele zadań z zakresu przetwarzania języka naturalnego, takich jak klasyfikacja tekstów obraźliwych czy emocjonalnych, ma z natury charakter subiektywny. Jest to duże wyzwanie, szczególnie w odniesieniu do procesu anotacji. Ludzie postrzegają treści w bardzo indywidualny sposób. Większość obecnie stosowanych procedur anotacji ma na celu osiągnięcie wysokiego poziomu zgodności. Większość istniejących metod uczenia maszynowego opiera się na uzgodnionych lub większościowych anotacjach. Jednakże, wytyczne dotyczące anotacji subiektywnych treści mogą ograniczać swobodę podejmowania decyzji przez anotatorów. Motywowani umiarkowaną zgodnością anotacji w zbiorach danych dotyczących obraźliwych i emocjonalnych treści, stawiamy hipotezę, że należy wprowadzić spersonalizowane podejście do tak subiektywnych zadań. Proponujemy nowe architektury głębokiego uczenia, które biorą pod uwagę nie tylko treść, ale również charakterystykę danego człowieka. Proponujemy różne podejścia do uczenia reprezentacji i przetwarzania danych o odbiorcach tekstów. Eksperymenty przeprowadziliśmy na czterech zestawach danych. Pierwsze trzy, to dyskusje z Wikipedii, anotowane takimi zjawiskami, jak atak, agresja i toksyczność. Czwarty zbiór to opinie anotowane dziesięcioma kategoriami emocji. Wszystkie nasze modele oparte o reprezentację człowieka znacząco poprawiają jakość predykcji w zadaniach subiektywnych, ocenianych z perspektywy jednostki. Dodatkowo, opracowaliśmy wymagania dotyczące procedur anotacji, personalizacji i przetwarzania treści, aby uczynić nasze rozwiązania zorientowanymi na człowieka.|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''8 listopada 2021'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Ryszard Tuora''', '''Łukasz Kobyliński''' (Instytut Podstaw Informatyki PAN)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=KeeVWXXQlw8|{{attachment:seminarium-archiwum/youtube.png}}]] '''Wykorzystanie analizy zależnościowej w automatycznej odmianie wyrażeń wielowyrazowych dla języka polskiego'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Generowanie języka naturalnego dla języków o bogatej morfologii może zyskać na automatycznych systemach do odmiany słów. W tej pracy zaprezentujemy system, który potrafi radzić sobie z tym zadaniem, ze szczególnym naciskiem na pracę z wyrażeniami wielowyrazowymi (MWE). Procedura opiera się na regułach wydobytych automatycznie z treebanku zależnościowego. Utworzony system jest następnie ewaluowany na słowniku polskich wyrażeń wielowyrazowych. Dodatkowo, zbliżony algorytm może zostać wykorzystany do lematyzacji wyrażeń wielowyrazowych. Sam system może zostać zaś zaaplikowany także do innych języków, o zbliżonych mechanizmach morfologicznych – zaprezentujemy proste rozwiązanie przygotowane dla języka rosyjskiego.|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''29 listopada 2021''' (seminarium połączone z [[https://www.ipipan.waw.pl/instytut/dzialalnosc-naukowa/seminaria/ogolnoinstytutowe|instytutowym]]) || ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Piotr Przybyła''' (Instytut Podstaw Informatyki PAN)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://teams.microsoft.com/l/meetup-join/19%3a06de5a6d7ed840f0a53c26bf62c9ec18%40thread.tacv2/1637587495615?context=%7b%22Tid%22%3a%220425f1d9-16b2-41e3-a01a-0c02a63d13d6%22%2c%22Oid%22%3a%2256c98727-58a9-4bc2-a706-2e47ff6ae312%22%7d|{{attachment:seminarium-archiwum/teams.png}}]] '''Kiedy dokładność klasyfikacji to za mało: wyjaśnianie oceny wiarygodności tekstu i pomiar reakcji użytkowników'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Automatyczna ocena wiarygodności tekstu jest ostatnio niezwykle popularnym zadaniem NLP, dla którego proponuje się wiele rozwiązań ewaluowanych na podstawie dokładności klasyfikacji. Tymczasem niewiele uwagi poświęca się scenariuszom wdrożenia tego typu modeli, które gwarantowałyby zgodne z oczekiwaniami ograniczenie rozprzestrzeniania się dezinformacji. W ramach wystąpienia przedstawione będą prace, w ramach których zaimplementowano dwa tego typu modele w formie rozszerzenia do przeglądarki internetowej i zbadano ich interakcję z użytkownikami, co pozwoliło odpowiedzieć na kilka ważnych pytań. Jak można skompresować duże modele klasyfikacji tekstu, aby wdrożyć je w środowisku o niewielkich zasobach? Jakie techniki wizualizacji i wyjaśniania modeli są najbardziej efektywne we współpracy z człowiekiem? Czy korzystanie z takich narzędzie w istocie zwiększa zdolność do rozpoznawania treści 'fake news'?|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''6 grudnia 2021'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Joanna Byszuk''' (Instytut Języka Polskiego PAN)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''W kierunku stylometrii multimodalnej – możliwości i wyzwania nowego podejścia do analizy filmów i seriali'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">W wystąpieniu przedstawione zostanie nowe podejście do ilościowej analizy utworów multimodalnych, na przykładzie korpusu serialu telewizyjnego Doctor Who, oparte na stylometrii oraz teorii multimodalnej analizy filmowej. Metody stylometryczne od dawna cieszą się popularnością w analizie literatury. Zwykle opierają się na porównywaniu tekstów pod względem częstotliwości użycia określonych cech, które tworzą tak zwane „stylometryczne odciski palca”, czyli wzorce charakterystyczne dla autorów, gatunków lub innych czynników. Metody te jednak rzadko stosuje się do danych innych niż tekst, choć w ostatnich latach pojawiły się badania wykorzystujące stylometrię do analizy ruchów w tańcu (Miguel Escobar Varela) czy muzyce (Backer i Kranenburg). Teoria multimodalnej analizy filmu jest z kolei dość nowym podejściem, rozwijanym głównie przez Johna Batemana i Janinę Wildfeuer, podkreślającym istotność badania informacji pochodzących z różnych modalności wizualnych, językowych i dźwiękowych dla pełniejszej interpretacji. W prezentowanym podejściu stylometryczne metody porównywania utworów są zastosowane do różnych typów cech zaczerpniętych z obrazu, dźwięku oraz treści dialogów. W wystąpieniu omówione zostaną zalety i wyzwania takiego podejścia, a także ogólne możliwości ilościowej analizy mediów filmowych.|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''20 grudnia 2021'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">[[https://teams.microsoft.com/l/meetup-join/19%3a2a54bf781d2a466da1e9adec3c87e6c2%40thread.tacv2/1639467723189?context=%7b%22Tid%22%3a%220425f1d9-16b2-41e3-a01a-0c02a63d13d6%22%2c%22Oid%22%3a%22f5f2c910-5438-48a7-b9dd-683a5c3daf1e%22%7d|{{attachment:seminarium-archiwum/teams.png}}]] '''Piotr Pęzik''' (Uniwersytet Łódzki / !VoiceLab), '''Agnieszka Mikołajczyk''', '''Adam Wawrzyński''' (!VoiceLab), '''Bartłomiej Nitoń''', '''Maciej Ogrodniczuk''' (Instytut Podstaw Informatyki PAN)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''Generowanie słów kluczowych z krótkich tekstów za pomocą modelu T5'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Tematem wystąpienia jest ewaluacja zastosowań polskiej wersji modelu językowego T5 (plT5) w wydobywaniu słów kluczowych z krótkich tekstów. Autorzy opisują trening i testy modelu na opracowanym w ramach projektu [[https://curlicat.eu/|CURLICAT]] Otwartym Korpusie Metadanych Nauki Polskiej. Porównana zostanie jakość słów kluczowych generowanych czterema różnymi metodami: a) plT5 jako model text-to-text, b) extremeText jako klasyfikator z nadzorem, c) TermoPL jako metoda ekstrakcji terminologii oraz d) KeyBERT jako alternatywny model transformerowy. Zilustrowana zostanie również nieoczekiwana przenośność wytrenowanego modelu plT5 do domen tematycznych niezwiązanych z korpusem streszczeń artykułów naukowych, takich jak teksty informacyjne, czy też transkrypcje dialogów telefonicznych.|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''31 stycznia 2022'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Tomasz Limisiewicz''' (Uniwersytet Karola w Pradze)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''Interpreting and Controlling Linguistic Features in Neural Networks’ Representations'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Opis wystąpienia zostanie udostępniony wkrótce.|| ||<style="border:0;padding-top:0px">Zapraszamy także do zapoznania się z [[http://nlp.ipipan.waw.pl/NLP-SEMINAR/previous-p.html|archiwum seminariów z lat 2000–2015]] oraz [[http://zil.ipipan.waw.pl/seminarium-archiwum|listą wystąpień z lat 2015–2020]].|| |
||<style="border:0;padding-top:15px">Zapraszamy także do zapoznania się z [[http://nlp.ipipan.waw.pl/NLP-SEMINAR/previous-p.html|archiwum seminariów z lat 2000–2015]] oraz [[http://zil.ipipan.waw.pl/seminarium-archiwum|listą wystąpień z lat 2015–2025]].|| |
Line 47: | Line 10: |
KOLEJNE TERMINY: ||<style="border:0;padding-top:5px;padding-bottom:5px">'''29 listopada 2021'''|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''6 grudnia 2021'''|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''20 grudnia 2021'''|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''17 stycznia 2022'''|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''31 stycznia 2022'''|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''14 lutego 2022'''|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''28 lutego 2022'''|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''14 marca 2022'''|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''28 marca 2022'''|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''11 kwietnia 2022'''|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''25 kwietnia 2022'''|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''9 maja 2022'''|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''23 maja 2022''' – UWAGA, LREC 20–25 maja|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''6 czerwca 2022'''|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''20 czerwca 2022'''|| |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''7 października 2023'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Uczestnicy konkursu PolEval 2024''' || ||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Planowana seria prezentacji uczestników zadań PolEvalowych'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienia w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Lista wystąpień będzie dostępna wkrótce.|| |
Line 66: | Line 16: |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''11 marca 2024'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Mateusz Krubiński''' (Uniwersytet Karola w Pradze)|| ||<style="border:0;padding-left:30px;padding-bottom:15px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Tytuł wystąpienia podamy wkrótce'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-top:15px;padding-bottom:5px">'''8 stycznia 2024''' (prezentacja wyników projektu DARIAH.Lab)|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Zespół projektu DARIAH.Lab''' (Instytut Podstaw Informatyki PAN)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''Tytuł wystąpienia poznamy wkrótce'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie po polsku.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Streszczenie wystąpienia udostępnimy w najbliższym czasie.|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''3 października 2022'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''...''' (...)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Tytuł wystąpienia podamy wkrótce'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Opis wystąpienia udostępnimy już niedługo.|| WOLNE TERMINY: ATLAS: Explaining abstractive summarization - Emilia Wiśnios? Albo coś z NASK-owych tematów dot. przetwarzania prawa? Czy to jest to samo? |
|
Line 67: | Line 40: |
w siedzibie IPI PAN (ul. Jana Kazimierza 5, Warszawa) Pomysły na seminarium na bazie tekstów z EMNLP Findings: – Ewa Szymańska: https://www.aclweb.org/anthology/2020.emnlp-main.217/ – Olga Majewska: https://www.aclweb.org/anthology/2020.deelio-1.5/ – Marta Kwiatkowska: https://www.aclweb.org/anthology/2020.findings-emnlp.266/ https://www.aclweb.org/anthology/2020.findings-emnlp.295.pdf |
|
Line 81: | Line 45: |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''6 czerwca 2022'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Paula Czarnowska''' (University of Cambridge)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://teams.microsoft.com/l/meetup-join/19%3a06de5a6d7ed840f0a53c26bf62c9ec18%40thread.tacv2/1643554817614?context=%7b%22Tid%22%3a%220425f1d9-16b2-41e3-a01a-0c02a63d13d6%22%2c%22Oid%22%3a%22f5f2c910-5438-48a7-b9dd-683a5c3daf1e%22%7d|{{attachment:seminarium-archiwum/teams.png}}]] '''Tytuł wystąpienia podamy wkrótce'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Opis wystąpienia udostępnimy już niedługo.|| |
|
Line 91: | Line 62: |
Proponowane daty seminarów 2020-21: 1 lutego – Filip Graliński: Kleister 15 lutego 1 marca 15 marca 29 marca 12 kwietnia 26 kwietnia 10 maja 24 maja 7 czerwca 21 czerwca |
Nowe typy: Aleksandra Gabryszak (DFKI Berlin): – https://aclanthology.org/people/a/aleksandra-gabryszak/ – https://www.researchgate.net/profile/Aleksandra-Gabryszak – miała tekst na warsztacie First Computing Social Responsibility Workshop (http://www.lrec-conf.org/proceedings/lrec2022/workshops/CSRNLP1/index.html) na LREC-u 2022: http://www.lrec-conf.org/proceedings/lrec2022/workshops/CSRNLP1/pdf/2022.csrnlp1-1.5.pdf |
Seminarium „Przetwarzanie języka naturalnego” 2025–26
Nowa edycja seminarium Zespołu Inżynierii Lingwistycznej w Instytucie Podstaw Informatyki Polskiej Akademii Nauk rozpocznie się w październiku 2025 r. Seminarium odbywa się średnio co 2 tygodnie, zwykle w poniedziałki o godz. 10:15 (niekiedy online – prosimy o korzystanie z linku przy tytule wystąpienia) i ma charakter otwarty. Poszczególne referaty ogłaszane są na Polskiej Liście Językoznawczej oraz na stronie Lingwistyka komputerowa na Facebooku. Nagrania wystąpień dostępne są na kanale YouTube. |
Zapraszamy także do zapoznania się z archiwum seminariów z lat 2000–2015 oraz listą wystąpień z lat 2015–2025. |