Size: 18256
Comment:
|
Size: 18446
Comment:
|
Deletions are marked like this. | Additions are marked like this. |
Line 13: | Line 13: |
||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://pwr-edu.zoom.us/j/96657909989?pwd=VXFmcEc5blNyM0M3ekxvNGc3Q2Rsdz09|{{attachment:seminarium-archiwum/zoom.png}}]] '''This is the way: designing and compiling LEPISZCZE, a comprehensive NLP benchmark for Polish'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| | ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://pwr-edu.zoom.us/j/96657909989?pwd=VXFmcEc5blNyM0M3ekxvNGc3Q2Rsdz09|{{attachment:seminarium-archiwum/zoom.png}}]] '''This is the way: designing and compiling LEPISZCZE, a comprehensive NLP benchmark for Polish'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}} {{attachment:seminarium-archiwum/icon-en.gif|Slajdy po angielsku.}}|| |
Line 23: | Line 23: |
||<style="border:0;padding-left:30px;padding-bottom:5px">'''Current state, challenges, and approaches to Text Summarization'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}} {{attachment:seminarium-archiwum/icon-en.gif|Slajdy po angielsku.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Neural Text Summarization is a challenging task within Natural Language Processing that requires advanced language understanding and generation capabilities. In recent years substantial progress has been made in developing neural models for the task thanks to the efforts of the research community and advancements in the broader field of NLP. Despite this progress, text summarization remains a challenging task that is far from being solved. In this talk, we will first discuss the early approaches and the current state of the field. Next, we will critically evaluate key ingredients of the existing research setup: datasets, evaluation metrics, and models. Finally, we will focus on emerging research directions and consider the future of text summarization.|| |
||<style="border:0;padding-left:30px;padding-bottom:5px">'''Automatyczne Streszczanie Tekstu'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}} {{attachment:seminarium-archiwum/icon-en.gif|Slajdy po angielsku.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Automatyczne Streszczanie Tekstu stanowi zadanie z dziedziny przetwarzania języka naturalnego (NLP) wymagające zaawansowanych zdolności rozumienia języka (NLU) i możliwości jego generowania (NLG). Dzięki wysiłkom społeczności naukowej i osiągniętemu rozwojowi w dziedzinie NLP w ostatnich latach poczyniono znaczne postępy w opracowywaniu modeli neuronowych dla tego zadania. Pomimo tych postępów, automatyczne streszczanie tekstu pozostaje zadaniem trudnym, które jest dalekie od rozwiązania. Prezentację zaczniemy od omówienia wczesnych podejść do zagadnienia AST oraz obecnego stanu wiedzy w tej dziedzinie. Następnie dokonamy krytycznej oceny kluczowych składników istniejącej konfiguracji badawczej: zestawów danych, metryk oceny i modeli. Na koniec skoncentrujemy się na pojawiających się kierunkach badawczych i rozważymy przyszłość automatycznego streszczenia tekstów.|| |
Seminarium „Przetwarzanie języka naturalnego” 2022–23
Seminarium Zespołu Inżynierii Lingwistycznej w Instytucie Podstaw Informatyki Polskiej Akademii Nauk odbywa się średnio co 2 tygodnie, zwykle w poniedziałki o godz. 10:15 (niekiedy online – prosimy o korzystanie z linku przy tytule wystąpienia) i ma charakter otwarty. Poszczególne referaty ogłaszane są na Polskiej Liście Językoznawczej oraz na stronie Lingwistyka komputerowa na Facebooku. Nagrania wystąpień dostępne są na kanale YouTube. |
3 października 2022 |
Sławomir Dadas (Ośrodek Przetwarzania Informacji) |
|
Transformacja zdań lub krótkich tekstów do postaci gęstych wektorów o stałej liczbie wymiarów znajduje zastosowanie w zadaniach takich jak wyszukiwanie informacji, odpowiadanie na pytania, grupowanie tekstów czy detekcja plagiatów. Prostym sposobem na konstrukcję tego typu reprezentacji jest agregacja wektorów wygenerowanych przez model języka lub pochodzących z zanurzeń słów. Natomiast wyższej jakości reprezentacje można uzyskać poprzez dodatkowy fine-tuning modelu języka na parach zdań semantycznie podobnych. W prezentacji przedstawione zostaną metody uczenia enkoderów zdaniowych bazujących na architekturze Transformer oraz nasze doświadczenia z trenowaniem takich modeli dla języka polskiego. Ponadto omówimy sposoby na automatyczne pozyskanie dużych zbiorów parafraz korzystając z publicznie dostępnych korpusów. Pokazany zostanie także przykład zastosowania enkoderów zdaniowych w praktyce, w systemie informatycznym służącym do wykrywania niedozwolonych zapisów w umowach konsumenckich. |
28 listopada 2022 |
Aleksander Wawer (Instytut Podstaw Informatyki PAN), Justyna Sarzyńska-Wawer (Instytut Psychologii PAN) |
Kłamanie po polsku: analiza języka oraz automatyczne metody wykrywania |
Kłamstwo jest integralną częścią codziennej komunikacji zarówno w formie pisemnej, jak i ustnej. W niniejszym wystąpieniu przedstawimy wyniki uzyskane na zbiorze blisko 1500 prawdziwych i fałszywych wypowiedzi, z których połowa to transkrypcje, a druga połowa to wypowiedzi pisemne, pochodzące z prawdopodobnie największego badania nad kłamaniem w języku polskim. W pierwszej części referatu zbadamy różnice między twierdzeniami prawdziwymi i fałszywymi: sprawdzimy, czy różnią się pod względem złożoności i wydźwięku, a także cech takich jak długość wypowiedzi, konkretność i rozkład części mowy. W drugiej części referatu opowiemy o budowaniu modeli, które automatycznie odróżniają prawdziwe od fałszywych wypowiedzi, uwzględniając proste podejścia, jak modele trenowane na cechach słownikowych, jak i bardziej złożone, pre-trenowane sieci neuronowe typu transformer. Opowiemy także o próbie wykrywania kłamania z wykorzystaniem metod automatycznego fact-checkingu i przedstawimy wstępne wyniki prac nad interpretowalnością (objaśnialnością) modeli wykrywających kłamanie. |
19 grudnia 2022 |
Wojciech Kryściński (Salesforce Research) |
Automatyczne Streszczanie Tekstu |
Automatyczne Streszczanie Tekstu stanowi zadanie z dziedziny przetwarzania języka naturalnego (NLP) wymagające zaawansowanych zdolności rozumienia języka (NLU) i możliwości jego generowania (NLG). Dzięki wysiłkom społeczności naukowej i osiągniętemu rozwojowi w dziedzinie NLP w ostatnich latach poczyniono znaczne postępy w opracowywaniu modeli neuronowych dla tego zadania. Pomimo tych postępów, automatyczne streszczanie tekstu pozostaje zadaniem trudnym, które jest dalekie od rozwiązania. Prezentację zaczniemy od omówienia wczesnych podejść do zagadnienia AST oraz obecnego stanu wiedzy w tej dziedzinie. Następnie dokonamy krytycznej oceny kluczowych składników istniejącej konfiguracji badawczej: zestawów danych, metryk oceny i modeli. Na koniec skoncentrujemy się na pojawiających się kierunkach badawczych i rozważymy przyszłość automatycznego streszczenia tekstów. |
9 stycznia 2023 |
Marzena Karpińska (University of Massachusetts Amherst) |
Tytuł wystąpienia udostępnimy już niedługo |
Streszczenie wystąpienia będzie dostępne już wkrótce. |
23 stycznia 2023 |
Agnieszka Mikołajczyk (VoiceLab / Politechnika Gdańska / hear.ai) |
Tytuł wystąpienia udostępnimy już niedługo |
Streszczenie wystąpienia będzie dostępne już wkrótce. |
6 lutego 2023 |
Artur Nowakowski, Gabriela Pałka, Kamil Guttmann, Mikołaj Pokrywka (Uniwersytet Adama Mickiewicza) |
Tytuł wystąpienia udostępnimy już niedługo |
Streszczenie wystąpienia będzie dostępne już wkrótce. |
Zapraszamy także do zapoznania się z archiwum seminariów z lat 2000–2015 oraz listą wystąpień z lat 2015–2022. |