|
Size: 31549
Comment:
|
Size: 30596
Comment:
|
| Deletions are marked like this. | Additions are marked like this. |
| Line 2: | Line 2: |
| = Seminarium „Przetwarzanie języka naturalnego” 2021–22 = | = Seminarium „Przetwarzanie języka naturalnego” 2022–23 = |
| Line 4: | Line 4: |
| ||<style="border:0;padding-bottom:10px">Seminarium [[http://nlp.ipipan.waw.pl/|Zespołu Inżynierii Lingwistycznej]] w [[http://www.ipipan.waw.pl/|Instytucie Podstaw Informatyki]] [[http://www.pan.pl/|Polskiej Akademii Nauk]] odbywa się średnio co 2 tygodnie, zwykle w poniedziałki o godz. 10:15 (obecnie online – prosimy o korzystanie z linku przy tytule wystąpienia) i ma charakter otwarty. Poszczególne referaty ogłaszane są na [[http://lists.nlp.ipipan.waw.pl/mailman/listinfo/ling|Polskiej Liście Językoznawczej]] oraz na stronie [[https://www.facebook.com/lingwistyka.komputerowa|Lingwistyka komputerowa]] na Facebooku. Nagrania wystąpień dostępne są na [[https://www.youtube.com/ipipan|kanale YouTube]].||<style="border:0;padding-left:30px;">[[seminar|{{attachment:seminarium-archiwum/en.png}}]]|| | ||<style="border:0;padding-bottom:10px">Seminarium [[http://nlp.ipipan.waw.pl/|Zespołu Inżynierii Lingwistycznej]] w [[http://www.ipipan.waw.pl/|Instytucie Podstaw Informatyki]] [[http://www.pan.pl/|Polskiej Akademii Nauk]] odbywa się średnio co 2 tygodnie, zwykle w poniedziałki o godz. 10:15 (niekiedy online – prosimy o korzystanie z linku przy tytule wystąpienia) i ma charakter otwarty. Poszczególne referaty ogłaszane są na [[http://lists.nlp.ipipan.waw.pl/mailman/listinfo/ling|Polskiej Liście Językoznawczej]] oraz na stronie [[https://www.facebook.com/lingwistyka.komputerowa|Lingwistyka komputerowa]] na Facebooku. Nagrania wystąpień dostępne są na [[https://www.youtube.com/ipipan|kanale YouTube]].||<style="border:0;padding-left:30px;">[[seminar|{{attachment:seminarium-archiwum/en.png}}]]|| |
| Line 6: | Line 6: |
| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''11 października 2021''' (seminarium połączone z [[https://www.ipipan.waw.pl/instytut/dzialalnosc-naukowa/seminaria/ogolnoinstytutowe|instytutowym]]) || ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Adam Przepiórkowski''' (Instytut Podstaw Informatyki PAN, Uniwersytet Warszawski)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''[[attachment:seminarium-archiwum/2021-10-11.pdf|Kwantyfikatory a sprawa polska]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">O kwantyfikacji piszą prawie wszyscy semantycy i w prawie każdym tekście dotyczącym semantyki formalnej, lecz nikt i nigdy nie zaproponował pełnej analizy semantycznej zjawiska zilustrowanego niniejszym zdaniem. W zdaniu tym występują konstrukcje współrzędnie złożone składające się z wyrażeń kwantyfikatorowych pełniących różne funkcje w zdaniu: „prawie wszyscy semantycy i w prawie każdym tekście…” oraz „nikt i nigdy”. Konstrukcje takie są stosunkowo częste w języku polskim i występują także w innych językach słowiańskich oraz w pewnych językach sąsiadujących z językami słowiańskimi, np. w węgierskim. W niniejszym referacie zaproponuję analizę semantyczną takich konstrukcji opartą na pojęciu kwantyfikatorów uogólnionych (Mostowski; Lindström; Barwise i Cooper), a konkretnie — kwantyfikatorów poliadycznych (van Benthem; Keenan; Westerståhl). Do pełnego zrozumienia referatu powinno wystarczyć obycie z formułami logiki predykatów; wszystkie pojęcia lingwistyczne (w tym „konstrukcje współrzędnie złożone”, „funkcje w zdaniu”) i logiczne (w tym „kwantyfikatory uogólnione” i „kwantyfikatory poliadyczne”) zostaną wyjaśnione w referacie.|| |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''3 października 2022'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Sławomir Dadas''' (Ośrodek Przetwarzania Informacji)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=TGwLeE1Y5X4|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2022-10-03.pdf|Doświadczenia z trenowania neuronowych enkoderów zdaniowych dla języka polskiego]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Transformacja zdań lub krótkich tekstów do postaci gęstych wektorów o stałej liczbie wymiarów znajduje zastosowanie w zadaniach takich jak wyszukiwanie informacji, odpowiadanie na pytania, grupowanie tekstów czy detekcja plagiatów. Prostym sposobem na konstrukcję tego typu reprezentacji jest agregacja wektorów wygenerowanych przez model języka lub pochodzących z zanurzeń słów. Natomiast wyższej jakości reprezentacje można uzyskać poprzez dodatkowy fine-tuning modelu języka na parach zdań semantycznie podobnych. W prezentacji przedstawione zostaną metody uczenia enkoderów zdaniowych bazujących na architekturze Transformer oraz nasze doświadczenia z trenowaniem takich modeli dla języka polskiego. Ponadto omówimy sposoby na automatyczne pozyskanie dużych zbiorów parafraz korzystając z publicznie dostępnych korpusów. Pokazany zostanie także przykład zastosowania enkoderów zdaniowych w praktyce, w systemie informatycznym służącym do wykrywania niedozwolonych zapisów w umowach konsumenckich.|| |
| Line 11: | Line 11: |
| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''18 października 2021'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Przemysław Kazienko''', '''Jan Kocoń''' (Politechnika Wrocławska)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=mvjO4R1r6gM|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2021-10-18.pdf|Spersonalizowane przetwarzanie języka naturalnego]]'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Wiele zadań z zakresu przetwarzania języka naturalnego, takich jak klasyfikacja tekstów obraźliwych czy emocjonalnych, ma z natury charakter subiektywny. Jest to duże wyzwanie, szczególnie w odniesieniu do procesu anotacji. Ludzie postrzegają treści w bardzo indywidualny sposób. Większość obecnie stosowanych procedur anotacji ma na celu osiągnięcie wysokiego poziomu zgodności. Większość istniejących metod uczenia maszynowego opiera się na uzgodnionych lub większościowych anotacjach. Jednakże, wytyczne dotyczące anotacji subiektywnych treści mogą ograniczać swobodę podejmowania decyzji przez anotatorów. Motywowani umiarkowaną zgodnością anotacji w zbiorach danych dotyczących obraźliwych i emocjonalnych treści, stawiamy hipotezę, że należy wprowadzić spersonalizowane podejście do tak subiektywnych zadań. Proponujemy nowe architektury głębokiego uczenia, które biorą pod uwagę nie tylko treść, ale również charakterystykę danego człowieka. Proponujemy różne podejścia do uczenia reprezentacji i przetwarzania danych o odbiorcach tekstów. Eksperymenty przeprowadziliśmy na czterech zestawach danych. Pierwsze trzy, to dyskusje z Wikipedii, anotowane takimi zjawiskami, jak atak, agresja i toksyczność. Czwarty zbiór to opinie anotowane dziesięcioma kategoriami emocji. Wszystkie nasze modele oparte o reprezentację człowieka znacząco poprawiają jakość predykcji w zadaniach subiektywnych, ocenianych z perspektywy jednostki. Dodatkowo, opracowaliśmy wymagania dotyczące procedur anotacji, personalizacji i przetwarzania treści, aby uczynić nasze rozwiązania zorientowanymi na człowieka.|| |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''14 listopada 2022'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Łukasz Augustyniak''', '''Kamil Tagowski''', '''Albert Sawczyn''', '''Denis Janiak''', '''Roman Bartusiak''', '''Adrian Dominik Szymczak''', '''Arkadiusz Janz''', '''Piotr Szymański''', '''Marcin Wątroba''', '''Mikołaj Morzy''', '''Tomasz Jan Kajdanowicz''', '''Maciej Piasecki''' (Politechnika Wrocławska)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://pwr-edu.zoom.us/j/96657909989?pwd=VXFmcEc5blNyM0M3ekxvNGc3Q2Rsdz09|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2022-11-14.pdf|LEPISZCZE, kompleksowy benchmark NLP dla języka polskiego]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}} {{attachment:seminarium-archiwum/icon-en.gif|Slajdy po angielsku.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Coraz szersza dostępność zasobów obliczeniowych i danych do trenowania dużych modeli językowych zwiększa zapotrzebowanie na tworzenie solidnych środowisk ewaluacyjnych pozwalających na rzetelne oszacowanie postępów w modelowaniu języka. W ostatnich latach zauważalny jest znaczący postęp prac nad standaryzacją środowisk ewaluacyjnych dla języka angielskiego. Środowiska takie jak GLUE, SuperGLUE czy KILT stały się standardowymi narzędziami do oceny modeli językowych. W tworzeniu środowisk dla innych języków wielu badaczy koncentrowało się na replikowaniu środowiska GLUE, czego przykładem jest polski benchmark KLEJ. W niniejszej pracy przedstawiamy przegląd prac nad tworzeniem środowisk ewaluacyjnych dla języków nisko-zasobowych. Pokazujemy, że wciąż wiele języków nie posiada wyczerpującego zestawu danych testowych do oceny modeli językowych. Wskazujemy obecne w środowiskach ewaluacyjnych luki i porównujemy dostępne w ramach tych środowisk zadania odnosząc się przy tym do języka angielskiego i języka chińskiego - języków o licznych zasobach treningowo-testowych. Głównym wynikiem niniejszej pracy jest LEPISZCZE – nowe środowisko ewaluacyjne dla polskiej technologii językowej opartej na modelowaniu języka, z szerokim zestawem różnorodnych zadań testowych. Zaproponowane środowisko zostało zaprojektowane z myślą o elastyczności w dodawaniu zadań, wprowadzaniu nowych modeli językowych, nadsyłaniu wyników oraz wersjonowaniu danych i modeli. Wraz ze środowiskiem dostarczamy również ocenę kilku nowych modeli językowych oraz dołączamy zarówno poprawione zbiory istniejące w literaturze jak również i nowe zbiory testowe dla nowych zadań. W środowisku zawarto 5 istniejących zbiorów danych i 8 nowych zbiorów danych, które dotychczas nie były używane w ewaluacji modeli językowych. W pracy zawarto również doświadczenia i wnioski wynikające z pracy nad tworzeniem środowiska ewaluacyjnego LEPISZCZE jako wskazówki dla projektantów podobnych środowisk w innych językach o ograniczonych zasobach językowych.|| |
| Line 16: | Line 16: |
| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''8 listopada 2021'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Ryszard Tuora''', '''Łukasz Kobyliński''' (Instytut Podstaw Informatyki PAN)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=KeeVWXXQlw8|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2021-11-08.pdf|Wykorzystanie analizy zależnościowej w automatycznej odmianie wyrażeń wielowyrazowych dla języka polskiego]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Generowanie języka naturalnego dla języków o bogatej morfologii może zyskać na automatycznych systemach do odmiany słów. W tej pracy prezentujemy system, który potrafi radzić sobie z tym zadaniem, ze szczególnym naciskiem na pracę z wyrażeniami wielowyrazowymi (MWE). Procedura opiera się na regułach wydobytych automatycznie z treebanku zależnościowego. Utworzony system jest następnie ewaluowany na słowniku polskich wyrażeń wielowyrazowych. Dodatkowo, zbliżony algorytm może zostać wykorzystany do lematyzacji wyrażeń wielowyrazowych. Sam system może zostać zaś zaaplikowany także do innych języków, o zbliżonych mechanizmach morfologicznych – zaprezentujemy proste rozwiązanie przygotowane dla języka rosyjskiego.|| |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''28 listopada 2022'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Aleksander Wawer''' (Instytut Podstaw Informatyki PAN), '''Justyna Sarzyńska-Wawer''' (Instytut Psychologii PAN)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=zVbQ7gmbqvA|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2022-11-28.pdf|Kłamanie po polsku: analiza języka oraz automatyczne metody wykrywania]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Kłamstwo jest integralną częścią codziennej komunikacji zarówno w formie pisemnej, jak i ustnej. W niniejszym wystąpieniu przedstawimy wyniki uzyskane na zbiorze blisko 1500 prawdziwych i fałszywych wypowiedzi, z których połowa to transkrypcje, a druga połowa to wypowiedzi pisemne, pochodzące z prawdopodobnie największego badania nad kłamaniem w języku polskim. W pierwszej części referatu zbadamy różnice między twierdzeniami prawdziwymi i fałszywymi: sprawdzimy, czy różnią się pod względem złożoności i wydźwięku, a także cech takich jak długość wypowiedzi, konkretność i rozkład części mowy. W drugiej części referatu opowiemy o budowaniu modeli, które automatycznie odróżniają prawdziwe od fałszywych wypowiedzi, uwzględniając proste podejścia, jak modele trenowane na cechach słownikowych, jak i bardziej złożone, pre-trenowane sieci neuronowe typu transformer. Opowiemy także o próbie wykrywania kłamania z wykorzystaniem metod automatycznego fact-checkingu i przedstawimy wstępne wyniki prac nad interpretowalnością (objaśnialnością) modeli wykrywających kłamanie.|| |
| Line 21: | Line 21: |
| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''29 listopada 2021''' (seminarium połączone z [[https://www.ipipan.waw.pl/instytut/dzialalnosc-naukowa/seminaria/ogolnoinstytutowe|instytutowym]]) || ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Piotr Przybyła''' (Instytut Podstaw Informatyki PAN)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=zJssN3-5cyg|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2021-11-29.pdf|Kiedy dokładność klasyfikacji to za mało: wyjaśnianie oceny wiarygodności tekstu i pomiar reakcji użytkowników]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Automatyczna ocena wiarygodności tekstu jest ostatnio niezwykle popularnym zadaniem NLP, dla którego proponuje się wiele rozwiązań ewaluowanych na podstawie dokładności klasyfikacji. Tymczasem niewiele uwagi poświęca się scenariuszom wdrożenia tego typu modeli, które gwarantowałyby zgodne z oczekiwaniami ograniczenie rozprzestrzeniania się dezinformacji. W ramach wystąpienia przedstawiamy prace, w ramach których zaimplementowano dwa tego typu modele w formie rozszerzenia do przeglądarki internetowej i zbadano ich interakcję z użytkownikami, co pozwoliło odpowiedzieć na kilka ważnych pytań. Jak można skompresować duże modele klasyfikacji tekstu, aby wdrożyć je w środowisku o niewielkich zasobach? Jakie techniki wizualizacji i wyjaśniania modeli są najbardziej efektywne we współpracy z człowiekiem? Czy korzystanie z takich narzędzie w istocie zwiększa zdolność do rozpoznawania treści 'fake news'?|| |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''19 grudnia 2022'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Wojciech Kryściński''' (Salesforce Research)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=54qidiBmiok|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2022-12-19.pdf|Automatyczne streszczanie tekstu]]'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie i slajdy po angielsku.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Automatyczne streszczanie tekstu stanowi zadanie z dziedziny przetwarzania języka naturalnego (NLP) wymagające zaawansowanych zdolności rozumienia języka (NLU) i możliwości jego generowania (NLG). Dzięki wysiłkom społeczności naukowej i osiągniętemu rozwojowi w dziedzinie NLP w ostatnich latach poczyniono znaczne postępy w opracowywaniu modeli neuronowych dla tego zadania. Pomimo tych postępów, automatyczne streszczanie tekstu pozostaje zadaniem trudnym, które jest dalekie od rozwiązania. Prezentację zaczniemy od omówienia wczesnych podejść do zagadnienia AST oraz obecnego stanu wiedzy w tej dziedzinie. Następnie dokonamy krytycznej oceny kluczowych składników istniejącej konfiguracji badawczej: zestawów danych, metryk oceny i modeli. Na koniec skoncentrujemy się na pojawiających się kierunkach badawczych i rozważymy przyszłość automatycznego streszczenia tekstów.|| |
| Line 26: | Line 26: |
| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''6 grudnia 2021'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Joanna Byszuk''' (Instytut Języka Polskiego PAN)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''W kierunku stylometrii multimodalnej – możliwości i wyzwania nowego podejścia do analizy filmów i seriali'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">W wystąpieniu przedstawiamy nowe podejście do ilościowej analizy utworów multimodalnych, na przykładzie korpusu serialu telewizyjnego Doctor Who, oparte na stylometrii oraz teorii multimodalnej analizy filmowej. Metody stylometryczne od dawna cieszą się popularnością w analizie literatury. Zwykle opierają się na porównywaniu tekstów pod względem częstotliwości użycia określonych cech, które tworzą tak zwane „stylometryczne odciski palca”, czyli wzorce charakterystyczne dla autorów, gatunków lub innych czynników. Metody te jednak rzadko stosuje się do danych innych niż tekst, choć w ostatnich latach pojawiły się badania wykorzystujące stylometrię do analizy ruchów w tańcu (Miguel Escobar Varela) czy muzyce (Backer i Kranenburg). Teoria multimodalnej analizy filmu jest z kolei dość nowym podejściem, rozwijanym głównie przez Johna Batemana i Janinę Wildfeuer, podkreślającym istotność badania informacji pochodzących z różnych modalności wizualnych, językowych i dźwiękowych dla pełniejszej interpretacji. W prezentowanym podejściu stylometryczne metody porównywania utworów są zastosowane do różnych typów cech zaczerpniętych z obrazu, dźwięku oraz treści dialogów. W wystąpieniu omawiamy zalety i wyzwania takiego podejścia, a także ogólne możliwości ilościowej analizy mediów filmowych.|| |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''9 stycznia 2023'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Marzena Karpińska''' (University of Massachusetts Amherst)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''[[attachment:seminarium-archiwum/2023-01-09.pdf|Wyzwania związane z oceną tekstu generowanego maszynowo]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Postęp w generowaniu języka naturalnego (NLG) utrudnił badaczom skuteczne ocenianie wyników najnowszych modeli. Klasyczne metryki, takie jak BLEU czy ROUGE, nie są już wystarczające, aby odróżnić wysokiej jakości teksty od tych o niższej jakości, zwłaszcza w kreatywnych taskach takich jak generowanie opowieści czy poezji, lub też w przypadku oceny dłuższych tekstów w odróżnieniu od ewaluacji pojedynczych zdań. W rezultacie wielu badaczy ucieka się do crowdsourcingu, korzystając z platform, takich jak Amazon Mechanical Turk (AMT), aby ocenić spójność czy gramatyczność wygenerowanych tekstów. W tej prezentacji przedstawię najpierw serię eksperymentów pokazującą wyzwania takiej ewaluacji, demonstrując, że nawet eksperci mogą mieć trudności z ocenianiem tekstu wygenerowanego przez modele przy użyciu skali Likerta, zwłaszcza gdy oceniają oni kreatywny tekst. W drugiej części omówię podobne kwestie związane z automatycznym ocenianiem tłumaczenia maszynowego literatury pięknej oraz wyjaśnię niektóre unikalne wyzwania związane z samym zadaniem tłumaczenia takich tekstów.|| |
| Line 31: | Line 31: |
| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''20 grudnia 2021'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Piotr Pęzik''' (Uniwersytet Łódzki / !VoiceLab), '''Agnieszka Mikołajczyk''', '''Adam Wawrzyński''' (!VoiceLab), '''Bartłomiej Nitoń''', '''Maciej Ogrodniczuk''' (Instytut Podstaw Informatyki PAN)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''[[attachment:seminarium-archiwum/2021-12-20.pdf|Generowanie słów kluczowych z krótkich tekstów za pomocą modelu T5]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Tematem wystąpienia jest ewaluacja zastosowań polskiej wersji modelu językowego T5 (plT5) w wydobywaniu słów kluczowych z krótkich tekstów. Autorzy opisują trening i testy modelu na opracowanym w ramach projektu [[https://curlicat.eu/|CURLICAT]] [[http://clip.ipipan.waw.pl/POSMAC|Otwartym Korpusie Metadanych Nauki Polskiej]]. Porównana zostanie jakość słów kluczowych generowanych czterema różnymi metodami: a) plT5 jako model text-to-text, b) extremeText jako klasyfikator z nadzorem, c) TermoPL jako metoda ekstrakcji terminologii oraz d) KeyBERT jako alternatywny model transformerowy. Zilustrowana zostanie również nieoczekiwana przenośność wytrenowanego modelu plT5 do domen tematycznych niezwiązanych z korpusem streszczeń artykułów naukowych, takich jak teksty informacyjne, czy też transkrypcje dialogów telefonicznych.|| |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''6 lutego 2023'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Agnieszka Mikołajczyk-Bareła''' (!VoiceLab / Politechnika Gdańska / HearAI)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''[[attachment:seminarium-archiwum/2023-02-06.pdf|HearAI: w stronę rozpoznawania języka migowego opartego na głębokim uczeniu]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}} {{attachment:seminarium-archiwum/icon-en.gif|Slajdy po angielsku.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Osoby głuche i niedosłyszące mają ogromną barierę komunikacyjną. Różne narodowości używają różnych języków migowych i nie ma jednego uniwersalnego, ponieważ są to naturalne języki ludzkie z własnymi regułami gramatycznymi i leksykonami. Metody oparte na głębokim uczeniu do tłumaczenia języka migowego potrzebują wielu odpowiednio oznakowanych danych treningowych, aby dobrze sobie radzić. W [[https://www.hearai.pl/|projekcie non-profit HearAI]] zajęliśmy się tym problemem i zbadaliśmy różne wielojęzyczne otwarte korpusy języka migowego oznaczone przez lingwistów w neutralnym językowo systemie Hamburg Notation System (!HamNoSys). Po pierwsze, uprościliśmy trudną do zrozumienia strukturę !HamNoSys bez znaczącej utraty znaczenia glosariusza poprzez wprowadzenie multietykiet numerycznych. Po drugie, do rozpoznania pojedynczych pojęć wykorzystaliśmy punkty orientacyjne oraz wybrane cechy na poziomie obrazu. Oddzielnie analizowaliśmy możliwości położenia ręki dominującej, jej pozycję i kształt oraz ogólną symetrię ruchu, co pozwoliło nam dogłębnie zbadać przydatność !HamNoSys do rozpoznawania pojęć.|| |
| Line 36: | Line 36: |
| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''31 stycznia 2022'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Tomasz Limisiewicz''' (Uniwersytet Karola w Pradze)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=d1WHbE2gLjk|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2022-01-31.pdf|Interpretacja i kontrola cech językowych w reprezentacjach sieci neuronowych]]'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Sieci neuronowe osiągają niedoścignione wyniki w wielu zadaniach związanych z przetwarzaniem języka naturalnego. Niestety, modele neuronowe są czarnymi skrzynkami; nie rozumiemy mechanizmów stojących za ich sukcesami. W swoim wystąpieniu przedstawiam narzędzia i metody używane do interpretacji modeli. Skupiam się przede wszystkim na reprezentacjach w modelach językowych typu Transformer i nowej metodzie – sondzie ortogonalnej (ang. ''orthogonal probe''), która oferuje dobry wgląd w stany ukryte sieci. Wyniki pokazują, że poszczególne sygnały językowe są zakodowane w Transformerach w sposób odrębny, dzięki temu możemy rozdzielić je w reprezentacji wektorowej. Identyfikacja specyficznych informacji zakodowanych w sieci pozwala na usunięcie niepożądanego ukierunkowania modelu (ang. ''model bias'').|| |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''13 lutego 2023'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Artur Nowakowski, Gabriela Pałka, Kamil Guttmann, Mikołaj Pokrywka''' (Uniwersytet Adama Mickiewicza)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''[[attachment:seminarium-archiwum/2023-02-13.pdf|UAM na WMT 2022: nowoczesne metody tworzenia systemów tłumaczenia maszynowego]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}} {{attachment:seminarium-archiwum/icon-en.gif|Slajdy po angielsku.}}|| ||<style="border:0;padding-left:30px;padding-bottom:5px">Większość systemów tłumaczenia automatycznego opiera się na trenowaniu modeli na poziomie zdań. Jednak współcześnie coraz częściej oczekuje się, że system tłumaczenia będzie uwzględniał kontekst całego dokumentu. W odpowiedzi na te oczekiwania, organizatorzy konferencji WMT 2022 stworzyli zadanie General MT Task, polegające na tłumaczeniu dokumentów z różnych dziedzin: newsów, treści z portali społecznościowych, konwersacji i tekstów z dziedziny e-commerce.|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Podczas prezentacji omówione zostanie zadanie, z jakim przyszło się zmierzyć podczas konferencji WMT 2022 w kierunkach tłumaczenia czeski-ukraiński oraz ukraiński-czeski. Przedstawione zostaną napotkane problemy, takie jak poprawne tłumaczenie jednostek nazwanych, uwzględnienie kontekstu dokumentu oraz poprawne uwzględnienie rzadko występujących znaków, takich jak emoji. Pokazane zostaną także metody wspomagające wybór najlepszego tłumaczenia spośród tłumaczeń wygenerowanych przez system, oparte na modelach automatycznej oceny jakości tłumaczenia. Celem prezentacji jest przede wszystkim zaprezentowanie składowych systemu, które pomogły osiągnąć najlepszy wynik spośród wszystkich uczestników konkursu.|| |
| Line 41: | Line 42: |
| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''28 lutego 2022'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Maciej Chrabąszcz''' (Sages)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=zB26bW-t5wA|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2022-02-28.pdf|Generowanie języka naturalnego na przykładzie opisywania zdjęć]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Podczas seminarium omawiam problem generacji opisów obrazów. Prezentuję modele testowane w ramach tworzenia rozwiązania do automatycznego opisywania zdjęć, m.in. modele z atencją, wykorzystujące wcześniej przetrenowane modele wizyjne i generujące tekst.|| |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''27 lutego 2023'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Sebastian Vincent''' (University of Sheffield)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''[[attachment:seminarium-archiwum/2023-02-27.pdf|MTCue: Nauka pozatekstowych atrybutów „zero-shot” przez użycie nieustruktyruzowanego kontekstu w tłumaczeniu maszynowym]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie częściowo w języku polskim.}} {{attachment:seminarium-archiwum/icon-en.gif|Większość wystąpienia i slajdy po angielsku.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Wydajne użycie kontekstu pochodzącego z wewnątrz lub spoza tłumaczonego tekstu pozostaje jedną z krytycznych luk pomiędzy tłumaczeniem profesjonalnym a maszynowym. Dotychczasowo, badania koncentrowały się głównie na pojedynczych, dobrze zdefiniowanych typach kontekstu, takich jak poprzednie zdania, lub dyskretne zmienne (np. płeć mówcy). Niniejsza praca przedstawia MTCue, framework neuronowego tłumaczenia maszynowego, który, przepisując dyskretny kontekst na tekst, uczy się abstrakcyjnej reprezentacji kontekstu pozwalającej na transfer pomiędzy różnymi ustawieniami danych oraz wykorzystanie podobnych sygnałów, gdy danych jest niewiele. Eksperymenty w sześciu parach językowych w domenie dialogu z dostępem do metadanych i poprzednich zdań wykazują wyraźny wzrost jakości tłumaczenia w stosunku do bezkontekstowego systemu. Dalsza analiza pokazuje, że enkoder kontekstu w MTCue uczy się reprezentacji zorganizowanej w odniesieniu do specyficznych atrybutów, takich jak formalność, efektywnie umożliwiając ich kontrolę bez trenowania. Wstępne szkolenie na metadanych i poprzednich zdaniach pozwala również MTCue uczyć się nowych kodów kontrolnych z mniejszą ilością danych.|| |
| Line 46: | Line 47: |
| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''28 marca 2022'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Tomasz Stanisławek''' (Applica)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=NrDh-UIfgwU|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2022-03-28.pdf|Ekstrakcja informacji z dokumentów o bogatej strukturze graficznej]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Szybki rozwój dziedziny NLP w ostatnich latach (pojawienie się modeli języka BERT, RoBERTa, T5, …) spopularyzował użycie technik ekstrakcji informacji w celu automatyzacji procesów biznesowych. Niestety, większość dokumentów biznesowych zawiera w sobie nie tylko zwykły tekst, ale również różnego rodzaju struktury graficzne (przykładowo: tabele, listy, tekst pogrubiony czy formularze), które uniemożliwiają poprawne przetwarzanie aktualnie istniejącymi metodami (tekst wczytywany do modelu w postaci sekwencji tokenów). W trakcie wystąpienia omówię: a) problemy istniejących metod wykorzystywanych do ekstrakcji informacji, b) Kleister – nowe zbiory danych utworzone na potrzeby testowania nowych modeli c) LAMBERT – nowy model języka z wstrzykniętą informacją o pozycji tokenów na stronie, d) dalsze kierunki rozwoju dziedziny.|| |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''27 marca 2023'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Julian Zubek''', '''Joanna Rączaszek-Leonardi''' (Wydział Psychologii Uniwersytetu Warszawskiego)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''[[attachment:seminarium-archiwum/2023-03-27.pdf|Agentowe modele wyłaniania się komunikacji symbolicznej inspirowane procesami rozwoju językowego]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Rozwój nauk informatycznych przyzwyczaił nas do rozumienia symboli jako dyskretnych elementów abstrakcyjnej struktury, na których wykonywane są formalne operacje. W ujęciu semiotycznym symbole są szczególnym rodzajem znaków, które funkcjonują w ramach systemu powiązań i których interpretacja wymaga znajomości reguł rządzących tym systemem. Patrząc z perspektywy procesów ewolucji języka i rozwoju językowego, wyłanianie się struktur symbolicznych oraz zdolności do posługiwania się nimi wiąże się z szeregiem podstawowych pytań. W naszym programie badawczym koncentrujemy się na tym, jak abstrakcyjne symbole kształtują się równolegle do zdolności wykonywania fizycznych akcji w świecie i w jaki sposób symbole mogą stać się regulatorami tych akcji. W celu ilustracji tych zależności, korzystamy z symulacji komputerowych, w których agenci koordynują swoje działania przy pomocy protokołu komunikacyjnego wyłaniającego się oddolnie w schemacie uczenia ze wzmocnieniem. Wskazujemy na założenia stojące u podstaw tego typu modeli i na istniejące trudności w modelowaniu wielorakich źródeł presji kształtujących strukturę języka. Prezentujemy wyniki własnych symulacji, ilustrujących a) wpływ historii interakcji na strukturę języka, b) związek dostępności kontekstu i wieloznaczności w komunikacji, c) rolę dialogu w koordynacji i strukturyzacji akcji w dynamicznym środowisku. Uzyskane wyniki pokazują złożoną naturę symboli, która wymaga komplementarności opisu na poziomie formalnej struktury i na poziomie dynamiki układu. Złożoność ta powinna znaleźć również odzwierciedlenie w projektowaniu i ewaluacji algorytmów sztucznej inteligencji przeznaczonych do interakcji z ludźmi.|| |
| Line 51: | Line 52: |
| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''11 kwietnia 2022'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Daniel Ziembicki''' (Uniwersytet Warszawski), '''Anna Wróblewska''', '''Karolina Seweryn''' (Politechnika Warszawska)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=cU1y78uFCps|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2022-04-11.pdf|Wnioskowanie i faktywność w języku polskim — zbiór danych eksperckich i benchmarki]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Przedmiotem wystąpienia będą cztery zagadnienia: (1) zjawisko faktywności we współczesnej polszczyźnie, (2) wykrywanie relacji wynikania, sprzeczności i niezależności w tekście, (3) stworzony przez nas językowy zbiór danych skupiony na opozycji faktywność-niefaktywność oraz (4) omówienie wyników wytrenowanych na zbiorze danych z punktu (3) modeli ML, których celem było przewidywanie relacji semantycznych z punktu (2).|| |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''24 kwietnia 2023'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Mateusz Krubiński''' (Uniwersytet Karola w Pradze)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''[[attachment:seminarium-archiwum/2023-04-24.pdf|Obraz wart tysiąca słów – o streszczaniu danych multimodalnych]]'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:5px">Automatyczne streszczanie to jeden z klasycznych problemów zarówno w dziedzinie przetwarzania języka naturalnego (streszczanie tekstu), jak i w dziedzinie wizji komputerowej (streszczanie wideo). Streszczanie danych multimodalnych to zagadnienie łączące te dwie dziedziny, które swój wynik opiera na różnych typach informacji. Motywacji do tego typu badań nie trzeba szukać daleko – wystarczy odwiedzić jakąkolwiek stronę internetową z bieżącymi wiadomościami. Przekonamy się, że najpopularniejszy obecnie sposób prezentowania wydarzeń oprócz tradycyjnego tekstu zawiera także galerię zdjęć lub krótki, przyciągający uwagę film. Aby zachęcić czytelnika do zapoznania się z treścią artykułu, tego typu materiały są zazwyczaj prezentowane jako jednozdaniowy tekst w połączeniu z wizualną miniaturą (tzw. ''thumbnail'').|| ||<style="border:0;padding-left:30px;padding-bottom:15px">W moim referacie przedstawię krótką historię zagadnienia streszczania danych multimodalnych, koncentrując się na wariancie, w którym kluczową rolę odgrywa tekst. Zaprezentuję, jak na przestrzeni lat ewoluowały metody (i zbiory danych) oraz zasygnalizuję obszary, które w mojej ocenie stanowią największe wyzwanie. W drugiej części referatu opowiem o swoich własnych badaniach, największy nacisk kładąc na tzw. ''pre-training'' i metody ewaluacji. Podzielę się także doświadczeniami zdobytymi przy tworzeniu zbioru danych w oparciu o automatycznie przetworzoną treść stron internetowych, pokazującymi, że czasami warto zrobić krok w tył.|| |
| Line 56: | Line 58: |
| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''16 maja 2022'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Inez Okulska''', '''Anna Zawadzka''', '''Michał Szczyszek''', '''Anna Kołos''', '''Zofia Cieślińska''' (NASK)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=u5A3SNw0a7M|{{attachment:seminarium-archiwum/youtube.png}}]] '''Efekt(ywność) stylu, czyli jak i po co kodować wskaźniki morfosyntaktyczne całych dokumentów'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">A gdyby tak reprezentować tekst dowolnej długości za pomocą jednego, równego, i dodatkowo w pełni interpretowalnego wektora? Bez korpusu do uczenia, bez słownika pretrenowanych osadzeń, pojedynczo, na miejscu lub na wynos? Czemu nie! Wektory !StyloMetrix to wykorzystująca bogactwo biblioteki spaCy kombinacja lingwistycznych metryk. Takie podejście oczywiście pomija reprezentację semantyki pojedynczych słów czy fraz i teoretycznie nie pozwala na detekcję konkretnych tematów. Chyba że – semantyka niesiona jest również przez styl? Dotychczasowe eksperymenty, jak i rezultaty badań filologicznych pokazują, że obszary te są ze sobą mocno splecione. Okazuje się bowiem, że – przykładowo – treści niewłaściwe dla dzieci czy młodzieży to nie tylko oczywisty zestaw zakazanej leksyki, lecz także kombinacja charakterystycznych wskaźników morfosyntaktycznych tekstu. Są one tak wyraziste i dystynktywne, że korzystając wyłącznie z reprezentacji !StyloMetrix, można osiągnąć precyzję na poziomie 90% w zadaniu klasyfikacji wieloklasowej. Ponadto okazuje się, że skoro każda wartość wektora jest znormalizowanym wskaźnikiem konkretnej gramatycznej cechy dokumentu, to można się również czegoś dowiedzieć na temat lingwistycznych wyznaczników danego stylu. Taka konstrukcja metryk to też krok w stronę interpretowalności algebraicznych metod selekcji cech. Przedstawione w wystąpieniu eksperymenty będą opierały się na treściach opublikowanych w Internecie.|| |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''25 maja 2023'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Agata Savary''' (Université Paris-Saclay)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''[[attachment:seminarium-archiwum/2023-05-25.pdf|We thought the eyes of coreference were shut to multiword expressions and they mostly are: O związkach koreferencji z jednostkami wielowyrazowymi]]'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku polskim.}} {{attachment:seminarium-archiwum/icon-pl.gif|Slajdy po angielsku.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Jednostki wielowyrazowe to połączenia słów posiadające specyficzne własności semantyczne takie jak niekompozycyjność znaczeniowa, dekompozycyjność, przezroczystość i figuracja. Wieloletnie debaty językoznawcze sugerują, iż te własności warunkują warianty morfoskładniowe, w których dana jednostka może występować. W moim referacie rozszerzę te rozważania do koreferencji rzeczownikowej. Punktem wyjścia będzie hipoteza, według której wewnętrzne człony jednostki wielowyrazowej powinny pojawiać się w nietrywialnych łańcuchach koreferencyjnych z niskim prawdopodobieństwem. Kilka poprzednich prac wskazywało już na sporadyczność zjawisk koreferencyjnych w kontekście jednostek wielowyrazowych, lecz obserwacje te nie były poparte danymi liczbowymi. Tematem referatu będzie próba wypełnienia tej luki poprzez studium korpusowe dotyczące czasownikowych jednostek wielowyrazowych i koreferencji rzeczownikowej w języku francuskim. Wyniki w wysokim stopniu potwierdzają hipotezę, ale również ujawniają pewne tendencje związane z typami jednostek wielowyrazowych i tekstów, w szczególności z transkrypcją mowy.|| |
| Line 61: | Line 63: |
| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''23 maja 2022'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Karolina Stańczak''' (Uniwersytet Kopenhaski)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://teams.microsoft.com/l/meetup-join/19%3a2a54bf781d2a466da1e9adec3c87e6c2%40thread.tacv2/1649072330756?context=%7b%22Tid%22%3a%220425f1d9-16b2-41e3-a01a-0c02a63d13d6%22%2c%22Oid%22%3a%22f5f2c910-5438-48a7-b9dd-683a5c3daf1e%22%7d|{{attachment:seminarium-archiwum/teams.png}}]] '''Model ze zmienną ukrytą do sondowania wewnętrznego'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Sukces wstępnie wytrenowanych kontekstowych reprezentacji skłonił badaczy do ich analizy pod kątem obecności informacji lingwistycznej. Naturalne jest założenie, że takie reprezentacje kodują pewien poziom wiedzy językowej, ponieważ empirycznie przyniosły one znaczącą poprawę w wielu różnych zadaniach NLP, co sugeruje, że uczą się one prawdziwej generalizacji językowej. W niniejszej pracy koncentrujemy się na sondowaniu wewnętrznym, technice analizy, której celem jest nie tylko określenie, czy reprezentacja koduje dany atrybut językowy, ale także wskazanie, gdzie ten atrybut jest zakodowany. Proponujemy nową metodę zmiennej ukrytej do konstruowania sond wewnętrznych przy użyciu spolegliwej wariacyjnej aproksymacji log-likelihood. Wyniki pokazują, że nasz model jest uniwersalny i pozwala uzyskać dokładniejsze oszacowania informacji wzajemnej niż dwie sondy wewnętrzne zaproponowane wcześniej w literaturze. Znajdujemy również empiryczne dowody na to, że wstępnie wyszkolone reprezentacje wykształcają międzyjęzykowe pojęcie morfoskładni.|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''6 czerwca 2022'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Cezary Klamra''', '''Grzegorz Wojdyga''' (Instytut Podstaw Informatyki PAN), '''Sebastian Żurowski''' (Uniwersytet Mikołaja Kopernika), '''Paulina Rosalska''' (Uniwersytet Mikołaja Kopernika / Applica.ai), '''Matylda Kozłowska''' (Oracle Polska), '''Maciej Ogrodniczuk''' (Instytut Podstaw Informatyki PAN)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=SnjqVft5SzA|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2022-06-06.pdf|Dewulgaryzacja polskich tekstów z wykorzystaniem pretrenowanych modeli językowych]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Przedstawimy metodę transferu stylu tekstu do zastępowania wyrażeń wulgarnych ich niewulgarnymi odpowiednikami polegającą na dostrojeniu trzech wstępnie wytrenowanych modeli językowych (GPT-2, GPT-3 i T-5) na nowo powstałym korpusie równoległym par zdań wulgarnych i niewulgarnych. Następnie ocenimy otrzymane modele, sprawdzając ich dokładność transferu stylu, zachowanie treści i jakość języka. Zgodnie z naszą najlepszą wiedzą, proponowane rozwiązanie jest pierwszym tego typu dla języka polskiego. Tekst opisujący prezentowane rozwiązanie został przyjęty na konferencję [[https://www.iccs-meeting.org/iccs2022/|ICCS 2022]].|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''13 czerwca 2022'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Michał Ulewicz'''|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=4ZcVXg2Y_fA|{{attachment:seminarium-archiwum/youtube.png}}]] '''Semantic Role Labeling – dane i modele'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Semantic Role Labeling (SRL) pozwala przedstawić znaczenie zdania w postaci struktur (tzw. ramek) składających się z orzeczenia i argumentów związanych z tym orzeczeniem. Takie podejście pozwala podzielić zdanie na istotne znaczeniowo fragmenty i precyzyjnie znaleźć odpowiedzi na pytania: kto, co, komu, kiedy i jak zrobił dla każdego z tych fragmentów. W pierwszym etapie znajdowane są orzeczenia i ujednoznaczniane ich znaczenia. W drugim etapie dla każdej ramki identyfikowane i klasyfikowane są argumenty. Do budowy skutecznych modeli SRL potrzebne są dane i o ile dla języka angielskiego istnieją wysokiej jakości zestawy danych (propbank), to dla pozostałych języków takie zbiory praktycznie nie istnieją, głównie ze względu na wysoki nakład pracy i koszt potrzebny do ich stworzenia. Podczas wystąpienia opowiem jak SRL może pomóc w precyzyjnym przetwarzaniu tekstu. Przedstawię próby automatycznego generowania zestawów danych dla różnych języków w tym języka polskiego z wykorzystaniem techniki rzutowania anotacji (ang. annotation projection). Przedstawię zidentyfikowane problemy związane z automatycznym rzutowaniem anotacji z języka angielskiego na język polski. Opowiem o modelach SRL, które zbudowałem na bazie modeli typu Transformer.|| ||<style="border:0;padding-top:0px">Zapraszamy także do zapoznania się z [[http://nlp.ipipan.waw.pl/NLP-SEMINAR/previous-p.html|archiwum seminariów z lat 2000–2015]] oraz [[http://zil.ipipan.waw.pl/seminarium-archiwum|listą wystąpień z lat 2015–2020]].|| |
||<style="border:0;padding-top:0px">Zapraszamy także do zapoznania się z [[http://nlp.ipipan.waw.pl/NLP-SEMINAR/previous-p.html|archiwum seminariów z lat 2000–2015]] oraz [[http://zil.ipipan.waw.pl/seminarium-archiwum|listą wystąpień z lat 2015–2022]].|| |
| Line 81: | Line 68: |
| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''3 października 2022'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''...''' (...)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Tytuł wystąpienia podamy wkrótce'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Opis wystąpienia udostępnimy już niedługo.|| |
|
| Line 83: | Line 77: |
| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''14 lutego 2022'''|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''14 marca 2022'''|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''25 kwietnia 2022'''|| – UWAGA, jest KJK ||<style="border:0;padding-top:5px;padding-bottom:5px">'''9 maja 2022'''|| – Adam Grycner? ||<style="border:0;padding-top:5px;padding-bottom:5px">'''23 maja 2022''' – UWAGA, LREC 20–25 maja|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''20 czerwca 2022'''|| – UWAGA, jest KJK |
ATLAS: Explaining abstractive summarization - Emilia Wiśnios? Albo coś z NASK-owych tematów dot. przetwarzania prawa? Czy to jest to samo? |
| Line 96: | Line 85: |
Seminarium „Przetwarzanie języka naturalnego” 2022–23
Seminarium Zespołu Inżynierii Lingwistycznej w Instytucie Podstaw Informatyki Polskiej Akademii Nauk odbywa się średnio co 2 tygodnie, zwykle w poniedziałki o godz. 10:15 (niekiedy online – prosimy o korzystanie z linku przy tytule wystąpienia) i ma charakter otwarty. Poszczególne referaty ogłaszane są na Polskiej Liście Językoznawczej oraz na stronie Lingwistyka komputerowa na Facebooku. Nagrania wystąpień dostępne są na kanale YouTube. |
3 października 2022 |
Sławomir Dadas (Ośrodek Przetwarzania Informacji) |
|
Transformacja zdań lub krótkich tekstów do postaci gęstych wektorów o stałej liczbie wymiarów znajduje zastosowanie w zadaniach takich jak wyszukiwanie informacji, odpowiadanie na pytania, grupowanie tekstów czy detekcja plagiatów. Prostym sposobem na konstrukcję tego typu reprezentacji jest agregacja wektorów wygenerowanych przez model języka lub pochodzących z zanurzeń słów. Natomiast wyższej jakości reprezentacje można uzyskać poprzez dodatkowy fine-tuning modelu języka na parach zdań semantycznie podobnych. W prezentacji przedstawione zostaną metody uczenia enkoderów zdaniowych bazujących na architekturze Transformer oraz nasze doświadczenia z trenowaniem takich modeli dla języka polskiego. Ponadto omówimy sposoby na automatyczne pozyskanie dużych zbiorów parafraz korzystając z publicznie dostępnych korpusów. Pokazany zostanie także przykład zastosowania enkoderów zdaniowych w praktyce, w systemie informatycznym służącym do wykrywania niedozwolonych zapisów w umowach konsumenckich. |
14 listopada 2022 |
Łukasz Augustyniak, Kamil Tagowski, Albert Sawczyn, Denis Janiak, Roman Bartusiak, Adrian Dominik Szymczak, Arkadiusz Janz, Piotr Szymański, Marcin Wątroba, Mikołaj Morzy, Tomasz Jan Kajdanowicz, Maciej Piasecki (Politechnika Wrocławska) |
Coraz szersza dostępność zasobów obliczeniowych i danych do trenowania dużych modeli językowych zwiększa zapotrzebowanie na tworzenie solidnych środowisk ewaluacyjnych pozwalających na rzetelne oszacowanie postępów w modelowaniu języka. W ostatnich latach zauważalny jest znaczący postęp prac nad standaryzacją środowisk ewaluacyjnych dla języka angielskiego. Środowiska takie jak GLUE, SuperGLUE czy KILT stały się standardowymi narzędziami do oceny modeli językowych. W tworzeniu środowisk dla innych języków wielu badaczy koncentrowało się na replikowaniu środowiska GLUE, czego przykładem jest polski benchmark KLEJ. W niniejszej pracy przedstawiamy przegląd prac nad tworzeniem środowisk ewaluacyjnych dla języków nisko-zasobowych. Pokazujemy, że wciąż wiele języków nie posiada wyczerpującego zestawu danych testowych do oceny modeli językowych. Wskazujemy obecne w środowiskach ewaluacyjnych luki i porównujemy dostępne w ramach tych środowisk zadania odnosząc się przy tym do języka angielskiego i języka chińskiego - języków o licznych zasobach treningowo-testowych. Głównym wynikiem niniejszej pracy jest LEPISZCZE – nowe środowisko ewaluacyjne dla polskiej technologii językowej opartej na modelowaniu języka, z szerokim zestawem różnorodnych zadań testowych. Zaproponowane środowisko zostało zaprojektowane z myślą o elastyczności w dodawaniu zadań, wprowadzaniu nowych modeli językowych, nadsyłaniu wyników oraz wersjonowaniu danych i modeli. Wraz ze środowiskiem dostarczamy również ocenę kilku nowych modeli językowych oraz dołączamy zarówno poprawione zbiory istniejące w literaturze jak również i nowe zbiory testowe dla nowych zadań. W środowisku zawarto 5 istniejących zbiorów danych i 8 nowych zbiorów danych, które dotychczas nie były używane w ewaluacji modeli językowych. W pracy zawarto również doświadczenia i wnioski wynikające z pracy nad tworzeniem środowiska ewaluacyjnego LEPISZCZE jako wskazówki dla projektantów podobnych środowisk w innych językach o ograniczonych zasobach językowych. |
28 listopada 2022 |
Aleksander Wawer (Instytut Podstaw Informatyki PAN), Justyna Sarzyńska-Wawer (Instytut Psychologii PAN) |
|
Kłamstwo jest integralną częścią codziennej komunikacji zarówno w formie pisemnej, jak i ustnej. W niniejszym wystąpieniu przedstawimy wyniki uzyskane na zbiorze blisko 1500 prawdziwych i fałszywych wypowiedzi, z których połowa to transkrypcje, a druga połowa to wypowiedzi pisemne, pochodzące z prawdopodobnie największego badania nad kłamaniem w języku polskim. W pierwszej części referatu zbadamy różnice między twierdzeniami prawdziwymi i fałszywymi: sprawdzimy, czy różnią się pod względem złożoności i wydźwięku, a także cech takich jak długość wypowiedzi, konkretność i rozkład części mowy. W drugiej części referatu opowiemy o budowaniu modeli, które automatycznie odróżniają prawdziwe od fałszywych wypowiedzi, uwzględniając proste podejścia, jak modele trenowane na cechach słownikowych, jak i bardziej złożone, pre-trenowane sieci neuronowe typu transformer. Opowiemy także o próbie wykrywania kłamania z wykorzystaniem metod automatycznego fact-checkingu i przedstawimy wstępne wyniki prac nad interpretowalnością (objaśnialnością) modeli wykrywających kłamanie. |
19 grudnia 2022 |
Wojciech Kryściński (Salesforce Research) |
Automatyczne streszczanie tekstu stanowi zadanie z dziedziny przetwarzania języka naturalnego (NLP) wymagające zaawansowanych zdolności rozumienia języka (NLU) i możliwości jego generowania (NLG). Dzięki wysiłkom społeczności naukowej i osiągniętemu rozwojowi w dziedzinie NLP w ostatnich latach poczyniono znaczne postępy w opracowywaniu modeli neuronowych dla tego zadania. Pomimo tych postępów, automatyczne streszczanie tekstu pozostaje zadaniem trudnym, które jest dalekie od rozwiązania. Prezentację zaczniemy od omówienia wczesnych podejść do zagadnienia AST oraz obecnego stanu wiedzy w tej dziedzinie. Następnie dokonamy krytycznej oceny kluczowych składników istniejącej konfiguracji badawczej: zestawów danych, metryk oceny i modeli. Na koniec skoncentrujemy się na pojawiających się kierunkach badawczych i rozważymy przyszłość automatycznego streszczenia tekstów. |
9 stycznia 2023 |
Marzena Karpińska (University of Massachusetts Amherst) |
Postęp w generowaniu języka naturalnego (NLG) utrudnił badaczom skuteczne ocenianie wyników najnowszych modeli. Klasyczne metryki, takie jak BLEU czy ROUGE, nie są już wystarczające, aby odróżnić wysokiej jakości teksty od tych o niższej jakości, zwłaszcza w kreatywnych taskach takich jak generowanie opowieści czy poezji, lub też w przypadku oceny dłuższych tekstów w odróżnieniu od ewaluacji pojedynczych zdań. W rezultacie wielu badaczy ucieka się do crowdsourcingu, korzystając z platform, takich jak Amazon Mechanical Turk (AMT), aby ocenić spójność czy gramatyczność wygenerowanych tekstów. W tej prezentacji przedstawię najpierw serię eksperymentów pokazującą wyzwania takiej ewaluacji, demonstrując, że nawet eksperci mogą mieć trudności z ocenianiem tekstu wygenerowanego przez modele przy użyciu skali Likerta, zwłaszcza gdy oceniają oni kreatywny tekst. W drugiej części omówię podobne kwestie związane z automatycznym ocenianiem tłumaczenia maszynowego literatury pięknej oraz wyjaśnię niektóre unikalne wyzwania związane z samym zadaniem tłumaczenia takich tekstów. |
6 lutego 2023 |
Agnieszka Mikołajczyk-Bareła (VoiceLab / Politechnika Gdańska / HearAI) |
HearAI: w stronę rozpoznawania języka migowego opartego na głębokim uczeniu |
Osoby głuche i niedosłyszące mają ogromną barierę komunikacyjną. Różne narodowości używają różnych języków migowych i nie ma jednego uniwersalnego, ponieważ są to naturalne języki ludzkie z własnymi regułami gramatycznymi i leksykonami. Metody oparte na głębokim uczeniu do tłumaczenia języka migowego potrzebują wielu odpowiednio oznakowanych danych treningowych, aby dobrze sobie radzić. W projekcie non-profit HearAI zajęliśmy się tym problemem i zbadaliśmy różne wielojęzyczne otwarte korpusy języka migowego oznaczone przez lingwistów w neutralnym językowo systemie Hamburg Notation System (HamNoSys). Po pierwsze, uprościliśmy trudną do zrozumienia strukturę HamNoSys bez znaczącej utraty znaczenia glosariusza poprzez wprowadzenie multietykiet numerycznych. Po drugie, do rozpoznania pojedynczych pojęć wykorzystaliśmy punkty orientacyjne oraz wybrane cechy na poziomie obrazu. Oddzielnie analizowaliśmy możliwości położenia ręki dominującej, jej pozycję i kształt oraz ogólną symetrię ruchu, co pozwoliło nam dogłębnie zbadać przydatność HamNoSys do rozpoznawania pojęć. |
13 lutego 2023 |
Artur Nowakowski, Gabriela Pałka, Kamil Guttmann, Mikołaj Pokrywka (Uniwersytet Adama Mickiewicza) |
UAM na WMT 2022: nowoczesne metody tworzenia systemów tłumaczenia maszynowego |
Większość systemów tłumaczenia automatycznego opiera się na trenowaniu modeli na poziomie zdań. Jednak współcześnie coraz częściej oczekuje się, że system tłumaczenia będzie uwzględniał kontekst całego dokumentu. W odpowiedzi na te oczekiwania, organizatorzy konferencji WMT 2022 stworzyli zadanie General MT Task, polegające na tłumaczeniu dokumentów z różnych dziedzin: newsów, treści z portali społecznościowych, konwersacji i tekstów z dziedziny e-commerce. |
Podczas prezentacji omówione zostanie zadanie, z jakim przyszło się zmierzyć podczas konferencji WMT 2022 w kierunkach tłumaczenia czeski-ukraiński oraz ukraiński-czeski. Przedstawione zostaną napotkane problemy, takie jak poprawne tłumaczenie jednostek nazwanych, uwzględnienie kontekstu dokumentu oraz poprawne uwzględnienie rzadko występujących znaków, takich jak emoji. Pokazane zostaną także metody wspomagające wybór najlepszego tłumaczenia spośród tłumaczeń wygenerowanych przez system, oparte na modelach automatycznej oceny jakości tłumaczenia. Celem prezentacji jest przede wszystkim zaprezentowanie składowych systemu, które pomogły osiągnąć najlepszy wynik spośród wszystkich uczestników konkursu. |
27 lutego 2023 |
Sebastian Vincent (University of Sheffield) |
Wydajne użycie kontekstu pochodzącego z wewnątrz lub spoza tłumaczonego tekstu pozostaje jedną z krytycznych luk pomiędzy tłumaczeniem profesjonalnym a maszynowym. Dotychczasowo, badania koncentrowały się głównie na pojedynczych, dobrze zdefiniowanych typach kontekstu, takich jak poprzednie zdania, lub dyskretne zmienne (np. płeć mówcy). Niniejsza praca przedstawia MTCue, framework neuronowego tłumaczenia maszynowego, który, przepisując dyskretny kontekst na tekst, uczy się abstrakcyjnej reprezentacji kontekstu pozwalającej na transfer pomiędzy różnymi ustawieniami danych oraz wykorzystanie podobnych sygnałów, gdy danych jest niewiele. Eksperymenty w sześciu parach językowych w domenie dialogu z dostępem do metadanych i poprzednich zdań wykazują wyraźny wzrost jakości tłumaczenia w stosunku do bezkontekstowego systemu. Dalsza analiza pokazuje, że enkoder kontekstu w MTCue uczy się reprezentacji zorganizowanej w odniesieniu do specyficznych atrybutów, takich jak formalność, efektywnie umożliwiając ich kontrolę bez trenowania. Wstępne szkolenie na metadanych i poprzednich zdaniach pozwala również MTCue uczyć się nowych kodów kontrolnych z mniejszą ilością danych. |
27 marca 2023 |
Julian Zubek, Joanna Rączaszek-Leonardi (Wydział Psychologii Uniwersytetu Warszawskiego) |
|
Rozwój nauk informatycznych przyzwyczaił nas do rozumienia symboli jako dyskretnych elementów abstrakcyjnej struktury, na których wykonywane są formalne operacje. W ujęciu semiotycznym symbole są szczególnym rodzajem znaków, które funkcjonują w ramach systemu powiązań i których interpretacja wymaga znajomości reguł rządzących tym systemem. Patrząc z perspektywy procesów ewolucji języka i rozwoju językowego, wyłanianie się struktur symbolicznych oraz zdolności do posługiwania się nimi wiąże się z szeregiem podstawowych pytań. W naszym programie badawczym koncentrujemy się na tym, jak abstrakcyjne symbole kształtują się równolegle do zdolności wykonywania fizycznych akcji w świecie i w jaki sposób symbole mogą stać się regulatorami tych akcji. W celu ilustracji tych zależności, korzystamy z symulacji komputerowych, w których agenci koordynują swoje działania przy pomocy protokołu komunikacyjnego wyłaniającego się oddolnie w schemacie uczenia ze wzmocnieniem. Wskazujemy na założenia stojące u podstaw tego typu modeli i na istniejące trudności w modelowaniu wielorakich źródeł presji kształtujących strukturę języka. Prezentujemy wyniki własnych symulacji, ilustrujących a) wpływ historii interakcji na strukturę języka, b) związek dostępności kontekstu i wieloznaczności w komunikacji, c) rolę dialogu w koordynacji i strukturyzacji akcji w dynamicznym środowisku. Uzyskane wyniki pokazują złożoną naturę symboli, która wymaga komplementarności opisu na poziomie formalnej struktury i na poziomie dynamiki układu. Złożoność ta powinna znaleźć również odzwierciedlenie w projektowaniu i ewaluacji algorytmów sztucznej inteligencji przeznaczonych do interakcji z ludźmi. |
24 kwietnia 2023 |
Mateusz Krubiński (Uniwersytet Karola w Pradze) |
|
Automatyczne streszczanie to jeden z klasycznych problemów zarówno w dziedzinie przetwarzania języka naturalnego (streszczanie tekstu), jak i w dziedzinie wizji komputerowej (streszczanie wideo). Streszczanie danych multimodalnych to zagadnienie łączące te dwie dziedziny, które swój wynik opiera na różnych typach informacji. Motywacji do tego typu badań nie trzeba szukać daleko – wystarczy odwiedzić jakąkolwiek stronę internetową z bieżącymi wiadomościami. Przekonamy się, że najpopularniejszy obecnie sposób prezentowania wydarzeń oprócz tradycyjnego tekstu zawiera także galerię zdjęć lub krótki, przyciągający uwagę film. Aby zachęcić czytelnika do zapoznania się z treścią artykułu, tego typu materiały są zazwyczaj prezentowane jako jednozdaniowy tekst w połączeniu z wizualną miniaturą (tzw. thumbnail). |
W moim referacie przedstawię krótką historię zagadnienia streszczania danych multimodalnych, koncentrując się na wariancie, w którym kluczową rolę odgrywa tekst. Zaprezentuję, jak na przestrzeni lat ewoluowały metody (i zbiory danych) oraz zasygnalizuję obszary, które w mojej ocenie stanowią największe wyzwanie. W drugiej części referatu opowiem o swoich własnych badaniach, największy nacisk kładąc na tzw. pre-training i metody ewaluacji. Podzielę się także doświadczeniami zdobytymi przy tworzeniu zbioru danych w oparciu o automatycznie przetworzoną treść stron internetowych, pokazującymi, że czasami warto zrobić krok w tył. |
25 maja 2023 |
Agata Savary (Université Paris-Saclay) |
|
Jednostki wielowyrazowe to połączenia słów posiadające specyficzne własności semantyczne takie jak niekompozycyjność znaczeniowa, dekompozycyjność, przezroczystość i figuracja. Wieloletnie debaty językoznawcze sugerują, iż te własności warunkują warianty morfoskładniowe, w których dana jednostka może występować. W moim referacie rozszerzę te rozważania do koreferencji rzeczownikowej. Punktem wyjścia będzie hipoteza, według której wewnętrzne człony jednostki wielowyrazowej powinny pojawiać się w nietrywialnych łańcuchach koreferencyjnych z niskim prawdopodobieństwem. Kilka poprzednich prac wskazywało już na sporadyczność zjawisk koreferencyjnych w kontekście jednostek wielowyrazowych, lecz obserwacje te nie były poparte danymi liczbowymi. Tematem referatu będzie próba wypełnienia tej luki poprzez studium korpusowe dotyczące czasownikowych jednostek wielowyrazowych i koreferencji rzeczownikowej w języku francuskim. Wyniki w wysokim stopniu potwierdzają hipotezę, ale również ujawniają pewne tendencje związane z typami jednostek wielowyrazowych i tekstów, w szczególności z transkrypcją mowy. |
Zapraszamy także do zapoznania się z archiwum seminariów z lat 2000–2015 oraz listą wystąpień z lat 2015–2022. |



