Size: 10690
Comment:
|
Size: 11525
Comment:
|
Deletions are marked like this. | Additions are marked like this. |
Line 22: | Line 22: |
||<style="border:0;padding-left:30px;padding-bottom:15px">Streszczenie wystąpienia pojawi się już wkrótce.|| | ||<style="border:0;padding-left:30px;padding-bottom:15px">Wystąpienie będzie poświęcone zadaniu upraszczania tekstu przez podmiany wielowyrazowe, w którym zdanie w języku naturalnym modyfikuje się dla zwiększenia zrozumiałości poprzez zastępowanie jego fragmentów prostszymi odpowiednikami. W odróżnieniu od wcześniejszych prac, w tym sformułowaniu zarówno fragment zastępujący i zastępowany mogą mieć dowolną długość. Dla analizy tego zadania zbudowaliśmy korpus (MWLS1), składający się z 1462 zdań z 7059 podmianami zgromadzonymi poprzez crowdsourcing. Przedstawię także algorytm w sposób automatyczny generujący takie podmiany (Plainifier), wykorzystując specjalnie przygotowany model językowy, oraz rezultaty ewaluacji jego jakości. Wyniki badań zostały opublikowane w pracy [[https://coling2020.org/pages/accepted_papers_main_conference|Multi-word Lexical Simplification]] na konferencji COLING 2020.|| |
Seminarium „Przetwarzanie języka naturalnego” 2020-21
Seminarium Zespołu Inżynierii Lingwistycznej w Instytucie Podstaw Informatyki Polskiej Akademii Nauk odbywa się nieregularnie, w poniedziałki, zwykle o godz. 10:15 w siedzibie IPI PAN (ul. Jana Kazimierza 5, Warszawa) i ma charakter otwarty. Poszczególne referaty ogłaszane są na Polskiej Liście Językoznawczej oraz na stronie Lingwistyka komputerowa na Facebooku. Wszystkie nagrania dostępne są na kanale YouTube. |
UWAGA: ze względu na zakaz wstępu do IPI PAN dla osób niezatrudnionych w Instytucie, w stacjonarnej części seminarium mogą brać udział tylko pracownicy IPI PAN i prelegenci (także zewnętrzni). Dla pozostałych uczestników seminarium będzie transmitowane – prosimy o korzystanie z linku przy tytule wystąpienia. |
5 października 2020 |
Piotr Rybak (ML Research at Allegro.pl) |
W ciągu ostatnich lat seria modeli opartych o architekturę BERT istotnie poprawiła skuteczność modeli dla wielu zadań przetwarzania języka naturalnego. Podczas wystąpienia pokrótce opowiemy, jak działa BERT oraz kilka jego wariantów. Następnie skupimy się na modelach dostępnych dla języka polskiego oraz ich skuteczności w rankingu KLEJ. Na koniec opowiemy o nowym modelu opracowanym wspólnie przez IPI PAN i Allegro. |
14 grudnia 2020 |
Piotr Przybyła (Instytut Podstaw Informatyki PAN) |
Upraszczanie tekstu przez podmiany wielowyrazowe |
Wystąpienie będzie poświęcone zadaniu upraszczania tekstu przez podmiany wielowyrazowe, w którym zdanie w języku naturalnym modyfikuje się dla zwiększenia zrozumiałości poprzez zastępowanie jego fragmentów prostszymi odpowiednikami. W odróżnieniu od wcześniejszych prac, w tym sformułowaniu zarówno fragment zastępujący i zastępowany mogą mieć dowolną długość. Dla analizy tego zadania zbudowaliśmy korpus (MWLS1), składający się z 1462 zdań z 7059 podmianami zgromadzonymi poprzez crowdsourcing. Przedstawię także algorytm w sposób automatyczny generujący takie podmiany (Plainifier), wykorzystując specjalnie przygotowany model językowy, oraz rezultaty ewaluacji jego jakości. Wyniki badań zostały opublikowane w pracy Multi-word Lexical Simplification na konferencji COLING 2020. |
Zapraszamy także do zapoznania się z archiwum seminariów z lat 2000–15 oraz listą wystąpień z lat 2015–20. |