Size: 13897
Comment:
|
Size: 14849
Comment:
|
Deletions are marked like this. | Additions are marked like this. |
Line 18: | Line 18: |
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Agnieszka Chmiel''' (Uniwersytet Adama Mickiewicza), '''Danijel Korzinek''' (Polsko-Japońska Akademia Technik Komputerowych)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://teams.microsoft.com/l/meetup-join/19%3a2a54bf781d2a466da1e9adec3c87e6c2%40thread.tacv2/1605013614022?context=%7b%22Tid%22%3a%220425f1d9-16b2-41e3-a01a-0c02a63d13d6%22%2c%22Oid%22%3a%22f5f2c910-5438-48a7-b9dd-683a5c3daf1e%22%7d|{{attachment:seminarium-archiwum/teams.png}}]] '''PINC (Polish Interpreting Corpus): jak korpus może pomóc w badaniach nad procesem tłumaczenia symultanicznego'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| |
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Agnieszka Chmiel''' (Uniwersytet im. Adama Mickiewicza w Poznaniu), '''Danijel Korzinek''' (Polsko-Japońska Akademia Technik Komputerowych)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''[[attachment:seminarium-archiwum/2020-11-16.pdf|PINC (Polish Interpreting Corpus): jak korpus może pomóc w badaniach nad procesem tłumaczenia symultanicznego]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| |
Line 21: | Line 21: |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''30 listopada 2020''' ('''UWAGA''' – seminarium odbędzie się wyjątkowo o 13:00!)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">Sesja '''Findings of ACL: EMNLP 2020'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Łukasz Borchmann''' et al. (Applica.ai)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''Contract Discovery: Dataset and a Few-Shot Semantic Retrieval Challenge with Competitive Baselines'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:10px">Opis wystąpienia będzie dostępny już wkrótce.|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Piotr Szymański''' (Politechnika Wrocławska), '''Piotr Żelasko''' (Johns Hopkins University)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''WER we are and WER we think we are'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Opis wystąpienia będzie dostępny już wkrótce.|| |
Seminarium „Przetwarzanie języka naturalnego” 2020-21
Seminarium Zespołu Inżynierii Lingwistycznej w Instytucie Podstaw Informatyki Polskiej Akademii Nauk odbywa się nieregularnie, w poniedziałki, zwykle o godz. 10:15 (obecnie online – prosimy o korzystanie z linku przy tytule wystąpienia) i ma charakter otwarty. Poszczególne referaty ogłaszane są na Polskiej Liście Językoznawczej oraz na stronie Lingwistyka komputerowa na Facebooku. Wszystkie nagrania dostępne są na kanale YouTube. |
5 października 2020 |
Piotr Rybak (ML Research at Allegro.pl) |
W ciągu ostatnich lat seria modeli opartych o architekturę BERT istotnie poprawiła skuteczność modeli dla wielu zadań przetwarzania języka naturalnego. Podczas wystąpienia pokrótce opowiemy, jak działa BERT oraz kilka jego wariantów. Następnie skupimy się na modelach dostępnych dla języka polskiego oraz ich skuteczności w rankingu KLEJ. Na koniec opowiemy o nowym modelu opracowanym wspólnie przez IPI PAN i Allegro. |
2 listopada 2020 |
Inez Okulska (NASK) |
|
Wprowadzenie wektorowej reprezentacji słów, zawierającej wagi wyrazów kontekstowych i centralnych, obliczone w wyniku mapowania gigantycznych korpusów danego języka, a nie kodujące jedynie ręcznie wybrane, lingwistyczne cechy słów, okazały się dla badań NLP przełomowe. Po pierwszym zachwycie wprawdzie nastąpił okres rewizji i poszukiwania ulepszeń - przede wszystkim poszerzania kontekstu, obsługi homonimów itp. Niemniej jednak klasyczne zanurzenia wciąż znajdują zastosowanie w wielu zadaniach - choćby klasyfikacji treści - i w wielu przypadkach wyniki, które dają, nadal są wystarczająco dobre. Co właściwe kodują? Czy zawierają elementy redundantne? Czy informacje w nich zawarte poddają się przekształceniom lub redukcji w sposób wciąż zachowujący oryginalny „sens”. Czym jest tu sens? Jak bardzo można wektory te deformować i jak to się ma do metod szyfrowania? W swoim wystąpieniu przedstawię rozważania na ten temat, ilustrowane wynikami kolejnych „tortur” wektorów (word2vec i glove) i ich skuteczności w zadaniu klasyfikacji tekstów, których treść musi pozostać zamaskowana dla ludzkiego oka. |
16 listopada 2020 |
Agnieszka Chmiel (Uniwersytet im. Adama Mickiewicza w Poznaniu), Danijel Korzinek (Polsko-Japońska Akademia Technik Komputerowych) |
PINC to pierwszy polski korpus tłumaczenia symultanicznego oparty na polsko-angielskich i angielsko-polskich tłumaczeniach w Parlamencie Europejskim. Wykorzystanie autentycznych danych tłumaczeniowych umożliwia poszukiwanie odpowiedzi na wiele pytań dotyczących procesu tłumaczenia symultanicznego. Dzięki analizie opóźnienia czasowego tłumaczenia w stosunku do oryginału można zbadać mechanizmy aktywacji i inhibicji w przetwarzaniu leksykalnym tłumacza. Dane na temat płynności wypowiedzi i pauz umożliwiają wyciąganie wniosków o obciążeniu kognitywnym. W prezentacji przedstawimy sposób przetwarzania danych w korpusie (m.in. identyfikację głosów tłumaczy) i główne wyzwania, takie jak analiza języka, analiza zależnościowa i wiązanie dwujęzyczne. Pokażemy, w jaki sposób zastosowanie poszczególnych danych może pomóc w zrozumieniu tego, na czym polega proces tłumaczenia, a nawet tego, co dzieje się w umyśle tłumacza. |
30 listopada 2020 (UWAGA – seminarium odbędzie się wyjątkowo o 13:00!) |
Sesja Findings of ACL: EMNLP 2020 |
Łukasz Borchmann et al. (Applica.ai) |
Contract Discovery: Dataset and a Few-Shot Semantic Retrieval Challenge with Competitive Baselines |
Opis wystąpienia będzie dostępny już wkrótce. |
Piotr Szymański (Politechnika Wrocławska), Piotr Żelasko (Johns Hopkins University) |
WER we are and WER we think we are |
Opis wystąpienia będzie dostępny już wkrótce. |
17 grudnia 2020 (UWAGA – seminarium odbędzie się wyjątkowo w czwartek!) |
Piotr Przybyła (Instytut Podstaw Informatyki PAN) |
Upraszczanie tekstu przez podmiany wielowyrazowe |
Wystąpienie będzie poświęcone zadaniu upraszczania tekstu przez podmiany wielowyrazowe, w którym zdanie w języku naturalnym modyfikuje się dla zwiększenia zrozumiałości poprzez zastępowanie jego fragmentów prostszymi odpowiednikami. W odróżnieniu od wcześniejszych prac, w tym sformułowaniu zarówno fragment zastępujący i zastępowany mogą mieć dowolną długość. Dla analizy tego zadania zbudowaliśmy korpus (MWLS1), składający się z 1462 zdań z 7059 podmianami zgromadzonymi poprzez crowdsourcing. Przedstawię także algorytm w sposób automatyczny generujący takie podmiany (Plainifier), wykorzystując specjalnie przygotowany model językowy, oraz rezultaty ewaluacji jego jakości. Wyniki badań zostały opublikowane w pracy Multi-word Lexical Simplification na konferencji COLING 2020. |
Zapraszamy także do zapoznania się z archiwum seminariów z lat 2000–15 oraz listą wystąpień z lat 2015–20. |