Locked History Actions

Diff for "seminarium"

Differences between revisions 557 and 560 (spanning 3 versions)
Revision 557 as of 2021-01-05 17:06:39
Size: 18109
Comment:
Revision 560 as of 2021-01-07 12:13:36
Size: 18719
Comment:
Deletions are marked like this. Additions are marked like this.
Line 5: Line 5:
||<style="border:0;padding-bottom:10px">Seminarium [[http://nlp.ipipan.waw.pl/|Zespołu Inżynierii Lingwistycznej]] w&nbsp;[[http://www.ipipan.waw.pl/|Instytucie Podstaw Informatyki]] [[http://www.pan.pl/|Polskiej Akademii Nauk]] odbywa się średnio co 2 tygodnie, zwykle w&nbsp;poniedziałki o&nbsp;godz.&nbsp;10:15 (obecnie online – prosimy o korzystanie z linku przy tytule wystąpienia) i&nbsp;ma charakter otwarty. Poszczególne referaty ogłaszane są na [[http://lists.nlp.ipipan.waw.pl/mailman/listinfo/ling|Polskiej Liście Językoznawczej]] oraz na stronie [[https://www.facebook.com/lingwistyka.komputerowa|Lingwistyka komputerowa]] na Facebooku. Nagrania wystąpień dostępne są na [[https://www.youtube.com/ipipan|kanale YouTube]].||<style="border:0;padding-left:30px;">[[seminar|{{attachment:seminarium-archiwum/en.png}}]]||f ||<style="border:0;padding-bottom:10px">Seminarium [[http://nlp.ipipan.waw.pl/|Zespołu Inżynierii Lingwistycznej]] w&nbsp;[[http://www.ipipan.waw.pl/|Instytucie Podstaw Informatyki]] [[http://www.pan.pl/|Polskiej Akademii Nauk]] odbywa się średnio co 2 tygodnie, zwykle w&nbsp;poniedziałki o&nbsp;godz.&nbsp;10:15 (obecnie online – prosimy o korzystanie z linku przy tytule wystąpienia) i&nbsp;ma charakter otwarty. Poszczególne referaty ogłaszane są na [[http://lists.nlp.ipipan.waw.pl/mailman/listinfo/ling|Polskiej Liście Językoznawczej]] oraz na stronie [[https://www.facebook.com/lingwistyka.komputerowa|Lingwistyka komputerowa]] na Facebooku. Nagrania wystąpień dostępne są na [[https://www.youtube.com/ipipan|kanale YouTube]].||<style="border:0;padding-left:30px;">[[seminar|{{attachment:seminarium-archiwum/en.png}}]]||
Line 39: Line 39:
||<style="border:0;padding-left:30px;padding-bottom:15px">Opis wystąpienia zostanie udostępniony wkrótce.|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Generowanie opisów obrazów jest jednym z intensywnie rozwijanych obecnie obszarów zastosować głębokiego uczenia. W prezentacji opowiemy o projekcie skupionym na problemie rozszerzonym: generowaniu opisu na podstawie obrazu oraz zestawu tagów przypisanych do obiektu. Przedmiotem rozważań są produkty odzieżowe, a celem biznesowym jest stworzenie algorytmu opisującego produkty w taki sposób, aby opis nie tylko był trafny, ale również zawierał informacje zawarte w tagach (m. in. rodzaj produktu, kolor, materiał). W wystąpieniu przedstawimy zastosowane architektury sieci neuronowych oraz praktyczne aspekty tworzonego rozwiązania.||
Line 43: Line 43:
||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://teams.microsoft.com/l/meetup-join/19%3a2a54bf781d2a466da1e9adec3c87e6c2%40thread.tacv2/1608302845411?context=%7b%22Tid%22%3a%220425f1d9-16b2-41e3-a01a-0c02a63d13d6%22%2c%22Oid%22%3a%22f5f2c910-5438-48a7-b9dd-683a5c3daf1e%22%7d|{{attachment:seminarium-archiwum/teams.png}}]] '''Tytuł wystąpienia zostanie podany wkrótce''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://teams.microsoft.com/l/meetup-join/19%3ameeting_YTM3ZWZlYjUtMzJkNC00NGRkLWE3ZWItMWEyYmJhOGFjMmYz%40thread.v2/0?context=%7b%22Tid%22%3a%220425f1d9-16b2-41e3-a01a-0c02a63d13d6%22%2c%22Oid%22%3a%22f5f2c910-5438-48a7-b9dd-683a5c3daf1e%22%7d|{{attachment:seminarium-archiwum/teams.png}}]] '''Tytuł wystąpienia zostanie podany wkrótce''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||

Seminarium „Przetwarzanie języka naturalnego” 2020-21

Seminarium Zespołu Inżynierii LingwistycznejInstytucie Podstaw Informatyki Polskiej Akademii Nauk odbywa się średnio co 2 tygodnie, zwykle w poniedziałki o godz. 10:15 (obecnie online – prosimy o korzystanie z linku przy tytule wystąpienia) i ma charakter otwarty. Poszczególne referaty ogłaszane są na Polskiej Liście Językoznawczej oraz na stronie Lingwistyka komputerowa na Facebooku. Nagrania wystąpień dostępne są na kanale YouTube.

seminar

5 października 2020

Piotr Rybak (ML Research at Allegro.pl)

https://www.youtube.com/watch?v=B7Y9fK2CDWw Przegląd modeli BERT dla języka polskiego  Wystąpienie w języku polskim.

W ciągu ostatnich lat seria modeli opartych o architekturę BERT istotnie poprawiła skuteczność modeli dla wielu zadań przetwarzania języka naturalnego. Podczas wystąpienia pokrótce opowiemy, jak działa BERT oraz kilka jego wariantów. Następnie skupimy się na modelach dostępnych dla języka polskiego oraz ich skuteczności w rankingu KLEJ. Na koniec opowiemy o nowym modelu opracowanym wspólnie przez IPI PAN i Allegro.

2 listopada 2020

Inez Okulska (NASK)

https://www.youtube.com/watch?v=LkR-i2Z1RwM Ile treści jest w semantyce, czyli jak bardzo można przekształcać wektory typu word2vec, by nie stracić jakości uczenia  Wystąpienie w języku polskim.

Wprowadzenie wektorowej reprezentacji słów, zawierającej wagi wyrazów kontekstowych i centralnych, obliczone w wyniku mapowania gigantycznych korpusów danego języka, a nie kodujące jedynie ręcznie wybrane, lingwistyczne cechy słów, okazały się dla badań NLP przełomowe. Po pierwszym zachwycie wprawdzie nastąpił okres rewizji i poszukiwania ulepszeń - przede wszystkim poszerzania kontekstu, obsługi homonimów itp. Niemniej jednak klasyczne zanurzenia wciąż znajdują zastosowanie w wielu zadaniach - choćby klasyfikacji treści - i w wielu przypadkach wyniki, które dają, nadal są wystarczająco dobre. Co właściwe kodują? Czy zawierają elementy redundantne? Czy informacje w nich zawarte poddają się przekształceniom lub redukcji w sposób wciąż zachowujący oryginalny „sens”. Czym jest tu sens? Jak bardzo można wektory te deformować i jak to się ma do metod szyfrowania? W swoim wystąpieniu przedstawię rozważania na ten temat, ilustrowane wynikami kolejnych „tortur” wektorów (word2vec i glove) i ich skuteczności w zadaniu klasyfikacji tekstów, których treść musi pozostać zamaskowana dla ludzkiego oka.

16 listopada 2020

Agnieszka Chmiel (Uniwersytet im. Adama Mickiewicza w Poznaniu), Danijel Korzinek (Polsko-Japońska Akademia Technik Komputerowych)

https://www.youtube.com/watch?v=MxbgQL316DQ PINC (Polish Interpreting Corpus): jak korpus może pomóc w badaniach nad procesem tłumaczenia symultanicznego  Wystąpienie w języku polskim.

PINC to pierwszy polski korpus tłumaczenia symultanicznego oparty na polsko-angielskich i angielsko-polskich tłumaczeniach w Parlamencie Europejskim. Wykorzystanie autentycznych danych tłumaczeniowych umożliwia poszukiwanie odpowiedzi na wiele pytań dotyczących procesu tłumaczenia symultanicznego. Dzięki analizie opóźnienia czasowego tłumaczenia w stosunku do oryginału można zbadać mechanizmy aktywacji i inhibicji w przetwarzaniu leksykalnym tłumacza. Dane na temat płynności wypowiedzi i pauz umożliwiają wyciąganie wniosków o obciążeniu kognitywnym. W prezentacji przedstawimy sposób przetwarzania danych w korpusie (m.in. identyfikację głosów tłumaczy) i główne wyzwania, takie jak analiza języka, analiza zależnościowa i wiązanie dwujęzyczne. Pokażemy, w jaki sposób zastosowanie poszczególnych danych może pomóc w zrozumieniu tego, na czym polega proces tłumaczenia, a nawet tego, co dzieje się w umyśle tłumacza.

30 listopada 2020

Findings of ACL: EMNLP 2020: sesja polska

Łukasz Borchmann et al. (Applica.ai)

https://www.youtube.com/watch?v=THe1URk40Nk Contract Discovery: Dataset and a Few-Shot Semantic Retrieval Challenge with Competitive Baselines (Wyszukiwanie fragmentu tekstu prawnego na podstawie kilku przykładów, czyli o zbiorze Contract Discovery oraz referencyjnych wynikach)  Wystąpienie w języku polskim. Slajdy po angielsku.

Problem Contract Discovery dotyczy ustalania czy w dokumencie znajduje się dana klauzula lub ekstrakcją określanego typu klauzul, na potrzeby dalszej analizy, takiej jak ocena ryzyka. Ponieważ nie istniał publicznie dostępny zbiór, pozwalający na ewaluacje rozwiązań identyfikujących fragmenty niestrukturyzowanego tekstu prawnego, podjęliśmy się jego stworzenia. W ramach zaproponowanego wyzwania, zakłada się, że poszukiwany fragment może być dowolnym podciągiem dokumentu, tzn. nie musi stanowić kompletnej jednostki tekstu prawnego, takiej jak paragraf, punkt czy podpunkt. Ponadto, od proponowanych systemów oczekuje się bazowania na kilku przykładach analogicznych klauzul z innych dokumentów. Przy tak postawionym problemie, pretrenowane, uniwersalne enkodery zdań okazują się zawodzić, w przeciwieństwie do rozwiązań bazujących na modelach języka.

Piotr Szymański (Politechnika Wrocławska), Piotr Żelasko (Johns Hopkins University)

https://www.youtube.com/watch?v=TXSDhCtTRpw WER we are and WER we think we are  Wystąpienie w języku polskim. Slajdy po angielsku.

Przetwarzanie mowy w języku naturalnym wymaga dostępności wysokiej jakości transkryptów. W niniejszym artykule wyrażamy nasz sceptycyzm wobec ostatnich doniesień o bardzo niskich wskaźnikach błędu słów (WER) osiąganych przez nowoczesne systemy automatycznego rozpoznawania mowy (ASR) na podstawie zbiorów danych porównawczych. Przedstawiamy kilka problemów związanych z popularnymi benchmarkami i porównujemy trzy nowoczesne komercyjne systemy ASR na wewnętrznym zbiorze rzeczywistych spontanicznych rozmów ludzkich i publicznym zbiorze HUB'05. Pokazujemy, że wyniki WER są znacznie wyższe niż najlepiej raportowane wyniki. Sformułowaliśmy zestaw wytycznych, które mogą pomóc w tworzeniu rzeczywistych, wielodomenowych zbiorów danych z wysokiej jakości adnotacjami do szkolenia i testowania solidnych systemów ASR.

17 grudnia 2020

Piotr Przybyła (Instytut Podstaw Informatyki PAN)

https://www.youtube.com/watch?v=newobY5cBJo Upraszczanie tekstu przez podmiany wielowyrazowe  Wystąpienie w języku polskim.

Wystąpienie będzie poświęcone zadaniu upraszczania tekstu przez podmiany wielowyrazowe, w którym zdanie w języku naturalnym modyfikuje się dla zwiększenia zrozumiałości poprzez zastępowanie jego fragmentów prostszymi odpowiednikami. W odróżnieniu od wcześniejszych prac, w tym sformułowaniu zarówno fragment zastępujący i zastępowany mogą mieć dowolną długość. Dla analizy tego zadania zbudowaliśmy korpus (MWLS1), składający się z 1462 zdań z 7059 podmianami zgromadzonymi poprzez crowdsourcing. Przedstawię także algorytm w sposób automatyczny generujący takie podmiany (Plainifier), wykorzystując specjalnie przygotowany model językowy, oraz rezultaty ewaluacji jego jakości. Wyniki badań zostały opublikowane w pracy Multi-word Lexical Simplification na konferencji COLING 2020.

18 stycznia 2021

Norbert Ryciak, Maciej Chrabąszcz (Instytut Podstaw Informatyki PAN)

https://teams.microsoft.com/l/meetup-join/19%3a2a54bf781d2a466da1e9adec3c87e6c2%40thread.tacv2/1608302845411?context=%7b%22Tid%22%3a%220425f1d9-16b2-41e3-a01a-0c02a63d13d6%22%2c%22Oid%22%3a%22f5f2c910-5438-48a7-b9dd-683a5c3daf1e%22%7d Generowanie opisów produktów odzieżowych na podstawie zdjęć i słów kluczowych  Wystąpienie w języku polskim.

Generowanie opisów obrazów jest jednym z intensywnie rozwijanych obecnie obszarów zastosować głębokiego uczenia. W prezentacji opowiemy o projekcie skupionym na problemie rozszerzonym: generowaniu opisu na podstawie obrazu oraz zestawu tagów przypisanych do obiektu. Przedmiotem rozważań są produkty odzieżowe, a celem biznesowym jest stworzenie algorytmu opisującego produkty w taki sposób, aby opis nie tylko był trafny, ale również zawierał informacje zawarte w tagach (m. in. rodzaj produktu, kolor, materiał). W wystąpieniu przedstawimy zastosowane architektury sieci neuronowych oraz praktyczne aspekty tworzonego rozwiązania.

1 lutego 2021

Adam Jatowt (Uniwersytet Leopolda i Franciszka w Innsbrucku)

https://teams.microsoft.com/l/meetup-join/19%3ameeting_YTM3ZWZlYjUtMzJkNC00NGRkLWE3ZWItMWEyYmJhOGFjMmYz%40thread.v2/0?context=%7b%22Tid%22%3a%220425f1d9-16b2-41e3-a01a-0c02a63d13d6%22%2c%22Oid%22%3a%22f5f2c910-5438-48a7-b9dd-683a5c3daf1e%22%7d Tytuł wystąpienia zostanie podany wkrótce  Wystąpienie w języku polskim.

Opis wystąpienia zostanie podany wkrótce.

Zapraszamy także do zapoznania się z archiwum seminariów z lat 2000–15 oraz listą wystąpień z lat 2015–20.