Locked History Actions

Diff for "seminarium"

Differences between revisions 496 and 503 (spanning 7 versions)
Revision 496 as of 2020-09-14 09:44:11
Size: 8444
Comment:
Revision 503 as of 2020-10-09 16:13:51
Size: 9883
Comment:
Deletions are marked like this. Additions are marked like this.
Line 5: Line 5:
||<style="border:0;padding-bottom:10px">Seminarium [[http://nlp.ipipan.waw.pl/|Zespołu Inżynierii Lingwistycznej]] w&nbsp;[[http://www.ipipan.waw.pl/|Instytucie Podstaw Informatyki]] [[http://www.pan.pl/|Polskiej Akademii Nauk]] odbywa się nieregularnie, w&nbsp;poniedziałki, zwykle o&nbsp;godz.&nbsp;10:15 w&nbsp;siedzibie IPI&nbsp;PAN (ul.&nbsp;Jana Kazimierza&nbsp;5, Warszawa) i&nbsp;ma charakter otwarty. Poszczególne referaty ogłaszane są na [[http://lists.nlp.ipipan.waw.pl/mailman/listinfo/ling|Polskiej Liście Językoznawczej]] oraz na stronie [[https://www.facebook.com/lingwistyka.komputerowa|Lingwistyka komputerowa]] na Facebooku. Wszystkie nagrania dostępne są na [[https://www.youtube.com/channel/UC5PEPpMqjAr7Pgdvq0wRn0w|kanale YouTube]].||<style="border:0;padding-left:30px;">[[seminar|{{attachment:seminarium-archiwum/en.png}}]]|| ||<style="border:0;padding-bottom:10px">Seminarium [[http://nlp.ipipan.waw.pl/|Zespołu Inżynierii Lingwistycznej]] w&nbsp;[[http://www.ipipan.waw.pl/|Instytucie Podstaw Informatyki]] [[http://www.pan.pl/|Polskiej Akademii Nauk]] odbywa się nieregularnie, w&nbsp;poniedziałki, zwykle o&nbsp;godz.&nbsp;10:15 w&nbsp;siedzibie IPI&nbsp;PAN (ul.&nbsp;Jana Kazimierza&nbsp;5, Warszawa) i&nbsp;ma charakter otwarty. Poszczególne referaty ogłaszane są na [[http://lists.nlp.ipipan.waw.pl/mailman/listinfo/ling|Polskiej Liście Językoznawczej]] oraz na stronie [[https://www.facebook.com/lingwistyka.komputerowa|Lingwistyka komputerowa]] na Facebooku. Wszystkie nagrania dostępne są na [[https://www.youtube.com/ipipan|kanale YouTube]].||<style="border:0;padding-left:30px;">[[seminar|{{attachment:seminarium-archiwum/en.png}}]]||
Line 7: Line 7:
||<style="border:0;padding-bottom:10px">'''UWAGA''': ze względu na zakaz wstępu do IPI PAN dla osób niezatrudnionych w Instytucie, w seminarium mogą brać udział tylko pracownicy IPI PAN i prelegenci (także zewnętrzni). Dla pozostałych uczestników seminarium będzie transmitowane na [[https://www.youtube.com/channel/UC5PEPpMqjAr7Pgdvq0wRn0w|kanale YouTube]].|| ||<style="border:0;padding-bottom:10px">'''UWAGA''': ze względu na zakaz wstępu do IPI PAN dla osób niezatrudnionych w Instytucie, w seminarium mogą brać udział tylko pracownicy IPI PAN i prelegenci (także zewnętrzni). Dla pozostałych uczestników seminarium będzie transmitowane na [[https://www.youtube.com/ipipan|kanale YouTube]].||
Line 10: Line 10:
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Piotr Rybak''', '''Robert Mroczkowski''', '''Janusz Tracz''' (ML Research at Allegro.pl), '''Ireneusz Gawlik''' (ML Research at Allegro.pl i Akademia Górniczo-Hutnicza)||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''Przegląd modeli opartych o architekturę BERT dla języka polskiego''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Piotr Rybak''' (ML Research at Allegro.pl)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=LkR-i2Z1RwM|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2020-10-05.pdf|Przegląd modeli BERT dla języka polskiego]]''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
Line 17: Line 17:
||<style="border:0;padding-left:30px;padding-bottom:15px">Streszczenie udostępnimy wkrótce.|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Wprowadzenie wektorowej reprezentacji słów, zawierającej wagi wyrazów kontekstowych i centralnych, obliczone w wyniku mapowania gigantycznych korpusów danego języka, a nie kodujące jedynie ręcznie wybrane, lingwistyczne cechy słów, okazały się dla badań NLP przełomowe. Po pierwszym zachwycie wprawdzie nastąpił okres rewizji i poszukiwania ulepszeń - przede wszystkim poszerzania kontekstu, obsługi homonimów itp. Niemniej jednak klasyczne zanurzenia wciąż znajdują zastosowanie w wielu zadaniach - choćby klasyfikacji treści - i w wielu przypadkach wyniki, które dają, nadal są wystarczająco dobre. Co właściwe kodują? Czy zawierają elementy redundantne? Czy informacje w nich zawarte poddają się przekształceniom lub redukcji w sposób wciąż zachowujący oryginalny „sens”. Czym jest tu sens? Jak bardzo można wektory te deformować i jak to się ma do metod szyfrowania?
W swoim wystąpieniu przedstawię rozważania na ten temat, ilustrowane wynikami kolejnych „tortur” wektorów (word2vec i glove) i ich skuteczności w zadaniu klasyfikacji tekstów, których treść musi pozostać zamaskowana dla ludzkiego oka.||
Line 28: Line 29:

Proponowane daty seminarów 2020-21:
2 listopada
16 listopada – Norbert Ryciak o Yoshu?
30 listopada – Adam Jatowt?
14 grudnia – Piotr Przybyła na bazie tekstu na COLING
4 stycznia (ew. 11 stycznia, bo ferie są od 18 do 30 stycznia)
1 lutego
15 lutego
1 marca
15 marca
29 marca
12 kwietnia
26 kwietnia
10 maja
24 maja
7 czerwca
21 czerwca

Seminarium „Przetwarzanie języka naturalnego” 2020-21

Seminarium Zespołu Inżynierii LingwistycznejInstytucie Podstaw Informatyki Polskiej Akademii Nauk odbywa się nieregularnie, w poniedziałki, zwykle o godz. 10:15 w siedzibie IPI PAN (ul. Jana Kazimierza 5, Warszawa) i ma charakter otwarty. Poszczególne referaty ogłaszane są na Polskiej Liście Językoznawczej oraz na stronie Lingwistyka komputerowa na Facebooku. Wszystkie nagrania dostępne są na kanale YouTube.

seminar

UWAGA: ze względu na zakaz wstępu do IPI PAN dla osób niezatrudnionych w Instytucie, w seminarium mogą brać udział tylko pracownicy IPI PAN i prelegenci (także zewnętrzni). Dla pozostałych uczestników seminarium będzie transmitowane na kanale YouTube.

5 października 2020

Piotr Rybak (ML Research at Allegro.pl)

https://www.youtube.com/watch?v=LkR-i2Z1RwM Przegląd modeli BERT dla języka polskiego  Wystąpienie w języku polskim.

W ciągu ostatnich lat seria modeli opartych o architekturę BERT istotnie poprawiła skuteczność modeli dla wielu zadań przetwarzania języka naturalnego. Podczas wystąpienia pokrótce opowiemy, jak działa BERT oraz kilka jego wariantów. Następnie skupimy się na modelach dostępnych dla języka polskiego oraz ich skuteczności w rankingu KLEJ. Na koniec opowiemy o nowym modelu opracowanym wspólnie przez IPI PAN i Allegro.

19 października 2020

Inez Okulska (NASK)

Ile treści jest w semantyce, czyli jak bardzo można przekształcać wektory typu word2vec, by nie stracić jakości uczenia  Wystąpienie w języku polskim.

||<style="border:0;padding-left:30px;padding-bottom:15px">Wprowadzenie wektorowej reprezentacji słów, zawierającej wagi wyrazów kontekstowych i centralnych, obliczone w wyniku mapowania gigantycznych korpusów danego języka, a nie kodujące jedynie ręcznie wybrane, lingwistyczne cechy słów, okazały się dla badań NLP przełomowe. Po pierwszym zachwycie wprawdzie nastąpił okres rewizji i poszukiwania ulepszeń - przede wszystkim poszerzania kontekstu, obsługi homonimów itp. Niemniej jednak klasyczne zanurzenia wciąż znajdują zastosowanie w wielu zadaniach - choćby klasyfikacji treści - i w wielu przypadkach wyniki, które dają, nadal są wystarczająco dobre. Co właściwe kodują? Czy zawierają elementy redundantne? Czy informacje w nich zawarte poddają się przekształceniom lub redukcji w sposób wciąż zachowujący oryginalny „sens”. Czym jest tu sens? Jak bardzo można wektory te deformować i jak to się ma do metod szyfrowania? W swoim wystąpieniu przedstawię rozważania na ten temat, ilustrowane wynikami kolejnych „tortur” wektorów (word2vec i glove) i ich skuteczności w zadaniu klasyfikacji tekstów, których treść musi pozostać zamaskowana dla ludzkiego oka.||

Zapraszamy także do zapoznania się z archiwum seminariów z lat 2000–15 oraz listą wystąpień z lat 2015–20.