Locked History Actions

Diff for "seminarium"

Differences between revisions 2 and 513 (spanning 511 versions)
Revision 2 as of 2016-06-27 22:33:09
Size: 2232
Comment:
Revision 513 as of 2020-10-30 20:44:02
Size: 10175
Comment:
Deletions are marked like this. Additions are marked like this.
Line 3: Line 3:
= Seminarium „Przetwarzanie języka naturalnego” 2016–2017 = = Seminarium „Przetwarzanie języka naturalnego” 2020-21 =
Line 5: Line 5:
||<style="border:0;padding:0">Seminarium [[http://nlp.ipipan.waw.pl/|Zespołu Inżynierii Lingwistycznej]] w&nbsp;[[http://www.ipipan.waw.pl/|Instytucie Podstaw Informatyki]] [[http://www.pan.pl/|Polskiej Akademii Nauk]] odbywa się nieregularnie w&nbsp;poniedziałki zwykle o&nbsp;godz.&nbsp;10:15 w&nbsp;siedzibie IPI&nbsp;PAN (ul.&nbsp;Jana Kazimierza&nbsp;5, Warszawa) i&nbsp;ma charakter otwarty. Poszczególne referaty ogłaszane są na [[http://lists.nlp.ipipan.waw.pl/mailman/listinfo/ling|Polskiej Liście Językoznawczej]] oraz na stronie [[https://www.facebook.com/lingwistyka.komputerowa|Lingwistyka komputerowa]] na Facebooku. ||<style="border:0;padding-left:30px;">[[seminar|{{attachment:seminarium-archiwum/en.png}}]]|| ||<style="border:0;padding-bottom:10px">Seminarium [[http://nlp.ipipan.waw.pl/|Zespołu Inżynierii Lingwistycznej]] w&nbsp;[[http://www.ipipan.waw.pl/|Instytucie Podstaw Informatyki]] [[http://www.pan.pl/|Polskiej Akademii Nauk]] odbywa się nieregularnie, w&nbsp;poniedziałki, zwykle o&nbsp;godz.&nbsp;10:15 w&nbsp;siedzibie IPI&nbsp;PAN (ul.&nbsp;Jana Kazimierza&nbsp;5, Warszawa) i&nbsp;ma charakter otwarty. Poszczególne referaty ogłaszane są na [[http://lists.nlp.ipipan.waw.pl/mailman/listinfo/ling|Polskiej Liście Językoznawczej]] oraz na stronie [[https://www.facebook.com/lingwistyka.komputerowa|Lingwistyka komputerowa]] na Facebooku. Wszystkie nagrania dostępne są na [[https://www.youtube.com/ipipan|kanale YouTube]].||<style="border:0;padding-left:30px;">[[seminar|{{attachment:seminarium-archiwum/en.png}}]]||
Line 7: Line 7:
||<style="border:0;padding:0">Obecnie trwa przerwa wakacyjna – zapraszamy na następne wystąpienia w październiku oraz do zapoznania się z [[http://nlp.ipipan.waw.pl/NLP-SEMINAR/previous-p.html|archiwum seminariów z lat 2000-2015]] oraz [[http://zil.ipipan.waw.pl/seminarium-archiwum|listą wystąpień z roku 2015-16]].|| ||<style="border:0;padding-bottom:10px">'''UWAGA''': ze względu na zakaz wstępu do IPI PAN dla osób niezatrudnionych w Instytucie, w stacjonarnej części seminarium mogą brać udział tylko pracownicy IPI PAN i prelegenci (także zewnętrzni). Dla pozostałych uczestników seminarium będzie transmitowane – prosimy o korzystanie z linku przy tytule wystąpienia.||
Line 9: Line 9:
##||<style="border:0;padding-top:5px;padding-bottom:5px">'''3 października 2016'''||
##||<style="border:0;padding-left:30px;padding-bottom:0px">'''?''' (Samsung Polska)||
##||<style="border:0;padding-left:30px;padding-bottom:5px">'''?''' &#160;{{attachment:icon-pl.gif|Wystąpienie w języku polskim.}}||
##||<style="border:0;padding-left:30px;padding-bottom:15px">Opis wystąpienia zostanie podany wkrótce.||
||<style="border:0;padding-top:5px;padding-bottom:5px">'''5 października 2020'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Piotr Rybak''' (ML Research at Allegro.pl)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=LkR-i2Z1RwM|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2020-10-05.pdf|Przegląd modeli BERT dla języka polskiego]]''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">W ciągu ostatnich lat seria modeli opartych o architekturę BERT istotnie poprawiła skuteczność modeli dla wielu zadań przetwarzania języka naturalnego. Podczas wystąpienia pokrótce opowiemy, jak działa BERT oraz kilka jego wariantów. Następnie skupimy się na modelach dostępnych dla języka polskiego oraz ich skuteczności w rankingu KLEJ. Na koniec opowiemy o nowym modelu opracowanym wspólnie przez IPI PAN i Allegro.||
Line 14: Line 14:
##||<style="border:0;padding-top:5px;padding-bottom:5px">'''17 października 2016'''||
##||<style="border:0;padding-left:30px;padding-bottom:0px">'''Adam Przepiórkowski, Jakub Kozakoszczak, Jan Winkowski, Daniel Ziembicki, Tadeusz Teleżyński''' (Instytut Podstaw Informatyki PAN, Uniwersytet Warszawski)||
##||<style="border:0;padding-left:30px;padding-bottom:5px">'''Korpus sformalizowanych kroków wynikania tekstowego''' &#160;{{attachment:icon-pl.gif|Wystąpienie w języku polskim.}}||
##||<style="border:0;padding-left:30px;padding-bottom:15px">Opis wystąpienia zostanie podany wkrótce.||
||<style="border:0;padding-top:5px;padding-bottom:5px">'''2 listopada 2020'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Inez Okulska''' (NASK)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://us05web.zoom.us/j/7409085513?pwd=WUZvMmtVUFl1UnJYcW12eG9HV0U1QT09|{{attachment:seminarium-archiwum/zoom.png}}]] '''Ile treści jest w semantyce, czyli jak bardzo można przekształcać wektory typu word2vec, by nie stracić jakości uczenia''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Wprowadzenie wektorowej reprezentacji słów, zawierającej wagi wyrazów kontekstowych i centralnych, obliczone w wyniku mapowania gigantycznych korpusów danego języka, a nie kodujące jedynie ręcznie wybrane, lingwistyczne cechy słów, okazały się dla badań NLP przełomowe. Po pierwszym zachwycie wprawdzie nastąpił okres rewizji i poszukiwania ulepszeń - przede wszystkim poszerzania kontekstu, obsługi homonimów itp. Niemniej jednak klasyczne zanurzenia wciąż znajdują zastosowanie w wielu zadaniach - choćby klasyfikacji treści - i w wielu przypadkach wyniki, które dają, nadal są wystarczająco dobre. Co właściwe kodują? Czy zawierają elementy redundantne? Czy informacje w nich zawarte poddają się przekształceniom lub redukcji w sposób wciąż zachowujący oryginalny „sens”. Czym jest tu sens? Jak bardzo można wektory te deformować i jak to się ma do metod szyfrowania? W swoim wystąpieniu przedstawię rozważania na ten temat, ilustrowane wynikami kolejnych „tortur” wektorów (word2vec i glove) i ich skuteczności w zadaniu klasyfikacji tekstów, których treść musi pozostać zamaskowana dla ludzkiego oka.||

||<style="border:0;padding-top:0px">Zapraszamy także do zapoznania się z [[http://nlp.ipipan.waw.pl/NLP-SEMINAR/previous-p.html|archiwum seminariów z lat 2000–15]] oraz [[http://zil.ipipan.waw.pl/seminarium-archiwum|listą wystąpień z lat 2015–20]].||


{{{#!wiki comment

||<style="border:0;padding-top:5px;padding-bottom:5px">'''2 kwietnia 2020'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Stan Matwin''' (Dalhousie University)||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''Efficient training of word embeddings with a focus on negative examples''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}} {{attachment:seminarium-archiwum/icon-en.gif|Slajdy po angielsku.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">This presentation is based on our [[https://pdfs.semanticscholar.org/1f50/db5786913b43f9668f997fc4c97d9cd18730.pdf|AAAI 2018]] and [[https://aaai.org/ojs/index.php/AAAI/article/view/4683|AAAI 2019]] papers on English word embeddings. In particular, we examine the notion of “negative examples”, the unobserved or insignificant word-context co-occurrences, in spectral methods. we provide a new formulation for the word embedding problem by proposing a new intuitive objective function that perfectly justifies the use of negative examples. With the goal of efficient learning of embeddings, we propose a kernel similarity measure for the latent space that can effectively calculate the similarities in high dimensions. Moreover, we propose an approximate alternative to our algorithm using a modified Vantage Point tree and reduce the computational complexity of the algorithm with respect to the number of words in the vocabulary. We have trained various word embedding algorithms on articles of Wikipedia with 2.3 billion tokens and show that our method outperforms the state-of-the-art in most word similarity tasks by a good margin. We will round up our discussion with some general thought s about the use of embeddings in modern NLP.||

na [[https://www.youtube.com/ipipan|kanale YouTube]].
on [[https://www.youtube.com/ipipan|YouTube]].

Proponowane daty seminarów 2020-21:
16 listopada – Danijel i projekt PINC
30 listopada – Adam Jatowt?
14 grudnia – Piotr Przybyła na bazie tekstu na COLING
4 stycznia (ew. 11 stycznia, bo ferie są od 18 do 30 stycznia) – Norbert Ryciak o Yoshu
1 lutego – Filip Graliński: Kleister
15 lutego
1 marca
15 marca
29 marca
12 kwietnia
26 kwietnia
10 maja
24 maja
7 czerwca
21 czerwca


- 23 marca – Piotrek Pęzik? Wrocław?

- kwiecień/maj – Alex z Izabelą Chojnicką na instytutowym?

- 6 kwietnia: Piotr Rybak: BERT?

(12-13 kwietnia: Wielkanoc)

- 20 kwietnia: – Marcin, Witek: Chronofleks?

- 4 maja: Kwantyfikatory?

(LREC: 13–15 maja w Marsylii)

- 18 maja: może coś LREC-owego? może nawet jakąś sesję z wieloma naszymi artykułami LREC-owymi?
– Piotr Rybak o KLEJU po LREC-u?

- 1 czerwca: Piotr Pęzik? wstępnie się zgodził

Adam Jatowt wstępnie się zgodził

- 15 czerwca: MARCELL? Może Piotrek z Bartkiem?

– gdzieś tu jeszcze będzie PolEval...


Umówić się z Brylską, zapytać tę od okulografii, czy to jest PJN
Agnieszka Kwiatkowska – zobaczyć ten jej tekst, moze też coś opowie?
Ew. Kasia Brylska, Monika Płużyczka na seminarium? Marcin Napiórkowski z Karolem?
Maciej Karpiński
Demenko – dawno już ich nie było; można iść po kluczu HLT Days

MTAS?
– NLP dla tekstów historycznych – Marcin/Witek? razem z KORBĄ, pokazać oba ręcznie znakowane korpusy i benchmarki na tagerach – maj,
– może Wrocław mógłby coś pokazać? – pisałem do Maćka P.

– jakieś wystąpienia PolEvalowe?
– Marcin, Witek: Chronofleks
– Piotrek Pęzik obiecał coś wygłosić
– Marcin Junczys-Dowmunt przy okazji świąt?

Tomek Dwojak i inni z https://zpjn.wmi.amu.edu.pl/seminar/?

Będzie na Data Science Summit:

Using topic modeling for differentiation based on Polish parliament plus person
Aleksander Nosarzewski
Statistician @ Citi

Artykuł o GPT napisał Mateusz Litwin: https://www.linkedin.com/in/mateusz-litwin-06b3a919/
W OpenAI jest jeszcze https://www.linkedin.com/in/jakub-pachocki/
i https://www.linkedin.com/in/szymon-sidor-98164044/



Text data can be an invaluable source of information. In particular, what, how often and in which way we talk about given subjects can tell a lot about us. Unfortunately, manual scrambling through huge text datasets can be a cumbersome task. Luckily, there is a class of unsupervised models - topic models, which can perform this task for us, with very little input from our side. I will present how to use Structural Topic Model (STM) - an enhancement over popular LDA to obtain some kind of measure of differences between given groups or agents of interest, based on an example of Polish parliamentary speeches and political parties.

||<style="border:0;padding-top:5px;padding-bottom:5px">'''12 DATA 2017''' ('''UWAGA: ''' wystąpienie odbędzie się o 13:00 w ramach [[https://ipipan.waw.pl/instytut/dzialalnosc-naukowa/seminaria/ogolnoinstytutowe|seminarium IPI PAN]])||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''OSOBA''' (AFILIACJA)||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''Tytuł zostanie udostępniony w najbliższym czasie''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Opis wystąpienia zostanie udostępniony wkrótce.||

||<style="border:0;padding-left:30px;padding-bottom:5px">'''[[attachment:seminarium-archiwum/201--.pdf|...]]''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}} {{attachment:seminarium-archiwum/icon-en.gif|Slajdy w języku angielskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">...||

}}}

Seminarium „Przetwarzanie języka naturalnego” 2020-21

Seminarium Zespołu Inżynierii LingwistycznejInstytucie Podstaw Informatyki Polskiej Akademii Nauk odbywa się nieregularnie, w poniedziałki, zwykle o godz. 10:15 w siedzibie IPI PAN (ul. Jana Kazimierza 5, Warszawa) i ma charakter otwarty. Poszczególne referaty ogłaszane są na Polskiej Liście Językoznawczej oraz na stronie Lingwistyka komputerowa na Facebooku. Wszystkie nagrania dostępne są na kanale YouTube.

seminar

UWAGA: ze względu na zakaz wstępu do IPI PAN dla osób niezatrudnionych w Instytucie, w stacjonarnej części seminarium mogą brać udział tylko pracownicy IPI PAN i prelegenci (także zewnętrzni). Dla pozostałych uczestników seminarium będzie transmitowane – prosimy o korzystanie z linku przy tytule wystąpienia.

5 października 2020

Piotr Rybak (ML Research at Allegro.pl)

https://www.youtube.com/watch?v=LkR-i2Z1RwM Przegląd modeli BERT dla języka polskiego  Wystąpienie w języku polskim.

W ciągu ostatnich lat seria modeli opartych o architekturę BERT istotnie poprawiła skuteczność modeli dla wielu zadań przetwarzania języka naturalnego. Podczas wystąpienia pokrótce opowiemy, jak działa BERT oraz kilka jego wariantów. Następnie skupimy się na modelach dostępnych dla języka polskiego oraz ich skuteczności w rankingu KLEJ. Na koniec opowiemy o nowym modelu opracowanym wspólnie przez IPI PAN i Allegro.

2 listopada 2020

Inez Okulska (NASK)

https://us05web.zoom.us/j/7409085513?pwd=WUZvMmtVUFl1UnJYcW12eG9HV0U1QT09 Ile treści jest w semantyce, czyli jak bardzo można przekształcać wektory typu word2vec, by nie stracić jakości uczenia  Wystąpienie w języku polskim.

Wprowadzenie wektorowej reprezentacji słów, zawierającej wagi wyrazów kontekstowych i centralnych, obliczone w wyniku mapowania gigantycznych korpusów danego języka, a nie kodujące jedynie ręcznie wybrane, lingwistyczne cechy słów, okazały się dla badań NLP przełomowe. Po pierwszym zachwycie wprawdzie nastąpił okres rewizji i poszukiwania ulepszeń - przede wszystkim poszerzania kontekstu, obsługi homonimów itp. Niemniej jednak klasyczne zanurzenia wciąż znajdują zastosowanie w wielu zadaniach - choćby klasyfikacji treści - i w wielu przypadkach wyniki, które dają, nadal są wystarczająco dobre. Co właściwe kodują? Czy zawierają elementy redundantne? Czy informacje w nich zawarte poddają się przekształceniom lub redukcji w sposób wciąż zachowujący oryginalny „sens”. Czym jest tu sens? Jak bardzo można wektory te deformować i jak to się ma do metod szyfrowania? W swoim wystąpieniu przedstawię rozważania na ten temat, ilustrowane wynikami kolejnych „tortur” wektorów (word2vec i glove) i ich skuteczności w zadaniu klasyfikacji tekstów, których treść musi pozostać zamaskowana dla ludzkiego oka.

Zapraszamy także do zapoznania się z archiwum seminariów z lat 2000–15 oraz listą wystąpień z lat 2015–20.