Locked History Actions

Diff for "seminarium"

Differences between revisions 392 and 488 (spanning 96 versions)
Revision 392 as of 2019-09-11 12:07:58
Size: 7610
Comment:
Revision 488 as of 2020-08-31 15:39:09
Size: 7521
Comment:
Deletions are marked like this. Additions are marked like this.
Line 3: Line 3:
= Seminarium „Przetwarzanie języka naturalnego” 2019–20 = = Seminarium „Przetwarzanie języka naturalnego” 2020-21 =
Line 5: Line 5:
||<style="border:0;padding-bottom:10px">Seminarium [[http://nlp.ipipan.waw.pl/|Zespołu Inżynierii Lingwistycznej]] w&nbsp;[[http://www.ipipan.waw.pl/|Instytucie Podstaw Informatyki]] [[http://www.pan.pl/|Polskiej Akademii Nauk]] odbywa się nieregularnie w&nbsp;poniedziałki zwykle o&nbsp;godz.&nbsp;10:15 w&nbsp;siedzibie IPI&nbsp;PAN (ul.&nbsp;Jana Kazimierza&nbsp;5, Warszawa) i&nbsp;ma charakter otwarty. Poszczególne referaty ogłaszane są na [[http://lists.nlp.ipipan.waw.pl/mailman/listinfo/ling|Polskiej Liście Językoznawczej]] oraz na stronie [[https://www.facebook.com/lingwistyka.komputerowa|Lingwistyka komputerowa]] na Facebooku. Wszystkie nagrania dostępne są na [[https://www.youtube.com/channel/UC5PEPpMqjAr7Pgdvq0wRn0w|kanale YouTube]].||<style="border:0;padding-left:30px;">[[seminar|{{attachment:seminarium-archiwum/en.png}}]]|| ||<style="border:0;padding-bottom:10px">Seminarium [[http://nlp.ipipan.waw.pl/|Zespołu Inżynierii Lingwistycznej]] w&nbsp;[[http://www.ipipan.waw.pl/|Instytucie Podstaw Informatyki]] [[http://www.pan.pl/|Polskiej Akademii Nauk]] odbywa się nieregularnie, w&nbsp;poniedziałki, zwykle o&nbsp;godz.&nbsp;10:15 w&nbsp;siedzibie IPI&nbsp;PAN (ul.&nbsp;Jana Kazimierza&nbsp;5, Warszawa) i&nbsp;ma charakter otwarty. Poszczególne referaty ogłaszane są na [[http://lists.nlp.ipipan.waw.pl/mailman/listinfo/ling|Polskiej Liście Językoznawczej]] oraz na stronie [[https://www.facebook.com/lingwistyka.komputerowa|Lingwistyka komputerowa]] na Facebooku. Wszystkie nagrania dostępne są na [[https://www.youtube.com/channel/UC5PEPpMqjAr7Pgdvq0wRn0w|kanale YouTube]].||<style="border:0;padding-left:30px;">[[seminar|{{attachment:seminarium-archiwum/en.png}}]]||
Line 7: Line 7:
||<style="border:0;padding-top:5px;padding-bottom:5px">'''23 września 2019'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Igor Boguslavsky''' (Institute for Information Transmission Problems, Russian Academy of Sciences / Universidad Politécnica de Madrid)||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''Semantic analysis based on inference''' &#160;{{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">I will present a semantic analyzer SemETAP, which is a module of a linguistic processor ETAP designed to perform analysis and generation of NL texts. We proceed from the assumption that the depth of understanding is determined by the number and quality of inferences we can draw from the text. Extensive use of background knowledge and inferences permits to extract implicit information. Salient features of SemETAP include: ||
||<style="border:0;padding-left:30px;padding-bottom:15px">• knowledge base contains both linguistic and background knowledge;||
||<style="border:0;padding-left:30px;padding-bottom:15px">• inference types include strict entailments and plausible expectations; ||
||<style="border:0;padding-left:30px;padding-bottom:15px">• words and concepts of the ontology may be supplied with explicit decompositions for inference purposes; ||
||<style="border:0;padding-left:30px;padding-bottom:15px">• two levels of semantic structure are distinguished. Basic semantic structure (BSemS) interprets the text in terms of ontological elements. ||
Enhanced semantic structure (EnSemS) extends BSemS by means of a series of inferences; ||
||<style="border:0;padding-left:30px;padding-bottom:15px">• a new logical formalism Etalog is developed in which all inference rules are written.||

||<style="border:0;padding-top:5px;padding-bottom:5px">'''7 października 2019''' (UWAGA: seminarium połączone z instytutowym; odbędzie się wyjątkowo o 13:00!)||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Tomasz Stanisz''' (Instytut Fizyki Jądrowej PAN)||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''Tytuł wystąpienia zostanie podany wkrótce''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Streszczenie wystąpienia zostanie podane wkrótce.||

||<style="border:0;padding-top:5px;padding-bottom:5px">'''18 listopada 2019'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Alexander Rosen''' (Uniwersytet Karola w Pradze)||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''Tytuł wystąpienia zostanie podany wkrótce''' &#160;{{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Streszczenie wystąpienia zostanie podane wkrótce.||

||<style="border:0;padding-top:5px;padding-bottom:5px">'''21 listopada 2019'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Alexander Rosen''' (Uniwersytet Karola w Pradze)||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''Tytuł wystąpienia zostanie podany wkrótce''' &#160;{{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Streszczenie wystąpienia zostanie podane wkrótce.||
||<style="border:0;padding-top:5px;padding-bottom:5px">'''5 października 2019'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Piotr Rybak''', '''Robert Mroczkowski''', '''Janusz Tracz''' (ML Research at Allegro.pl), '''Ireneusz Gawlik''' (ML Research at Allegro.pl i Akademia Górniczo-Hutnicza)||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''Przegląd modeli opartych o architekturę BERT dla języka polskiego''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">W ciągu ostatnich lat seria modeli opartych o architekturę BERT istotnie poprawiła skuteczność modeli dla wielu zadań przetwarzania języka naturalnego. Podczas wystąpienia pokrótce opowiemy, jak działa BERT oraz kilka jego wariantów. Następnie skupimy się na modelach dostępnych dla języka polskiego oraz ich skuteczności w rankingu KLEJ. Na koniec opowiemy o nowym modelu opracowanym wspólnie przez IPI PAN i Allegro.||
Line 38: Line 17:
- 23 września: Igor Boguslavsky
- 7 października: Tomasz Stanisz o stylometrii (akurat jestem w Brukseli)
||<style="border:0;padding-top:5px;padding-bottom:5px">'''2 kwietnia 2020'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Stan Matwin''' (Dalhousie University)||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''Efficient training of word embeddings with a focus on negative examples''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}} {{attachment:seminarium-archiwum/icon-en.gif|Slajdy po angielsku.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">This presentation is based on our [[https://pdfs.semanticscholar.org/1f50/db5786913b43f9668f997fc4c97d9cd18730.pdf|AAAI 2018]] and [[https://aaai.org/ojs/index.php/AAAI/article/view/4683|AAAI 2019]] papers on English word embeddings. In particular, we examine the notion of “negative examples”, the unobserved or insignificant word-context co-occurrences, in spectral methods. we provide a new formulation for the word embedding problem by proposing a new intuitive objective function that perfectly justifies the use of negative examples. With the goal of efficient learning of embeddings, we propose a kernel similarity measure for the latent space that can effectively calculate the similarities in high dimensions. Moreover, we propose an approximate alternative to our algorithm using a modified Vantage Point tree and reduce the computational complexity of the algorithm with respect to the number of words in the vocabulary. We have trained various word embedding algorithms on articles of Wikipedia with 2.3 billion tokens and show that our method outperforms the state-of-the-art in most word similarity tasks by a good margin. We will round up our discussion with some general thought s about the use of embeddings in modern NLP.||
Line 41: Line 22:
- 21 października: ?
Line 43: Line 23:
- 4 listopada: ? (jestem w Kuala Lumpur) – IBE, Grzegorz i Łukasz? ew. 2 grudnia - 23 marca – Piotrek Pęzik? Wrocław?
Line 45: Line 25:
- 18 i 21 listopada: Alexander Rosen - kwiecień/maj – Alex z Izabelą Chojnicką na instytutowym?
Line 47: Line 27:
- 2 grudnia - 6 kwietnia: Piotr Rybak: BERT?
Line 49: Line 29:
- 16 grudnia

- 13 stycznia
- 27 stycznia (ew. 20 stycznia i 3 lutego)

(10-23 lutego: ferie mazowieckie)

- 24 lutego: ?

- 9 marca
- 23 marca

- 6 kwietnia
Line 64: Line 31:
- 20 kwietnia
- 4 maja
- 20 kwietnia: – Marcin, Witek: Chronofleks?

- 4 maja: Kwantyfikatory?
Line 69: Line 37:
- 18 maja - 18 maja: może coś LREC-owego? może nawet jakąś sesję z wieloma naszymi artykułami LREC-owymi?
– Piotr Rybak o KLEJU po LREC-u?
Line 71: Line 40:
- 1 czerwca
- 15 czerwca
- 1 czerwca: Piotr Pęzik? wstępnie się zgodził
Line 74: Line 42:
Adam Jatowt wstępnie się zgodził

- 15 czerwca: MARCELL? Może Piotrek z Bartkiem?

– gdzieś tu jeszcze będzie PolEval...
Line 81: Line 54:
Michał Marcińczuk
Line 87: Line 59:
Krzysztof Wołk:
Gdyby w przyszłości była potrzeba pracuję nad NMT we współpracy z kolegą który pracuje w dolinie krzemowej. On też będąc w PL mógłby wystąpić lub wystąpić zdalnie. Zajmuję się sieciami neuronowymi w tym NMT wraz ze mną, opisowym generowaniem ruchów modeli 3D oraz generowaniem sztuki pisanej za pomocą sieci, klasyfikacją pochodzenia nazwisk za pomocą sieci I podobnymi tematami.
Line 92: Line 61:
– Krzysztof Wołk: NMT na subword units
Line 94: Line 62:
– Justyna Sarzyńska?
Line 98: Line 65:

Będzie na Data Science Summit:

Using topic modeling for differentiation based on Polish parliament plus person
Aleksander Nosarzewski
Statistician @ Citi

Artykuł o GPT napisał Mateusz Litwin: https://www.linkedin.com/in/mateusz-litwin-06b3a919/
W OpenAI jest jeszcze https://www.linkedin.com/in/jakub-pachocki/
i https://www.linkedin.com/in/szymon-sidor-98164044/



Text data can be an invaluable source of information. In particular, what, how often and in which way we talk about given subjects can tell a lot about us. Unfortunately, manual scrambling through huge text datasets can be a cumbersome task. Luckily, there is a class of unsupervised models - topic models, which can perform this task for us, with very little input from our side. I will present how to use Structural Topic Model (STM) - an enhancement over popular LDA to obtain some kind of measure of differences between given groups or agents of interest, based on an example of Polish parliamentary speeches and political parties.

Seminarium „Przetwarzanie języka naturalnego” 2020-21

Seminarium Zespołu Inżynierii LingwistycznejInstytucie Podstaw Informatyki Polskiej Akademii Nauk odbywa się nieregularnie, w poniedziałki, zwykle o godz. 10:15 w siedzibie IPI PAN (ul. Jana Kazimierza 5, Warszawa) i ma charakter otwarty. Poszczególne referaty ogłaszane są na Polskiej Liście Językoznawczej oraz na stronie Lingwistyka komputerowa na Facebooku. Wszystkie nagrania dostępne są na kanale YouTube.

seminar

5 października 2019

Piotr Rybak, Robert Mroczkowski, Janusz Tracz (ML Research at Allegro.pl), Ireneusz Gawlik (ML Research at Allegro.pl i Akademia Górniczo-Hutnicza)

Przegląd modeli opartych o architekturę BERT dla języka polskiego  Wystąpienie w języku polskim.

W ciągu ostatnich lat seria modeli opartych o architekturę BERT istotnie poprawiła skuteczność modeli dla wielu zadań przetwarzania języka naturalnego. Podczas wystąpienia pokrótce opowiemy, jak działa BERT oraz kilka jego wariantów. Następnie skupimy się na modelach dostępnych dla języka polskiego oraz ich skuteczności w rankingu KLEJ. Na koniec opowiemy o nowym modelu opracowanym wspólnie przez IPI PAN i Allegro.

Zapraszamy także do zapoznania się z archiwum seminariów z lat 2000–15 oraz listą wystąpień z lat 2015–19.