Locked History Actions

Diff for "seminarium"

Differences between revisions 2 and 585 (spanning 583 versions)
Revision 2 as of 2016-06-27 22:33:09
Size: 2232
Comment:
Revision 585 as of 2021-02-16 08:42:27
Size: 23202
Comment:
Deletions are marked like this. Additions are marked like this.
Line 3: Line 3:
= Seminarium „Przetwarzanie języka naturalnego” 2016–2017 = = Seminarium „Przetwarzanie języka naturalnego” 2020–2021 =
Line 5: Line 5:
||<style="border:0;padding:0">Seminarium [[http://nlp.ipipan.waw.pl/|Zespołu Inżynierii Lingwistycznej]] w&nbsp;[[http://www.ipipan.waw.pl/|Instytucie Podstaw Informatyki]] [[http://www.pan.pl/|Polskiej Akademii Nauk]] odbywa się nieregularnie w&nbsp;poniedziałki zwykle o&nbsp;godz.&nbsp;10:15 w&nbsp;siedzibie IPI&nbsp;PAN (ul.&nbsp;Jana Kazimierza&nbsp;5, Warszawa) i&nbsp;ma charakter otwarty. Poszczególne referaty ogłaszane są na [[http://lists.nlp.ipipan.waw.pl/mailman/listinfo/ling|Polskiej Liście Językoznawczej]] oraz na stronie [[https://www.facebook.com/lingwistyka.komputerowa|Lingwistyka komputerowa]] na Facebooku. ||<style="border:0;padding-left:30px;">[[seminar|{{attachment:seminarium-archiwum/en.png}}]]|| ||<style="border:0;padding-bottom:10px">Seminarium [[http://nlp.ipipan.waw.pl/|Zespołu Inżynierii Lingwistycznej]] w&nbsp;[[http://www.ipipan.waw.pl/|Instytucie Podstaw Informatyki]] [[http://www.pan.pl/|Polskiej Akademii Nauk]] odbywa się średnio co 2 tygodnie, zwykle w&nbsp;poniedziałki o&nbsp;godz.&nbsp;10:15 (obecnie online – prosimy o korzystanie z linku przy tytule wystąpienia) i&nbsp;ma charakter otwarty. Poszczególne referaty ogłaszane są na [[http://lists.nlp.ipipan.waw.pl/mailman/listinfo/ling|Polskiej Liście Językoznawczej]] oraz na stronie [[https://www.facebook.com/lingwistyka.komputerowa|Lingwistyka komputerowa]] na Facebooku. Nagrania wystąpień dostępne są na [[https://www.youtube.com/ipipan|kanale YouTube]].||<style="border:0;padding-left:30px;">[[seminar|{{attachment:seminarium-archiwum/en.png}}]]||
Line 7: Line 7:
||<style="border:0;padding:0">Obecnie trwa przerwa wakacyjna – zapraszamy na następne wystąpienia w październiku oraz do zapoznania się z [[http://nlp.ipipan.waw.pl/NLP-SEMINAR/previous-p.html|archiwum seminariów z lat 2000-2015]] oraz [[http://zil.ipipan.waw.pl/seminarium-archiwum|listą wystąpień z roku 2015-16]].|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''5 października 2020'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Piotr Rybak''', '''Robert Mroczkowski''', '''Janusz Tracz''' (Allegro), '''Ireneusz Gawlik''' (Allegro / AGH)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=B7Y9fK2CDWw|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2020-10-05.pdf|Przegląd modeli BERT dla języka polskiego]]''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">W ciągu ostatnich lat seria modeli opartych o architekturę BERT istotnie poprawiła skuteczność modeli dla wielu zadań przetwarzania języka naturalnego. Podczas wystąpienia pokrótce opowiemy, jak działa BERT oraz kilka jego wariantów. Następnie skupimy się na modelach dostępnych dla języka polskiego oraz ich skuteczności w rankingu KLEJ. Na koniec opowiemy o nowym modelu opracowanym wspólnie przez IPI PAN i Allegro.||
Line 9: Line 12:
##||<style="border:0;padding-top:5px;padding-bottom:5px">'''3 października 2016'''||
##||<style="border:0;padding-left:30px;padding-bottom:0px">'''?''' (Samsung Polska)||
##||<style="border:0;padding-left:30px;padding-bottom:5px">'''?''' &#160;{{attachment:icon-pl.gif|Wystąpienie w języku polskim.}}||
##||<style="border:0;padding-left:30px;padding-bottom:15px">Opis wystąpienia zostanie podany wkrótce.||
||<style="border:0;padding-top:5px;padding-bottom:5px">'''2 listopada 2020'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Inez Okulska''' (NASK)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=LkR-i2Z1RwM|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2020-11-02.pdf|Ile treści jest w semantyce, czyli jak bardzo można przekształcać wektory typu word2vec, by nie stracić jakości uczenia]]''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Wprowadzenie wektorowej reprezentacji słów, zawierającej wagi wyrazów kontekstowych i centralnych, obliczone w wyniku mapowania gigantycznych korpusów danego języka, a nie kodujące jedynie ręcznie wybrane, lingwistyczne cechy słów, okazały się dla badań NLP przełomowe. Po pierwszym zachwycie wprawdzie nastąpił okres rewizji i poszukiwania ulepszeń - przede wszystkim poszerzania kontekstu, obsługi homonimów itp. Niemniej jednak klasyczne zanurzenia wciąż znajdują zastosowanie w wielu zadaniach - choćby klasyfikacji treści - i w wielu przypadkach wyniki, które dają, nadal są wystarczająco dobre. Co właściwe kodują? Czy zawierają elementy redundantne? Czy informacje w nich zawarte poddają się przekształceniom lub redukcji w sposób wciąż zachowujący oryginalny „sens”. Czym jest tu sens? Jak bardzo można wektory te deformować i jak to się ma do metod szyfrowania? W swoim wystąpieniu przedstawię rozważania na ten temat, ilustrowane wynikami kolejnych „tortur” wektorów (word2vec i glove) i ich skuteczności w zadaniu klasyfikacji tekstów, których treść musi pozostać zamaskowana dla ludzkiego oka.||
Line 14: Line 17:
##||<style="border:0;padding-top:5px;padding-bottom:5px">'''17 października 2016'''||
##||<style="border:0;padding-left:30px;padding-bottom:0px">'''Adam Przepiórkowski, Jakub Kozakoszczak, Jan Winkowski, Daniel Ziembicki, Tadeusz Teleżyński''' (Instytut Podstaw Informatyki PAN, Uniwersytet Warszawski)||
##||<style="border:0;padding-left:30px;padding-bottom:5px">'''Korpus sformalizowanych kroków wynikania tekstowego''' &#160;{{attachment:icon-pl.gif|Wystąpienie w języku polskim.}}||
##||<style="border:0;padding-left:30px;padding-bottom:15px">Opis wystąpienia zostanie podany wkrótce.||
||<style="border:0;padding-top:5px;padding-bottom:5px">'''16 listopada 2020'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Agnieszka Chmiel''' (Uniwersytet im. Adama Mickiewicza w Poznaniu), '''Danijel Korzinek''' (Polsko-Japońska Akademia Technik Komputerowych)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=MxbgQL316DQ|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2020-11-16.pdf|PINC (Polish Interpreting Corpus): jak korpus może pomóc w badaniach nad procesem tłumaczenia symultanicznego]]''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">PINC to pierwszy polski korpus tłumaczenia symultanicznego oparty na polsko-angielskich i angielsko-polskich tłumaczeniach w Parlamencie Europejskim. Wykorzystanie autentycznych danych tłumaczeniowych umożliwia poszukiwanie odpowiedzi na wiele pytań dotyczących procesu tłumaczenia symultanicznego. Dzięki analizie opóźnienia czasowego tłumaczenia w stosunku do oryginału można zbadać mechanizmy aktywacji i inhibicji w przetwarzaniu leksykalnym tłumacza. Dane na temat płynności wypowiedzi i pauz umożliwiają wyciąganie wniosków o obciążeniu kognitywnym. W prezentacji przedstawimy sposób przetwarzania danych w korpusie (m.in. identyfikację głosów tłumaczy) i główne wyzwania, takie jak analiza języka, analiza zależnościowa i wiązanie dwujęzyczne. Pokażemy, w jaki sposób zastosowanie poszczególnych danych może pomóc w zrozumieniu tego, na czym polega proces tłumaczenia, a nawet tego, co dzieje się w umyśle tłumacza.||

||<style="border:0;padding-top:5px;padding-bottom:5px">'''30 listopada 2020'''||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''Findings of ACL: EMNLP 2020''': sesja polska||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Łukasz Borchmann''' et al. (Applica.ai)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=THe1URk40Nk|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2020-11-30a.pdf|Contract Discovery: Dataset and a Few-Shot Semantic Retrieval Challenge with Competitive Baselines]]''' (Wyszukiwanie fragmentu tekstu prawnego na podstawie kilku przykładów, czyli o zbiorze Contract Discovery oraz referencyjnych wynikach) &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}&#160;{{attachment:seminarium-archiwum/icon-en.gif|Slajdy po angielsku.}}||
||<style="border:0;padding-left:30px;padding-bottom:10px">Problem Contract Discovery dotyczy ustalania czy w dokumencie znajduje się dana klauzula lub ekstrakcją określanego typu klauzul, na potrzeby dalszej analizy, takiej jak ocena ryzyka. Ponieważ nie istniał publicznie dostępny zbiór, pozwalający na ewaluacje rozwiązań identyfikujących fragmenty niestrukturyzowanego tekstu prawnego, podjęliśmy się jego stworzenia. W ramach zaproponowanego wyzwania, zakłada się, że poszukiwany fragment może być dowolnym podciągiem dokumentu, tzn. nie musi stanowić kompletnej jednostki tekstu prawnego, takiej jak paragraf, punkt czy podpunkt. Ponadto, od proponowanych systemów oczekuje się bazowania na kilku przykładach analogicznych klauzul z innych dokumentów. Przy tak postawionym problemie, pretrenowane, uniwersalne enkodery zdań okazują się zawodzić, w przeciwieństwie do rozwiązań bazujących na modelach języka.||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Piotr Szymański''' (Politechnika Wrocławska), '''Piotr Żelasko''' (Johns Hopkins University)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=TXSDhCtTRpw|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2020-11-30b.pdf|WER we are and WER we think we are]]''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}&#160;{{attachment:seminarium-archiwum/icon-en.gif|Slajdy po angielsku.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Przetwarzanie mowy w języku naturalnym wymaga dostępności wysokiej jakości transkryptów. W niniejszym artykule wyrażamy nasz sceptycyzm wobec ostatnich doniesień o bardzo niskich wskaźnikach błędu słów (WER) osiąganych przez nowoczesne systemy automatycznego rozpoznawania mowy (ASR) na podstawie zbiorów danych porównawczych. Przedstawiamy kilka problemów związanych z popularnymi benchmarkami i porównujemy trzy nowoczesne komercyjne systemy ASR na wewnętrznym zbiorze rzeczywistych spontanicznych rozmów ludzkich i publicznym zbiorze HUB'05. Pokazujemy, że wyniki WER są znacznie wyższe niż najlepiej raportowane wyniki. Sformułowaliśmy zestaw wytycznych, które mogą pomóc w tworzeniu rzeczywistych, wielodomenowych zbiorów danych z wysokiej jakości anotacjami do szkolenia i testowania solidnych systemów ASR.||

||<style="border:0;padding-top:5px;padding-bottom:5px">'''17 grudnia 2020'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Piotr Przybyła''' (Instytut Podstaw Informatyki PAN)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=newobY5cBJo|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2020-12-17.pdf|Upraszczanie tekstu przez podmiany wielowyrazowe]]''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Wystąpienie będzie poświęcone zadaniu upraszczania tekstu przez podmiany wielowyrazowe, w którym zdanie w języku naturalnym modyfikuje się dla zwiększenia zrozumiałości poprzez zastępowanie jego fragmentów prostszymi odpowiednikami. W odróżnieniu od wcześniejszych prac, w tym sformułowaniu zarówno fragment zastępujący i zastępowany mogą mieć dowolną długość. Dla analizy tego zadania zbudowaliśmy korpus (MWLS1), składający się z 1462 zdań z 7059 podmianami zgromadzonymi poprzez crowdsourcing. Przedstawię także algorytm w sposób automatyczny generujący takie podmiany (Plainifier), wykorzystując specjalnie przygotowany model językowy, oraz rezultaty ewaluacji jego jakości. Wyniki badań zostały opublikowane w pracy [[https://www.aclweb.org/anthology/2020.coling-main.123.pdf|Multi-word Lexical Simplification]] na konferencji COLING 2020.||

||<style="border:0;padding-top:5px;padding-bottom:5px">'''18 stycznia 2021'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Norbert Ryciak''', '''Maciej Chrabąszcz''', '''Maciej Bartoszuk''' (Sages)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=L8RRx9KVhJs|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2021-01-18.pdf|Klasyfikacja wniosków patentowych]]''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}&#160;{{attachment:seminarium-archiwum/icon-en.gif|Slajdy po angielsku.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">W prezentacji przedstawione zostanie rozwiązanie zadania klasyfikacji wniosków patentowych, które zajęło drugie miejsce w konkursie !GovTech. Omówiona zostanie specyfikacja problemu i zaproponowane rozwiązanie. W szczególności przedstawiona zostanie autorska metoda reprezentacji tekstów, oparta na interpretacji dokumentu jako „chmura embeddingów”.||

||<style="border:0;padding-top:5px;padding-bottom:5px">'''1 lutego 2021'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Adam Jatowt''' (Uniwersytet Leopolda i Franciszka w Innsbrucku)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=e7NblngMe6A|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2021-02-01.pdf|Automatyczne odpowiadanie na pytania i znajdowanie analogicznych słów w archiwach artykułów prasowych]]''' &#160;{{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie głównie w języku angielskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Archiwa artykułów prasowych oferują ogromną wartość dla naszego społeczeństwa, pomagając użytkownikom poznać szczegóły wydarzeń, które miały miejsce w przeszłości. Obecnie dostęp do tych zbiorów jest utrudniony dla przeciętnego użytkownika ze względu na dużą ilość zgromadzonych dokumentów i konieczność posiadania specjalistycznej wiedzy z historii. Podczas prezentacji pokażemy model automatycznego odpowiadania na pytania na podstawie archiwalnych zbiorów artykułów prasowych, z modułem dedykowanym do znajdowania artykułów przy użyciu informacji czasowych. W drugiej części referatu omówimy metody na odnajdywanie i objaśnianie „czasowych analogów” – wyrazów z przeszłości, które są analogiczne do wyrazów obecnych (np. walkman jako czasowy analog iPada).||

||<style="border:0;padding-top:5px;padding-bottom:5px">'''15 lutego 2021'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Aleksandra Nabożny''' (Polsko-Japońska Akademia Technik Komputerowych)||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''[[attachment:seminarium-archiwum/2021-02-15.pdf|Metoda optymalizacji pracy eksperta przy anotowaniu niewiarygodnych treści medycznych]]]''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Automatyczna klasyfikacja niewiarygodnych treści medycznych jest zadaniem niezwykle trudnym. Ekspercka ocena jest bowiem obarczona dużym skrzywieniem interpretacyjnym, które jest zależne od indywidualnych doświadczeń klinicznych danego lekarza. Ponadto, prosta ocena faktograficzna okazuje się niewystarczająca do określenia wiarygodności tego typu treści. Podczas seminarium przedstawię efekty moich i zespołu wysiłków w kierunku optymalizacji procesu anotacji. Zaproponowaliśmy metodę szeregowania zdań, dzięki której zdania o niższej wiarygodności z większym prawdopodobieństwem zostaną umieszczone na początku kolejki do oceny. Przedstawię również nasze propozycje rozszerzenia instrukcji dla anotatorów, mającej na celu zwiększenie spójności ocen. Na koniec zaproszę do dyskusji na temat potencjalnych kierunków badań w celu wykrywania szkodliwych narracji w tzw. fake newsach medycznych.||

||<style="border:0;padding-top:5px;padding-bottom:5px">'''9 marca 2021''' ('''UWAGA: seminarium łączone z instytutowym, odbędzie się wyjątkowo we wtorek o 12:00''')||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Aleksander Wawer''' (Instytut Podstaw Informatyki PAN), '''Izabela Chojnicka''' (Wydział Psychologii UW), '''Justyna Sarzyńska-Wawer''' (Instytut Psychologii PAN)||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''Uczenie maszynowe w wykrywaniu schizofrenii i autyzmu na podstawie wypowiedzi tekstowych''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Diagnostyka zaburzeń psychicznych na podstawie danych tekstowych to nowy obszar zastosowań dla przetwarzania języka naturalnego, a w szczególności metod uczenia maszynowego i głębokiego uczenia. Omówimy serię eksperymentów wykonanych na polskojęzycznych danych tekstowych dotyczących zaburzeń ze spektrum autyzmu i schizofrenii. Wystąpienie rozpoczniemy od analizy obydwu zaburzeń oraz przedstawienia narzędzi diagnostycznych: TLC i ADOS-2, wraz z charakterystyką zebranych danych. Przedstawimy efekty zastosowania metod słownikowych, mierzących takie wymiary jak poziom abstrakcji językowej oraz wydźwięk. Następnie przejdziemy do prób automatycznego diagnozowania obydwu zaburzeń. Porównamy skuteczność: (1) tradycyjnych narzędzi diagnostycznych TLC i ADOS-2, (2) metod uczenia maszynowego i głębokiego uczenia zastosowanych do danych zgromadzonych przez te narzędzia oraz (3) psychiatrów. Omówimy skuteczność najprostszych metod typu bag-of-words, metod słownikowych, a także głębokich sieci neuronowych. Przedstawimy eksperymenty z transfer learning, a także uczeniem w scenariuszach zero-shot i few-shot, dedykowanych sytuacjom o małej liczebności danych, co jest typowym problemem w warunkach klinicznych. Psychiatria to jedna z nielicznych dziedzin medycyny, w których diagnoza większości zaburzeń opiera się na subiektywnej ocenie psychiatry. Nasze prace są krokiem w kierunku wprowadzenia zautomatyzowanych i obiektywnych narzędzi wspomagających diagnostykę.||

||<style="border:0;padding-top:5px;padding-bottom:5px">'''15 marca 2021'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Filip Graliński''' (1Applica.ai / Uniwersytet Adama Mickiewicza)||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''Kleister''' (pełny tytuł podamy wkrótce) &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Streszczenie wystąpienia podamy już wkrótce.||


||<style="border:0;padding-top:0px">Zapraszamy także do zapoznania się z [[http://nlp.ipipan.waw.pl/NLP-SEMINAR/previous-p.html|archiwum seminariów z lat 2000–2015]] oraz [[http://zil.ipipan.waw.pl/seminarium-archiwum|listą wystąpień z lat 2015–2020]].||


{{{#!wiki comment

||<style="border:0;padding-bottom:10px">'''UWAGA''': ze względu na zakaz wstępu do IPI PAN dla osób niezatrudnionych w Instytucie, w stacjonarnej części seminarium mogą brać udział tylko pracownicy IPI PAN i prelegenci (także zewnętrzni). Dla pozostałych uczestników seminarium będzie transmitowane – prosimy o korzystanie z linku przy tytule wystąpienia.||

w&nbsp;siedzibie IPI&nbsp;PAN (ul.&nbsp;Jana Kazimierza&nbsp;5, Warszawa)

Pomysły na seminarium na bazie tekstów z EMNLP Findings:
– Ewa Szymańska: https://www.aclweb.org/anthology/2020.emnlp-main.217/
– Olga Majewska: https://www.aclweb.org/anthology/2020.deelio-1.5/
– Marta Kwiatkowska: https://www.aclweb.org/anthology/2020.findings-emnlp.266/

https://www.aclweb.org/anthology/2020.findings-emnlp.295.pdf

||<style="border:0;padding-top:5px;padding-bottom:5px">'''2 kwietnia 2020'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Stan Matwin''' (Dalhousie University)||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''Efficient training of word embeddings with a focus on negative examples''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}} {{attachment:seminarium-archiwum/icon-en.gif|Slajdy po angielsku.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">This presentation is based on our [[https://pdfs.semanticscholar.org/1f50/db5786913b43f9668f997fc4c97d9cd18730.pdf|AAAI 2018]] and [[https://aaai.org/ojs/index.php/AAAI/article/view/4683|AAAI 2019]] papers on English word embeddings. In particular, we examine the notion of “negative examples”, the unobserved or insignificant word-context co-occurrences, in spectral methods. we provide a new formulation for the word embedding problem by proposing a new intuitive objective function that perfectly justifies the use of negative examples. With the goal of efficient learning of embeddings, we propose a kernel similarity measure for the latent space that can effectively calculate the similarities in high dimensions. Moreover, we propose an approximate alternative to our algorithm using a modified Vantage Point tree and reduce the computational complexity of the algorithm with respect to the number of words in the vocabulary. We have trained various word embedding algorithms on articles of Wikipedia with 2.3 billion tokens and show that our method outperforms the state-of-the-art in most word similarity tasks by a good margin. We will round up our discussion with some general thought s about the use of embeddings in modern NLP.||

na [[https://www.youtube.com/ipipan|kanale YouTube]].
on [[https://www.youtube.com/ipipan|YouTube]].

Proponowane daty seminarów 2020-21:
1 lutego – Filip Graliński: Kleister
15 lutego
1 marca
15 marca
29 marca
12 kwietnia
26 kwietnia
10 maja
24 maja
7 czerwca
21 czerwca

Marcin Junczys-Dowmunt przy okazji świąt?
Adam Jatowt?
Piotrek Pęzik? Wrocław?
Kwantyfikatory?
MARCELL? Może Piotrek z Bartkiem?

Umówić się z Brylską, zapytać tę od okulografii, czy to jest PJN
Agnieszka Kwiatkowska – zobaczyć ten jej tekst, moze też coś opowie?
Ew. Kasia Brylska, Monika Płużyczka na seminarium? Marcin Napiórkowski z Karolem?
Maciej Karpiński
Demenko – dawno już ich nie było; można iść po kluczu HLT Days

MTAS?
– NLP dla tekstów historycznych – Marcin/Witek? razem z KORBĄ, pokazać oba ręcznie znakowane korpusy i benchmarki na tagerach – maj,
– może Wrocław mógłby coś pokazać? – pisałem do Maćka P.

– jakieś wystąpienia PolEvalowe?

Tomek Dwojak i inni z https://zpjn.wmi.amu.edu.pl/seminar/?

Będzie na Data Science Summit:

Using topic modeling for differentiation based on Polish parliament plus person
Aleksander Nosarzewski
Statistician @ Citi

Artykuł o GPT napisał Mateusz Litwin: https://www.linkedin.com/in/mateusz-litwin-06b3a919/
W OpenAI jest jeszcze https://www.linkedin.com/in/jakub-pachocki/
i https://www.linkedin.com/in/szymon-sidor-98164044/


Text data can be an invaluable source of information. In particular, what, how often and in which way we talk about given subjects can tell a lot about us. Unfortunately, manual scrambling through huge text datasets can be a cumbersome task. Luckily, there is a class of unsupervised models - topic models, which can perform this task for us, with very little input from our side. I will present how to use Structural Topic Model (STM) - an enhancement over popular LDA to obtain some kind of measure of differences between given groups or agents of interest, based on an example of Polish parliamentary speeches and political parties.

||<style="border:0;padding-top:5px;padding-bottom:5px">'''12 DATA 2017''' ('''UWAGA: ''' wystąpienie odbędzie się o 13:00 w ramach [[https://ipipan.waw.pl/instytut/dzialalnosc-naukowa/seminaria/ogolnoinstytutowe|seminarium IPI PAN]])||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''OSOBA''' (AFILIACJA)||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''Tytuł zostanie udostępniony w najbliższym czasie''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Opis wystąpienia zostanie udostępniony wkrótce.||

||<style="border:0;padding-left:30px;padding-bottom:5px">'''[[attachment:seminarium-archiwum/201--.pdf|...]]''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}} {{attachment:seminarium-archiwum/icon-en.gif|Slajdy w języku angielskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">...||

}}}

Seminarium „Przetwarzanie języka naturalnego” 2020–2021

Seminarium Zespołu Inżynierii LingwistycznejInstytucie Podstaw Informatyki Polskiej Akademii Nauk odbywa się średnio co 2 tygodnie, zwykle w poniedziałki o godz. 10:15 (obecnie online – prosimy o korzystanie z linku przy tytule wystąpienia) i ma charakter otwarty. Poszczególne referaty ogłaszane są na Polskiej Liście Językoznawczej oraz na stronie Lingwistyka komputerowa na Facebooku. Nagrania wystąpień dostępne są na kanale YouTube.

seminar

5 października 2020

Piotr Rybak, Robert Mroczkowski, Janusz Tracz (Allegro), Ireneusz Gawlik (Allegro / AGH)

https://www.youtube.com/watch?v=B7Y9fK2CDWw Przegląd modeli BERT dla języka polskiego  Wystąpienie w języku polskim.

W ciągu ostatnich lat seria modeli opartych o architekturę BERT istotnie poprawiła skuteczność modeli dla wielu zadań przetwarzania języka naturalnego. Podczas wystąpienia pokrótce opowiemy, jak działa BERT oraz kilka jego wariantów. Następnie skupimy się na modelach dostępnych dla języka polskiego oraz ich skuteczności w rankingu KLEJ. Na koniec opowiemy o nowym modelu opracowanym wspólnie przez IPI PAN i Allegro.

2 listopada 2020

Inez Okulska (NASK)

https://www.youtube.com/watch?v=LkR-i2Z1RwM Ile treści jest w semantyce, czyli jak bardzo można przekształcać wektory typu word2vec, by nie stracić jakości uczenia  Wystąpienie w języku polskim.

Wprowadzenie wektorowej reprezentacji słów, zawierającej wagi wyrazów kontekstowych i centralnych, obliczone w wyniku mapowania gigantycznych korpusów danego języka, a nie kodujące jedynie ręcznie wybrane, lingwistyczne cechy słów, okazały się dla badań NLP przełomowe. Po pierwszym zachwycie wprawdzie nastąpił okres rewizji i poszukiwania ulepszeń - przede wszystkim poszerzania kontekstu, obsługi homonimów itp. Niemniej jednak klasyczne zanurzenia wciąż znajdują zastosowanie w wielu zadaniach - choćby klasyfikacji treści - i w wielu przypadkach wyniki, które dają, nadal są wystarczająco dobre. Co właściwe kodują? Czy zawierają elementy redundantne? Czy informacje w nich zawarte poddają się przekształceniom lub redukcji w sposób wciąż zachowujący oryginalny „sens”. Czym jest tu sens? Jak bardzo można wektory te deformować i jak to się ma do metod szyfrowania? W swoim wystąpieniu przedstawię rozważania na ten temat, ilustrowane wynikami kolejnych „tortur” wektorów (word2vec i glove) i ich skuteczności w zadaniu klasyfikacji tekstów, których treść musi pozostać zamaskowana dla ludzkiego oka.

16 listopada 2020

Agnieszka Chmiel (Uniwersytet im. Adama Mickiewicza w Poznaniu), Danijel Korzinek (Polsko-Japońska Akademia Technik Komputerowych)

https://www.youtube.com/watch?v=MxbgQL316DQ PINC (Polish Interpreting Corpus): jak korpus może pomóc w badaniach nad procesem tłumaczenia symultanicznego  Wystąpienie w języku polskim.

PINC to pierwszy polski korpus tłumaczenia symultanicznego oparty na polsko-angielskich i angielsko-polskich tłumaczeniach w Parlamencie Europejskim. Wykorzystanie autentycznych danych tłumaczeniowych umożliwia poszukiwanie odpowiedzi na wiele pytań dotyczących procesu tłumaczenia symultanicznego. Dzięki analizie opóźnienia czasowego tłumaczenia w stosunku do oryginału można zbadać mechanizmy aktywacji i inhibicji w przetwarzaniu leksykalnym tłumacza. Dane na temat płynności wypowiedzi i pauz umożliwiają wyciąganie wniosków o obciążeniu kognitywnym. W prezentacji przedstawimy sposób przetwarzania danych w korpusie (m.in. identyfikację głosów tłumaczy) i główne wyzwania, takie jak analiza języka, analiza zależnościowa i wiązanie dwujęzyczne. Pokażemy, w jaki sposób zastosowanie poszczególnych danych może pomóc w zrozumieniu tego, na czym polega proces tłumaczenia, a nawet tego, co dzieje się w umyśle tłumacza.

30 listopada 2020

Findings of ACL: EMNLP 2020: sesja polska

Łukasz Borchmann et al. (Applica.ai)

https://www.youtube.com/watch?v=THe1URk40Nk Contract Discovery: Dataset and a Few-Shot Semantic Retrieval Challenge with Competitive Baselines (Wyszukiwanie fragmentu tekstu prawnego na podstawie kilku przykładów, czyli o zbiorze Contract Discovery oraz referencyjnych wynikach)  Wystąpienie w języku polskim. Slajdy po angielsku.

Problem Contract Discovery dotyczy ustalania czy w dokumencie znajduje się dana klauzula lub ekstrakcją określanego typu klauzul, na potrzeby dalszej analizy, takiej jak ocena ryzyka. Ponieważ nie istniał publicznie dostępny zbiór, pozwalający na ewaluacje rozwiązań identyfikujących fragmenty niestrukturyzowanego tekstu prawnego, podjęliśmy się jego stworzenia. W ramach zaproponowanego wyzwania, zakłada się, że poszukiwany fragment może być dowolnym podciągiem dokumentu, tzn. nie musi stanowić kompletnej jednostki tekstu prawnego, takiej jak paragraf, punkt czy podpunkt. Ponadto, od proponowanych systemów oczekuje się bazowania na kilku przykładach analogicznych klauzul z innych dokumentów. Przy tak postawionym problemie, pretrenowane, uniwersalne enkodery zdań okazują się zawodzić, w przeciwieństwie do rozwiązań bazujących na modelach języka.

Piotr Szymański (Politechnika Wrocławska), Piotr Żelasko (Johns Hopkins University)

https://www.youtube.com/watch?v=TXSDhCtTRpw WER we are and WER we think we are  Wystąpienie w języku polskim. Slajdy po angielsku.

Przetwarzanie mowy w języku naturalnym wymaga dostępności wysokiej jakości transkryptów. W niniejszym artykule wyrażamy nasz sceptycyzm wobec ostatnich doniesień o bardzo niskich wskaźnikach błędu słów (WER) osiąganych przez nowoczesne systemy automatycznego rozpoznawania mowy (ASR) na podstawie zbiorów danych porównawczych. Przedstawiamy kilka problemów związanych z popularnymi benchmarkami i porównujemy trzy nowoczesne komercyjne systemy ASR na wewnętrznym zbiorze rzeczywistych spontanicznych rozmów ludzkich i publicznym zbiorze HUB'05. Pokazujemy, że wyniki WER są znacznie wyższe niż najlepiej raportowane wyniki. Sformułowaliśmy zestaw wytycznych, które mogą pomóc w tworzeniu rzeczywistych, wielodomenowych zbiorów danych z wysokiej jakości anotacjami do szkolenia i testowania solidnych systemów ASR.

17 grudnia 2020

Piotr Przybyła (Instytut Podstaw Informatyki PAN)

https://www.youtube.com/watch?v=newobY5cBJo Upraszczanie tekstu przez podmiany wielowyrazowe  Wystąpienie w języku polskim.

Wystąpienie będzie poświęcone zadaniu upraszczania tekstu przez podmiany wielowyrazowe, w którym zdanie w języku naturalnym modyfikuje się dla zwiększenia zrozumiałości poprzez zastępowanie jego fragmentów prostszymi odpowiednikami. W odróżnieniu od wcześniejszych prac, w tym sformułowaniu zarówno fragment zastępujący i zastępowany mogą mieć dowolną długość. Dla analizy tego zadania zbudowaliśmy korpus (MWLS1), składający się z 1462 zdań z 7059 podmianami zgromadzonymi poprzez crowdsourcing. Przedstawię także algorytm w sposób automatyczny generujący takie podmiany (Plainifier), wykorzystując specjalnie przygotowany model językowy, oraz rezultaty ewaluacji jego jakości. Wyniki badań zostały opublikowane w pracy Multi-word Lexical Simplification na konferencji COLING 2020.

18 stycznia 2021

Norbert Ryciak, Maciej Chrabąszcz, Maciej Bartoszuk (Sages)

https://www.youtube.com/watch?v=L8RRx9KVhJs Klasyfikacja wniosków patentowych  Wystąpienie w języku polskim. Slajdy po angielsku.

W prezentacji przedstawione zostanie rozwiązanie zadania klasyfikacji wniosków patentowych, które zajęło drugie miejsce w konkursie GovTech. Omówiona zostanie specyfikacja problemu i zaproponowane rozwiązanie. W szczególności przedstawiona zostanie autorska metoda reprezentacji tekstów, oparta na interpretacji dokumentu jako „chmura embeddingów”.

1 lutego 2021

Adam Jatowt (Uniwersytet Leopolda i Franciszka w Innsbrucku)

https://www.youtube.com/watch?v=e7NblngMe6A Automatyczne odpowiadanie na pytania i znajdowanie analogicznych słów w archiwach artykułów prasowych  Wystąpienie głównie w języku angielskim.

Archiwa artykułów prasowych oferują ogromną wartość dla naszego społeczeństwa, pomagając użytkownikom poznać szczegóły wydarzeń, które miały miejsce w przeszłości. Obecnie dostęp do tych zbiorów jest utrudniony dla przeciętnego użytkownika ze względu na dużą ilość zgromadzonych dokumentów i konieczność posiadania specjalistycznej wiedzy z historii. Podczas prezentacji pokażemy model automatycznego odpowiadania na pytania na podstawie archiwalnych zbiorów artykułów prasowych, z modułem dedykowanym do znajdowania artykułów przy użyciu informacji czasowych. W drugiej części referatu omówimy metody na odnajdywanie i objaśnianie „czasowych analogów” – wyrazów z przeszłości, które są analogiczne do wyrazów obecnych (np. walkman jako czasowy analog iPada).

15 lutego 2021

Aleksandra Nabożny (Polsko-Japońska Akademia Technik Komputerowych)

Metoda optymalizacji pracy eksperta przy anotowaniu niewiarygodnych treści medycznych]  Wystąpienie w języku polskim.

Automatyczna klasyfikacja niewiarygodnych treści medycznych jest zadaniem niezwykle trudnym. Ekspercka ocena jest bowiem obarczona dużym skrzywieniem interpretacyjnym, które jest zależne od indywidualnych doświadczeń klinicznych danego lekarza. Ponadto, prosta ocena faktograficzna okazuje się niewystarczająca do określenia wiarygodności tego typu treści. Podczas seminarium przedstawię efekty moich i zespołu wysiłków w kierunku optymalizacji procesu anotacji. Zaproponowaliśmy metodę szeregowania zdań, dzięki której zdania o niższej wiarygodności z większym prawdopodobieństwem zostaną umieszczone na początku kolejki do oceny. Przedstawię również nasze propozycje rozszerzenia instrukcji dla anotatorów, mającej na celu zwiększenie spójności ocen. Na koniec zaproszę do dyskusji na temat potencjalnych kierunków badań w celu wykrywania szkodliwych narracji w tzw. fake newsach medycznych.

9 marca 2021 (UWAGA: seminarium łączone z instytutowym, odbędzie się wyjątkowo we wtorek o 12:00)

Aleksander Wawer (Instytut Podstaw Informatyki PAN), Izabela Chojnicka (Wydział Psychologii UW), Justyna Sarzyńska-Wawer (Instytut Psychologii PAN)

Uczenie maszynowe w wykrywaniu schizofrenii i autyzmu na podstawie wypowiedzi tekstowych  Wystąpienie w języku polskim.

Diagnostyka zaburzeń psychicznych na podstawie danych tekstowych to nowy obszar zastosowań dla przetwarzania języka naturalnego, a w szczególności metod uczenia maszynowego i głębokiego uczenia. Omówimy serię eksperymentów wykonanych na polskojęzycznych danych tekstowych dotyczących zaburzeń ze spektrum autyzmu i schizofrenii. Wystąpienie rozpoczniemy od analizy obydwu zaburzeń oraz przedstawienia narzędzi diagnostycznych: TLC i ADOS-2, wraz z charakterystyką zebranych danych. Przedstawimy efekty zastosowania metod słownikowych, mierzących takie wymiary jak poziom abstrakcji językowej oraz wydźwięk. Następnie przejdziemy do prób automatycznego diagnozowania obydwu zaburzeń. Porównamy skuteczność: (1) tradycyjnych narzędzi diagnostycznych TLC i ADOS-2, (2) metod uczenia maszynowego i głębokiego uczenia zastosowanych do danych zgromadzonych przez te narzędzia oraz (3) psychiatrów. Omówimy skuteczność najprostszych metod typu bag-of-words, metod słownikowych, a także głębokich sieci neuronowych. Przedstawimy eksperymenty z transfer learning, a także uczeniem w scenariuszach zero-shot i few-shot, dedykowanych sytuacjom o małej liczebności danych, co jest typowym problemem w warunkach klinicznych. Psychiatria to jedna z nielicznych dziedzin medycyny, w których diagnoza większości zaburzeń opiera się na subiektywnej ocenie psychiatry. Nasze prace są krokiem w kierunku wprowadzenia zautomatyzowanych i obiektywnych narzędzi wspomagających diagnostykę.

15 marca 2021

Filip Graliński (1Applica.ai / Uniwersytet Adama Mickiewicza)

Kleister (pełny tytuł podamy wkrótce)  Wystąpienie w języku polskim.

Streszczenie wystąpienia podamy już wkrótce.

Zapraszamy także do zapoznania się z archiwum seminariów z lat 2000–2015 oraz listą wystąpień z lat 2015–2020.