Locked History Actions

Diff for "seminarium"

Differences between revisions 305 and 1004 (spanning 699 versions)
Revision 305 as of 2018-12-03 12:28:31
Size: 16283
Comment:
Revision 1004 as of 2025-09-10 20:03:36
Size: 11752
Comment:
Deletions are marked like this. Additions are marked like this.
Line 1: Line 1:
## page was renamed from seminarium-archiwum
Line 3: Line 2:
= Seminarium „Przetwarzanie języka naturalnego” 201819 = = Seminarium „Przetwarzanie języka naturalnego” 202526 =
Line 5: Line 4:
||<style="border:0;padding-bottom:10px">Seminarium [[http://nlp.ipipan.waw.pl/|Zespołu Inżynierii Lingwistycznej]] w&nbsp;[[http://www.ipipan.waw.pl/|Instytucie Podstaw Informatyki]] [[http://www.pan.pl/|Polskiej Akademii Nauk]] odbywa się nieregularnie w&nbsp;poniedziałki zwykle o&nbsp;godz.&nbsp;10:15 w&nbsp;siedzibie IPI&nbsp;PAN (ul.&nbsp;Jana Kazimierza&nbsp;5, Warszawa) i&nbsp;ma charakter otwarty. Poszczególne referaty ogłaszane są na [[http://lists.nlp.ipipan.waw.pl/mailman/listinfo/ling|Polskiej Liście Językoznawczej]] oraz na stronie [[https://www.facebook.com/lingwistyka.komputerowa|Lingwistyka komputerowa]] na Facebooku. Wszystkie nagrania dostępne są na [[https://www.youtube.com/channel/UC5PEPpMqjAr7Pgdvq0wRn0w|kanale YouTube]].||<style="border:0;padding-left:30px;">[[seminar|{{attachment:seminarium-archiwum/en.png}}]]|| ||<style="border:0;padding-bottom:10px">Nowa edycja seminarium [[http://nlp.ipipan.waw.pl/|Zespołu Inżynierii Lingwistycznej]] w&nbsp;[[http://www.ipipan.waw.pl/|Instytucie Podstaw Informatyki]] [[http://www.pan.pl/|Polskiej Akademii Nauk]] rozpocznie się w październiku 2025 r. Seminarium odbywa się średnio co 2 tygodnie, zwykle w&nbsp;poniedziałki o&nbsp;godz.&nbsp;10:15 (niekiedy online – prosimy o korzystanie z linku przy tytule wystąpienia) i&nbsp;ma charakter otwarty. Poszczególne referaty ogłaszane są na [[http://lists.nlp.ipipan.waw.pl/mailman/listinfo/ling|Polskiej Liście Językoznawczej]] oraz na stronie [[https://www.facebook.com/lingwistyka.komputerowa|Lingwistyka komputerowa]] na Facebooku. Nagrania wystąpień dostępne są na [[https://www.youtube.com/ipipan|kanale YouTube]].||<style="border:0;padding-left:30px;">[[seminar|{{attachment:seminarium-archiwum/en.png}}]]||
Line 7: Line 6:
||<style="border:0;padding-top:5px;padding-bottom:5px">'''1 października 2018'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Janusz S. Bień''' (Katedra Lingwistyki Formalnej UW, prof. emeryt)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=mOYzwpjTAf4|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2018-10-01.pdf|Elektroniczne indeksy leksykograficzne]]''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Omówione zostaną indeksy do zasobów leksykograficznych dostępnych w Internecie w formacie !DjVu. Indeksy takie mogą być przeglądane, modyfikowane i tworzone za pomocą swobodnego (dostępnego bezpłatnie na otwartej licencji) programu djview4poliqarp — zostanie przedstawiona geneza i historia tego programu. W programie tym obsługa indeksów została pierwotnie wprowadzona na potrzeby indeksu haseł do XIX-wiecznego słownika Lindego, ale może być wykorzystywana również do innych zasobów, jak to zostanie pokazane na przykładach. Zostaną w szczególności zademonstrowane — po raz pierwszy publicznie — ulepszenia wprowadzone do programu w ostatnich miesiącach.||
||<style="border:0;padding-top:5px;padding-bottom:5px">'''15 września 2025'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Louis Esteve''' (Universite Paris-Saclay) ||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Diversity and dataset size – a quantitative perspective''' &#160;{{attachment:seminarium-archiwum/icon-en.gif|Wystąpienia w języku angielskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">The field of Natural Language Processing (NLP) studies the abilities of computer systems to process and generate natural language, and has received increasing attention from the general population since the democratisation of generative and conversational models. However, behind the scenes, state-of-the-art NLP models are trained on ever-larger datasets, reaching trillions of tokens. It may be argued that the creation and use of such immense datasets is motivated by the idea that 'the larger the dataset, the more diverse it is', and that in turn 'if the training set is more diverse, it shall yield better models'. However, these statements thus far remain intuitions and need to be properly tested. To this end, this presentation will tackle methods and caveats of formal diversity quantification including limitations of the literature, a preliminary discussion on the link between diversity and dataset size, as well as their impact on downstream applications.||
Line 12: Line 11:
||<style="border:0;padding-top:5px;padding-bottom:5px">'''15 października 2018'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Wojciech Jaworski, Szymon Rutkowski''' (Uniwersytet Warszawski)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=SbPAdmRmW08|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2018-10-15.pdf|Wielowarstwowy regułowy model fleksji języka polskiego]]''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Referat poświęcony będzie wielowarstwowemu modelowi fleksji języka polskiego. Model opracowany został na podstawie haseł pochodzących ze Słownika Gramatycznego Języka Polskiego; nie korzysta z koncepcji paradygmatu odmiany. Model składa się z trzech warstw ręcznie opracowanych reguł: „warstwy ortograficzno-fonetycznej” konwertującej segment do reprezentacji odzwierciedlającej prawidłowości morfologiczne języka, „warstwy analitycznej” generującej lemat oraz określającej afiksy oraz „warstwy interpretacji” nadającej interpretację morfosyntaktyczną na podstawie wykrytych afiksów. Model dostarcza wiedzę o języku [[http://eniam.nlp.ipipan.waw.pl/morphology.html|analizatorowi morfologicznemu]] zaopatrzonemu w funkcję odgadywania lematów i interpretacji morfosyntaktycznych dla form nie należących do słownika (ang. guesser). Drugim zastosowaniem jest [[http://eniam.nlp.ipipan.waw.pl/morphology2.html|generowanie form słów]] na podstawie lematu i interpretacji morfosyntaktycznej. Podczas referatu poruszone zostanie również zagadnienie dezambiguacji wyników dostarczanych przez analizator morfologiczny. Wersja demonstracyjna programu dostępna jest w Internecie.||
Line 17: Line 12:
||<style="border:0;padding-top:5px;padding-bottom:5px">'''29 października 2018'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Jakub Waszczuk''' (Uniwersytet Heinricha Heinego w Düsseldorfie)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=zjGQRG2PNu0|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2018-10-29.pdf|Od tagowania morfoskładniowego do identyfikacji czasownikowych jednostek wielowyrazowych: podejście dyskryminatywne]]''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}} {{attachment:seminarium-archiwum/icon-en.gif|Slajdy w języku angielskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Pierwsza część referatu poświęcona została narzędziu Concraft-pl 2.0, nowej wersji morfoskładniowego tagera dla języka polskiego bazującego na warunkowych polach losowych. Concraft-pl 2.0 przeprowadza podział na słowa (tokenizację) w ramach ujednoznaczniania morfoskładniowego, co pozwala używać go bezpośrednio na grafach wyjściowych analizatora Morfeusz. Inne istniejące tagery dla języka polskiego albo ignorują ten problem, albo opierają się na heurystykach stosowanych przed fazą ujednoznaczniania. W drugiej części referatu przedstawiona została metoda automatycznej identyfikacji czasownikowych jednostek wielowyrazowych opierająca się na wynikach analizy zależnościowej. W tym podejściu identyfikacja sprowadza się do problemu etykietowania, w którym jedna z dwóch etykiet (MWE/not-MWE) musi zostać określona dla każdego wierzchołka drzewa zależnościowego. Do rozwiązania tego problemu wykorzystany został model warunkowych pól losowych dostosowany do drzewiastej struktury danych wejściowych. System oparty na tym podejściu uzyskał pierwsze miejsce w zamkniętej ścieżce konkursu PARSEME shared task 2018.||
||<style="border:0;padding-top:15px">Zapraszamy także do zapoznania się z [[http://nlp.ipipan.waw.pl/NLP-SEMINAR/previous-p.html|archiwum seminariów z lat 2000–2015]] oraz [[http://zil.ipipan.waw.pl/seminarium-archiwum|listą wystąpień z lat 2015–2025]].||
Line 22: Line 14:
||<style="border:0;padding-top:5px;padding-bottom:5px">'''5 listopada 2018'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Jakub Kozakoszczak''' (Uniwersytet Warszawski / Uniwersytet Heinricha Heinego w Düsseldorfie)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=sz7dGmf8p3k|{{attachment:seminarium-archiwum/youtube.png}}]] '''Zawsze od rana do środy — semantyka i normalizacja quasi-okresowych określeń czasu w języku polskim''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Standardowo, wyrażenia takie jak „Januarys” lub „Fridays” są interpretowane w językach reprezentacji wiedzy czasowej jako plastry (slices) kolekcji czasowych drugiego stopnia, czyli np. wszystkie piąte elementy siedmioelementowych ciągów dni wyrównanych z ciągiem tygodni kalendarzowych. W wystąpieniu przedstawię wynik prac nad normalizacją najczęstszych polskich wyrażeń quasi-okresowych dla potrzeb systemu rezerwacyjnego. W części językoznawczej przedstawię argumenty przeciwko tłumaczeniu wyrażeń typu „piątki” na „piąte dni tygodnia” i testy semantyczne na proste klasy quasi-okresowości. W części formalnej zaproponuję rozszerzenie istniejących rozwiązań o reprezentację intensjonalnych operatorów quasi-okresowych „od”, „do”, „przed” i „po” obciętych do argumentów, dla których są monotoniczne. W części implementacyjnej zaprezentuję algorytm leniwego wyliczania uogólnionego przecięcia kolekcji.||
{{{#!wiki comment
Line 27: Line 16:
||<style="border:0;padding-top:5px;padding-bottom:5px">'''19 listopada 2018'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Daniel Zeman''' (Instytut Lingwistyki Formalnej i Stosowanej, Uniwersytet Karola w Pradze)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=xUmZ8Mxcmg0|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2018-11-19.pdf|Universal Dependencies and the Slavic Languages]]''' &#160;{{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Przedstawię Universal Dependencies, ogólnoświatową inicjatywę mającą na celu udostępnienie wielojęzycznych korpusów zaanotowanych na poziomie morfologicznym i składniowym zgodnie z uniwersalnymi wytycznymi. Omówię koncepcję kluczowych argumentów (ang. core arguments), która jest jednym z fundamentów UD. W drugiej części wykładu skupię się na kilku interesujących problemach i wyzwaniach związanych z zastosowaniem Uniwersalnych Zależności w językach słowiańskich. Omówię przykłady z 12 języków słowiańskich reprezentowanych obecnie w UD, które pokazują, że nadal można poprawić spójność międzyjęzykową.||
||<style="border:0;padding-top:5px;padding-bottom:5px">'''7 października 2023'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Uczestnicy konkursu PolEval 2024''' ||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Planowana seria prezentacji uczestników zadań PolEvalowych''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienia w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Lista wystąpień będzie dostępna wkrótce.||
Line 32: Line 21:
||<style="border:0;padding-top:5px;padding-bottom:5px">'''3 grudnia 2018'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Ekaterina Lapshinova-Koltunski''' (Uniwersytet Kraju Saary)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=UQ_6dDNEw8E|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2018-12-03.pdf|Analiza i anotacja koreferencji na potrzeby lingwistyki kontrastywnej i translatoryki]]''' &#160;{{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Podczas wykładu opowiem o trwających pracach nad analizą koreferencji w kontekście wielojęzycznym. Przedstawię dwa podejścia do analizy zjawisk koreferencyjnych: (1) teoretyczne, gdy na podstawie wiedzy lingwistycznej definiujemy kategorie językowe i używamy ich do stworzenia anotowanego korpusu, który można wykorzystać albo do dalszej analizy lingwistycznej, albo jako dane treningowe dla zastosowań NLP, (2) oparte na danych: w tym przypadku zaczynamy od zestawu płytkich cech naszym zdaniem związanych z dyskursem, wyodrębniamy struktury z dużej ilości danych i analizujemy je z językowego punktu widzenia próbując opisać i wyjaśnić obserwowane zjawiska za pomocą istniejących teorii i gramatyk.||
Line 37: Line 22:
||<style="border:0;padding-top:5px;padding-bottom:5px">'''7 stycznia 2019'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Adam Przepiórkowski''' (Instytut Podstaw Informatyki PAN / Uniwersytet Warszawski), '''Agnieszka Patejuk''' (Instytut Podstaw Informatyki PAN / Uniwersytet Oksfordzki)||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''Tytuł wystąpienia będzie dostępny wkrótce''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Streszczenie wystąpienia zostanie udostępnione w późniejszym terminie.||

||<style="border:0;padding-top:5px;padding-bottom:5px">'''14 stycznia 2019'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Agata Savary''' (Université François Rabelais Tours)||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''Tytuł wystąpienia będzie dostępny wkrótce''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}} {{attachment:seminarium-archiwum/icon-en.gif|Slajdy w języku angielskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Streszczenie wystąpienia zostanie udostępnione w późniejszym terminie.||

||<style="border:0;padding-top:5px;padding-bottom:5px">'''21 stycznia 2019'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Marek Łaziński''' (Uniwersytet Warszawski), '''Michał Woźniak''' (Uniwersytet Jagielloński) ||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''Tytuł wystąpienia będzie dostępny wkrótce''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Streszczenie wystąpienia zostanie udostępnione w późniejszym terminie.||

||<style="border:0;padding-top:5px;padding-bottom:5px">'''11 lutego 2019'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Anna Wróblewska''' (Politechnika Warszawska)||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''Tytuł wystąpienia będzie dostępny wkrótce''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Streszczenie wystąpienia zostanie udostępnione w późniejszym terminie.||

||<style="border:0;padding-top:5px;padding-bottom:5px">'''25 lutego 2019'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Jakub Dutkiewicz''' (Politechnika Poznańska)||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''Empirical research on medical information retrieval''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Streszczenie wystąpienia zostanie udostępnione w późniejszym terminie.||
||<style="border:0;padding-top:5px;padding-bottom:5px">'''11 marca 2024'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Mateusz Krubiński''' (Uniwersytet Karola w Pradze)||
||<style="border:0;padding-left:30px;padding-bottom:15px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Tytuł wystąpienia podamy wkrótce''' &#160;{{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku polskim.}}||
Line 64: Line 28:
||<style="border:0;padding-top:0px">Zapraszamy także do zapoznania się z [[http://nlp.ipipan.waw.pl/NLP-SEMINAR/previous-p.html|archiwum seminariów z lat 2000–15]] oraz [[http://zil.ipipan.waw.pl/seminarium-archiwum|listą wystąpień z lat 2015–18]].|| ||<style="border:0;padding-top:15px;padding-bottom:5px">'''8 stycznia 2024''' (prezentacja wyników projektu DARIAH.Lab)||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Zespół projektu DARIAH.Lab''' (Instytut Podstaw Informatyki PAN)||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''Tytuł wystąpienia poznamy wkrótce''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie po polsku.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Streszczenie wystąpienia udostępnimy w najbliższym czasie.||
Line 67: Line 34:
{{{#!wiki comment ||<style="border:0;padding-top:5px;padding-bottom:5px">'''3 października 2022'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''...''' (...)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Tytuł wystąpienia podamy wkrótce''' &#160;{{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Opis wystąpienia udostępnimy już niedługo.||
Line 70: Line 40:
Na pewno:
– 17 grudnia: odbiory?
(ferie: 28 stycznia – 10 lutego)
– 11 marca:
– 25 marca:
– 8 kwietnia:
(21 kwietnia: Poniedziałek Wielkanocny)
– 29 kwietnia: (uwaga: tydzień z majówką)
– 13 maja:
(17–19 maja: LTC w Poznaniu, więc ew. 20 maja można kogoś namówić na przyjazd przy okazji)
– 27 maja: Magda Zawisławska o SYNAMECIE
(2–7 czerwca: NAACL w Minneapolis)
– 10 czerwca:
Line 84: Line 41:
WOLNE TERMINY:

ATLAS: Explaining abstractive summarization - Emilia Wiśnios? Albo coś z NASK-owych tematów dot. przetwarzania prawa? Czy to jest to samo?

||<style="border:0;padding-bottom:10px">'''UWAGA''': ze względu na zakaz wstępu do IPI PAN dla osób niezatrudnionych w Instytucie, w stacjonarnej części seminarium mogą brać udział tylko pracownicy IPI PAN i prelegenci (także zewnętrzni). Dla pozostałych uczestników seminarium będzie transmitowane – prosimy o korzystanie z linku przy tytule wystąpienia.||

Uczestnicy Akcji COST CA18231: Multi3Generation: Multi-task, Multilingual, Multi-modal Language Generation:
– Marcin PAPRZYCKI (marcin.paprzycki@ibspan.waw.pl)
– Maria GANZHA (m.ganzha@mini.pw.edu.pl)
– Katarzyna WASIELEWSKA-MICHNIEWSKA (katarzyna.wasielewska@ibspan.waw.pl)


||<style="border:0;padding-top:5px;padding-bottom:5px">'''6 czerwca 2022'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Paula Czarnowska''' (University of Cambridge)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://teams.microsoft.com/l/meetup-join/19%3a06de5a6d7ed840f0a53c26bf62c9ec18%40thread.tacv2/1643554817614?context=%7b%22Tid%22%3a%220425f1d9-16b2-41e3-a01a-0c02a63d13d6%22%2c%22Oid%22%3a%22f5f2c910-5438-48a7-b9dd-683a5c3daf1e%22%7d|{{attachment:seminarium-archiwum/teams.png}}]] '''Tytuł wystąpienia podamy wkrótce''' &#160;{{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Opis wystąpienia udostępnimy już niedługo.||



||<style="border:0;padding-top:5px;padding-bottom:5px">'''2 kwietnia 2020'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Stan Matwin''' (Dalhousie University)||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''Efficient training of word embeddings with a focus on negative examples''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}} {{attachment:seminarium-archiwum/icon-en.gif|Slajdy po angielsku.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">This presentation is based on our [[https://pdfs.semanticscholar.org/1f50/db5786913b43f9668f997fc4c97d9cd18730.pdf|AAAI 2018]] and [[https://aaai.org/ojs/index.php/AAAI/article/view/4683|AAAI 2019]] papers on English word embeddings. In particular, we examine the notion of “negative examples”, the unobserved or insignificant word-context co-occurrences, in spectral methods. we provide a new formulation for the word embedding problem by proposing a new intuitive objective function that perfectly justifies the use of negative examples. With the goal of efficient learning of embeddings, we propose a kernel similarity measure for the latent space that can effectively calculate the similarities in high dimensions. Moreover, we propose an approximate alternative to our algorithm using a modified Vantage Point tree and reduce the computational complexity of the algorithm with respect to the number of words in the vocabulary. We have trained various word embedding algorithms on articles of Wikipedia with 2.3 billion tokens and show that our method outperforms the state-of-the-art in most word similarity tasks by a good margin. We will round up our discussion with some general thought s about the use of embeddings in modern NLP.||

na [[https://www.youtube.com/ipipan|kanale YouTube]].
on [[https://www.youtube.com/ipipan|YouTube]].

Nowe typy:

Aleksandra Gabryszak (DFKI Berlin):
– https://aclanthology.org/people/a/aleksandra-gabryszak/
– https://www.researchgate.net/profile/Aleksandra-Gabryszak
– miała tekst na warsztacie First Computing Social Responsibility Workshop (http://www.lrec-conf.org/proceedings/lrec2022/workshops/CSRNLP1/index.html) na LREC-u 2022: http://www.lrec-conf.org/proceedings/lrec2022/workshops/CSRNLP1/pdf/2022.csrnlp1-1.5.pdf

Marcin Junczys-Dowmunt przy okazji świąt?
Adam Jatowt?
Piotrek Pęzik? Wrocław?
Kwantyfikatory?
MARCELL? Może Piotrek z Bartkiem?
Line 90: Line 86:
Michał Marcińczuk
Line 96: Line 91:
Krzysztof Wołk:
Gdyby w przyszłości była potrzeba pracuję nad NMT we współpracy z kolegą który pracuje w dolinie krzemowej. On też będąc w PL mógłby wystąpić lub wystąpić zdalnie. Zajmuję się sieciami neuronowymi w tym NMT wraz ze mną, opisowym generowaniem ruchów modeli 3D oraz generowaniem sztuki pisanej za pomocą sieci, klasyfikacją pochodzenia nazwisk za pomocą sieci I podobnymi tematami.
Line 100: Line 92:
– Marcin, Witek: Chronofleks
– Krzysztof Wołk: NMT na subword units
– Piotrek Pęzik obiecał coś wygłosić
– Justyna Sarzyńska?
– Marcin Junczys-Dowmunt przy okazji świąt?
Line 107: Line 94:

Będzie na Data Science Summit:

Using topic modeling for differentiation based on Polish parliament plus person
Aleksander Nosarzewski
Statistician @ Citi

Artykuł o GPT napisał Mateusz Litwin: https://www.linkedin.com/in/mateusz-litwin-06b3a919/
W OpenAI jest jeszcze https://www.linkedin.com/in/jakub-pachocki/
i https://www.linkedin.com/in/szymon-sidor-98164044/


Text data can be an invaluable source of information. In particular, what, how often and in which way we talk about given subjects can tell a lot about us. Unfortunately, manual scrambling through huge text datasets can be a cumbersome task. Luckily, there is a class of unsupervised models - topic models, which can perform this task for us, with very little input from our side. I will present how to use Structural Topic Model (STM) - an enhancement over popular LDA to obtain some kind of measure of differences between given groups or agents of interest, based on an example of Polish parliamentary speeches and political parties.

Seminarium „Przetwarzanie języka naturalnego” 2025–26

Nowa edycja seminarium Zespołu Inżynierii LingwistycznejInstytucie Podstaw Informatyki Polskiej Akademii Nauk rozpocznie się w październiku 2025 r. Seminarium odbywa się średnio co 2 tygodnie, zwykle w poniedziałki o godz. 10:15 (niekiedy online – prosimy o korzystanie z linku przy tytule wystąpienia) i ma charakter otwarty. Poszczególne referaty ogłaszane są na Polskiej Liście Językoznawczej oraz na stronie Lingwistyka komputerowa na Facebooku. Nagrania wystąpień dostępne są na kanale YouTube.

seminar

15 września 2025

Louis Esteve (Universite Paris-Saclay)

https://zil.ipipan.waw.pl/seminarium-online Diversity and dataset size – a quantitative perspective  Wystąpienia w języku angielskim.

The field of Natural Language Processing (NLP) studies the abilities of computer systems to process and generate natural language, and has received increasing attention from the general population since the democratisation of generative and conversational models. However, behind the scenes, state-of-the-art NLP models are trained on ever-larger datasets, reaching trillions of tokens. It may be argued that the creation and use of such immense datasets is motivated by the idea that 'the larger the dataset, the more diverse it is', and that in turn 'if the training set is more diverse, it shall yield better models'. However, these statements thus far remain intuitions and need to be properly tested. To this end, this presentation will tackle methods and caveats of formal diversity quantification including limitations of the literature, a preliminary discussion on the link between diversity and dataset size, as well as their impact on downstream applications.

Zapraszamy także do zapoznania się z archiwum seminariów z lat 2000–2015 oraz listą wystąpień z lat 2015–2025.