Differences between revisions 464 and 1001 (spanning 537 versions)

Seminarium „Przetwarzanie języka naturalnego” 2025–26

Nowa edycja seminarium Zespołu Inżynierii Lingwistycznej w Instytucie Podstaw Informatyki Polskiej Akademii Nauk rozpocznie się w październiku 2025 r. Seminarium odbywa się średnio co 2 tygodnie, zwykle w poniedziałki o godz. 10:15 (niekiedy online – prosimy o korzystanie z linku przy tytule wystąpienia) i ma charakter otwarty. Poszczególne referaty ogłaszane są na Polskiej Liście Językoznawczej oraz na stronie Lingwistyka komputerowa na Facebooku. Nagrania wystąpień dostępne są na kanale YouTube.

Zapraszamy także do zapoznania się z archiwum seminariów z lat 2000–2015 oraz listą wystąpień z lat 2015–2025.

7 października 2023

Uczestnicy konkursu PolEval 2024

Planowana seria prezentacji uczestników zadań PolEvalowych

Lista wystąpień będzie dostępna wkrótce.

11 marca 2024

Mateusz Krubiński (Uniwersytet Karola w Pradze)

Tytuł wystąpienia podamy wkrótce

8 stycznia 2024 (prezentacja wyników projektu DARIAH.Lab)

Zespół projektu DARIAH.Lab (Instytut Podstaw Informatyki PAN)

Tytuł wystąpienia poznamy wkrótce

Streszczenie wystąpienia udostępnimy w najbliższym czasie.

3 października 2022

... (...)

Tytuł wystąpienia podamy wkrótce

Opis wystąpienia udostępnimy już niedługo.

WOLNE TERMINY:

ATLAS: Explaining abstractive summarization - Emilia Wiśnios? Albo coś z NASK-owych tematów dot. przetwarzania prawa? Czy to jest to samo?

UWAGA: ze względu na zakaz wstępu do IPI PAN dla osób niezatrudnionych w Instytucie, w stacjonarnej części seminarium mogą brać udział tylko pracownicy IPI PAN i prelegenci (także zewnętrzni). Dla pozostałych uczestników seminarium będzie transmitowane – prosimy o korzystanie z linku przy tytule wystąpienia.

Uczestnicy Akcji COST CA18231: Multi3Generation: Multi-task, Multilingual, Multi-modal Language Generation: – Marcin PAPRZYCKI (marcin.paprzycki@ibspan.waw.pl) – Maria GANZHA (m.ganzha@mini.pw.edu.pl) – Katarzyna WASIELEWSKA-MICHNIEWSKA (katarzyna.wasielewska@ibspan.waw.pl)

6 czerwca 2022

Paula Czarnowska (University of Cambridge)

Tytuł wystąpienia podamy wkrótce

Opis wystąpienia udostępnimy już niedługo.

2 kwietnia 2020

Stan Matwin (Dalhousie University)

Efficient training of word embeddings with a focus on negative examples

This presentation is based on our AAAI 2018 and AAAI 2019 papers on English word embeddings. In particular, we examine the notion of “negative examples”, the unobserved or insignificant word-context co-occurrences, in spectral methods. we provide a new formulation for the word embedding problem by proposing a new intuitive objective function that perfectly justifies the use of negative examples. With the goal of efficient learning of embeddings, we propose a kernel similarity measure for the latent space that can effectively calculate the similarities in high dimensions. Moreover, we propose an approximate alternative to our algorithm using a modified Vantage Point tree and reduce the computational complexity of the algorithm with respect to the number of words in the vocabulary. We have trained various word embedding algorithms on articles of Wikipedia with 2.3 billion tokens and show that our method outperforms the state-of-the-art in most word similarity tasks by a good margin. We will round up our discussion with some general thought s about the use of embeddings in modern NLP.

na kanale YouTube. on YouTube.

Nowe typy:

Aleksandra Gabryszak (DFKI Berlin): – https://aclanthology.org/people/a/aleksandra-gabryszak/ – https://www.researchgate.net/profile/Aleksandra-Gabryszak – miała tekst na warsztacie First Computing Social Responsibility Workshop (http://www.lrec-conf.org/proceedings/lrec2022/workshops/CSRNLP1/index.html) na LREC-u 2022: http://www.lrec-conf.org/proceedings/lrec2022/workshops/CSRNLP1/pdf/2022.csrnlp1-1.5.pdf

Marcin Junczys-Dowmunt przy okazji świąt? Adam Jatowt? Piotrek Pęzik? Wrocław? Kwantyfikatory? MARCELL? Może Piotrek z Bartkiem?

Umówić się z Brylską, zapytać tę od okulografii, czy to jest PJN Agnieszka Kwiatkowska – zobaczyć ten jej tekst, moze też coś opowie? Ew. Kasia Brylska, Monika Płużyczka na seminarium? Marcin Napiórkowski z Karolem? Maciej Karpiński Demenko – dawno już ich nie było; można iść po kluczu HLT Days

MTAS? – NLP dla tekstów historycznych – Marcin/Witek? razem z KORBĄ, pokazać oba ręcznie znakowane korpusy i benchmarki na tagerach – maj, – może Wrocław mógłby coś pokazać? – pisałem do Maćka P.

– jakieś wystąpienia PolEvalowe?

Tomek Dwojak i inni z https://zpjn.wmi.amu.edu.pl/seminar/?

Będzie na Data Science Summit:

Using topic modeling for differentiation based on Polish parliament plus person Aleksander Nosarzewski Statistician @ Citi

Artykuł o GPT napisał Mateusz Litwin: https://www.linkedin.com/in/mateusz-litwin-06b3a919/ W OpenAI jest jeszcze https://www.linkedin.com/in/jakub-pachocki/ i https://www.linkedin.com/in/szymon-sidor-98164044/

Text data can be an invaluable source of information. In particular, what, how often and in which way we talk about given subjects can tell a lot about us. Unfortunately, manual scrambling through huge text datasets can be a cumbersome task. Luckily, there is a class of unsupervised models - topic models, which can perform this task for us, with very little input from our side. I will present how to use Structural Topic Model (STM) - an enhancement over popular LDA to obtain some kind of measure of differences between given groups or agents of interest, based on an example of Polish parliamentary speeches and political parties.

12 DATA 2017 (UWAGA: wystąpienie odbędzie się o 13:00 w ramach seminarium IPI PAN)

OSOBA (AFILIACJA)

Tytuł zostanie udostępniony w najbliższym czasie

Opis wystąpienia zostanie udostępniony wkrótce.

...

...

-  ⇤ ← Revision 464 as of 2020-01-15 15:07:33 → 
  Size: 21504
  Editor: MaciejOgrodniczuk
  Comment:
+   ← Revision 1001 as of 2025-08-18 22:41:31 → ⇥
  Size: 10224
  Editor: MaciejOgrodniczuk
  Comment:
-Deletions are marked like this.
+Additions are marked like this.
 Line 1:
-## page was renamed from seminarium-archiwum
-Line 3:
+Line 2:
-= Seminarium „Przetwarzanie języka naturalnego” 2019–20 =
+= Seminarium „Przetwarzanie języka naturalnego” 2025–26 =
-Line 5:
+Line 4:
-||<style="border:0;padding-bottom:10px">Seminarium [[http://nlp.ipipan.waw.pl/|Zespołu Inżynierii Lingwistycznej]] w&nbsp;[[http://www.ipipan.waw.pl/|Instytucie Podstaw Informatyki]] [[http://www.pan.pl/|Polskiej Akademii Nauk]] odbywa się nieregularnie, w&nbsp;poniedziałki, zwykle o&nbsp;godz.&nbsp;10:15 w&nbsp;siedzibie IPI&nbsp;PAN (ul.&nbsp;Jana Kazimierza&nbsp;5, Warszawa) i&nbsp;ma charakter otwarty. Poszczególne referaty ogłaszane są na [[http://lists.nlp.ipipan.waw.pl/mailman/listinfo/ling|Polskiej Liście Językoznawczej]] oraz na stronie [[https://www.facebook.com/lingwistyka.komputerowa|Lingwistyka komputerowa]] na Facebooku. Wszystkie nagrania dostępne są na [[https://www.youtube.com/channel/UC5PEPpMqjAr7Pgdvq0wRn0w|kanale YouTube]].||<style="border:0;padding-left:30px;">[[seminar|{{attachment:seminarium-archiwum/en.png}}]]||
+||<style="border:0;padding-bottom:10px">Nowa edycja seminarium [[http://nlp.ipipan.waw.pl/|Zespołu Inżynierii Lingwistycznej]] w&nbsp;[[http://www.ipipan.waw.pl/|Instytucie Podstaw Informatyki]] [[http://www.pan.pl/|Polskiej Akademii Nauk]] rozpocznie się w październiku 2025 r. Seminarium odbywa się średnio co 2 tygodnie, zwykle w&nbsp;poniedziałki o&nbsp;godz.&nbsp;10:15 (niekiedy online – prosimy o korzystanie z linku przy tytule wystąpienia) i&nbsp;ma charakter otwarty. Poszczególne referaty ogłaszane są na [[http://lists.nlp.ipipan.waw.pl/mailman/listinfo/ling|Polskiej Liście Językoznawczej]] oraz na stronie [[https://www.facebook.com/lingwistyka.komputerowa|Lingwistyka komputerowa]] na Facebooku. Nagrania wystąpień dostępne są na [[https://www.youtube.com/ipipan|kanale YouTube]].||<style="border:0;padding-left:30px;">[[seminar|{{attachment:seminarium-archiwum/en.png}}]]||
-Line 7:
+Line 6:
-||<style="border:0;padding-top:5px;padding-bottom:5px">'''23 września 2019'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Igor Boguslavsky''' (Institute for Information Transmission Problems, Russian Academy of Sciences / Universidad Politécnica de Madrid)||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''[[attachment:seminarium-archiwum/2019-09-23.pdf|Semantic analysis based on inference]]''' &#160;{{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:5px">I will present a semantic analyzer SemETAP, which is a module of a linguistic processor ETAP designed to perform analysis and generation of NL texts. We proceed from the assumption that the depth of understanding is determined by the number and quality of inferences we can draw from the text. Extensive use of background knowledge and inferences permits to extract implicit information.||
||<style="border:0;padding-left:30px;padding-bottom:0px">Salient features of SemETAP include: ||
||<style="border:0;padding-left:30px;padding-bottom:0px">— knowledge base contains both linguistic and background knowledge;||
||<style="border:0;padding-left:30px;padding-bottom:0px">— inference types include strict entailments and plausible expectations; ||
||<style="border:0;padding-left:30px;padding-bottom:0px">— words and concepts of the ontology may be supplied with explicit decompositions for inference purposes; ||
||<style="border:0;padding-left:30px;padding-bottom:0px">— two levels of semantic structure are distinguished. Basic semantic structure (BSemS) interprets the text in terms of ontological elements. Enhanced semantic structure (EnSemS) extends BSemS by means of a series of inferences; ||
||<style="border:0;padding-left:30px;padding-bottom:15px">— a new logical formalism Etalog is developed in which all inference rules are written.||

||<style="border:0;padding-top:5px;padding-bottom:5px">'''7 października 2019'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Tomasz Stanisz''' (Instytut Fizyki Jądrowej PAN)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=sRreAjtf2Jo|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2019-10-07.pdf|Co sieć złożona może powiedzieć o tekście?]]''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Sieci złożone, które znalazły zastosowanie w ilościowym opisie wielu różnych zjawisk, okazały się atrakcyjne także w badaniach nad językiem naturalnym. Formalizm sieciowy pozwala badać język z różnych punktów widzenia – sieć złożona może reprezentować na przykład wzajemne położenie słów w tekście, pokrewieństwo znaczeń, czy relacje gramatyczne. Jednym z rodzajów sieci lingwistycznych są sieci sąsiedztwa słów, opisujące współwystępowanie słów w tekstach. Pomimo prostoty konstrukcji, sieci sąsiedztwa słów mają szereg właściwości pozwalających na ich praktyczne wykorzystanie. Struktura takich sieci, wyrażona odpowiednio zdefiniowanymi wielkościami, odzwierciedla pewne cechy języka; zastosowanie metod uczenia maszynowego do zbiorów tych wielkości może posłużyć między innymi do zidentyfikowania autora tekstu.||

||<style="border:0;padding-top:5px;padding-bottom:5px">'''21 października 2019'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Agnieszka Patejuk''' (Instytut Podstaw Informatyki PAN / Uniwersytet Oksfordzki), '''Adam Przepiórkowski''' (Instytut Podstaw Informatyki PAN / Uniwersytet Warszawski)||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''[[attachment:seminarium-archiwum/2019-10-21.pdf|Koordynacja w standardzie Universal Dependencies]]''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}} {{attachment:seminarium-archiwum/icon-en.gif|Slajdy po angielsku.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">''Universal Dependencies'' (UD; [[https://universaldependencies.org/]]) to dominujący schemat znakowania składniowego wykorzystywany przez liczne parsery dla wielu języków.  Schemat ten nie do końca dobrze radzi sobie z reprezentacją koordynacji, tj. konstrukcji współrzędnie złożonych.  W niniejszym referacie zaproponujemy reprezentacje dwóch aspektów koordynacji, które nie miały wcześniej dobrych reprezentacji nie tylko w UD, ale także w teoriach zależnościowych: koordynacji różnych funkcji gramatycznych oraz koordynacji zagnieżdżonej.||

||<style="border:0;padding-top:5px;padding-bottom:5px">'''4 listopada 2019'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Marcin Będkowski''' (Uniwersytet Warszawski / Instytut Badań Edukacyjnych), '''Wojciech Stęchły''', '''Leopold Będkowski''', '''Joanna Rabiega-Wiśniewska''' (Instytut Badań Edukacyjnych), '''Michał Marcińczuk''' (Politechnika Wrocławska), '''Grzegorz Wojdyga''', '''Łukasz Kobyliński''' (Instytut Podstaw Informatyki PAN)||
||<style="border:0;padding-left:30px;padding-bottom:0px">[[https://www.youtube.com/watch?v=-oSBqG4_VDk|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2019-11-04a.pdf|Podobieństwo opisów kwalifikacji znajdujących się w Zintegrowanym Rejestrze Kwalifikacji]]''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''[[attachment:seminarium-archiwum/2019-11-04b.pdf|Analiza istniejących rozwiązań opisujących grupowanie kwalifikacji]]''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:5px">W referacie omówiono problem porównywania dokumentów zawartych w Zintegrowanym Rejestrze Kwalifikacji pod względem ich podobieństwa treściowego.||
||<style="border:0;padding-left:30px;padding-bottom:5px">W pierwszej części scharakteryzujemy tło zagadnienia, w tym strukturę opisu efektów uczenia się w kwalifikacjach oraz zdań opisujących efekty uczenia się. Zgodnie z definicją zawartą w ustawie o Zintegrowanym Systemie Kwalifikacji efekt uczenia się to wiedza, umiejętności oraz kompetencje społeczne nabyte w procesie uczenia się, a kwalifikacja to zestaw efektów uczenia się, których osiągnięcie potwierdza się odpowiednim dokumentem (np. dyplomem, certyfikatem). Zdania, których referentami są efekty uczenia się, mają ustabilizowaną budowę i składają się zasadniczo z tzw. czasownika operacyjnego (opisującego czynność stanowiącą efekt uczenia się) oraz frazy nominalnej stanowiącej jego dopełnienie (nazywającej obiekt będący przedmiotem tej czynności, w skrócie: obiekt umiejętności). Przykładowo: „Określa wady wzroku i sposoby ich korekty na podstawie pomiaru refrakcji oczu” czy „Uczeń odczytuje rysunki techniczne.”.||
||<style="border:0;padding-left:30px;padding-bottom:5px">W drugiej części zarysujemy podejście pozwalające na określenie stopnia podobieństwa między kwalifikacjami oraz ich grupowanie, wraz z jego założeniami i stojącymi za nimi intuicjami. Określimy przyjęte rozumienie podobieństwa treściowego, mianowicie zarysujemy podejście określania podobieństwa tekstów w wariancie umożliwiającym automatyczne przetwarzanie tekstu z wykorzystaniem narzędzi komputerowych. Przedstawimy prosty model reprezentacji wypowiedzi, tzw. bag of words, w dwóch wersjach.||
||<style="border:0;padding-left:30px;padding-bottom:5px">Pierwsza z nich zakłada pełną atomizację efektów uczenia się (w tym fraz nominalnych, obiektów umiejętności) i przedstawienie ich jako zbiorów pojedynczych zlematyzowanych rzeczowników będących reprezentacją obiektów umiejętności. Druga opiera się na n-gramach z uwzględnieniem miary TFIDF (tj. ważenie częstością termów – odwrotna częstość w dokumentach), pozwalające na wydobycie z tekstów słów i fraz kluczowych.||
||<style="border:0;padding-left:30px;padding-bottom:5px">Pierwsze podejście można określić mianem „rozrzutnego”, natomiast drugie – „oszczędnego”. Pierwsze pozwala bowiem dla każdej kwalifikacji przedstawić wiele kwalifikacji podobnych (choć stopień podobieństwa bywa niski). Natomiast drugie dopuszcza sytuację, w której dla danej kwalifikacji nie znajdzie się żadna podobna.||
||<style="border:0;padding-left:30px;padding-bottom:5px">W części trzeciej opiszemy przykładowe grupowania i listy rankingowe bazujące na obu podejściach, oparte na skalowaniu wielowymiarowym i algorytmie k-średnich oraz grupowaniu hierarchicznym. Przedstawimy także studium przypadku, które posłuży do zilustrowania zalet oraz niedostatków obu podejść.||
||<style="border:0;padding-left:30px;padding-bottom:5px">W czwartej części przedstawimy wnioski dotyczące grupowania kwalifikacji, ale także ogólne wnioski związane z określaniem słów kluczy. W szczególności przedstawimy wnioski dotyczące stosowania wskazanych metod do porównywania tekstów zróżnicowanej długości, a także częściowo pokrywających się (zawierających wspólne fragmenty).||
||<style="border:0;padding-left:30px;padding-bottom:15px">Referat został przygotowany we współpracy z autorami ekspertyzy dotyczącej automatycznej analizy i porównywania kwalifikacji w celu ich grupowania przygotowanej w ramach projektu „Prowadzenie i rozwój Zintegrowanego Rejestru Kwalifikacji”, POWR.02.11.00-00-0001/17.||

||<style="border:0;padding-top:5px;padding-bottom:5px">'''18 listopada 2019'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Alexander Rosen''' (Uniwersytet Karola w Pradze)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=kkqlUnq7jGE|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2019-11-18.pdf|Wielojęzyczny korpus równoległy InterCorp: reprezentacja kategorii gramatycznych]]''' &#160;{{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Wielojęzyczny korpus równoległy !InterCorp, będący częścią Czeskiego Korpusu Narodowego, od 2008 roku jest dostępny online; stale powiększa się, osiągając obecnie wielkość 1,7 miliarda słów w 40 językach. Znaczną część !InterCorpu stanowią teksty literackie, które uzupełniają teksty prawne, publicystyczne, wystąpienia parlamentarne, napisy filmowe i Biblia. Teksty wiązane są na poziomie zdań  i – w większości języków – otagowane oraz lematyzowane. Podczas wykładu skoncentruję się na kwestii adnotacji morfosyntaktycznych, wykorzystując  specyficzne dla języków zestawy tagsetów i reguły tokenizacji oraz zbadam różne rozwiązania, w tym oparte na wytycznych, danych i narzędziach opracowanych w ramach projektu Universal Dependencies.||

||<style="border:0;padding-top:5px;padding-bottom:5px">'''21 listopada 2019'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Alexander Rosen''' (Uniwersytet Karola w Pradze)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=OQ-3B4-MXCw|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2019-11-21.pdf|Czeski korpus uczniowski]]''' &#160;{{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Teksty tworzone przez osoby uczące się języka (rodzimego lub obcego) zawierają różnego rodzaju zjawiska niekanoniczne, co komplikuje anotację językową i jednocześnie wymaga wyraźnego oznaczenia odchyleń od normy. Chociaż istnieje wiele korpusów uczniowskich języka angielskiego, a ostatnio również inne języki nadrabiają w tym swoje zaległości, do tej pory nie pojawiło się powszechnie przyjęte podejście do projektowania taksonomii błędów i schematu anotacji. W przypadku CzeSL, korpusu czeskiego jako drugiego języka, zaprojektowano i przetestowano kilka takich podejść, które później rozszerzono również na teksty przygotowane przez czeskie dzieci w wieku szkolnym. Podczas wykładu pokażę wady i zalety tych podejść, szczególnie w odniesieniu do czeskiego jako języka o wysokiej fleksyjności i swobodnym szyku wyrazów w zdaniu.||

||<style="border:0;padding-top:5px;padding-bottom:5px">'''12 grudnia 2019'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Aleksandra Tomaszewska''' (Instytut Lingwistyki Stosowanej UW)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=_WJF6BuQML4|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2019-12-12.pdf|Międzygatunkowa analiza zapożyczeń unijnych w języku polskim – potrzeba automatyzacji]]''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">W trakcie prezentacji przedstawiony zostanie projekt „Brukselizmy – mechanizmy powstawania, funkcje, ewolucja i asymilacja w polszczyźnie” (Diamentowy Grant MNiSW), którego celem jest analiza i kategoryzacja zapożyczeń unijnych – efektów kontaktów językowych w Unii Europejskiej. Podczas pierwszej części seminarium autorka omówi tło teoretyczne zjawiska, założenia projektu badawczego oraz zaprezentuje skompilowany roboczy korpus gatunkowy polszczyzny unijnej złożony z trzech podkorpusów – transkrypcji wywiadów z europosłami, prawa unijnego (rozporządzeń i dyrektyw) oraz komunikatów prasowych instytucji Unii Europejskiej. W dalszej części wystąpienia zaprezentowane zostaną metody i narzędzia wykorzystywane w badaniu, w tym sposoby prowadzenia analiz na zgromadzonym materiale badawczym. Na konkretnych przykładach zasygnalizowana zostanie również potrzeba automatyzacji badań nad najnowszymi zapożyczeniami na gruncie polskim.||

||<style="border:0;padding-top:5px;padding-bottom:5px">'''13 stycznia 2020'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Ryszard Tuora''', '''Łukasz Kobyliński''' (Instytut Podstaw Informatyki PAN)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=sux6l5glZrA|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2020-01-13.pdf|Integracja narzędzi do przetwarzania języka polskiego we frameworku spaCy]]''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">W naszym projekcie staramy się zapełnić lukę pomiędzy wypracowanymi przez lata, zaawansowanymi narzędziami dedykowanymi do rozmaitych zadań w ramach przetwarzania języka polskiego a użytkownikami szukającymi i oczekującymi łatwego dostępu do tych technologii. spaCy jest open-source'owym frameworkiem do NLP znajdującym się w ścisłej czołówce popularności, ale mimo to nie posiada obecnie oficjalnego wsparcia dla języka polskiego. W referacie opowiemy o przygotowanym przez nas modelu do spaCy, który umożliwia segmentację, lematyzację, analizę morfosyntaktyczną, parsowanie zależnościowe i wykrywanie jednostek nazewniczych. Przedstawimy zintegrowane narzędzia, wyniki ewaluacyjne, przykładowe zastosowania oraz możliwe ścieżki rozwoju istniejącego modelu.||

||<style="border:0;padding-top:5px;padding-bottom:5px">'''27 stycznia 2020'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Alina Wróblewska''', '''Katarzyna Krasnowska-Kieraś''' (Instytut Podstaw Informatyki PAN)||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''Badania nad kodowaniem informacji lingwistycznych w wektorowych reprezentacjach zdań''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">W referacie zostaną przedstawione wyniki badań nad kodowaniem informacji lingwistycznych w wektorowych reprezentacjach zdań (ang. ''sentence embeddings''). W badaniach zastosowano metody oparte na uniwersalnych zadaniach próbkowania (ang. probing tasks) oraz na bardziej zaawansowanych zadaniach NLP (ang. ''downstream tasks''). Wyniki eksperymentów na językach angielskim i polskim pokazały, że różne typy embeddingów zdań w różnym stopniu kodują informacje lingwistyczne. Wyniki badań zostały opublikowane w artykule [[https://www.aclweb.org/anthology/P19-1573/|Empirical Linguistic Study of Sentence Embeddings]] w materiałach konferencji ACL 2019.||

||<style="border:0;padding-top:5px;padding-bottom:5px">'''24 lutego 2020'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Grzegorz Wojdyga''' (Instytut Podstaw Informatyki PAN)||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''Weryfikacja faktów w konkursie FEVER''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Streszczenie wystąpienia zostanie udostępnione wkrótce.||

||<style="border:0;padding-top:5px;padding-bottom:5px">'''9 marca 2020'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Piotr Przybyła''' (Instytut Podstaw Informatyki PAN)||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''Temat wystąpienia zostanie udostępniony wkrótce''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Streszczenie wystąpienia zostanie udostępnione wkrótce.||

||<style="border:0;padding-top:0px">Zapraszamy także do zapoznania się z [[http://nlp.ipipan.waw.pl/NLP-SEMINAR/previous-p.html|archiwum seminariów z lat 2000–15]] oraz [[http://zil.ipipan.waw.pl/seminarium-archiwum|listą wystąpień z lat 2015–19]].||
+||<style="border:0;padding-top:15px">Zapraszamy także do zapoznania się z [[http://nlp.ipipan.waw.pl/NLP-SEMINAR/previous-p.html|archiwum seminariów z lat 2000–2015]] oraz [[http://zil.ipipan.waw.pl/seminarium-archiwum|listą wystąpień z lat 2015–2025]].||
-Line 81:
+Line 10:
-(10-23 lutego: ferie mazowieckie)
+||<style="border:0;padding-top:5px;padding-bottom:5px">'''7 października 2023'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Uczestnicy konkursu PolEval 2024''' ||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Planowana seria prezentacji uczestników zadań PolEvalowych''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienia w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Lista wystąpień będzie dostępna wkrótce.||
-Line 83:
+Line 15:
-- 23 marca – może – Alex z Justyną, może nawet na instytutowym
-Line 85:
+Line 16:
-- 6 kwietnia: Piotr Rybak: BERT?
(12-13 kwietnia: Wielkanoc)
+||<style="border:0;padding-top:5px;padding-bottom:5px">'''11 marca 2024'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Mateusz Krubiński''' (Uniwersytet Karola w Pradze)||
||<style="border:0;padding-left:30px;padding-bottom:15px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Tytuł wystąpienia podamy wkrótce''' &#160;{{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku polskim.}}||
-Line 88:
+Line 20:
-- 20 kwietnia: – Marcin, Witek: Chronofleks?
-Line 90:
+Line 21:
-- 4 maja: Kwantyfikatory?
-Line 92:
+Line 22:
-(LREC: 13–15 maja w Marsylii)
+||<style="border:0;padding-top:15px;padding-bottom:5px">'''8 stycznia 2024''' (prezentacja wyników projektu DARIAH.Lab)||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Zespół projektu DARIAH.Lab''' (Instytut Podstaw Informatyki PAN)||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''Tytuł wystąpienia poznamy wkrótce''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie po polsku.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Streszczenie wystąpienia udostępnimy w najbliższym czasie.||
-Line 94:
+Line 27:
-- 18 maja: może coś LREC-owego? może nawet jakąś sesję z wieloma naszymi artykułami LREC-owymi?
-Line 96:
+Line 28:
-- 1 czerwca: Adam Jatowt wstępnie się zgodził
- 15 czerwca: MARCELL? Może Piotrek z Bartkiem?
+||<style="border:0;padding-top:5px;padding-bottom:5px">'''3 października 2022'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''...''' (...)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Tytuł wystąpienia podamy wkrótce''' &#160;{{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Opis wystąpienia udostępnimy już niedługo.||
-Line 99:
+Line 33:
-– gdzieś tu jeszcze będzie PolEval...
-Line 101:
+Line 34:
+WOLNE TERMINY:

ATLAS: Explaining abstractive summarization - Emilia Wiśnios? Albo coś z NASK-owych tematów dot. przetwarzania prawa? Czy to jest to samo?

||<style="border:0;padding-bottom:10px">'''UWAGA''': ze względu na zakaz wstępu do IPI PAN dla osób niezatrudnionych w Instytucie, w stacjonarnej części seminarium mogą brać udział tylko pracownicy IPI PAN i prelegenci (także zewnętrzni). Dla pozostałych uczestników seminarium będzie transmitowane – prosimy o korzystanie z linku przy tytule wystąpienia.||

Uczestnicy Akcji COST CA18231: Multi3Generation: Multi-task, Multilingual, Multi-modal Language Generation:
– Marcin PAPRZYCKI (marcin.paprzycki@ibspan.waw.pl)
– Maria GANZHA (m.ganzha@mini.pw.edu.pl)
– Katarzyna WASIELEWSKA-MICHNIEWSKA (katarzyna.wasielewska@ibspan.waw.pl)


||<style="border:0;padding-top:5px;padding-bottom:5px">'''6 czerwca 2022'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Paula Czarnowska''' (University of Cambridge)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://teams.microsoft.com/l/meetup-join/19%3a06de5a6d7ed840f0a53c26bf62c9ec18%40thread.tacv2/1643554817614?context=%7b%22Tid%22%3a%220425f1d9-16b2-41e3-a01a-0c02a63d13d6%22%2c%22Oid%22%3a%22f5f2c910-5438-48a7-b9dd-683a5c3daf1e%22%7d|{{attachment:seminarium-archiwum/teams.png}}]] '''Tytuł wystąpienia podamy wkrótce''' &#160;{{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Opis wystąpienia udostępnimy już niedługo.||



||<style="border:0;padding-top:5px;padding-bottom:5px">'''2 kwietnia 2020'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Stan Matwin''' (Dalhousie University)||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''Efficient training of word embeddings with a focus on negative examples''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}} {{attachment:seminarium-archiwum/icon-en.gif|Slajdy po angielsku.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">This presentation is based on our [[https://pdfs.semanticscholar.org/1f50/db5786913b43f9668f997fc4c97d9cd18730.pdf|AAAI 2018]] and [[https://aaai.org/ojs/index.php/AAAI/article/view/4683|AAAI 2019]] papers on English word embeddings. In particular, we examine the notion of “negative examples”, the unobserved or insignificant word-context co-occurrences, in spectral methods. we provide a new formulation for the word embedding problem by proposing a new intuitive objective function that perfectly justifies the use of negative examples. With the goal of efficient learning of embeddings, we propose a kernel similarity measure for the latent space that can effectively calculate the similarities in high dimensions. Moreover, we propose an approximate alternative to our algorithm using a modified Vantage Point tree and reduce the computational complexity of the algorithm with respect to the number of words in the vocabulary. We have trained various word embedding algorithms on articles of Wikipedia with 2.3 billion tokens and show that our method outperforms the state-of-the-art in most word similarity tasks by a good margin. We will round up our discussion with some general thought s about the use of embeddings in modern NLP.||

na [[https://www.youtube.com/ipipan|kanale YouTube]].
on [[https://www.youtube.com/ipipan|YouTube]].

Nowe typy:

Aleksandra Gabryszak (DFKI Berlin): 
– https://aclanthology.org/people/a/aleksandra-gabryszak/
– https://www.researchgate.net/profile/Aleksandra-Gabryszak
– miała tekst na warsztacie First Computing Social Responsibility Workshop (http://www.lrec-conf.org/proceedings/lrec2022/workshops/CSRNLP1/index.html) na LREC-u 2022: http://www.lrec-conf.org/proceedings/lrec2022/workshops/CSRNLP1/pdf/2022.csrnlp1-1.5.pdf

Marcin Junczys-Dowmunt przy okazji świąt?
Adam Jatowt?
Piotrek Pęzik? Wrocław?
Kwantyfikatory?
MARCELL? Może Piotrek z Bartkiem?
-Line 113:
+Line 86:
-– Marcin, Witek: Chronofleks 
– Piotrek Pęzik obiecał coś wygłosić
– Marcin Junczys-Dowmunt przy okazji świąt?
-Line 118:
+Line 88:
+Będzie na Data Science Summit:

Using topic modeling for differentiation based on Polish parliament plus person
Aleksander Nosarzewski
Statistician @  Citi

Artykuł o GPT napisał Mateusz Litwin: https://www.linkedin.com/in/mateusz-litwin-06b3a919/
W OpenAI jest jeszcze https://www.linkedin.com/in/jakub-pachocki/
i https://www.linkedin.com/in/szymon-sidor-98164044/


Text data can be an invaluable source of information. In particular, what, how often and in which way we talk about given subjects can tell a lot about us. Unfortunately, manual scrambling through huge text datasets can be a cumbersome task. Luckily, there is a class of unsupervised models - topic models, which can perform this task for us, with very little input from our side. I will present how to use Structural Topic Model (STM) - an enhancement over popular LDA to obtain some kind of measure of differences between given groups or agents of interest, based on an example of Polish parliamentary speeches and political parties.

Diff for "seminarium"

Menu

Seminarium „Przetwarzanie języka naturalnego” 2025–26