Locked History Actions

Diff for "seminarium"

Differences between revisions 163 and 1001 (spanning 838 versions)
Revision 163 as of 2017-10-12 17:15:25
Size: 9381
Comment:
Revision 1001 as of 2025-08-18 22:41:31
Size: 10224
Comment:
Deletions are marked like this. Additions are marked like this.
Line 1: Line 1:
## page was renamed from seminarium-archiwum
Line 3: Line 2:
= Seminarium „Przetwarzanie języka naturalnego” 201718 = = Seminarium „Przetwarzanie języka naturalnego” 202526 =
Line 5: Line 4:
||<style="border:0;padding-bottom:10px">Seminarium [[http://nlp.ipipan.waw.pl/|Zespołu Inżynierii Lingwistycznej]] w&nbsp;[[http://www.ipipan.waw.pl/|Instytucie Podstaw Informatyki]] [[http://www.pan.pl/|Polskiej Akademii Nauk]] odbywa się nieregularnie w&nbsp;poniedziałki zwykle o&nbsp;godz.&nbsp;10:15 w&nbsp;siedzibie IPI&nbsp;PAN (ul.&nbsp;Jana Kazimierza&nbsp;5, Warszawa) i&nbsp;ma charakter otwarty. Poszczególne referaty ogłaszane są na [[http://lists.nlp.ipipan.waw.pl/mailman/listinfo/ling|Polskiej Liście Językoznawczej]] oraz na stronie [[https://www.facebook.com/lingwistyka.komputerowa|Lingwistyka komputerowa]] na Facebooku. Wszystkie nagrania dostępne są na [[https://www.youtube.com/channel/UC5PEPpMqjAr7Pgdvq0wRn0w|kanale YouTube]].||<style="border:0;padding-left:30px;">[[seminar|{{attachment:seminarium-archiwum/en.png}}]]|| ||<style="border:0;padding-bottom:10px">Nowa edycja seminarium [[http://nlp.ipipan.waw.pl/|Zespołu Inżynierii Lingwistycznej]] w&nbsp;[[http://www.ipipan.waw.pl/|Instytucie Podstaw Informatyki]] [[http://www.pan.pl/|Polskiej Akademii Nauk]] rozpocznie się w październiku 2025 r. Seminarium odbywa się średnio co 2 tygodnie, zwykle w&nbsp;poniedziałki o&nbsp;godz.&nbsp;10:15 (niekiedy online – prosimy o korzystanie z linku przy tytule wystąpienia) i&nbsp;ma charakter otwarty. Poszczególne referaty ogłaszane są na [[http://lists.nlp.ipipan.waw.pl/mailman/listinfo/ling|Polskiej Liście Językoznawczej]] oraz na stronie [[https://www.facebook.com/lingwistyka.komputerowa|Lingwistyka komputerowa]] na Facebooku. Nagrania wystąpień dostępne są na [[https://www.youtube.com/ipipan|kanale YouTube]].||<style="border:0;padding-left:30px;">[[seminar|{{attachment:seminarium-archiwum/en.png}}]]||
Line 7: Line 6:
||<style="border:0;padding-top:5px;padding-bottom:5px">'''2 października 2017'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Paweł Rutkowski''' (Uniwersytet Warszawski)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=Acfdv6kUe5I|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2017-10-02.pdf|Polski język migowy z perspektywy lingwistyki korpusowej]]''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}} {{attachment:seminarium-archiwum/icon-en.gif|Slajdy w jęz. angielskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Polski język migowy (PJM) jest w pełni funkcjonalnym językiem wizualno-przestrzennym, którym posługuje się polska społeczność Głuchych. Jego rozwój rozpoczął się w drugiej dekadzie XIX wieku – wraz z założeniem pierwszej szkoły dla głuchych w Polsce. Do niedawna poświęcano mu bardzo niewiele uwagi w badaniach językoznawczych. Celem niniejszego wystąpienia jest przedstawienie szeroko zakrojonego projektu badawczego służącego opracowaniu obszernego i reprezentatywnego korpusu PJM. Korpus ten jest obecnie tworzony na Uniwersytecie Warszawskim. Ma formę zbioru klipów wideo przedstawiających osoby głuche posługujące się PJM w różnych kontekstach komunikacyjnych. Filmy są szczegółowo anotowane: segmentowane, lematyzowane, tłumaczone na polszczyznę, znakowane pod względem różnych cech gramatycznych i transkrybowane za pomocą symboli !HamNoSys. W skali międzynarodowej korpus PJM jest obecnie jednym z dwóch największych zbiorów oznakowanych danych migowych. Na szczególną uwagę zasługuje kwestia frekwencji leksykalnej w PJM. Dane tego typu opracowane zostały dotąd dla zaledwie kilku języków migowych – m.in. dla amerykańskiego języka migowego, nowozelandzkiego języka migowego, brytyjskiego języka migowego, australijskiego języka migowego i słoweńskiego języka migowego. Podstawy empiryczne tych badań wahały się od 100 000 (NZSL) do zaledwie 4 000 jednostek tekstowych (ASL). Niniejsze wystąpienie wpisuje się w dyskusję dotyczącą właściwości frekwencyjnych leksemów języków migowych poprzez przeanalizowanie o wiele większego zbioru relewantnych danych z PJM.||

||<style="border:0;padding-top:5px;padding-bottom:5px">'''23 października 2017'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Katarzyna Krasnowska-Kieraś''', '''Piotr Rybak''', '''Alina Wróblewska''' (Instytut Podstaw Informatyki PAN)||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''Ewaluacja polskich wektorów dystrybucyjnych w kontekście dezambiguacji morfoskładniowej i parsowania zależnościowego''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Uczenie maszynowe oparte na głębokich sieciach neuronowych okazało się bardzo skuteczną heurystyką w różnych zadaniach przetwarzania języka naturalnego. Ważnym komponentem sieci neuronowych jest reprezentacja wektorowa cech (tzw. feature embedding). Istnieje możliwość tworzenia wektorów dystrybucyjnych cech różnego typu, np. wyrazów czy części mowy. Przedmiotem prezentacji będą wyniki analizy, która pokazała, dla jakich cech można obliczać modele dystrybucyjne typu „embedding” dla języków fleksyjnych. Ponadto przedstawimy propozycję ewaluacji in vivo wektorów dystrybucyjnych w kontekście dwóch podstawowych zadań NLP – dezambiguacji morfoskładniowej oraz parsowania zależnościowego. Nasze eksperymenty ewaluacyjne zostały przeprowadzone na zasobach w języku polskim. Przedstawione badania były inspiracją do stworzenia dezambiguatora morfoskładniowego – Toygger, który wygrał Zadanie 1 (A) w konkursie [[http://poleval.pl|PolEval 2017]] i który również zostanie przedstawiony podczas wystąpienia.||

||<style="border:0;padding-top:5px;padding-bottom:5px">'''6 listopada 2017'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Szymon Łęski''' (Samsung R&D Polska)||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''Głębokie sieci neuronowe w modelach języka''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Streszczenie wystąpienia będzie dostępne w najbliższym czasie.||

||<style="border:0;padding-top:5px;padding-bottom:5px">'''20 listopada 2017'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Michał Ptaszyński''' (Kitami Institute of Technology, Japonia)||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''Tytuł wystąpienia udostępnimy wkrótce''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Streszczenie wystąpienia będzie dostępne w najbliższym czasie.||

||<style="border:0;padding-top:5px;padding-bottom:5px">'''4 grudnia 2017'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Sebastian Żurowski''', '''Adam Dobaczewski''', '''Piotr Sobotka''' (Uniwersytet Mikołaja Kopernika w Toruniu)||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''Tytuł wystąpienia udostępnimy wkrótce''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Streszczenie wystąpienia będzie dostępne w najbliższym czasie.||

||<style="border:0;padding-top:0px">Zapraszamy także do zapoznania się z [[http://nlp.ipipan.waw.pl/NLP-SEMINAR/previous-p.html|archiwum seminariów z lat 2000–15]] oraz [[http://zil.ipipan.waw.pl/seminarium-archiwum|listą wystąpień z lat 2015–17]].||
||<style="border:0;padding-top:15px">Zapraszamy także do zapoznania się z [[http://nlp.ipipan.waw.pl/NLP-SEMINAR/previous-p.html|archiwum seminariów z lat 2000–2015]] oraz [[http://zil.ipipan.waw.pl/seminarium-archiwum|listą wystąpień z lat 2015–2025]].||
Line 37: Line 10:
Łukasz zapyta Andruszkiewicza o to, kogo zaprosić z PWr ||<style="border:0;padding-top:5px;padding-bottom:5px">'''7 października 2023'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Uczestnicy konkursu PolEval 2024''' ||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Planowana seria prezentacji uczestników zadań PolEvalowych''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienia w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Lista wystąpień będzie dostępna wkrótce.||


||<style="border:0;padding-top:5px;padding-bottom:5px">'''11 marca 2024'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Mateusz Krubiński''' (Uniwersytet Karola w Pradze)||
||<style="border:0;padding-left:30px;padding-bottom:15px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Tytuł wystąpienia podamy wkrótce''' &#160;{{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku polskim.}}||



||<style="border:0;padding-top:15px;padding-bottom:5px">'''8 stycznia 2024''' (prezentacja wyników projektu DARIAH.Lab)||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Zespół projektu DARIAH.Lab''' (Instytut Podstaw Informatyki PAN)||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''Tytuł wystąpienia poznamy wkrótce''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie po polsku.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Streszczenie wystąpienia udostępnimy w najbliższym czasie.||


||<style="border:0;padding-top:5px;padding-bottom:5px">'''3 października 2022'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''...''' (...)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Tytuł wystąpienia podamy wkrótce''' &#160;{{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Opis wystąpienia udostępnimy już niedługo.||



WOLNE TERMINY:

ATLAS: Explaining abstractive summarization - Emilia Wiśnios? Albo coś z NASK-owych tematów dot. przetwarzania prawa? Czy to jest to samo?

||<style="border:0;padding-bottom:10px">'''UWAGA''': ze względu na zakaz wstępu do IPI PAN dla osób niezatrudnionych w Instytucie, w stacjonarnej części seminarium mogą brać udział tylko pracownicy IPI PAN i prelegenci (także zewnętrzni). Dla pozostałych uczestników seminarium będzie transmitowane – prosimy o korzystanie z linku przy tytule wystąpienia.||

Uczestnicy Akcji COST CA18231: Multi3Generation: Multi-task, Multilingual, Multi-modal Language Generation:
– Marcin PAPRZYCKI (marcin.paprzycki@ibspan.waw.pl)
– Maria GANZHA (m.ganzha@mini.pw.edu.pl)
– Katarzyna WASIELEWSKA-MICHNIEWSKA (katarzyna.wasielewska@ibspan.waw.pl)


||<style="border:0;padding-top:5px;padding-bottom:5px">'''6 czerwca 2022'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Paula Czarnowska''' (University of Cambridge)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://teams.microsoft.com/l/meetup-join/19%3a06de5a6d7ed840f0a53c26bf62c9ec18%40thread.tacv2/1643554817614?context=%7b%22Tid%22%3a%220425f1d9-16b2-41e3-a01a-0c02a63d13d6%22%2c%22Oid%22%3a%22f5f2c910-5438-48a7-b9dd-683a5c3daf1e%22%7d|{{attachment:seminarium-archiwum/teams.png}}]] '''Tytuł wystąpienia podamy wkrótce''' &#160;{{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Opis wystąpienia udostępnimy już niedługo.||



||<style="border:0;padding-top:5px;padding-bottom:5px">'''2 kwietnia 2020'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Stan Matwin''' (Dalhousie University)||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''Efficient training of word embeddings with a focus on negative examples''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}} {{attachment:seminarium-archiwum/icon-en.gif|Slajdy po angielsku.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">This presentation is based on our [[https://pdfs.semanticscholar.org/1f50/db5786913b43f9668f997fc4c97d9cd18730.pdf|AAAI 2018]] and [[https://aaai.org/ojs/index.php/AAAI/article/view/4683|AAAI 2019]] papers on English word embeddings. In particular, we examine the notion of “negative examples”, the unobserved or insignificant word-context co-occurrences, in spectral methods. we provide a new formulation for the word embedding problem by proposing a new intuitive objective function that perfectly justifies the use of negative examples. With the goal of efficient learning of embeddings, we propose a kernel similarity measure for the latent space that can effectively calculate the similarities in high dimensions. Moreover, we propose an approximate alternative to our algorithm using a modified Vantage Point tree and reduce the computational complexity of the algorithm with respect to the number of words in the vocabulary. We have trained various word embedding algorithms on articles of Wikipedia with 2.3 billion tokens and show that our method outperforms the state-of-the-art in most word similarity tasks by a good margin. We will round up our discussion with some general thought s about the use of embeddings in modern NLP.||

na [[https://www.youtube.com/ipipan|kanale YouTube]].
on [[https://www.youtube.com/ipipan|YouTube]].

Nowe typy:

Aleksandra Gabryszak (DFKI Berlin):
– https://aclanthology.org/people/a/aleksandra-gabryszak/
– https://www.researchgate.net/profile/Aleksandra-Gabryszak
– miała tekst na warsztacie First Computing Social Responsibility Workshop (http://www.lrec-conf.org/proceedings/lrec2022/workshops/CSRNLP1/index.html) na LREC-u 2022: http://www.lrec-conf.org/proceedings/lrec2022/workshops/CSRNLP1/pdf/2022.csrnlp1-1.5.pdf

Marcin Junczys-Dowmunt przy okazji świąt?
Adam Jatowt?
Piotrek Pęzik? Wrocław?
Kwantyfikatory?
MARCELL? Może Piotrek z Bartkiem?
Line 41: Line 78:
Kto jeszcze? Może skorzystać z pieniędzy CLARIN-owych do zapraszania osób z całej Polski na seminaria?
Line 44: Line 80:
Michał Marcińczuk
Line 46: Line 81:
Kasia Krasnowska, Norbert Ryciak – po PolEvalu? MTAS?
– NLP dla tekstów historycznych – Marcin/Witek? razem z KORBĄ, pokazać oba ręcznie znakowane korpusy i benchmarki na tagerach – maj,
– może Wrocław mógłby coś pokazać? – pisałem do Maćka P.
Line 48: Line 85:
niebanalna lingwistycznie i informatycznie – jakieś wystąpienia PolEvalowe?
Line 50: Line 87:
Kasia w związku z jej udziałem (i zwycięstwem) w zadaniu polevalowym? jeśli nie wypełni całego seminarium, to może Łukasz mógłby coś dopowiedzieć o tym zadaniu, ew. anotacji nowych danych?
– Norbert o swoim zwycięstwie?
– jakiś temat korbofleksowy? coś się działo w nowej Anotatorni, ale to może też można pokazać przy okazji tematu tagerowego,
– nowości w projekcie Aliny? bo Agnieszka i Małgosia pewnie mają teraz inne sprawy na głowie...
Tomek Dwojak i inni z https://zpjn.wmi.amu.edu.pl/seminar/?
Line 55: Line 89:
20 XI: Michał Ptaszyński
4 XII: Sebastian Żurowski?
18 XII (uwaga: właśnie tego dnia jest warsztat ELRC!)
8 I – kto może jeszcze przyjeżdżać z zagranicy na święta?
29 I (bo 15–28 I są ferie mazowieckie, TLT: 23-24 I)
12 II
26 II
12 III
26 III (Wielkanoc: 1–2 kwietnia, więc 26 marca jest w tygodniu wielkanocnym)
9 IV
23 IV
14 V
28 V (LREC: 7-12 V)
11 VI (NAACL: 1-6 VI)
Będzie na Data Science Summit:

Using topic modeling for differentiation based on Polish parliament plus person
Aleksander Nosarzewski
Statistician @ Citi

Artykuł o GPT napisał Mateusz Litwin: https://www.linkedin.com/in/mateusz-litwin-06b3a919/
W OpenAI jest jeszcze https://www.linkedin.com/in/jakub-pachocki/
i https://www.linkedin.com/in/szymon-sidor-98164044/


Text data can be an invaluable source of information. In particular, what, how often and in which way we talk about given subjects can tell a lot about us. Unfortunately, manual scrambling through huge text datasets can be a cumbersome task. Luckily, there is a class of unsupervised models - topic models, which can perform this task for us, with very little input from our side. I will present how to use Structural Topic Model (STM) - an enhancement over popular LDA to obtain some kind of measure of differences between given groups or agents of interest, based on an example of Polish parliamentary speeches and political parties.

Seminarium „Przetwarzanie języka naturalnego” 2025–26

Nowa edycja seminarium Zespołu Inżynierii LingwistycznejInstytucie Podstaw Informatyki Polskiej Akademii Nauk rozpocznie się w październiku 2025 r. Seminarium odbywa się średnio co 2 tygodnie, zwykle w poniedziałki o godz. 10:15 (niekiedy online – prosimy o korzystanie z linku przy tytule wystąpienia) i ma charakter otwarty. Poszczególne referaty ogłaszane są na Polskiej Liście Językoznawczej oraz na stronie Lingwistyka komputerowa na Facebooku. Nagrania wystąpień dostępne są na kanale YouTube.

seminar

Zapraszamy także do zapoznania się z archiwum seminariów z lat 2000–2015 oraz listą wystąpień z lat 2015–2025.