Locked History Actions

Diff for "seminarium"

Differences between revisions 810 and 1001 (spanning 191 versions)
Revision 810 as of 2023-11-15 16:18:50
Size: 20820
Comment:
Revision 1001 as of 2025-08-18 22:41:31
Size: 10224
Comment:
Deletions are marked like this. Additions are marked like this.
Line 2: Line 2:
= Seminarium „Przetwarzanie języka naturalnego” 2023–24 = = Seminarium „Przetwarzanie języka naturalnego” 2025–26 =
Line 4: Line 4:
||<style="border:0;padding-bottom:10px">Seminarium [[http://nlp.ipipan.waw.pl/|Zespołu Inżynierii Lingwistycznej]] w&nbsp;[[http://www.ipipan.waw.pl/|Instytucie Podstaw Informatyki]] [[http://www.pan.pl/|Polskiej Akademii Nauk]] odbywa się średnio co 2 tygodnie, zwykle w&nbsp;poniedziałki o&nbsp;godz.&nbsp;10:15 (niekiedy online – prosimy o korzystanie z linku przy tytule wystąpienia) i&nbsp;ma charakter otwarty. Poszczególne referaty ogłaszane są na [[http://lists.nlp.ipipan.waw.pl/mailman/listinfo/ling|Polskiej Liście Językoznawczej]] oraz na stronie [[https://www.facebook.com/lingwistyka.komputerowa|Lingwistyka komputerowa]] na Facebooku. Nagrania wystąpień dostępne są na [[https://www.youtube.com/ipipan|kanale YouTube]].||<style="border:0;padding-left:30px;">[[seminar|{{attachment:seminarium-archiwum/en.png}}]]|| ||<style="border:0;padding-bottom:10px">Nowa edycja seminarium [[http://nlp.ipipan.waw.pl/|Zespołu Inżynierii Lingwistycznej]] w&nbsp;[[http://www.ipipan.waw.pl/|Instytucie Podstaw Informatyki]] [[http://www.pan.pl/|Polskiej Akademii Nauk]] rozpocznie się w październiku 2025 r. Seminarium odbywa się średnio co 2 tygodnie, zwykle w&nbsp;poniedziałki o&nbsp;godz.&nbsp;10:15 (niekiedy online – prosimy o korzystanie z linku przy tytule wystąpienia) i&nbsp;ma charakter otwarty. Poszczególne referaty ogłaszane są na [[http://lists.nlp.ipipan.waw.pl/mailman/listinfo/ling|Polskiej Liście Językoznawczej]] oraz na stronie [[https://www.facebook.com/lingwistyka.komputerowa|Lingwistyka komputerowa]] na Facebooku. Nagrania wystąpień dostępne są na [[https://www.youtube.com/ipipan|kanale YouTube]].||<style="border:0;padding-left:30px;">[[seminar|{{attachment:seminarium-archiwum/en.png}}]]||
Line 6: Line 6:
||<style="border:0;padding-top:5px;padding-bottom:5px">'''9 października 2023'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Agnieszka Mikołajczyk-Bareła''', '''Wojciech Janowski''' (!VoiceLab), '''Piotr Pęzik''' (Uniwersytet Łódzki / !VoiceLab), '''Filip Żarnecki''', '''Alicja Golisowicz''' (!VoiceLab) ||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''[[attachment:seminarium-archiwum/2023-10-09.pdf|TRURL.AI: Dostrajanie dużych generatywnych modeli językowych na wielojęzycznych zbiorach instrukcji]]''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Wystąpienie stanowi podsumowanie kilkumiesięcznych doświadczeń z zakresu dostrajania (ang. fine-tuning) generatywnych modeli językowych na dużych, dwujęzycznych zbiorach instrukcji. Wynikiem tych prac jest otwarta wersja modelu Trurl (zob. trurl.ai), który w założeniach ma zachować poziom działania modelu wyjściowego na otwartych zbiorach ewaluacyjnych, a jednocześnie charakteryzować się lepszą skutecznością w ściśle określonych domenach i zastosowaniach, takich jak ekstrakcja informacji z interakcji biznesowych oraz etykietowanie danych ze szczególnym uwzględnieniem przetwarzania tekstów polskich. Modelem bazowym dla Trurla były modele [[https://arxiv.org/abs/2307.09288|Llama 2]] o wielkości 7 i 13 miliardów parametrów. W referacie opiszemy proces przygotowania zbiorów instrukcji, treningu oraz kwantyzacji wynikowych modeli. Podamy także przykłady użycia dostrojonych modeli na wybranych zadaniach.||
||<style="border:0;padding-top:15px">Zapraszamy także do zapoznania się z [[http://nlp.ipipan.waw.pl/NLP-SEMINAR/previous-p.html|archiwum seminariów z lat 2000–2015]] oraz [[http://zil.ipipan.waw.pl/seminarium-archiwum|listą wystąpień z lat 2015–2025]].||
Line 11: Line 8:
||<style="border:0;padding-top:5px;padding-bottom:5px">'''16 października 2023'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Konrad Wojtasik''', '''Vadim Shishkin''', '''Kacper Wołowiec''', '''Arkadiusz Janz''', '''Maciej Piasecki''' (Politechnika Wrocławska)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Ewaluacja i trenowanie modeli do wyszukiwania informacji w ustawieniu zero-shot dla różnych domen dokumentów''' &#160;{{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Przeszukiwanie dużych kolekcji dokumentów w celu odnalezienia interesujących nas informacji jest niezwykle ważnym kierunkiem badawczym w dziedzinie przetwarzania języka naturalnego. Jest to kluczowy komponent w systemach odpowiadania na pytania, gdzie często model odpowiadający korzysta z informacji zawartych w bazie danych z aktualną wiedzą. Pozwala to nie tylko na aktualizację wiedzy, na podstawie której system odpowiada na zapytania użytkownika, ale również ogranicza jego halucynacje. Aktualnie modele do wyszukiwania informacji są sieciami neuronowymi i wymagają dużych zasobów uczących do ich wytrenowania. Przez wiele lat, metody dopasowania leksykalnego jak BM25, osiągały lepsze wyniki niż wytrenowane modele, jednak aktualne architektury i rozległe zbiory danych pozwalają na prześcignięcie leksykalnych rozwiązań. W prezentacji przedstawię dostępne zbiory służące do ewaluacji i trenowania aktualnych architektur do wyszukiwania informacji w kolekcjach dokumentów z różnych domen, jak i kierunki rozwoju na przyszłość.||
{{{#!wiki comment
Line 16: Line 10:
||<style="border:0;padding-top:5px;padding-bottom:5px">'''30 października 2023'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Agnieszka Faleńska''' (Uniwersytet w Stuttgarcie)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Steps towards Bias-Aware NLP Systems''' &#160;{{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:5px">Dla wielu, systemy przetwarzania języka naturalnego (NLP) stały się codziennością. Ich zastosowania sięgają od automatycznego tłumaczenia dokumentów po asystentów osobistych obsługiwanych głosem. W ostatnich latach, ten rosnący wpływ narzędzi AI na życie ludzi wywołuje znaczące obawy dotyczące możliwych szkód, jakie mogą one wyrządzić.||
||<style="border:0;padding-left:30px;padding-bottom:15px">W tej prezentacji rozpocznę od przedstawienia kilku przykładów takich szkodliwych zachowań i omówię ich potencjalne źródła. Będę argumentować, że problemy związane z uprzedzeniami w modelach NLP powinny być rozwiązywane poprzez rozwijanie naszego zrozumienia ich źródeł językowych. Następnie prezentacja skoncentruje się na trzech powszechnie używanych źródłach danych: Wikipedii, tekstach instruktażowych i forum dyskusyjnym. Poprzez te przykłady pokażę, że niezależnie od perspektywy (czy mówimy o kimś, do kogoś, czy jako ktoś), subtelne uprzedzenia są obecne we wszystkich tych zbiorach danych i mogą przyczynić się do szkodliwych efektów modeli NLP.||
||<style="border:0;padding-top:5px;padding-bottom:5px">'''7 października 2023'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Uczestnicy konkursu PolEval 2024''' ||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Planowana seria prezentacji uczestników zadań PolEvalowych''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienia w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Lista wystąpień będzie dostępna wkrótce.||
Line 22: Line 15:
||<style="border:0;padding-top:5px;padding-bottom:5px">'''13 listopada 2023'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Piotr Rybak''' (Instytut Podstaw Informatyki PAN)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''[[attachment:seminarium-archiwum/2023-11-13.pdf|Najnowsze postępy w rozwoju systemów do odpowiadania na pytania w języku polskim]]''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}&#160;{{attachment:seminarium-archiwum/icon-en.gif|Slajdy po angielsku.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Mimo że odpowiadanie na pytania (ang. ''Question Answering'') jest jednym z popularniejszych zagadnień przetwarzania języka naturalnego, to do niedawna było ono praktycznie nieobecne w polskim środowisku naukowym. Ostatnie lata przyniosły jednak rozkwit prac związanych z tym tematem. Podczas tego wystąpienia opowiem na czym polega zagadnienie odpowiadania na pytania, jak działają obecne systemy rozwiązujące ten problem, a także jakie zbiory danych oraz modele są dostępne dla języka polskiego. W szczególności opowiem o zasobach tworzonych w IPI PAN, czyli zbiorach danych [[https://huggingface.co/datasets/ipipan/polqa|PolQA]] i [[https://huggingface.co/datasets/ipipan/maupqa|MAUPQA]] oraz modelu [[https://huggingface.co/ipipan/silver-retriever-base-v1|Silver Retriever]]. Na koniec wskażę dalsze kierunki prac, które wciąż pozostają otwarte jeśli chodzi o odpowiadanie na pytania w języku polskim.||
Line 27: Line 16:
||<style="border:0;padding-top:5px;padding-bottom:5px">'''11 grudnia 2023''' (seria krótkich wystąpień autorstwa badaczy z Coventry University)||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Xiaorui Jiang''' (Coventry University)||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''NLP for automating systematic reviews for evidence-based healthcare''' &#160;{{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w jęz. angielskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:10px">Systematic literature review (SLR) is the standard tool for synthesising medical and clinical evidence from the ocean of publications. SLR is extremely expensive. SLR is extremely expensive. AI can play a significant role in automating the SLR process, such as for citation screening, i.e., the selection of primary studies-based title and abstract. [[http://systematicreviewtools.com/|Some tools exist]], but they suffer from tremendous obstacles, including lack of trust. In addition, a specific characteristic of systematic review, which is the fact that each systematic review is a unique dataset and starts with no annotation, makes the problem even more challenging. In this study, we present some seminal but initial efforts on utilising the transfer learning and zero-shot learning capabilities of pretrained language models and large language models to solve or alleviate this challenge. Preliminary results are to be reported.||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Xiaorui Jiang''' (Coventry University)||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''Scientific text mining and summarisation''' &#160;{{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w jęz. angielskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:10px">It is a difficult task to understand and summarise the development of scientific research areas. This task is especially cognitively demanding for postgraduate students and early-career researchers, of the whose main jobs is to identify such developments by reading a large amount of literature. Will AI help? We believe so. This short talk summarises some recent initial work on extracting the semantic backbone of a scientific area through the synergy of natural language processing and network analysis, which is believed to serve a certain type of discourse models for summarisation (in future work). As a small step from it, the second part of the talk introduces how comparison citations are utilised to improve multi-document summarisation of scientific papers.||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Xiaorui Jiang''', '''Alireza Daneshkhah''' (Coventry University)||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''NLP for reducing GP workload: An early progress report''' &#160;{{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w jęz. angielskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15x">In face of a post-COVID global economic slowdown and aging society, the primary care units in the National Healthcare Services (NHS) are receiving increasingly higher pressure, resulting in delays and errors in healthcare and patient management. AI can play a significant role in alleviating this investment-requirement discrepancy, especially in the primary care settings. A large portion of clinical diagnosis and management can be assisted with AI tools for automation and reduce delays. This short presentation reports the initial studies worked with an NHS partner on developing NLP-based solutions for the automation of clinical intention classification (to save more time for better patient treatment and management) and an early alert application for Gout Flare prediction from chief complaints (to avoid delays in patient treatment and management).||
||<style="border:0;padding-top:5px;padding-bottom:5px">'''11 marca 2024'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Mateusz Krubiński''' (Uniwersytet Karola w Pradze)||
||<style="border:0;padding-left:30px;padding-bottom:15px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Tytuł wystąpienia podamy wkrótce''' &#160;{{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku polskim.}}||

Line 43: Line 27:
||<style="border:0;padding-top:5px;padding-bottom:5px">'''29 stycznia 2024'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Adam Przepiórkowski''' (Instytut Podstaw Informatyki PAN)||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''Tytuł wystąpienia poznamy wkrótce''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie po polsku.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Streszczenie wystąpienia udostępnimy w najbliższym czasie.||

||<style="border:0;padding-top:5px;padding-bottom:5px">'''12 lutego 2024'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Tsimur Hadeliya''', '''Dariusz Kajtoch''' (Allegro ML Research)||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''Ewaluacja i analiza uczenia kontekstowego dla zadania klasyfikacji w języku polskim''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie po polsku.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Streszczenie wystąpienia udostępnimy w najbliższym czasie.||

||<style="border:0;padding-top:15px">Zapraszamy także do zapoznania się z [[http://nlp.ipipan.waw.pl/NLP-SEMINAR/previous-p.html|archiwum seminariów z lat 2000–2015]] oraz [[http://zil.ipipan.waw.pl/seminarium-archiwum|listą wystąpień z lat 2015–2023]].||

{{{#!wiki comment

Seminarium „Przetwarzanie języka naturalnego” 2025–26

Nowa edycja seminarium Zespołu Inżynierii LingwistycznejInstytucie Podstaw Informatyki Polskiej Akademii Nauk rozpocznie się w październiku 2025 r. Seminarium odbywa się średnio co 2 tygodnie, zwykle w poniedziałki o godz. 10:15 (niekiedy online – prosimy o korzystanie z linku przy tytule wystąpienia) i ma charakter otwarty. Poszczególne referaty ogłaszane są na Polskiej Liście Językoznawczej oraz na stronie Lingwistyka komputerowa na Facebooku. Nagrania wystąpień dostępne są na kanale YouTube.

seminar

Zapraszamy także do zapoznania się z archiwum seminariów z lat 2000–2015 oraz listą wystąpień z lat 2015–2025.