Differences between revisions 799 and 1001 (spanning 202 versions)
Size: 17532
Comment:
|
← Revision 1001 as of 2025-08-18 22:41:31 ⇥
Size: 10224
Comment:
|
Deletions are marked like this. | Additions are marked like this. |
Line 2: | Line 2: |
= Seminarium „Przetwarzanie języka naturalnego” 2023–24 = | = Seminarium „Przetwarzanie języka naturalnego” 2025–26 = |
Line 4: | Line 4: |
||<style="border:0;padding-bottom:10px">Seminarium [[http://nlp.ipipan.waw.pl/|Zespołu Inżynierii Lingwistycznej]] w [[http://www.ipipan.waw.pl/|Instytucie Podstaw Informatyki]] [[http://www.pan.pl/|Polskiej Akademii Nauk]] odbywa się średnio co 2 tygodnie, zwykle w poniedziałki o godz. 10:15 (niekiedy online – prosimy o korzystanie z linku przy tytule wystąpienia) i ma charakter otwarty. Poszczególne referaty ogłaszane są na [[http://lists.nlp.ipipan.waw.pl/mailman/listinfo/ling|Polskiej Liście Językoznawczej]] oraz na stronie [[https://www.facebook.com/lingwistyka.komputerowa|Lingwistyka komputerowa]] na Facebooku. Nagrania wystąpień dostępne są na [[https://www.youtube.com/ipipan|kanale YouTube]].||<style="border:0;padding-left:30px;">[[seminar|{{attachment:seminarium-archiwum/en.png}}]]|| | ||<style="border:0;padding-bottom:10px">Nowa edycja seminarium [[http://nlp.ipipan.waw.pl/|Zespołu Inżynierii Lingwistycznej]] w [[http://www.ipipan.waw.pl/|Instytucie Podstaw Informatyki]] [[http://www.pan.pl/|Polskiej Akademii Nauk]] rozpocznie się w październiku 2025 r. Seminarium odbywa się średnio co 2 tygodnie, zwykle w poniedziałki o godz. 10:15 (niekiedy online – prosimy o korzystanie z linku przy tytule wystąpienia) i ma charakter otwarty. Poszczególne referaty ogłaszane są na [[http://lists.nlp.ipipan.waw.pl/mailman/listinfo/ling|Polskiej Liście Językoznawczej]] oraz na stronie [[https://www.facebook.com/lingwistyka.komputerowa|Lingwistyka komputerowa]] na Facebooku. Nagrania wystąpień dostępne są na [[https://www.youtube.com/ipipan|kanale YouTube]].||<style="border:0;padding-left:30px;">[[seminar|{{attachment:seminarium-archiwum/en.png}}]]|| |
Line 6: | Line 6: |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''9 października 2023'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Agnieszka Mikołajczyk-Bareła''', '''Wojciech Janowski''' (!VoiceLab), '''Piotr Pęzik''' (Uniwersytet Łódzki / !VoiceLab), '''Filip Żarnecki''', '''Alicja Golisowicz''' (!VoiceLab) || ||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''[[attachment:seminarium-archiwum/2023-10-09.pdf|TRURL.AI: Dostrajanie dużych generatywnych modeli językowych na wielojęzycznych zbiorach instrukcji]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Wystąpienie stanowi podsumowanie kilkumiesięcznych doświadczeń z zakresu dostrajania (ang. fine-tuning) generatywnych modeli językowych na dużych, dwujęzycznych zbiorach instrukcji. Wynikiem tych prac jest otwarta wersja modelu Trurl (zob. trurl.ai), który w założeniach ma zachować poziom działania modelu wyjściowego na otwartych zbiorach ewaluacyjnych, a jednocześnie charakteryzować się lepszą skutecznością w ściśle określonych domenach i zastosowaniach, takich jak ekstrakcja informacji z interakcji biznesowych oraz etykietowanie danych ze szczególnym uwzględnieniem przetwarzania tekstów polskich. Modelem bazowym dla Trurla były modele [[https://arxiv.org/abs/2307.09288|Llama 2]] o wielkości 7 i 13 miliardów parametrów. W referacie opiszemy proces przygotowania zbiorów instrukcji, treningu oraz kwantyzacji wynikowych modeli. Podamy także przykłady użycia dostrojonych modeli na wybranych zadaniach.|| |
||<style="border:0;padding-top:15px">Zapraszamy także do zapoznania się z [[http://nlp.ipipan.waw.pl/NLP-SEMINAR/previous-p.html|archiwum seminariów z lat 2000–2015]] oraz [[http://zil.ipipan.waw.pl/seminarium-archiwum|listą wystąpień z lat 2015–2025]].|| |
Line 11: | Line 8: |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''16 października 2023'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Konrad Wojtasik''', '''Vadim Shishkin''', '''Kacper Wołowiec''', '''Arkadiusz Janz''', '''Maciej Piasecki''' (Politechnika Wrocławska)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Ewaluacja i trenowanie modeli do wyszukiwania informacji w ustawieniu zero-shot dla różnych domen dokumentów'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Przeszukiwanie dużych kolekcji dokumentów w celu odnalezienia interesujących nas informacji jest niezwykle ważnym kierunkiem badawczym w dziedzinie przetwarzania języka naturalnego. Jest to kluczowy komponent w systemach odpowiadania na pytania, gdzie często model odpowiadający korzysta z informacji zawartych w bazie danych z aktualną wiedzą. Pozwala to nie tylko na aktualizację wiedzy, na podstawie której system odpowiada na zapytania użytkownika, ale również ogranicza jego halucynacje. Aktualnie modele do wyszukiwania informacji są sieciami neuronowymi i wymagają dużych zasobów uczących do ich wytrenowania. Przez wiele lat, metody dopasowania leksykalnego jak BM25, osiągały lepsze wyniki niż wytrenowane modele, jednak aktualne architektury i rozległe zbiory danych pozwalają na prześcignięcie leksykalnych rozwiązań. W prezentacji przedstawię dostępne zbiory służące do ewaluacji i trenowania aktualnych architektur do wyszukiwania informacji w kolekcjach dokumentów z różnych domen, jak i kierunki rozwoju na przyszłość.|| |
{{{#!wiki comment |
Line 16: | Line 10: |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''30 października 2023'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Agnieszka Faleńska''' (Uniwersytet w Stuttgarcie)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Steps towards Bias-Aware NLP Systems'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:5px">Dla wielu, systemy przetwarzania języka naturalnego (NLP) stały się codziennością. Ich zastosowania sięgają od automatycznego tłumaczenia dokumentów po asystentów osobistych obsługiwanych głosem. W ostatnich latach, ten rosnący wpływ narzędzi AI na życie ludzi wywołuje znaczące obawy dotyczące możliwych szkód, jakie mogą one wyrządzić.|| ||<style="border:0;padding-left:30px;padding-bottom:15px">W tej prezentacji rozpocznę od przedstawienia kilku przykładów takich szkodliwych zachowań i omówię ich potencjalne źródła. Będę argumentować, że problemy związane z uprzedzeniami w modelach NLP powinny być rozwiązywane poprzez rozwijanie naszego zrozumienia ich źródeł językowych. Następnie prezentacja skoncentruje się na trzech powszechnie używanych źródłach danych: Wikipedii, tekstach instruktażowych i forum dyskusyjnym. Poprzez te przykłady pokażę, że niezależnie od perspektywy (czy mówimy o kimś, do kogoś, czy jako ktoś), subtelne uprzedzenia są obecne we wszystkich tych zbiorach danych i mogą przyczynić się do szkodliwych efektów modeli NLP.|| |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''7 października 2023'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Uczestnicy konkursu PolEval 2024''' || ||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Planowana seria prezentacji uczestników zadań PolEvalowych'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienia w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Lista wystąpień będzie dostępna wkrótce.|| |
Line 22: | Line 15: |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''13 listopada 2023'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Piotr Rybak''' (Instytut Podstaw Informatyki PAN)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''Najnowsze postępy w rozwoju systemów do odpowiadania na pytania w języku polskim'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Mimo że odpowiadanie na pytania (ang. ''Question Answering'') jest jednym z popularniejszych zagadnień przetwarzania języka naturalnego, to do niedawna było ono praktycznie nieobecne w polskim środowisku naukowym. Ostatnie lata przyniosły jednak rozkwit prac związanych z tym tematem. Podczas tego wystąpienia opowiem na czym polega zagadnienie odpowiadania na pytania, jak działają obecne systemy rozwiązujące ten problem, a także jakie zbiory danych oraz modele są dostępne dla języka polskiego. W szczególności opowiem o zasobach tworzonych w IPI PAN, czyli zbiorach danych !PolQA i !MAUPQA, oraz modelu Silver Retriever. Na koniec wskażę dalsze kierunki prac, które wciąż pozostają otwarte jeśli chodzi o odpowiadanie na pytania w języku polskim.|| |
|
Line 27: | Line 16: |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''27 listopada 2023'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Aleksander Wawer''' (Instytut Podstaw Informatyki PAN)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''Tytuł wystąpienia poznamy wkrótce'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie po polsku.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Streszczenie wystąpienia udostępnimy w najbliższym czasie.|| |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''11 marca 2024'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Mateusz Krubiński''' (Uniwersytet Karola w Pradze)|| ||<style="border:0;padding-left:30px;padding-bottom:15px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Tytuł wystąpienia podamy wkrótce'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku polskim.}}|| |
Line 32: | Line 20: |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''4 grudnia 2023''' (prezentacja wyników projektu DARIAH.Lab, rozpoczęcie planowane na godz. 11:00)|| | ||<style="border:0;padding-top:15px;padding-bottom:5px">'''8 stycznia 2024''' (prezentacja wyników projektu DARIAH.Lab)|| |
Line 37: | Line 27: |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''11 grudnia 2023''' (seria krótkich wystąpień autorstwa badaczy z Coventry University)|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Xiaorui Jiang''' (Coventry University)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''NLP for automating systematic reviews for evidence-based healthcare'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w jęz. angielskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:10px">Streszczenie wystąpienia udostępnimy w najbliższym czasie.|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Xiaorui Jiang''' (Coventry University)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''Scientific text mining and summarisation'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w jęz. angielskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:10px">Streszczenie wystąpienia udostępnimy już wkrótce.|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Xiaorui Jiang''', '''Alireza Daneshkhah''' (Coventry University)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''NLP for reducing GP workload: An early progress report'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w jęz. angielskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15x">Streszczenie wystąpienia udostępnimy już niedługo.|| ||<style="border:0;padding-top:15px">Zapraszamy także do zapoznania się z [[http://nlp.ipipan.waw.pl/NLP-SEMINAR/previous-p.html|archiwum seminariów z lat 2000–2015]] oraz [[http://zil.ipipan.waw.pl/seminarium-archiwum|listą wystąpień z lat 2015–2023]].|| {{{#!wiki comment |
Seminarium „Przetwarzanie języka naturalnego” 2025–26
Nowa edycja seminarium Zespołu Inżynierii Lingwistycznej w Instytucie Podstaw Informatyki Polskiej Akademii Nauk rozpocznie się w październiku 2025 r. Seminarium odbywa się średnio co 2 tygodnie, zwykle w poniedziałki o godz. 10:15 (niekiedy online – prosimy o korzystanie z linku przy tytule wystąpienia) i ma charakter otwarty. Poszczególne referaty ogłaszane są na Polskiej Liście Językoznawczej oraz na stronie Lingwistyka komputerowa na Facebooku. Nagrania wystąpień dostępne są na kanale YouTube. |
Zapraszamy także do zapoznania się z archiwum seminariów z lat 2000–2015 oraz listą wystąpień z lat 2015–2025. |