Size: 11816
Comment:
|
Size: 14537
Comment:
|
Deletions are marked like this. | Additions are marked like this. |
Line 2: | Line 2: |
= Seminarium „Przetwarzanie języka naturalnego” 2023–24 = | = Seminarium „Przetwarzanie języka naturalnego” 2024–25 = |
Line 6: | Line 6: |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''9 października 2023'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Agnieszka Mikołajczyk-Bareła''' (!VoiceLab), '''Wojciech Janowski''' (!VoiceLab), '''Piotr Pęzik''' (Uniwersytet Łódzki / !VoiceLab), '''Filip Żarnecki''' (!VoiceLab), '''Alicja Golisowicz''' (!VoiceLab) || ||<style="border:0;padding-left:30px;padding-bottom:5px">'''TRURL.AI Dostrajanie dużych generatywnych modeli językowych na wielojęzycznych zbiorach instrukcji'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Wystąpienie stanowi podsumowanie kilkumiesięcznych doświadczeń z zakresu dostrajania (ang. fine-tuning) generatywnych modeli językowych na dużych, dwujęzycznych zbiorach instrukcji. Wynikiem tych prac jest otwarta wersja modelu Trurl (zob. trurl.ai), który w założeniach ma zachować poziom działania modelu wyjściowego na otwartych zbiorach ewaluacyjnych, a jednocześnie charakteryzować się lepszą skutecznością w ściśle określonych domenach i zastosowaniach, takich jak ekstrakcja informacji z interakcji biznesowych oraz etykietowanie danych ze szczególnym uwzględnieniem przetwarzania tekstów polskich. Modelem bazowym dla Trurla były modele [[https://arxiv.org/abs/2307.09288|Llama 2]] o wielkości 7 i 13 miliardów parametrów. W referacie opiszemy proces przygotowania zbiorów instrukcji, treningu oraz kwantyzacji wynikowych modeli. Podamy także przykłady użycia dostrojonych modeli na wybranych zadaniach.|| |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''7 października 2024'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Janusz S. Bień''' (profesor emeritus Uniwersytetu Warszawskiego) || ||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''[[attachment:seminarium-archiwum/2024-10-07.pdf|Identyfikacja czcionek w XVI-wiecznych drukach. Analiza przypadku]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienia w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Przetwarzanie tekstów wymaga ich zakodowania w odpowiednim standardzie, aktualnie praktyczne jedyną opcją jest standard Unicode. Niektóre czcionki stosowane w starodrukach są już uwzględnione w tym standardzie, niektóre są dostępne w specjalistycznych fontach za pomocą tzw. funkcji zecerskich. Niektóre czcionki, opisane w monumentalnym dziele „[[https://crispa.uw.edu.pl/object/files/754258/display/Default|Polonia Typographica Saeculi Sedecimi]]”, nie mają jednak swoich odpowiedników w standardzie. W referacie omówię kilka takich czcionek.|| |
Line 11: | Line 11: |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''16 października 2023'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Konrad Wojtasik''', '''Vadim Shishkin''', '''Kacper Wołowiec''', '''Arkadiusz Janz''', '''Maciej Piasecki''' (Politechnika Wrocławska)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''Ewaluacja i trenowanie modeli do wyszukiwania informacji w ustawieniu zero-shot dla różnych domen dokumentów'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Streszczenie zostanie podane wkrótce.|| |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''14 października 2024'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Alexander Rosen''' (Uniwersytet Karola w Pradze)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Lexical and syntactic variability of languages and text genres. A corpus-based study'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Streszczenie wystąpienia pojawi się wkrótce.|| |
Line 16: | Line 16: |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''30 października 2023'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Agnieszka Faleńska''' (Uniwersytet w Stuttgarcie)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''Steps towards Bias-Aware NLP Systems'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Streszczenie zostanie podane wkrótce.|| |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''4 listopada 2024'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Jakub Kozakoszczak''' (Deutsche Telekom)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''ZIML: Język znaczników anotacyjnych do łatwego dopasowywania regeksami'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Streszczenie wystąpienia pojawi się w najbliższym czasie.|| |
Line 21: | Line 21: |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''13 listopada 2023'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Piotr Rybak''' (Instytut Podstaw Informatyki PAN)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''Najnowsze postępy w rozwoju systemów do odpowiadania na pytania w języku polskim'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Streszczenie zostanie podane wkrótce.|| |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''21 listopada 2024'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Christian Chiarcos''' (Uniwersytet w Augsburgu)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Tytuł wystąpienia udostępnimy już niedługo'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Treść streszczenia podamy po jej przekazaniu przez prelegenta.|| |
Line 26: | Line 26: |
||<style="border:0;padding-top:0px">Zapraszamy także do zapoznania się z [[http://nlp.ipipan.waw.pl/NLP-SEMINAR/previous-p.html|archiwum seminariów z lat 2000–2015]] oraz [[http://zil.ipipan.waw.pl/seminarium-archiwum|listą wystąpień z lat 2015–2023]].|| | ||<style="border:0;padding-top:5px;padding-bottom:5px">'''2 grudnia 2024'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Uczestnicy warsztatu !PolEval 2024'''|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Prezentacja wyników warsztatu'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Szczegółowy program wystąpień będzie dostępny po rozstrzygnięciu konkursu.|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''19 grudnia 2024'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Piotr Przybyła''' (Uniwersytet Pompeu Fabry / Instytut Podstaw Informatyki PAN)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Adaptacyjne ataki na klasyfikację wiarygodności z wykorzystaniem uczenia ze wzmocnieniem'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Treść streszczenia podamy po jej przekazaniu przez prelegenta.|| ||<style="border:0;padding-top:15px">Zapraszamy także do zapoznania się z [[http://nlp.ipipan.waw.pl/NLP-SEMINAR/previous-p.html|archiwum seminariów z lat 2000–2015]] oraz [[http://zil.ipipan.waw.pl/seminarium-archiwum|listą wystąpień z lat 2015–2023]].|| |
Line 29: | Line 39: |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''7 października 2023'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Uczestnicy konkursu PolEval 2024''' || ||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Planowana seria prezentacji uczestników zadań PolEvalowych'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienia w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Lista wystąpień będzie dostępna wkrótce.|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''11 marca 2024'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Mateusz Krubiński''' (Uniwersytet Karola w Pradze)|| ||<style="border:0;padding-left:30px;padding-bottom:15px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Tytuł wystąpienia podamy wkrótce'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-top:15px;padding-bottom:5px">'''8 stycznia 2024''' (prezentacja wyników projektu DARIAH.Lab)|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Zespół projektu DARIAH.Lab''' (Instytut Podstaw Informatyki PAN)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''Tytuł wystąpienia poznamy wkrótce'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie po polsku.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Streszczenie wystąpienia udostępnimy w najbliższym czasie.|| |
Seminarium „Przetwarzanie języka naturalnego” 2024–25
Seminarium Zespołu Inżynierii Lingwistycznej w Instytucie Podstaw Informatyki Polskiej Akademii Nauk odbywa się średnio co 2 tygodnie, zwykle w poniedziałki o godz. 10:15 (niekiedy online – prosimy o korzystanie z linku przy tytule wystąpienia) i ma charakter otwarty. Poszczególne referaty ogłaszane są na Polskiej Liście Językoznawczej oraz na stronie Lingwistyka komputerowa na Facebooku. Nagrania wystąpień dostępne są na kanale YouTube. |
7 października 2024 |
Janusz S. Bień (profesor emeritus Uniwersytetu Warszawskiego) |
|
Przetwarzanie tekstów wymaga ich zakodowania w odpowiednim standardzie, aktualnie praktyczne jedyną opcją jest standard Unicode. Niektóre czcionki stosowane w starodrukach są już uwzględnione w tym standardzie, niektóre są dostępne w specjalistycznych fontach za pomocą tzw. funkcji zecerskich. Niektóre czcionki, opisane w monumentalnym dziele „Polonia Typographica Saeculi Sedecimi”, nie mają jednak swoich odpowiedników w standardzie. W referacie omówię kilka takich czcionek. |
14 października 2024 |
Alexander Rosen (Uniwersytet Karola w Pradze) |
|
Streszczenie wystąpienia pojawi się wkrótce. |
4 listopada 2024 |
Jakub Kozakoszczak (Deutsche Telekom) |
|
Streszczenie wystąpienia pojawi się w najbliższym czasie. |
21 listopada 2024 |
Christian Chiarcos (Uniwersytet w Augsburgu) |
Treść streszczenia podamy po jej przekazaniu przez prelegenta. |
2 grudnia 2024 |
Uczestnicy warsztatu PolEval 2024 |
Szczegółowy program wystąpień będzie dostępny po rozstrzygnięciu konkursu. |
Zapraszamy także do zapoznania się z archiwum seminariów z lat 2000–2015 oraz listą wystąpień z lat 2015–2023. |