Size: 17889
Comment:
|
Size: 17498
Comment:
|
Deletions are marked like this. | Additions are marked like this. |
Line 36: | Line 36: |
---- /!\ '''Edit conflict - other version:''' ---- ||<style="border:0;padding-left:30px;padding-bottom:25x">Streszczenie wystąpienia udostępnimy już niedługo.|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''8 stycznia 2024''' (prezentacja wyników projektu DARIAH.Lab)|| ---- /!\ '''Edit conflict - your version:''' ---- |
|
Line 46: | Line 39: |
---- /!\ '''End of edit conflict''' ---- |
Seminarium „Przetwarzanie języka naturalnego” 2023–24
Seminarium Zespołu Inżynierii Lingwistycznej w Instytucie Podstaw Informatyki Polskiej Akademii Nauk odbywa się średnio co 2 tygodnie, zwykle w poniedziałki o godz. 10:15 (niekiedy online – prosimy o korzystanie z linku przy tytule wystąpienia) i ma charakter otwarty. Poszczególne referaty ogłaszane są na Polskiej Liście Językoznawczej oraz na stronie Lingwistyka komputerowa na Facebooku. Nagrania wystąpień dostępne są na kanale YouTube. |
9 października 2023 |
Agnieszka Mikołajczyk-Bareła, Wojciech Janowski (VoiceLab), Piotr Pęzik (Uniwersytet Łódzki / VoiceLab), Filip Żarnecki, Alicja Golisowicz (VoiceLab) |
|
Wystąpienie stanowi podsumowanie kilkumiesięcznych doświadczeń z zakresu dostrajania (ang. fine-tuning) generatywnych modeli językowych na dużych, dwujęzycznych zbiorach instrukcji. Wynikiem tych prac jest otwarta wersja modelu Trurl (zob. trurl.ai), który w założeniach ma zachować poziom działania modelu wyjściowego na otwartych zbiorach ewaluacyjnych, a jednocześnie charakteryzować się lepszą skutecznością w ściśle określonych domenach i zastosowaniach, takich jak ekstrakcja informacji z interakcji biznesowych oraz etykietowanie danych ze szczególnym uwzględnieniem przetwarzania tekstów polskich. Modelem bazowym dla Trurla były modele Llama 2 o wielkości 7 i 13 miliardów parametrów. W referacie opiszemy proces przygotowania zbiorów instrukcji, treningu oraz kwantyzacji wynikowych modeli. Podamy także przykłady użycia dostrojonych modeli na wybranych zadaniach. |
30 października 2023 |
Agnieszka Faleńska (Uniwersytet w Stuttgarcie) |
Dla wielu, systemy przetwarzania języka naturalnego (NLP) stały się codziennością. Ich zastosowania sięgają od automatycznego tłumaczenia dokumentów po asystentów osobistych obsługiwanych głosem. W ostatnich latach, ten rosnący wpływ narzędzi AI na życie ludzi wywołuje znaczące obawy dotyczące możliwych szkód, jakie mogą one wyrządzić. |
W tej prezentacji rozpocznę od przedstawienia kilku przykładów takich szkodliwych zachowań i omówię ich potencjalne źródła. Będę argumentować, że problemy związane z uprzedzeniami w modelach NLP powinny być rozwiązywane poprzez rozwijanie naszego zrozumienia ich źródeł językowych. Następnie prezentacja skoncentruje się na trzech powszechnie używanych źródłach danych: Wikipedii, tekstach instruktażowych i forum dyskusyjnym. Poprzez te przykłady pokażę, że niezależnie od perspektywy (czy mówimy o kimś, do kogoś, czy jako ktoś), subtelne uprzedzenia są obecne we wszystkich tych zbiorach danych i mogą przyczynić się do szkodliwych efektów modeli NLP. |
13 listopada 2023 |
Piotr Rybak (Instytut Podstaw Informatyki PAN) |
Najnowsze postępy w rozwoju systemów do odpowiadania na pytania w języku polskim |
Mimo że odpowiadanie na pytania (ang. Question Answering) jest jednym z popularniejszych zagadnień przetwarzania języka naturalnego, to do niedawna było ono praktycznie nieobecne w polskim środowisku naukowym. Ostatnie lata przyniosły jednak rozkwit prac związanych z tym tematem. Podczas tego wystąpienia opowiem na czym polega zagadnienie odpowiadania na pytania, jak działają obecne systemy rozwiązujące ten problem, a także jakie zbiory danych oraz modele są dostępne dla języka polskiego. W szczególności opowiem o zasobach tworzonych w IPI PAN, czyli zbiorach danych !PolQA i !MAUPQA, oraz modelu Silver Retriever. Na koniec wskażę dalsze kierunki prac, które wciąż pozostają otwarte jeśli chodzi o odpowiadanie na pytania w języku polskim. |
11 grudnia 2023 (seria krótkich wystąpień autorstwa badaczy z Coventry University) |
Xiaorui Jiang (Coventry University) |
NLP for automating systematic reviews for evidence-based healthcare |
Streszczenie wystąpienia udostępnimy w najbliższym czasie. |
Xiaorui Jiang (Coventry University) |
Scientific text mining and summarisation |
Streszczenie wystąpienia udostępnimy już wkrótce. |
Xiaorui Jiang, Alireza Daneshkhah (Coventry University) |
NLP for reducing GP workload: An early progress report |
Streszczenie wystąpienia udostępnimy już niedługo. |
8 stycznia 2024 (prezentacja wyników projektu DARIAH.Lab) |
Zespół projektu DARIAH.Lab (Instytut Podstaw Informatyki PAN) |
Tytuł wystąpienia poznamy wkrótce |
Streszczenie wystąpienia udostępnimy w najbliższym czasie. |
29 stycznia 2024 |
Adam Przepiórkowski (Instytut Podstaw Informatyki PAN) |
Tytuł wystąpienia poznamy wkrótce |
Streszczenie wystąpienia udostępnimy w najbliższym czasie. |
Zapraszamy także do zapoznania się z archiwum seminariów z lat 2000–2015 oraz listą wystąpień z lat 2015–2023. |