|
Size: 17426
Comment:
|
Size: 17977
Comment:
|
| Deletions are marked like this. | Additions are marked like this. |
| Line 23: | Line 23: |
| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Tytuł wystąpienia zostanie podany wkrótce'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienia w języku polskim.}} {{attachment:seminarium-archiwum/icon-en.gif|Slajdy po angielsku.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Streszczenie wystąpienia udostępnimy z najbliższym czasie.|| |
||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Tworzenie korpusów mowy dla języków o ograniczonych zasobach'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienia w języku polskim.}} {{attachment:seminarium-archiwum/icon-en.gif|Slajdy po angielsku.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Tworzenie różnorodnych, dobrze anotowanych korpusów mowy ma zasadnicze znaczenie dla modeli uczenia maszynowego. Podczas wystąpienia zostaną przedstawione podstawowe zagadnienia dotyczące anotacji korpusów mowy, ze szczególnym uwzględnieniem języka litewskiego. Omówiony zostanie projekt Wielkiego Litewskiego Korpusu Mowy (LIEPA-3), w tym strategia gromadzenia, anotacji i kontroli jakości danych, a także zapewnienia zrównoważonej reprezentacji dialektów, płci oraz grup wiekowych. Poruszone zostaną również kwestie etycznego gromadzenia danych i standaryzacji korpusów.|| |
Seminarium „Przetwarzanie języka naturalnego” 2025–26
Nowa edycja seminarium Zespołu Inżynierii Lingwistycznej w Instytucie Podstaw Informatyki Polskiej Akademii Nauk rozpocznie się w październiku 2025 r. Seminarium odbywa się średnio co 2 tygodnie, zwykle w poniedziałki o godz. 10:15 (niekiedy online – prosimy o korzystanie z linku przy tytule wystąpienia) i ma charakter otwarty. Poszczególne referaty ogłaszane są na Polskiej Liście Językoznawczej oraz na stronie Lingwistyka komputerowa na Facebooku. Nagrania wystąpień dostępne są na kanale YouTube. |
15 września 2025 |
Louis Esteve (Universite Paris-Saclay) |
The field of Natural Language Processing (NLP) studies the abilities of computer systems to process and generate natural language, and has received increasing attention from the general population since the democratisation of generative and conversational models. However, behind the scenes, state-of-the-art NLP models are trained on ever-larger datasets, reaching trillions of tokens. It may be argued that the creation and use of such immense datasets is motivated by the idea that 'the larger the dataset, the more diverse it is', and that in turn 'if the training set is more diverse, it shall yield better models'. However, these statements thus far remain intuitions and need to be properly tested. To this end, this presentation will tackle methods and caveats of formal diversity quantification including limitations of the literature, a preliminary discussion on the link between diversity and dataset size, as well as their impact on downstream applications. |
6 października 2025 |
|
Stan Matwin (Dalhousie University / IPI PAN) |
|
|
|
Kluczowe cechy chorób psychicznych znajdują odzwierciedlenie w zapisach audio wywiadów klinicznych z pacjentami i ich rodzinami. Zbudowaliśmy metodę głębokiego uczenia się, która automatycznie wyodrębnia istotne cechy niezbędne do diagnozy chorób psychicznych (ADHD, depresji, choroby afektywnej dwubiegunowej i schizofrenii) z tego rodzaju wywiadów. Wykorzystujemy różnorodne, wstępnie wytrenowane modele do ekstrakcji reprezentacji zarówno z dźwiękowych segmentów tych wywiadów, jak i ich wersji tekstowych. Używamy kilku nowoczesnych technik reprezentacyjnych (embeddings). Stosujemy podejście Big Data eksplorując istniejące korpusy dźwiękowe i tekstowe adnotowane etykietami emocjonalnymi. Problem niedoboru adnotowanych danych rozwiązujemy za co pomocą parametrycznego dostrajania modelu (Parameter Efficient Fine-Tuning). Wszystkie te reprezentacje są następnie łączone w jedną formę wielopostaciowa. Do diagnozowania powyższych zaburzeń psychicznych stosujemy uczenie się przez kontrast oraz syntezę modeli za pomocą komitetu ekspertów (Mixture of Experts). Otrzymane wyniki pokazują że poprzez multimodalną analizę wywiadów klinicznych można diagnozować zaburzenia psychiczne z zadowalającą dokładnością (projekt prowadzony we współpracy z H. Naderi i R. Uherem). |
20 października 2025 |
Arkadiusz Modzelewski (Uniwersytet Padewski / Polsko-Japońska Akademia Technik Komputerowych) |
|
Jakich narzędzi językowych używają autorzy dezinformacji? Czy włączenie wiedzy o perswazji i intencjach może poprawić zdolność dużych modeli językowych do wykrywania dezinformacji? Jak skuteczne są modele LLM w identyfikowaniu dezinformacji w języku polskim i angielskim? W tym wykładzie przedstawię wyniki moich badań dotyczących dezinformacji, perswazji i intencji stojących za wprowadzającymi w błąd informacjami. Przedstawię jeden z największych polskich zbiorów danych dotyczących dezinformacji, a także nowatorski zbiór danych w języku angielskim. Oba zbiory zostały zaprojektowane w celu uchwycenia technik manipulacyjnych i intencji autorów dezinformacji. Opierając się na tych i innych zasobach, omówię skuteczność obecnych modeli LLM w wykrywaniu dezinformacji, perswazji i intencji oraz wskazuję obiecujące kierunki poprawy ich skuteczności w wykrywaniu dezinformacji. |
24 listopada 2025 |
Jan Eliasz, Mikołaj Langner, Jan Kocoń (Politechnika Wrocławska) |
Streszczenie wystąpienia udostępnimy z najbliższym czasie. |
Zapraszamy także do zapoznania się z archiwum seminariów z lat 2000–2015 oraz listą wystąpień z lat 2015–2025. |



