seminarium-archiwum

Seminarium Zespołu Inżynierii Lingwistycznej w Instytucie Podstaw Informatyki Polskiej Akademii Nauk odbywa się średnio co 2 tygodnie, zwykle w poniedziałki o godz. 10:15 (niekiedy online – prosimy o korzystanie z linku przy tytule wystąpienia) i ma charakter otwarty. Poszczególne referaty ogłaszane są na Polskiej Liście Językoznawczej oraz na stronie Lingwistyka komputerowa na Facebooku. Nagrania wystąpień dostępne są na kanale YouTube.

9 października 2023

Agnieszka Mikołajczyk-Bareła, Wojciech Janowski (VoiceLab), Piotr Pęzik (Uniwersytet Łódzki / VoiceLab), Filip Żarnecki, Alicja Golisowicz (VoiceLab)

TRURL.AI: Dostrajanie dużych generatywnych modeli językowych na wielojęzycznych zbiorach instrukcji

Wystąpienie stanowi podsumowanie kilkumiesięcznych doświadczeń z zakresu dostrajania (ang. fine-tuning) generatywnych modeli językowych na dużych, dwujęzycznych zbiorach instrukcji. Wynikiem tych prac jest otwarta wersja modelu Trurl (zob. trurl.ai), który w założeniach ma zachować poziom działania modelu wyjściowego na otwartych zbiorach ewaluacyjnych, a jednocześnie charakteryzować się lepszą skutecznością w ściśle określonych domenach i zastosowaniach, takich jak ekstrakcja informacji z interakcji biznesowych oraz etykietowanie danych ze szczególnym uwzględnieniem przetwarzania tekstów polskich. Modelem bazowym dla Trurla były modele Llama 2 o wielkości 7 i 13 miliardów parametrów. W referacie opiszemy proces przygotowania zbiorów instrukcji, treningu oraz kwantyzacji wynikowych modeli. Podamy także przykłady użycia dostrojonych modeli na wybranych zadaniach.

16 października 2023

Konrad Wojtasik, Vadim Shishkin, Kacper Wołowiec, Arkadiusz Janz, Maciej Piasecki (Politechnika Wrocławska)

Ewaluacja i trenowanie modeli do wyszukiwania informacji w ustawieniu zero-shot dla różnych domen dokumentów

Przeszukiwanie dużych kolekcji dokumentów w celu odnalezienia interesujących nas informacji jest niezwykle ważnym kierunkiem badawczym w dziedzinie przetwarzania języka naturalnego. Jest to kluczowy komponent w systemach odpowiadania na pytania, gdzie często model odpowiadający korzysta z informacji zawartych w bazie danych z aktualną wiedzą. Pozwala to nie tylko na aktualizację wiedzy, na podstawie której system odpowiada na zapytania użytkownika, ale również ogranicza jego halucynacje. Aktualnie modele do wyszukiwania informacji są sieciami neuronowymi i wymagają dużych zasobów uczących do ich wytrenowania. Przez wiele lat metody dopasowania leksykalnego, takie jak BM25, osiągały lepsze wyniki niż wytrenowane modele, jednak aktualne architektury i rozległe zbiory danych pozwalają na prześcignięcie leksykalnych rozwiązań. W prezentacji przedstawię dostępne zbiory służące do ewaluacji i trenowania aktualnych architektur do wyszukiwania informacji w kolekcjach dokumentów z różnych domen, jak i kierunki rozwoju na przyszłość.

30 października 2023

Agnieszka Faleńska (Uniwersytet w Stuttgarcie)

Steps towards Bias-Aware NLP Systems

Systemy przetwarzania języka naturalnego (NLP) stały się codziennością. Ich zastosowania sięgają od automatycznego tłumaczenia dokumentów po asystentów osobistych obsługiwanych głosem. W ostatnich latach ten rosnący wpływ narzędzi AI na życie ludzi wywołuje znaczące obawy dotyczące możliwych szkód, jakie mogą one wyrządzić. W prezentacji przedstawiam kilka przykładów takich szkodliwych zachowań i omawiam ich potencjalne źródła. Twierdzę, że problemy związane z uprzedzeniami w modelach NLP powinny być rozwiązywane poprzez rozwijanie naszego zrozumienia ich źródeł językowych. Następnie koncentruję się na trzech powszechnie używanych źródłach danych: Wikipedii, tekstach instruktażowych i forum dyskusyjnym. Poprzez te przykłady pokazuję, że niezależnie od perspektywy (czy mówimy o kimś, do kogoś, czy jako ktoś), subtelne uprzedzenia są obecne we wszystkich tych zbiorach danych i mogą przyczynić się do szkodliwych efektów modeli NLP.

13 listopada 2023

Piotr Rybak (Instytut Podstaw Informatyki PAN)

Najnowsze postępy w rozwoju systemów do odpowiadania na pytania w języku polskim

Mimo że odpowiadanie na pytania (ang. Question Answering) jest jednym z popularniejszych zagadnień przetwarzania języka naturalnego, to do niedawna było ono praktycznie nieobecne w polskim środowisku naukowym. Ostatnie lata przyniosły jednak rozkwit prac związanych z tym tematem. Podczas tego wystąpienia opowiem na czym polega zagadnienie odpowiadania na pytania, jak działają obecne systemy rozwiązujące ten problem, a także jakie zbiory danych oraz modele są dostępne dla języka polskiego. W szczególności opowiem o zasobach tworzonych w IPI PAN, czyli zbiorach danych PolQA i MAUPQA oraz modelu Silver Retriever. Na koniec wskażę dalsze kierunki prac, które wciąż pozostają otwarte jeśli chodzi o odpowiadanie na pytania w języku polskim.

11 grudnia 2023 (seria krótkich wystąpień autorstwa badaczy z Coventry University)

Xiaorui Jiang, Opeoluwa Akinseloyin, Vasile Palade (Coventry University)

Towards More Human-Effortless Systematic Review Automation

Systematic literature review (SLR) is the standard tool for synthesising medical and clinical evidence from the ocean of publications. SLR is extremely expensive and AI can play a significant role in automating the SLR process, such as for citation screening, i.e., the selection of primary studies-based title and abstract. Some tools exist, but they suffer from tremendous obstacles, including lack of trust. In addition, a specific characteristic of systematic review, which is the fact that each systematic review is a unique dataset and starts with no annotation, makes the problem even more challenging. In this study, we present some seminal but initial efforts on utilising the transfer learning and zero-shot learning capabilities of pretrained language models and large language models to solve or alleviate this challenge. Preliminary results are reported.

Kacper Sówka (Coventry University)

Attack Tree Generation Using Machine Learning

My research focuses on applying machine learning and NLP to the problem of cybersecurity attack modelling. This is done by generating "attack tree" models using public cybersecurity datasets (CVE) and training a siamese neural network to predict the relationship between individual cybersecurity vulnerabilities using a DistilBERT encoder fine-tuned using Masked Language Modelling.

Xiaorui Jiang (Coventry University)

Towards Semantic Science Citation Index

It is a difficult task to understand and summarise the development of scientific research areas. This task is especially cognitively demanding for postgraduate students and early-career researchers, of the whose main jobs is to identify such developments by reading a large amount of literature. Will AI help? We believe so. This short talk summarises some recent initial work on extracting the semantic backbone of a scientific area through the synergy of natural language processing and network analysis, which is believed to serve a certain type of discourse models for summarisation (in future work). As a small step from it, the second part of the talk introduces how comparison citations are utilised to improve multi-document summarisation of scientific papers.

Xiaorui Jiang, Alireza Daneshkhah (Coventry University)

Natural Language Processing for Automated Triaging at NHS

In face of a post-COVID global economic slowdown and aging society, the primary care units in the National Healthcare Services (NHS) are receiving increasingly higher pressure, resulting in delays and errors in healthcare and patient management. AI can play a significant role in alleviating this investment-requirement discrepancy, especially in the primary care settings. A large portion of clinical diagnosis and management can be assisted with AI tools for automation and reduce delays. This short presentation reports the initial studies worked with an NHS partner on developing NLP-based solutions for the automation of clinical intention classification (to save more time for better patient treatment and management) and an early alert application for Gout Flare prediction from chief complaints (to avoid delays in patient treatment and management).

8 stycznia 2024

Danijel Korzinek (Polsko-Japońska Akademia Technik Komputerowych)

ParlaSpeech – Tworzenie wielkoskalowych korpusów mowy w projekcie ParlaMint

Celem tego podprojektu było opracowanie procesów i stworzenie narzędzi pozwalających na powiązanie tekstowych korpusów stworzonych w ramach projektu ParlaMint z odpowiadającymi im materiałami audio i wideo dostępnymi w Internecie. Zadanie to było oczywiście bardziej złożone niż się to może intuicyjnie wydawać i jego powodzenie było uzależnione w największej mierze od poprawnego dopasowania bardzo długiego nagrania audio (kilkanaście godzin, czyli cały dzień pracy parlamentu) do odpowiadającego mu transkryptu, wraz ze wszystkimi błędami i niedokładnościami w dopasowaniu i kolejności występującymi między tymi dwoma modalnościami. Projekt został stworzony w oparciu o całkowicie otwarte oprogramowanie i modele, które są dostępne w publicznym repozytorium i mogą być zastosowane do innych projektów o podobnym zakresie wymagań. Do tej pory w pełni opracowano korpusy w dwóch językach (polski i chorwacki).

12 lutego 2024

Tsimur Hadeliya, Dariusz Kajtoch (Allegro ML Research)

Ewaluacja i analiza uczenia kontekstowego dla zadania klasyfikacji w języku polskim

With the advent of language models such as ChatGPT, we are witnessing a paradigm shift in the way we approach natural language processing tasks. Instead of training a model from scratch, we can now solve tasks by designing appropriate prompts and choosing suitable demonstrations as input to a generative model. This approach, known as in-context learning (ICL), has shown remarkable capabilities for classification tasks in the English language. In this presentation, we investigate how different language models perform on Polish classification tasks using the ICL approach. We explore the effectiveness of various models, including multilingual and large-scale models, and compare their results with existing solutions. Through a comprehensive evaluation and analysis, we aim to gain insights into the strengths and limitations of this approach for Polish classification tasks. Our findings shed light on the potential of ICL for the Polish language. We discuss challenges and opportunities, and propose directions for future work.

29 lutego 2024

Seminarium wyjazdowe: Warsztat „Analiza danych parlamentarnych”

Wprowadzenie

12:00–12:10: Powitanie

12:10–12:40: Korpus Dyskursu Parlamentarnego i korpus ParlaMint (Maciej Ogrodniczuk)

Zgłoszenia konkursowe

12:40–13:00: Aplikacja do analizy sentymentu wypowiedzi parlamentarzystów RP (Bartłomiej Klimowski)

13:00–13:20: Analiza dynamiki emocji w debatach parlamentarnych o wojnie w Ukrainie (Konrad Kiljan i Ewelina Gajewska)

13:20–13:40: Język wrażliwy na płeć (gender-fair language) w polskim parlamencie: badanie korpusowe debat parlamentarnych w korpusie ParlaMint (Aleksandra Tomaszewska i Anna Jamka)

Wykład na zaproszenie

14:00–15:00: Zmiany w polszczyźnie ostatnich stu lat w zwierciadle debat parlamentarnych (Marek Łaziński)

Dyskusja panelowa

15:00–15:45: Przetwarzanie danych parlamentarnych: co dalej? (Członkowie Kapituły Konkursu)

Zakończenie

15:45–15:50: Wręczenie dyplomów

15:50–16:00: Podsumowanie warsztatu

25 marca 2024

Piotr Przybyła (Uniwersytet Pompeu Fabry / Instytut Podstaw Informatyki PAN)

Czy klasyfikatory wiarygodności tekstu są odporne na działania antagonistyczne?

Automatyczne klasyfikatory tekstu wykorzystuje się szeroko do pomocy w moderowaniu platform udostępniających treści generowane przez użytkowników, szczególnie sieci społecznościowych. Mogą być one używane do odsiewania treści nieprzyjaznych, dezinformujących, manipulujących lub wprost nielegalnych. Jednak trzeba wziąć pod uwagę, że autorzy takich tekstów często mają silną motywację do ich rozpowszechniania i mogą próbować modyfikować oryginalną treść, aż znajdą takie sformułowanie, które przedostanie się przez automatyczny filtr. Takie zmodyfikowane wersje oryginalnych danych, nazywane przykładami antagonistycznymi, odgrywają kluczową rolę w badaniu odporności modeli ML na ataki zmotywowanych aktorów. Wystąpienie poświęcone jest systematycznej analizie tego problemu w kontekście wykrywania dezinformacji. Pokazuję konkretne przykłady, gdzie podmiana pozornie nieistotnych słów powoduje zmianę decyzji klasyfikatora, jak również framework BODEGA do systematycznej oceny odporności modeli, wykorzystany również w zadaniu InCrediblAE na warsztatach ewaluacyjnych CheckThat! na konferencji CLEF 2024.

28 marca 2024

Krzysztof Węcel (Uniwersytet Ekonomiczny w Poznaniu)

Wiarygodność informacji w kontekście procesu fact-checkingu

Prezentacja skupia się na tematyce projektu OpenFact, który jest odpowiedzią na problem fake newsów. W ramach projektu opracowujemy metody, które pozwalają na weryfikację wiarygodności informacji. W celu zapewnienia poprawności metodycznej bazujemy na procesie stosowanym przez agencje fact-checkingowe. Działania te opierają się na złożonych zbiorach danych, pozyskiwanych m.in. z ClaimReview, Common Crawl czy poprzez monitoring mediów społecznościowych i ekstrakcję stwierdzeń z tekstów. Istotne jest również ocenianie informacji pod kątem jej wartości do weryfikacji (checkworthiness) oraz wiarygodności źródeł, których reputacja może wynikać z publikacji z OpenAlex lub Crossref. Analiza stylometryczna pozwala na określenie autorstwa, a porównanie ludzkiej i maszynowej pracy otwiera nowe możliwości w wykrywaniu użycia sztucznej inteligencji. Używamy zarówno małych modeli językowych, jak i LLM uruchamianych zdalnie w różnych wariantach. Zbudowaliśmy duże zbiory stwierdzeń, które mogą służyć do weryfikacji nowych tekstów poprzez badanie podobieństwa semantycznego. Opisane są one dodatkowymi wciąż rozbudowywanymi metadanymi pozwalającymi na realizację różnych scenariuszy użycia.

25 kwietnia 2024

Seminarium podsumowujące prace nad Korpusem Współczesnego Języka Polskiego (Dekada 2011–2020)

11:30–11:35: O projekcie (Małgorzata Marciniak)

11:35–12:05: Korpus Współczesnego Języka Polskiego, Dekada 2011−2020 (Marek Łaziński)

12:05–12:35: Znakowanie, lematyzacja, frekwencja (Witold Kieraś)

12:35–13:00: Przerwa kawowa

13:00–13:30: Hybrydowa reprezentacja informacji składniowej (Marcin Woliński)

13:30–14:15: Dyskusja o przyszłości korpusów

13 maja 2024

Michal Křen (Uniwersytet Karola w Pradze)

Latest developments in the Czech National Corpus

The talk will give an overview of the Czech National Corpus (CNC) research infrastructure in all the main areas of its operation: corpus compilation, data annotation, application development and user support. Special attention will be paid to the variety of language corpora and user applications where CNC has recently seen a significant progress. In addition, it is the end-user web applications that shape the way linguists and other scholars think about the language data and how they can be utilized. The talk will conclude with an outline of future plans.

3 czerwca 2024 (wystąpienie w ramach seminarium IPI PAN)

Marcin Woliński, Katarzyna Krasnowska-Kieraś (Instytut Podstaw Informatyki PAN)

Składnikowo-zależnościowe parsowanie języka naturalnego z wykorzystaniem sieci neuronowych

W referacie przedstawimy autorską metodę automatycznej analizy składniowej (parsowania) języka naturalnego. W proponowanym podejściu struktury składniowe są wyrażane za pomocą kręgosłupów składniowych i ich powiązań, co pozwala jednocześnie wytwarzać dwa popularne typy reprezentacji: drzewa zależnościowe i składnikowe. Omówimy realizację tej metody w postaci zbioru klasyfikatorów nałożonych na wyjścia modelu językowego typu BERT. Testy algorytmu na danych polskich i niemieckich pokazały wysoką jakość uzyskiwanych wyników. Metoda została wykorzystana do wprowadzenia składniowej warstwy opisu w Korpusie Współczesnego Języka Polskiego opracowanym w IPI PAN.

4 lipca 2024

Purificação Silvano (Uniwersytet w Porto)

Unifying Semantic Annotation with ISO 24617 for Narrative Extraction, Understanding and Visualisation

I present the successful application of Language resource management – Semantic annotation framework (ISO-24617) for representing semantic information in texts. Initially, I will introduce the harmonisation of five parts of ISO 24617 (1, 4, 7, 8, 9) into a comprehensive annotation scheme designed to represent semantic information pertaining to eventualities, times, participants, space, discourse relations and semantic roles. Subsequently, I will explore the applications of this annotation, specifically highlighting the Text2Story and StorySense projects, which focus on narrative extraction, understanding and visualisation of the journalistic text.

Seminarium „Przetwarzanie języka naturalnego” 2023–24