Locked History Actions

seminarium-archiwum

Seminarium „Przetwarzanie języka naturalnego” 2023–24

Seminarium Zespołu Inżynierii LingwistycznejInstytucie Podstaw Informatyki Polskiej Akademii Nauk odbywa się średnio co 2 tygodnie, zwykle w poniedziałki o godz. 10:15 (niekiedy online – prosimy o korzystanie z linku przy tytule wystąpienia) i ma charakter otwarty. Poszczególne referaty ogłaszane są na Polskiej Liście Językoznawczej oraz na stronie Lingwistyka komputerowa na Facebooku. Nagrania wystąpień dostępne są na kanale YouTube.

seminar-archive

9 października 2023

Agnieszka Mikołajczyk-Bareła, Wojciech Janowski (VoiceLab), Piotr Pęzik (Uniwersytet Łódzki / VoiceLab), Filip Żarnecki, Alicja Golisowicz (VoiceLab)

https://www.youtube.com/watch?v=q5nCUwhj2us TRURL.AI: Dostrajanie dużych generatywnych modeli językowych na wielojęzycznych zbiorach instrukcji  Wystąpienie w języku polskim.

Wystąpienie stanowi podsumowanie kilkumiesięcznych doświadczeń z zakresu dostrajania (ang. fine-tuning) generatywnych modeli językowych na dużych, dwujęzycznych zbiorach instrukcji. Wynikiem tych prac jest otwarta wersja modelu Trurl (zob. trurl.ai), który w założeniach ma zachować poziom działania modelu wyjściowego na otwartych zbiorach ewaluacyjnych, a jednocześnie charakteryzować się lepszą skutecznością w ściśle określonych domenach i zastosowaniach, takich jak ekstrakcja informacji z interakcji biznesowych oraz etykietowanie danych ze szczególnym uwzględnieniem przetwarzania tekstów polskich. Modelem bazowym dla Trurla były modele Llama 2 o wielkości 7 i 13 miliardów parametrów. W referacie opiszemy proces przygotowania zbiorów instrukcji, treningu oraz kwantyzacji wynikowych modeli. Podamy także przykłady użycia dostrojonych modeli na wybranych zadaniach.

16 października 2023

Konrad Wojtasik, Vadim Shishkin, Kacper Wołowiec, Arkadiusz Janz, Maciej Piasecki (Politechnika Wrocławska)

https://www.youtube.com/watch?v=ehBE6qTKlcM Ewaluacja i trenowanie modeli do wyszukiwania informacji w ustawieniu zero-shot dla różnych domen dokumentów  Wystąpienie w języku angielskim.

Przeszukiwanie dużych kolekcji dokumentów w celu odnalezienia interesujących nas informacji jest niezwykle ważnym kierunkiem badawczym w dziedzinie przetwarzania języka naturalnego. Jest to kluczowy komponent w systemach odpowiadania na pytania, gdzie często model odpowiadający korzysta z informacji zawartych w bazie danych z aktualną wiedzą. Pozwala to nie tylko na aktualizację wiedzy, na podstawie której system odpowiada na zapytania użytkownika, ale również ogranicza jego halucynacje. Aktualnie modele do wyszukiwania informacji są sieciami neuronowymi i wymagają dużych zasobów uczących do ich wytrenowania. Przez wiele lat metody dopasowania leksykalnego, takie jak BM25, osiągały lepsze wyniki niż wytrenowane modele, jednak aktualne architektury i rozległe zbiory danych pozwalają na prześcignięcie leksykalnych rozwiązań. W prezentacji przedstawię dostępne zbiory służące do ewaluacji i trenowania aktualnych architektur do wyszukiwania informacji w kolekcjach dokumentów z różnych domen, jak i kierunki rozwoju na przyszłość.

30 października 2023

Agnieszka Faleńska (Uniwersytet w Stuttgarcie)

https://www.youtube.com/watch?v=6Kgj0N4MvIA Steps towards Bias-Aware NLP Systems  Wystąpienie w języku angielskim.

Systemy przetwarzania języka naturalnego (NLP) stały się codziennością. Ich zastosowania sięgają od automatycznego tłumaczenia dokumentów po asystentów osobistych obsługiwanych głosem. W ostatnich latach ten rosnący wpływ narzędzi AI na życie ludzi wywołuje znaczące obawy dotyczące możliwych szkód, jakie mogą one wyrządzić. W prezentacji przedstawiam kilka przykładów takich szkodliwych zachowań i omawiam ich potencjalne źródła. Twierdzę, że problemy związane z uprzedzeniami w modelach NLP powinny być rozwiązywane poprzez rozwijanie naszego zrozumienia ich źródeł językowych. Następnie koncentruję się na trzech powszechnie używanych źródłach danych: Wikipedii, tekstach instruktażowych i forum dyskusyjnym. Poprzez te przykłady pokazuję, że niezależnie od perspektywy (czy mówimy o kimś, do kogoś, czy jako ktoś), subtelne uprzedzenia są obecne we wszystkich tych zbiorach danych i mogą przyczynić się do szkodliwych efektów modeli NLP.

13 listopada 2023

Piotr Rybak (Instytut Podstaw Informatyki PAN)

Najnowsze postępy w rozwoju systemów do odpowiadania na pytania w języku polskim  Wystąpienie w języku polskim. Slajdy po angielsku.

Mimo że odpowiadanie na pytania (ang. Question Answering) jest jednym z popularniejszych zagadnień przetwarzania języka naturalnego, to do niedawna było ono praktycznie nieobecne w polskim środowisku naukowym. Ostatnie lata przyniosły jednak rozkwit prac związanych z tym tematem. Podczas tego wystąpienia opowiem na czym polega zagadnienie odpowiadania na pytania, jak działają obecne systemy rozwiązujące ten problem, a także jakie zbiory danych oraz modele są dostępne dla języka polskiego. W szczególności opowiem o zasobach tworzonych w IPI PAN, czyli zbiorach danych PolQA i MAUPQA oraz modelu Silver Retriever. Na koniec wskażę dalsze kierunki prac, które wciąż pozostają otwarte jeśli chodzi o odpowiadanie na pytania w języku polskim.

11 grudnia 2023 (seria krótkich wystąpień autorstwa badaczy z Coventry University)

Xiaorui Jiang, Opeoluwa Akinseloyin, Vasile Palade (Coventry University)

https://www.youtube.com/watch?v=_BnuR3fY1FY Towards More Human-Effortless Systematic Review Automation  Wystąpienie w jęz. angielskim.

Systematic literature review (SLR) is the standard tool for synthesising medical and clinical evidence from the ocean of publications. SLR is extremely expensive and AI can play a significant role in automating the SLR process, such as for citation screening, i.e., the selection of primary studies-based title and abstract. Some tools exist, but they suffer from tremendous obstacles, including lack of trust. In addition, a specific characteristic of systematic review, which is the fact that each systematic review is a unique dataset and starts with no annotation, makes the problem even more challenging. In this study, we present some seminal but initial efforts on utilising the transfer learning and zero-shot learning capabilities of pretrained language models and large language models to solve or alleviate this challenge. Preliminary results are reported.

Kacper Sówka (Coventry University)

https://www.youtube.com/watch?v=Of8-cfhvzXU Attack Tree Generation Using Machine Learning  Wystąpienie w jęz. angielskim.

My research focuses on applying machine learning and NLP to the problem of cybersecurity attack modelling. This is done by generating "attack tree" models using public cybersecurity datasets (CVE) and training a siamese neural network to predict the relationship between individual cybersecurity vulnerabilities using a DistilBERT encoder fine-tuned using Masked Language Modelling.

Xiaorui Jiang (Coventry University)

https://www.youtube.com/watch?v=UCiOk0AZa0M Towards Semantic Science Citation Index  Wystąpienie w jęz. angielskim.

It is a difficult task to understand and summarise the development of scientific research areas. This task is especially cognitively demanding for postgraduate students and early-career researchers, of the whose main jobs is to identify such developments by reading a large amount of literature. Will AI help? We believe so. This short talk summarises some recent initial work on extracting the semantic backbone of a scientific area through the synergy of natural language processing and network analysis, which is believed to serve a certain type of discourse models for summarisation (in future work). As a small step from it, the second part of the talk introduces how comparison citations are utilised to improve multi-document summarisation of scientific papers.

Xiaorui Jiang, Alireza Daneshkhah (Coventry University)

https://www.youtube.com/watch?v=5z7rdnafpjU Natural Language Processing for Automated Triaging at NHS  Wystąpienie w jęz. angielskim.

In face of a post-COVID global economic slowdown and aging society, the primary care units in the National Healthcare Services (NHS) are receiving increasingly higher pressure, resulting in delays and errors in healthcare and patient management. AI can play a significant role in alleviating this investment-requirement discrepancy, especially in the primary care settings. A large portion of clinical diagnosis and management can be assisted with AI tools for automation and reduce delays. This short presentation reports the initial studies worked with an NHS partner on developing NLP-based solutions for the automation of clinical intention classification (to save more time for better patient treatment and management) and an early alert application for Gout Flare prediction from chief complaints (to avoid delays in patient treatment and management).

8 stycznia 2024

Danijel Korzinek (Polsko-Japońska Akademia Technik Komputerowych)

https://www.youtube.com/watch?v=W_A8W_Hu73I ParlaSpeech – Tworzenie wielkoskalowych korpusów mowy w projekcie ParlaMint  Wystąpienie po polsku.

Celem tego podprojektu było opracowanie procesów i stworzenie narzędzi pozwalających na powiązanie tekstowych korpusów stworzonych w ramach projektu ParlaMint z odpowiadającymi im materiałami audio i wideo dostępnymi w Internecie. Zadanie to było oczywiście bardziej złożone niż się to może intuicyjnie wydawać i jego powodzenie było uzależnione w największej mierze od poprawnego dopasowania bardzo długiego nagrania audio (kilkanaście godzin, czyli cały dzień pracy parlamentu) do odpowiadającego mu transkryptu, wraz ze wszystkimi błędami i niedokładnościami w dopasowaniu i kolejności występującymi między tymi dwoma modalnościami. Projekt został stworzony w oparciu o całkowicie otwarte oprogramowanie i modele, które są dostępne w publicznym repozytorium i mogą być zastosowane do innych projektów o podobnym zakresie wymagań. Do tej pory w pełni opracowano korpusy w dwóch językach (polski i chorwacki).

12 lutego 2024

Tsimur Hadeliya, Dariusz Kajtoch (Allegro ML Research)

https://www.youtube.com/watch?v=b8FE2_lzfE8 Ewaluacja i analiza uczenia kontekstowego dla zadania klasyfikacji w języku polskim  Wystąpienie po angielsku.

With the advent of language models such as ChatGPT, we are witnessing a paradigm shift in the way we approach natural language processing tasks. Instead of training a model from scratch, we can now solve tasks by designing appropriate prompts and choosing suitable demonstrations as input to a generative model. This approach, known as in-context learning (ICL), has shown remarkable capabilities for classification tasks in the English language. In this presentation, we investigate how different language models perform on Polish classification tasks using the ICL approach. We explore the effectiveness of various models, including multilingual and large-scale models, and compare their results with existing solutions. Through a comprehensive evaluation and analysis, we aim to gain insights into the strengths and limitations of this approach for Polish classification tasks. Our findings shed light on the potential of ICL for the Polish language. We discuss challenges and opportunities, and propose directions for future work.

29 lutego 2024

Seminarium wyjazdowe: Warsztat „Analiza danych parlamentarnych”

Wprowadzenie

12:00–12:10: Powitanie

12:10–12:40: Korpus Dyskursu Parlamentarnego i korpus ParlaMint (Maciej Ogrodniczuk)

Zgłoszenia konkursowe

12:40–13:00: Aplikacja do analizy sentymentu wypowiedzi parlamentarzystów RP (Bartłomiej Klimowski)

13:00–13:20: Analiza dynamiki emocji w debatach parlamentarnych o wojnie w Ukrainie (Konrad Kiljan i Ewelina Gajewska)

13:20–13:40: Język wrażliwy na płeć (gender-fair language) w polskim parlamencie: badanie korpusowe debat parlamentarnych w korpusie ParlaMint (Aleksandra Tomaszewska i Anna Jamka)

Wykład na zaproszenie

14:00–15:00: Zmiany w polszczyźnie ostatnich stu lat w zwierciadle debat parlamentarnych (Marek Łaziński)

Dyskusja panelowa

15:00–15:45: Przetwarzanie danych parlamentarnych: co dalej? (Członkowie Kapituły Konkursu)

Zakończenie

15:45–15:50: Wręczenie dyplomów

15:50–16:00: Podsumowanie warsztatu

25 marca 2024

Piotr Przybyła (Uniwersytet Pompeu Fabry / Instytut Podstaw Informatyki PAN)

https://www.youtube.com/watch?v=IS_Miy2o8-A Czy klasyfikatory wiarygodności tekstu są odporne na działania antagonistyczne?  Wystąpienie w języku polskim.

Automatyczne klasyfikatory tekstu wykorzystuje się szeroko do pomocy w moderowaniu platform udostępniających treści generowane przez użytkowników, szczególnie sieci społecznościowych. Mogą być one używane do odsiewania treści nieprzyjaznych, dezinformujących, manipulujących lub wprost nielegalnych. Jednak trzeba wziąć pod uwagę, że autorzy takich tekstów często mają silną motywację do ich rozpowszechniania i mogą próbować modyfikować oryginalną treść, aż znajdą takie sformułowanie, które przedostanie się przez automatyczny filtr. Takie zmodyfikowane wersje oryginalnych danych, nazywane przykładami antagonistycznymi, odgrywają kluczową rolę w badaniu odporności modeli ML na ataki zmotywowanych aktorów. Wystąpienie poświęcone jest systematycznej analizie tego problemu w kontekście wykrywania dezinformacji. Pokazuję konkretne przykłady, gdzie podmiana pozornie nieistotnych słów powoduje zmianę decyzji klasyfikatora, jak również framework BODEGA do systematycznej oceny odporności modeli, wykorzystany również w zadaniu InCrediblAE na warsztatach ewaluacyjnych CheckThat! na konferencji CLEF 2024.

28 marca 2024

Krzysztof Węcel (Uniwersytet Ekonomiczny w Poznaniu)

https://www.youtube.com/watch?v=Om1ypFnYUIE Wiarygodność informacji w kontekście procesu fact-checkingu  Wystąpienie w języku polskim.

Prezentacja skupia się na tematyce projektu OpenFact, który jest odpowiedzią na problem fake newsów. W ramach projektu opracowujemy metody, które pozwalają na weryfikację wiarygodności informacji. W celu zapewnienia poprawności metodycznej bazujemy na procesie stosowanym przez agencje fact-checkingowe. Działania te opierają się na złożonych zbiorach danych, pozyskiwanych m.in. z ClaimReview, Common Crawl czy poprzez monitoring mediów społecznościowych i ekstrakcję stwierdzeń z tekstów. Istotne jest również ocenianie informacji pod kątem jej wartości do weryfikacji (checkworthiness) oraz wiarygodności źródeł, których reputacja może wynikać z publikacji z OpenAlex lub Crossref. Analiza stylometryczna pozwala na określenie autorstwa, a porównanie ludzkiej i maszynowej pracy otwiera nowe możliwości w wykrywaniu użycia sztucznej inteligencji. Używamy zarówno małych modeli językowych, jak i LLM uruchamianych zdalnie w różnych wariantach. Zbudowaliśmy duże zbiory stwierdzeń, które mogą służyć do weryfikacji nowych tekstów poprzez badanie podobieństwa semantycznego. Opisane są one dodatkowymi wciąż rozbudowywanymi metadanymi pozwalającymi na realizację różnych scenariuszy użycia.

25 kwietnia 2024

Seminarium podsumowujące prace nad Korpusem Współczesnego Języka Polskiego (Dekada 2011–2020)  Wszystkie wystąpienia w języku polskim.

11:30–11:35: O projekcie (Małgorzata Marciniak)

11:35–12:05: Korpus Współczesnego Języka Polskiego, Dekada 2011−2020 (Marek Łaziński)

12:05–12:35: Znakowanie, lematyzacja, frekwencja (Witold Kieraś)

12:35–13:00: Przerwa kawowa

13:00–13:30: Hybrydowa reprezentacja informacji składniowej (Marcin Woliński)

13:30–14:15: Dyskusja o przyszłości korpusów

13 maja 2024

Michal Křen (Uniwersytet Karola w Pradze)

Latest developments in the Czech National Corpus  Wystąpienie w języku angielskim.

The talk will give an overview of the Czech National Corpus (CNC) research infrastructure in all the main areas of its operation: corpus compilation, data annotation, application development and user support. Special attention will be paid to the variety of language corpora and user applications where CNC has recently seen a significant progress. In addition, it is the end-user web applications that shape the way linguists and other scholars think about the language data and how they can be utilized. The talk will conclude with an outline of future plans.

3 czerwca 2024 (wystąpienie w ramach seminarium IPI PAN)

Marcin Woliński, Katarzyna Krasnowska-Kieraś (Instytut Podstaw Informatyki PAN)

Składnikowo-zależnościowe parsowanie języka naturalnego z wykorzystaniem sieci neuronowych  Wystąpienie po polsku.

W referacie przedstawimy autorską metodę automatycznej analizy składniowej (parsowania) języka naturalnego. W proponowanym podejściu struktury składniowe są wyrażane za pomocą kręgosłupów składniowych i ich powiązań, co pozwala jednocześnie wytwarzać dwa popularne typy reprezentacji: drzewa zależnościowe i składnikowe. Omówimy realizację tej metody w postaci zbioru klasyfikatorów nałożonych na wyjścia modelu językowego typu BERT. Testy algorytmu na danych polskich i niemieckich pokazały wysoką jakość uzyskiwanych wyników. Metoda została wykorzystana do wprowadzenia składniowej warstwy opisu w Korpusie Współczesnego Języka Polskiego opracowanym w IPI PAN.

4 lipca 2024

Purificação Silvano (Uniwersytet w Porto)

https://www.youtube.com/watch?v=VUnZIrr2Av8 Unifying Semantic Annotation with ISO 24617 for Narrative Extraction, Understanding and Visualisation  Wystąpienie w języku angielskim.

I present the successful application of Language resource management – Semantic annotation framework (ISO-24617) for representing semantic information in texts. Initially, I will introduce the harmonisation of five parts of ISO 24617 (1, 4, 7, 8, 9) into a comprehensive annotation scheme designed to represent semantic information pertaining to eventualities, times, participants, space, discourse relations and semantic roles. Subsequently, I will explore the applications of this annotation, specifically highlighting the Text2Story and StorySense projects, which focus on narrative extraction, understanding and visualisation of the journalistic text.



Seminarium „Przetwarzanie języka naturalnego” 2022–23

3 października 2022

Sławomir Dadas (Ośrodek Przetwarzania Informacji)

https://www.youtube.com/watch?v=TGwLeE1Y5X4 Doświadczenia z trenowania neuronowych enkoderów zdaniowych dla języka polskiego  Wystąpienie w języku polskim.

Transformacja zdań lub krótkich tekstów do postaci gęstych wektorów o stałej liczbie wymiarów znajduje zastosowanie w zadaniach takich jak wyszukiwanie informacji, odpowiadanie na pytania, grupowanie tekstów czy detekcja plagiatów. Prostym sposobem na konstrukcję tego typu reprezentacji jest agregacja wektorów wygenerowanych przez model języka lub pochodzących z zanurzeń słów. Natomiast wyższej jakości reprezentacje można uzyskać poprzez dodatkowy fine-tuning modelu języka na parach zdań semantycznie podobnych. W prezentacji przedstawione zostaną metody uczenia enkoderów zdaniowych bazujących na architekturze Transformer oraz nasze doświadczenia z trenowaniem takich modeli dla języka polskiego. Ponadto omówimy sposoby na automatyczne pozyskanie dużych zbiorów parafraz korzystając z publicznie dostępnych korpusów. Pokazany zostanie także przykład zastosowania enkoderów zdaniowych w praktyce, w systemie informatycznym służącym do wykrywania niedozwolonych zapisów w umowach konsumenckich.

14 listopada 2022

Łukasz Augustyniak, Kamil Tagowski, Albert Sawczyn, Denis Janiak, Roman Bartusiak, Adrian Dominik Szymczak, Arkadiusz Janz, Piotr Szymański, Marcin Wątroba, Mikołaj Morzy, Tomasz Jan Kajdanowicz, Maciej Piasecki (Politechnika Wrocławska)

https://pwr-edu.zoom.us/j/96657909989?pwd=VXFmcEc5blNyM0M3ekxvNGc3Q2Rsdz09 LEPISZCZE, kompleksowy benchmark NLP dla języka polskiego  Wystąpienie w języku polskim. Slajdy po angielsku.

Coraz szersza dostępność zasobów obliczeniowych i danych do trenowania dużych modeli językowych zwiększa zapotrzebowanie na tworzenie solidnych środowisk ewaluacyjnych pozwalających na rzetelne oszacowanie postępów w modelowaniu języka. W ostatnich latach zauważalny jest znaczący postęp prac nad standaryzacją środowisk ewaluacyjnych dla języka angielskiego. Środowiska takie jak GLUE, SuperGLUE czy KILT stały się standardowymi narzędziami do oceny modeli językowych. W tworzeniu środowisk dla innych języków wielu badaczy koncentrowało się na replikowaniu środowiska GLUE, czego przykładem jest polski benchmark KLEJ. W niniejszej pracy przedstawiamy przegląd prac nad tworzeniem środowisk ewaluacyjnych dla języków nisko-zasobowych. Pokazujemy, że wciąż wiele języków nie posiada wyczerpującego zestawu danych testowych do oceny modeli językowych. Wskazujemy obecne w środowiskach ewaluacyjnych luki i porównujemy dostępne w ramach tych środowisk zadania odnosząc się przy tym do języka angielskiego i języka chińskiego - języków o licznych zasobach treningowo-testowych. Głównym wynikiem niniejszej pracy jest LEPISZCZE – nowe środowisko ewaluacyjne dla polskiej technologii językowej opartej na modelowaniu języka, z szerokim zestawem różnorodnych zadań testowych. Zaproponowane środowisko zostało zaprojektowane z myślą o elastyczności w dodawaniu zadań, wprowadzaniu nowych modeli językowych, nadsyłaniu wyników oraz wersjonowaniu danych i modeli. Wraz ze środowiskiem dostarczamy również ocenę kilku nowych modeli językowych oraz dołączamy zarówno poprawione zbiory istniejące w literaturze jak również i nowe zbiory testowe dla nowych zadań. W środowisku zawarto 5 istniejących zbiorów danych i 8 nowych zbiorów danych, które dotychczas nie były używane w ewaluacji modeli językowych. W pracy zawarto również doświadczenia i wnioski wynikające z pracy nad tworzeniem środowiska ewaluacyjnego LEPISZCZE jako wskazówki dla projektantów podobnych środowisk w innych językach o ograniczonych zasobach językowych.

28 listopada 2022

Aleksander Wawer (Instytut Podstaw Informatyki PAN), Justyna Sarzyńska-Wawer (Instytut Psychologii PAN)

https://www.youtube.com/watch?v=zVbQ7gmbqvA Kłamanie po polsku: analiza języka oraz automatyczne metody wykrywania  Wystąpienie w języku polskim.

Kłamstwo jest integralną częścią codziennej komunikacji zarówno w formie pisemnej, jak i ustnej. W niniejszym wystąpieniu przedstawimy wyniki uzyskane na zbiorze blisko 1500 prawdziwych i fałszywych wypowiedzi, z których połowa to transkrypcje, a druga połowa to wypowiedzi pisemne, pochodzące z prawdopodobnie największego badania nad kłamaniem w języku polskim. W pierwszej części referatu zbadamy różnice między twierdzeniami prawdziwymi i fałszywymi: sprawdzimy, czy różnią się pod względem złożoności i wydźwięku, a także cech takich jak długość wypowiedzi, konkretność i rozkład części mowy. W drugiej części referatu opowiemy o budowaniu modeli, które automatycznie odróżniają prawdziwe od fałszywych wypowiedzi, uwzględniając proste podejścia, jak modele trenowane na cechach słownikowych, jak i bardziej złożone, pre-trenowane sieci neuronowe typu transformer. Opowiemy także o próbie wykrywania kłamania z wykorzystaniem metod automatycznego fact-checkingu i przedstawimy wstępne wyniki prac nad interpretowalnością (objaśnialnością) modeli wykrywających kłamanie.

19 grudnia 2022

Wojciech Kryściński (Salesforce Research)

https://www.youtube.com/watch?v=54qidiBmiok Automatyczne streszczanie tekstu  Wystąpienie i slajdy po angielsku.

Automatyczne streszczanie tekstu stanowi zadanie z dziedziny przetwarzania języka naturalnego (NLP) wymagające zaawansowanych zdolności rozumienia języka (NLU) i możliwości jego generowania (NLG). Dzięki wysiłkom społeczności naukowej i osiągniętemu rozwojowi w dziedzinie NLP w ostatnich latach poczyniono znaczne postępy w opracowywaniu modeli neuronowych dla tego zadania. Pomimo tych postępów, automatyczne streszczanie tekstu pozostaje zadaniem trudnym, które jest dalekie od rozwiązania. Prezentację zaczniemy od omówienia wczesnych podejść do zagadnienia AST oraz obecnego stanu wiedzy w tej dziedzinie. Następnie dokonamy krytycznej oceny kluczowych składników istniejącej konfiguracji badawczej: zestawów danych, metryk oceny i modeli. Na koniec skoncentrujemy się na pojawiających się kierunkach badawczych i rozważymy przyszłość automatycznego streszczenia tekstów.

9 stycznia 2023

Marzena Karpińska (University of Massachusetts Amherst)

Wyzwania związane z oceną tekstu generowanego maszynowo  Wystąpienie w języku polskim.

Postęp w generowaniu języka naturalnego (NLG) utrudnił badaczom skuteczne ocenianie wyników najnowszych modeli. Klasyczne metryki, takie jak BLEU czy ROUGE, nie są już wystarczające, aby odróżnić wysokiej jakości teksty od tych o niższej jakości, zwłaszcza w kreatywnych taskach takich jak generowanie opowieści czy poezji, lub też w przypadku oceny dłuższych tekstów w odróżnieniu od ewaluacji pojedynczych zdań. W rezultacie wielu badaczy ucieka się do crowdsourcingu, korzystając z platform, takich jak Amazon Mechanical Turk (AMT), aby ocenić spójność czy gramatyczność wygenerowanych tekstów. W tej prezentacji przedstawię najpierw serię eksperymentów pokazującą wyzwania takiej ewaluacji, demonstrując, że nawet eksperci mogą mieć trudności z ocenianiem tekstu wygenerowanego przez modele przy użyciu skali Likerta, zwłaszcza gdy oceniają oni kreatywny tekst. W drugiej części omówię podobne kwestie związane z automatycznym ocenianiem tłumaczenia maszynowego literatury pięknej oraz wyjaśnię niektóre unikalne wyzwania związane z samym zadaniem tłumaczenia takich tekstów.

6 lutego 2023

Agnieszka Mikołajczyk-Bareła (VoiceLab / Politechnika Gdańska / HearAI)

https://www.youtube.com/watch?v=f5wt381IYeI HearAI: w stronę rozpoznawania języka migowego opartego na głębokim uczeniu  Wystąpienie w języku polskim. Slajdy po angielsku.

Osoby głuche i niedosłyszące mają ogromną barierę komunikacyjną. Różne narodowości używają różnych języków migowych i nie ma jednego uniwersalnego, ponieważ są to naturalne języki ludzkie z własnymi regułami gramatycznymi i leksykonami. Metody oparte na głębokim uczeniu do tłumaczenia języka migowego potrzebują wielu odpowiednio oznakowanych danych treningowych, aby dobrze sobie radzić. W projekcie non-profit HearAI zajęliśmy się tym problemem i zbadaliśmy różne wielojęzyczne otwarte korpusy języka migowego oznaczone przez lingwistów w neutralnym językowo systemie Hamburg Notation System (HamNoSys). Po pierwsze, uprościliśmy trudną do zrozumienia strukturę HamNoSys bez znaczącej utraty znaczenia glosariusza poprzez wprowadzenie multietykiet numerycznych. Po drugie, do rozpoznania pojedynczych pojęć wykorzystaliśmy punkty orientacyjne oraz wybrane cechy na poziomie obrazu. Oddzielnie analizowaliśmy możliwości położenia ręki dominującej, jej pozycję i kształt oraz ogólną symetrię ruchu, co pozwoliło nam dogłębnie zbadać przydatność HamNoSys do rozpoznawania pojęć.

13 lutego 2023

Artur Nowakowski, Gabriela Pałka, Kamil Guttmann, Mikołaj Pokrywka (Uniwersytet Adama Mickiewicza)

UAM na WMT 2022: nowoczesne metody tworzenia systemów tłumaczenia maszynowego  Wystąpienie w języku polskim. Slajdy po angielsku.

Większość systemów tłumaczenia automatycznego opiera się na trenowaniu modeli na poziomie zdań. Jednak współcześnie coraz częściej oczekuje się, że system tłumaczenia będzie uwzględniał kontekst całego dokumentu. W odpowiedzi na te oczekiwania, organizatorzy konferencji WMT 2022 stworzyli zadanie General MT Task, polegające na tłumaczeniu dokumentów z różnych dziedzin: newsów, treści z portali społecznościowych, konwersacji i tekstów z dziedziny e-commerce.

Podczas prezentacji omówione zostanie zadanie, z jakim przyszło się zmierzyć podczas konferencji WMT 2022 w kierunkach tłumaczenia czeski-ukraiński oraz ukraiński-czeski. Przedstawione zostaną napotkane problemy, takie jak poprawne tłumaczenie jednostek nazwanych, uwzględnienie kontekstu dokumentu oraz poprawne uwzględnienie rzadko występujących znaków, takich jak emoji. Pokazane zostaną także metody wspomagające wybór najlepszego tłumaczenia spośród tłumaczeń wygenerowanych przez system, oparte na modelach automatycznej oceny jakości tłumaczenia. Celem prezentacji jest przede wszystkim zaprezentowanie składowych systemu, które pomogły osiągnąć najlepszy wynik spośród wszystkich uczestników konkursu.

27 lutego 2023

Sebastian Vincent (University of Sheffield)

https://www.youtube.com/watch?v=An6sNU50UVM MTCue: Nauka pozatekstowych atrybutów „zero-shot” przez użycie nieustruktyruzowanego kontekstu w tłumaczeniu maszynowym  Wystąpienie częściowo w języku polskim. Większość wystąpienia i slajdy po angielsku.

Wydajne użycie kontekstu pochodzącego z wewnątrz lub spoza tłumaczonego tekstu pozostaje jedną z krytycznych luk pomiędzy tłumaczeniem profesjonalnym a maszynowym. Dotychczasowo, badania koncentrowały się głównie na pojedynczych, dobrze zdefiniowanych typach kontekstu, takich jak poprzednie zdania, lub dyskretne zmienne (np. płeć mówcy). Niniejsza praca przedstawia MTCue, framework neuronowego tłumaczenia maszynowego, który, przepisując dyskretny kontekst na tekst, uczy się abstrakcyjnej reprezentacji kontekstu pozwalającej na transfer pomiędzy różnymi ustawieniami danych oraz wykorzystanie podobnych sygnałów, gdy danych jest niewiele. Eksperymenty w sześciu parach językowych w domenie dialogu z dostępem do metadanych i poprzednich zdań wykazują wyraźny wzrost jakości tłumaczenia w stosunku do bezkontekstowego systemu. Dalsza analiza pokazuje, że enkoder kontekstu w MTCue uczy się reprezentacji zorganizowanej w odniesieniu do specyficznych atrybutów, takich jak formalność, efektywnie umożliwiając ich kontrolę bez trenowania. Wstępne szkolenie na metadanych i poprzednich zdaniach pozwala również MTCue uczyć się nowych kodów kontrolnych z mniejszą ilością danych.

27 marca 2023

Julian Zubek, Joanna Rączaszek-Leonardi (Wydział Psychologii Uniwersytetu Warszawskiego)

https://www.youtube.com/watch?v=RJrYftyDIzw Agentowe modele wyłaniania się komunikacji symbolicznej inspirowane procesami rozwoju językowego  Wystąpienie w języku polskim.

Rozwój nauk informatycznych przyzwyczaił nas do rozumienia symboli jako dyskretnych elementów abstrakcyjnej struktury, na których wykonywane są formalne operacje. W ujęciu semiotycznym symbole są szczególnym rodzajem znaków, które funkcjonują w ramach systemu powiązań i których interpretacja wymaga znajomości reguł rządzących tym systemem. Patrząc z perspektywy procesów ewolucji języka i rozwoju językowego, wyłanianie się struktur symbolicznych oraz zdolności do posługiwania się nimi wiąże się z szeregiem podstawowych pytań. W naszym programie badawczym koncentrujemy się na tym, jak abstrakcyjne symbole kształtują się równolegle do zdolności wykonywania fizycznych akcji w świecie i w jaki sposób symbole mogą stać się regulatorami tych akcji. W celu ilustracji tych zależności korzystamy z symulacji komputerowych, w których agenci koordynują swoje działania przy pomocy protokołu komunikacyjnego wyłaniającego się oddolnie w schemacie uczenia ze wzmocnieniem. Wskazujemy na założenia stojące u podstaw tego typu modeli i na istniejące trudności w modelowaniu wielorakich źródeł presji kształtujących strukturę języka. Prezentujemy wyniki własnych symulacji, ilustrujących a) wpływ historii interakcji na strukturę języka, b) związek dostępności kontekstu i wieloznaczności w komunikacji, c) rolę dialogu w koordynacji i strukturyzacji akcji w dynamicznym środowisku. Uzyskane wyniki pokazują złożoną naturę symboli, która wymaga komplementarności opisu na poziomie formalnej struktury i na poziomie dynamiki układu. Złożoność ta powinna znaleźć również odzwierciedlenie w projektowaniu i ewaluacji algorytmów sztucznej inteligencji przeznaczonych do interakcji z ludźmi.

24 kwietnia 2023

Mateusz Krubiński (Uniwersytet Karola w Pradze)

Obraz wart tysiąca słów – o streszczaniu danych multimodalnych  Wystąpienie w języku polskim.

Automatyczne streszczanie to jeden z klasycznych problemów zarówno w dziedzinie przetwarzania języka naturalnego (streszczanie tekstu), jak i w dziedzinie wizji komputerowej (streszczanie wideo). Streszczanie danych multimodalnych to zagadnienie łączące te dwie dziedziny, które swój wynik opiera na różnych typach informacji. Motywacji do tego typu badań nie trzeba szukać daleko – wystarczy odwiedzić jakąkolwiek stronę internetową z bieżącymi wiadomościami. Przekonamy się, że najpopularniejszy obecnie sposób prezentowania wydarzeń oprócz tradycyjnego tekstu zawiera także galerię zdjęć lub krótki, przyciągający uwagę film. Aby zachęcić czytelnika do zapoznania się z treścią artykułu, tego typu materiały są zazwyczaj prezentowane jako jednozdaniowy tekst w połączeniu z wizualną miniaturą (tzw. thumbnail).

W moim referacie przedstawię krótką historię zagadnienia streszczania danych multimodalnych, koncentrując się na wariancie, w którym kluczową rolę odgrywa tekst. Zaprezentuję, jak na przestrzeni lat ewoluowały metody (i zbiory danych) oraz zasygnalizuję obszary, które w mojej ocenie stanowią największe wyzwanie. W drugiej części referatu opowiem o swoich własnych badaniach, największy nacisk kładąc na tzw. pre-training i metody ewaluacji. Podzielę się także doświadczeniami zdobytymi przy tworzeniu zbioru danych w oparciu o automatycznie przetworzoną treść stron internetowych, pokazującymi, że czasami warto zrobić krok w tył.

25 maja 2023

Agata Savary (Université Paris-Saclay)

https://www.youtube.com/watch?v=Hzbjw5A7uec We thought the eyes of coreference were shut to multiword expressions and they mostly are: O związkach koreferencji z jednostkami wielowyrazowymi  Wystąpienie w języku polskim. Slajdy po angielsku.

Jednostki wielowyrazowe to połączenia słów posiadające specyficzne własności semantyczne takie jak niekompozycyjność znaczeniowa, dekompozycyjność, przezroczystość i figuracja. Wieloletnie debaty językoznawcze sugerują, iż te własności warunkują warianty morfoskładniowe, w których dana jednostka może występować. W moim referacie rozszerzę te rozważania do koreferencji rzeczownikowej. Punktem wyjścia będzie hipoteza, według której wewnętrzne człony jednostki wielowyrazowej powinny pojawiać się w nietrywialnych łańcuchach koreferencyjnych z niskim prawdopodobieństwem. Kilka poprzednich prac wskazywało już na sporadyczność zjawisk koreferencyjnych w kontekście jednostek wielowyrazowych, lecz obserwacje te nie były poparte danymi liczbowymi. Tematem referatu będzie próba wypełnienia tej luki poprzez studium korpusowe dotyczące czasownikowych jednostek wielowyrazowych i koreferencji rzeczownikowej w języku francuskim. Wyniki w wysokim stopniu potwierdzają hipotezę, ale również ujawniają pewne tendencje związane z typami jednostek wielowyrazowych i tekstów, w szczególności z transkrypcją mowy.



Seminarium „Przetwarzanie języka naturalnego” 2021–22

11 października 2021 (seminarium połączone z instytutowym)

Adam Przepiórkowski (Instytut Podstaw Informatyki PAN, Uniwersytet Warszawski)

Kwantyfikatory a sprawa polska  Wystąpienie w języku polskim.

O kwantyfikacji piszą prawie wszyscy semantycy i w prawie każdym tekście dotyczącym semantyki formalnej, lecz nikt i nigdy nie zaproponował pełnej analizy semantycznej zjawiska zilustrowanego niniejszym zdaniem. W zdaniu tym występują konstrukcje współrzędnie złożone składające się z wyrażeń kwantyfikatorowych pełniących różne funkcje w zdaniu: „prawie wszyscy semantycy i w prawie każdym tekście…” oraz „nikt i nigdy”. Konstrukcje takie są stosunkowo częste w języku polskim i występują także w innych językach słowiańskich oraz w pewnych językach sąsiadujących z językami słowiańskimi, np. w węgierskim. W niniejszym referacie zaproponuję analizę semantyczną takich konstrukcji opartą na pojęciu kwantyfikatorów uogólnionych (Mostowski; Lindström; Barwise i Cooper), a konkretnie — kwantyfikatorów poliadycznych (van Benthem; Keenan; Westerståhl). Do pełnego zrozumienia referatu powinno wystarczyć obycie z formułami logiki predykatów; wszystkie pojęcia lingwistyczne (w tym „konstrukcje współrzędnie złożone”, „funkcje w zdaniu”) i logiczne (w tym „kwantyfikatory uogólnione” i „kwantyfikatory poliadyczne”) zostaną wyjaśnione w referacie.

18 października 2021

Przemysław Kazienko, Jan Kocoń (Politechnika Wrocławska)

https://www.youtube.com/watch?v=mvjO4R1r6gM Spersonalizowane przetwarzanie języka naturalnego  Wystąpienie w języku angielskim.

Wiele zadań z zakresu przetwarzania języka naturalnego, takich jak klasyfikacja tekstów obraźliwych czy emocjonalnych, ma z natury charakter subiektywny. Jest to duże wyzwanie, szczególnie w odniesieniu do procesu anotacji. Ludzie postrzegają treści w bardzo indywidualny sposób. Większość obecnie stosowanych procedur anotacji ma na celu osiągnięcie wysokiego poziomu zgodności. Większość istniejących metod uczenia maszynowego opiera się na uzgodnionych lub większościowych anotacjach. Jednakże, wytyczne dotyczące anotacji subiektywnych treści mogą ograniczać swobodę podejmowania decyzji przez anotatorów. Motywowani umiarkowaną zgodnością anotacji w zbiorach danych dotyczących obraźliwych i emocjonalnych treści, stawiamy hipotezę, że należy wprowadzić spersonalizowane podejście do tak subiektywnych zadań. Proponujemy nowe architektury głębokiego uczenia, które biorą pod uwagę nie tylko treść, ale również charakterystykę danego człowieka. Proponujemy różne podejścia do uczenia reprezentacji i przetwarzania danych o odbiorcach tekstów. Eksperymenty przeprowadziliśmy na czterech zestawach danych. Pierwsze trzy, to dyskusje z Wikipedii, anotowane takimi zjawiskami, jak atak, agresja i toksyczność. Czwarty zbiór to opinie anotowane dziesięcioma kategoriami emocji. Wszystkie nasze modele oparte o reprezentację człowieka znacząco poprawiają jakość predykcji w zadaniach subiektywnych, ocenianych z perspektywy jednostki. Dodatkowo, opracowaliśmy wymagania dotyczące procedur anotacji, personalizacji i przetwarzania treści, aby uczynić nasze rozwiązania zorientowanymi na człowieka.

8 listopada 2021

Ryszard Tuora, Łukasz Kobyliński (Instytut Podstaw Informatyki PAN)

https://www.youtube.com/watch?v=KeeVWXXQlw8 Wykorzystanie analizy zależnościowej w automatycznej odmianie wyrażeń wielowyrazowych dla języka polskiego  Wystąpienie w języku polskim.

Generowanie języka naturalnego dla języków o bogatej morfologii może zyskać na automatycznych systemach do odmiany słów. W tej pracy prezentujemy system, który potrafi radzić sobie z tym zadaniem, ze szczególnym naciskiem na pracę z wyrażeniami wielowyrazowymi (MWE). Procedura opiera się na regułach wydobytych automatycznie z treebanku zależnościowego. Utworzony system jest następnie ewaluowany na słowniku polskich wyrażeń wielowyrazowych. Dodatkowo, zbliżony algorytm może zostać wykorzystany do lematyzacji wyrażeń wielowyrazowych. Sam system może zostać zaś zaaplikowany także do innych języków, o zbliżonych mechanizmach morfologicznych – zaprezentujemy proste rozwiązanie przygotowane dla języka rosyjskiego.

29 listopada 2021 (seminarium połączone z instytutowym)

Piotr Przybyła (Instytut Podstaw Informatyki PAN)

https://www.youtube.com/watch?v=zJssN3-5cyg Kiedy dokładność klasyfikacji to za mało: wyjaśnianie oceny wiarygodności tekstu i pomiar reakcji użytkowników  Wystąpienie w języku polskim.

Automatyczna ocena wiarygodności tekstu jest ostatnio niezwykle popularnym zadaniem NLP, dla którego proponuje się wiele rozwiązań ewaluowanych na podstawie dokładności klasyfikacji. Tymczasem niewiele uwagi poświęca się scenariuszom wdrożenia tego typu modeli, które gwarantowałyby zgodne z oczekiwaniami ograniczenie rozprzestrzeniania się dezinformacji. W ramach wystąpienia przedstawiamy prace, w ramach których zaimplementowano dwa tego typu modele w formie rozszerzenia do przeglądarki internetowej i zbadano ich interakcję z użytkownikami, co pozwoliło odpowiedzieć na kilka ważnych pytań. Jak można skompresować duże modele klasyfikacji tekstu, aby wdrożyć je w środowisku o niewielkich zasobach? Jakie techniki wizualizacji i wyjaśniania modeli są najbardziej efektywne we współpracy z człowiekiem? Czy korzystanie z takich narzędzie w istocie zwiększa zdolność do rozpoznawania treści 'fake news'?

6 grudnia 2021

Joanna Byszuk (Instytut Języka Polskiego PAN)

W kierunku stylometrii multimodalnej – możliwości i wyzwania nowego podejścia do analizy filmów i seriali  Wystąpienie w języku polskim.

W wystąpieniu przedstawiamy nowe podejście do ilościowej analizy utworów multimodalnych, na przykładzie korpusu serialu telewizyjnego Doctor Who, oparte na stylometrii oraz teorii multimodalnej analizy filmowej. Metody stylometryczne od dawna cieszą się popularnością w analizie literatury. Zwykle opierają się na porównywaniu tekstów pod względem częstotliwości użycia określonych cech, które tworzą tak zwane „stylometryczne odciski palca”, czyli wzorce charakterystyczne dla autorów, gatunków lub innych czynników. Metody te jednak rzadko stosuje się do danych innych niż tekst, choć w ostatnich latach pojawiły się badania wykorzystujące stylometrię do analizy ruchów w tańcu (Miguel Escobar Varela) czy muzyce (Backer i Kranenburg). Teoria multimodalnej analizy filmu jest z kolei dość nowym podejściem, rozwijanym głównie przez Johna Batemana i Janinę Wildfeuer, podkreślającym istotność badania informacji pochodzących z różnych modalności wizualnych, językowych i dźwiękowych dla pełniejszej interpretacji. W prezentowanym podejściu stylometryczne metody porównywania utworów są zastosowane do różnych typów cech zaczerpniętych z obrazu, dźwięku oraz treści dialogów. W wystąpieniu omawiamy zalety i wyzwania takiego podejścia, a także ogólne możliwości ilościowej analizy mediów filmowych.

20 grudnia 2021

Piotr Pęzik (Uniwersytet Łódzki / VoiceLab), Agnieszka Mikołajczyk, Adam Wawrzyński (VoiceLab), Bartłomiej Nitoń, Maciej Ogrodniczuk (Instytut Podstaw Informatyki PAN)

Generowanie słów kluczowych z krótkich tekstów za pomocą modelu T5  Wystąpienie w języku polskim.

Tematem wystąpienia jest ewaluacja zastosowań polskiej wersji modelu językowego T5 (plT5) w wydobywaniu słów kluczowych z krótkich tekstów. Autorzy opisują trening i testy modelu na opracowanym w ramach projektu CURLICAT Otwartym Korpusie Metadanych Nauki Polskiej. Porównana zostanie jakość słów kluczowych generowanych czterema różnymi metodami: a) plT5 jako model text-to-text, b) extremeText jako klasyfikator z nadzorem, c) TermoPL jako metoda ekstrakcji terminologii oraz d) KeyBERT jako alternatywny model transformerowy. Zilustrowana zostanie również nieoczekiwana przenośność wytrenowanego modelu plT5 do domen tematycznych niezwiązanych z korpusem streszczeń artykułów naukowych, takich jak teksty informacyjne, czy też transkrypcje dialogów telefonicznych.

31 stycznia 2022

Tomasz Limisiewicz (Uniwersytet Karola w Pradze)

https://www.youtube.com/watch?v=d1WHbE2gLjk Interpretacja i kontrola cech językowych w reprezentacjach sieci neuronowych  Wystąpienie w języku angielskim.

Sieci neuronowe osiągają niedoścignione wyniki w wielu zadaniach związanych z przetwarzaniem języka naturalnego. Niestety, modele neuronowe są czarnymi skrzynkami; nie rozumiemy mechanizmów stojących za ich sukcesami. W swoim wystąpieniu przedstawiam narzędzia i metody używane do interpretacji modeli. Skupiam się przede wszystkim na reprezentacjach w modelach językowych typu Transformer i nowej metodzie – sondzie ortogonalnej (ang. orthogonal probe), która oferuje dobry wgląd w stany ukryte sieci. Wyniki pokazują, że poszczególne sygnały językowe są zakodowane w Transformerach w sposób odrębny, dzięki temu możemy rozdzielić je w reprezentacji wektorowej. Identyfikacja specyficznych informacji zakodowanych w sieci pozwala na usunięcie niepożądanego ukierunkowania modelu (ang. model bias).

28 lutego 2022

Maciej Chrabąszcz (Sages)

https://www.youtube.com/watch?v=zB26bW-t5wA Generowanie języka naturalnego na przykładzie opisywania zdjęć  Wystąpienie w języku polskim.

Podczas seminarium omawiam problem generacji opisów obrazów. Prezentuję modele testowane w ramach tworzenia rozwiązania do automatycznego opisywania zdjęć, m.in. modele z atencją, wykorzystujące wcześniej przetrenowane modele wizyjne i generujące tekst.

28 marca 2022

Tomasz Stanisławek (Applica)

https://www.youtube.com/watch?v=NrDh-UIfgwU Ekstrakcja informacji z dokumentów o bogatej strukturze graficznej  Wystąpienie w języku polskim.

Szybki rozwój dziedziny NLP w ostatnich latach (pojawienie się modeli języka BERT, RoBERTa, T5, …) spopularyzował użycie technik ekstrakcji informacji w celu automatyzacji procesów biznesowych. Niestety, większość dokumentów biznesowych zawiera w sobie nie tylko zwykły tekst, ale również różnego rodzaju struktury graficzne (przykładowo: tabele, listy, tekst pogrubiony czy formularze), które uniemożliwiają poprawne przetwarzanie aktualnie istniejącymi metodami (tekst wczytywany do modelu w postaci sekwencji tokenów). W trakcie wystąpienia omówię: a) problemy istniejących metod wykorzystywanych do ekstrakcji informacji, b) Kleister – nowe zbiory danych utworzone na potrzeby testowania nowych modeli c) LAMBERT – nowy model języka z wstrzykniętą informacją o pozycji tokenów na stronie, d) dalsze kierunki rozwoju dziedziny.

11 kwietnia 2022

Daniel Ziembicki (Uniwersytet Warszawski), Anna Wróblewska, Karolina Seweryn (Politechnika Warszawska)

https://www.youtube.com/watch?v=cU1y78uFCps Wnioskowanie i faktywność w języku polskim — zbiór danych eksperckich i benchmarki  Wystąpienie w języku polskim.

Przedmiotem wystąpienia będą cztery zagadnienia: (1) zjawisko faktywności we współczesnej polszczyźnie, (2) wykrywanie relacji wynikania, sprzeczności i niezależności w tekście, (3) stworzony przez nas językowy zbiór danych skupiony na opozycji faktywność-niefaktywność oraz (4) omówienie wyników wytrenowanych na zbiorze danych z punktu (3) modeli ML, których celem było przewidywanie relacji semantycznych z punktu (2).

16 maja 2022

Inez Okulska, Anna Zawadzka, Michał Szczyszek, Anna Kołos, Zofia Cieślińska (NASK)

https://www.youtube.com/watch?v=u5A3SNw0a7M Efekt(ywność) stylu, czyli jak i po co kodować wskaźniki morfosyntaktyczne całych dokumentów  Wystąpienie w języku polskim.

A gdyby tak reprezentować tekst dowolnej długości za pomocą jednego, równego, i dodatkowo w pełni interpretowalnego wektora? Bez korpusu do uczenia, bez słownika pretrenowanych osadzeń, pojedynczo, na miejscu lub na wynos? Czemu nie! Wektory StyloMetrix to wykorzystująca bogactwo biblioteki spaCy kombinacja lingwistycznych metryk. Takie podejście oczywiście pomija reprezentację semantyki pojedynczych słów czy fraz i teoretycznie nie pozwala na detekcję konkretnych tematów. Chyba że – semantyka niesiona jest również przez styl? Dotychczasowe eksperymenty, jak i rezultaty badań filologicznych pokazują, że obszary te są ze sobą mocno splecione. Okazuje się bowiem, że – przykładowo – treści niewłaściwe dla dzieci czy młodzieży to nie tylko oczywisty zestaw zakazanej leksyki, lecz także kombinacja charakterystycznych wskaźników morfosyntaktycznych tekstu. Są one tak wyraziste i dystynktywne, że korzystając wyłącznie z reprezentacji StyloMetrix, można osiągnąć precyzję na poziomie 90% w zadaniu klasyfikacji wieloklasowej. Ponadto okazuje się, że skoro każda wartość wektora jest znormalizowanym wskaźnikiem konkretnej gramatycznej cechy dokumentu, to można się również czegoś dowiedzieć na temat lingwistycznych wyznaczników danego stylu. Taka konstrukcja metryk to też krok w stronę interpretowalności algebraicznych metod selekcji cech. Przedstawione w wystąpieniu eksperymenty będą opierały się na treściach opublikowanych w Internecie.

23 maja 2022

Karolina Stańczak (Uniwersytet Kopenhaski)

https://www.youtube.com/watch?v=3oCLO-CRExM Model ze zmienną ukrytą do sondowania wewnętrznego  Wystąpienie w języku polskim. Slajdy po angielsku.

Sukces wstępnie wytrenowanych kontekstowych reprezentacji skłonił badaczy do ich analizy pod kątem obecności informacji lingwistycznej. Naturalne jest założenie, że takie reprezentacje kodują pewien poziom wiedzy językowej, ponieważ empirycznie przyniosły one znaczącą poprawę w wielu różnych zadaniach NLP, co sugeruje, że uczą się one prawdziwej generalizacji językowej. W niniejszej pracy koncentrujemy się na sondowaniu wewnętrznym, technice analizy, której celem jest nie tylko określenie, czy reprezentacja koduje dany atrybut językowy, ale także wskazanie, gdzie ten atrybut jest zakodowany. Proponujemy nową metodę zmiennej ukrytej do konstruowania sond wewnętrznych przy użyciu spolegliwej wariacyjnej aproksymacji log-likelihood. Wyniki pokazują, że nasz model jest uniwersalny i pozwala uzyskać dokładniejsze oszacowania informacji wzajemnej niż dwie sondy wewnętrzne zaproponowane wcześniej w literaturze. Znajdujemy również empiryczne dowody na to, że wstępnie wyszkolone reprezentacje wykształcają międzyjęzykowe pojęcie morfoskładni.

6 czerwca 2022

Cezary Klamra, Grzegorz Wojdyga (Instytut Podstaw Informatyki PAN), Sebastian Żurowski (Uniwersytet Mikołaja Kopernika), Paulina Rosalska (Uniwersytet Mikołaja Kopernika / Applica.ai), Matylda Kozłowska (Oracle Polska), Maciej Ogrodniczuk (Instytut Podstaw Informatyki PAN)

https://www.youtube.com/watch?v=SnjqVft5SzA Dewulgaryzacja polskich tekstów z wykorzystaniem pretrenowanych modeli językowych  Wystąpienie w języku polskim.

Przedstawimy metodę transferu stylu tekstu do zastępowania wyrażeń wulgarnych ich niewulgarnymi odpowiednikami polegającą na dostrojeniu trzech wstępnie wytrenowanych modeli językowych (GPT-2, GPT-3 i T-5) na nowo powstałym korpusie równoległym par zdań wulgarnych i niewulgarnych. Następnie ocenimy otrzymane modele, sprawdzając ich dokładność transferu stylu, zachowanie treści i jakość języka. Zgodnie z naszą najlepszą wiedzą, proponowane rozwiązanie jest pierwszym tego typu dla języka polskiego. Tekst opisujący prezentowane rozwiązanie został przyjęty na konferencję ICCS 2022.

13 czerwca 2022

Michał Ulewicz

https://www.youtube.com/watch?v=4ZcVXg2Y_fA Semantic Role Labeling – dane i modele  Wystąpienie w języku polskim.

Semantic Role Labeling (SRL) pozwala przedstawić znaczenie zdania w postaci struktur (tzw. ramek) składających się z orzeczenia i argumentów związanych z tym orzeczeniem. Takie podejście pozwala podzielić zdanie na istotne znaczeniowo fragmenty i precyzyjnie znaleźć odpowiedzi na pytania: kto, co, komu, kiedy i jak zrobił dla każdego z tych fragmentów. W pierwszym etapie znajdowane są orzeczenia i ujednoznaczniane ich znaczenia. W drugim etapie dla każdej ramki identyfikowane i klasyfikowane są argumenty. Do budowy skutecznych modeli SRL potrzebne są dane i o ile dla języka angielskiego istnieją wysokiej jakości zestawy danych (propbank), to dla pozostałych języków takie zbiory praktycznie nie istnieją, głównie ze względu na wysoki nakład pracy i koszt potrzebny do ich stworzenia. Podczas wystąpienia opowiem jak SRL może pomóc w precyzyjnym przetwarzaniu tekstu. Przedstawię próby automatycznego generowania zestawów danych dla różnych języków w tym języka polskiego z wykorzystaniem techniki rzutowania anotacji (ang. annotation projection). Przedstawię zidentyfikowane problemy związane z automatycznym rzutowaniem anotacji z języka angielskiego na język polski. Opowiem o modelach SRL, które zbudowałem na bazie modeli typu Transformer.



Seminarium „Przetwarzanie języka naturalnego” 2020–21

5 października 2020

Piotr Rybak, Robert Mroczkowski, Janusz Tracz (Allegro), Ireneusz Gawlik (Allegro / AGH)

https://www.youtube.com/watch?v=B7Y9fK2CDWw Przegląd modeli BERT dla języka polskiego  Wystąpienie w języku polskim.

W ciągu ostatnich lat seria modeli opartych o architekturę BERT istotnie poprawiła skuteczność modeli dla wielu zadań przetwarzania języka naturalnego. Podczas wystąpienia pokrótce opowiemy, jak działa BERT oraz kilka jego wariantów. Następnie skupimy się na modelach dostępnych dla języka polskiego oraz ich skuteczności w rankingu KLEJ. Na koniec opowiemy o nowym modelu opracowanym wspólnie przez IPI PAN i Allegro.

2 listopada 2020

Inez Okulska (NASK)

https://www.youtube.com/watch?v=LkR-i2Z1RwM Ile treści jest w semantyce, czyli jak bardzo można przekształcać wektory typu word2vec, by nie stracić jakości uczenia  Wystąpienie w języku polskim.

Wprowadzenie wektorowej reprezentacji słów, zawierającej wagi wyrazów kontekstowych i centralnych, obliczone w wyniku mapowania gigantycznych korpusów danego języka, a nie kodujące jedynie ręcznie wybrane, lingwistyczne cechy słów, okazały się dla badań NLP przełomowe. Po pierwszym zachwycie wprawdzie nastąpił okres rewizji i poszukiwania ulepszeń - przede wszystkim poszerzania kontekstu, obsługi homonimów itp. Niemniej jednak klasyczne zanurzenia wciąż znajdują zastosowanie w wielu zadaniach - choćby klasyfikacji treści - i w wielu przypadkach wyniki, które dają, nadal są wystarczająco dobre. Co właściwe kodują? Czy zawierają elementy redundantne? Czy informacje w nich zawarte poddają się przekształceniom lub redukcji w sposób wciąż zachowujący oryginalny „sens”. Czym jest tu sens? Jak bardzo można wektory te deformować i jak to się ma do metod szyfrowania? W swoim wystąpieniu przedstawię rozważania na ten temat, ilustrowane wynikami kolejnych „tortur” wektorów (word2vec i glove) i ich skuteczności w zadaniu klasyfikacji tekstów, których treść musi pozostać zamaskowana dla ludzkiego oka.

16 listopada 2020

Agnieszka Chmiel (Uniwersytet im. Adama Mickiewicza w Poznaniu), Danijel Korzinek (Polsko-Japońska Akademia Technik Komputerowych)

https://www.youtube.com/watch?v=MxbgQL316DQ PINC (Polish Interpreting Corpus): jak korpus może pomóc w badaniach nad procesem tłumaczenia symultanicznego  Wystąpienie w języku polskim.

PINC to pierwszy polski korpus tłumaczenia symultanicznego oparty na polsko-angielskich i angielsko-polskich tłumaczeniach w Parlamencie Europejskim. Wykorzystanie autentycznych danych tłumaczeniowych umożliwia poszukiwanie odpowiedzi na wiele pytań dotyczących procesu tłumaczenia symultanicznego. Dzięki analizie opóźnienia czasowego tłumaczenia w stosunku do oryginału można zbadać mechanizmy aktywacji i inhibicji w przetwarzaniu leksykalnym tłumacza. Dane na temat płynności wypowiedzi i pauz umożliwiają wyciąganie wniosków o obciążeniu kognitywnym. W prezentacji przedstawimy sposób przetwarzania danych w korpusie (m.in. identyfikację głosów tłumaczy) i główne wyzwania, takie jak analiza języka, analiza zależnościowa i wiązanie dwujęzyczne. Pokażemy, w jaki sposób zastosowanie poszczególnych danych może pomóc w zrozumieniu tego, na czym polega proces tłumaczenia, a nawet tego, co dzieje się w umyśle tłumacza.

30 listopada 2020

Findings of ACL: EMNLP 2020: sesja polska

Łukasz Borchmann et al. (Applica.ai)

https://www.youtube.com/watch?v=THe1URk40Nk Contract Discovery: Dataset and a Few-Shot Semantic Retrieval Challenge with Competitive Baselines (Wyszukiwanie fragmentu tekstu prawnego na podstawie kilku przykładów, czyli o zbiorze Contract Discovery oraz referencyjnych wynikach)  Wystąpienie w języku polskim. Slajdy po angielsku.

Problem Contract Discovery dotyczy ustalania czy w dokumencie znajduje się dana klauzula lub ekstrakcją określanego typu klauzul, na potrzeby dalszej analizy, takiej jak ocena ryzyka. Ponieważ nie istniał publicznie dostępny zbiór, pozwalający na ewaluacje rozwiązań identyfikujących fragmenty niestrukturyzowanego tekstu prawnego, podjęliśmy się jego stworzenia. W ramach zaproponowanego wyzwania, zakłada się, że poszukiwany fragment może być dowolnym podciągiem dokumentu, tzn. nie musi stanowić kompletnej jednostki tekstu prawnego, takiej jak paragraf, punkt czy podpunkt. Ponadto, od proponowanych systemów oczekuje się bazowania na kilku przykładach analogicznych klauzul z innych dokumentów. Przy tak postawionym problemie, pretrenowane, uniwersalne enkodery zdań okazują się zawodzić, w przeciwieństwie do rozwiązań bazujących na modelach języka.

Piotr Szymański (Politechnika Wrocławska), Piotr Żelasko (Johns Hopkins University)

https://www.youtube.com/watch?v=TXSDhCtTRpw WER we are and WER we think we are  Wystąpienie w języku polskim. Slajdy po angielsku.

Przetwarzanie mowy w języku naturalnym wymaga dostępności wysokiej jakości transkryptów. W niniejszym artykule wyrażamy nasz sceptycyzm wobec ostatnich doniesień o bardzo niskich wskaźnikach błędu słów (WER) osiąganych przez nowoczesne systemy automatycznego rozpoznawania mowy (ASR) na podstawie zbiorów danych porównawczych. Przedstawiamy kilka problemów związanych z popularnymi benchmarkami i porównujemy trzy nowoczesne komercyjne systemy ASR na wewnętrznym zbiorze rzeczywistych spontanicznych rozmów ludzkich i publicznym zbiorze HUB'05. Pokazujemy, że wyniki WER są znacznie wyższe niż najlepiej raportowane wyniki. Sformułowaliśmy zestaw wytycznych, które mogą pomóc w tworzeniu rzeczywistych, wielodomenowych zbiorów danych z wysokiej jakości anotacjami do szkolenia i testowania solidnych systemów ASR.

17 grudnia 2020

Piotr Przybyła (Instytut Podstaw Informatyki PAN)

https://www.youtube.com/watch?v=newobY5cBJo Upraszczanie tekstu przez podmiany wielowyrazowe  Wystąpienie w języku polskim.

Wystąpienie będzie poświęcone zadaniu upraszczania tekstu przez podmiany wielowyrazowe, w którym zdanie w języku naturalnym modyfikuje się dla zwiększenia zrozumiałości poprzez zastępowanie jego fragmentów prostszymi odpowiednikami. W odróżnieniu od wcześniejszych prac, w tym sformułowaniu zarówno fragment zastępujący i zastępowany mogą mieć dowolną długość. Dla analizy tego zadania zbudowaliśmy korpus (MWLS1), składający się z 1462 zdań z 7059 podmianami zgromadzonymi poprzez crowdsourcing. Przedstawię także algorytm w sposób automatyczny generujący takie podmiany (Plainifier), wykorzystując specjalnie przygotowany model językowy, oraz rezultaty ewaluacji jego jakości. Wyniki badań zostały opublikowane w pracy Multi-word Lexical Simplification na konferencji COLING 2020.

18 stycznia 2021

Norbert Ryciak, Maciej Chrabąszcz, Maciej Bartoszuk (Sages)

https://www.youtube.com/watch?v=L8RRx9KVhJs Klasyfikacja wniosków patentowych  Wystąpienie w języku polskim. Slajdy po angielsku.

W prezentacji przedstawione zostanie rozwiązanie zadania klasyfikacji wniosków patentowych, które zajęło drugie miejsce w konkursie GovTech. Omówiona zostanie specyfikacja problemu i zaproponowane rozwiązanie. W szczególności przedstawiona zostanie autorska metoda reprezentacji tekstów, oparta na interpretacji dokumentu jako „chmura embeddingów”.

1 lutego 2021

Adam Jatowt (Uniwersytet Leopolda i Franciszka w Innsbrucku)

https://www.youtube.com/watch?v=e7NblngMe6A Automatyczne odpowiadanie na pytania i znajdowanie analogicznych słów w archiwach artykułów prasowych  Wystąpienie głównie w języku angielskim.

Archiwa artykułów prasowych oferują ogromną wartość dla naszego społeczeństwa, pomagając użytkownikom poznać szczegóły wydarzeń, które miały miejsce w przeszłości. Obecnie dostęp do tych zbiorów jest utrudniony dla przeciętnego użytkownika ze względu na dużą ilość zgromadzonych dokumentów i konieczność posiadania specjalistycznej wiedzy z historii. Podczas prezentacji pokażemy model automatycznego odpowiadania na pytania na podstawie archiwalnych zbiorów artykułów prasowych, z modułem dedykowanym do znajdowania artykułów przy użyciu informacji czasowych. W drugiej części referatu omówimy metody na odnajdywanie i objaśnianie „czasowych analogów” – wyrazów z przeszłości, które są analogiczne do wyrazów obecnych (np. walkman jako czasowy analog iPada).

15 lutego 2021

Aleksandra Nabożny (Polsko-Japońska Akademia Technik Komputerowych)

https://www.youtube.com/watch?v=Rd0nHiVuSZk Metoda optymalizacji pracy eksperta przy anotowaniu niewiarygodnych treści medycznych  Wystąpienie w języku polskim.

Automatyczna klasyfikacja niewiarygodnych treści medycznych jest zadaniem niezwykle trudnym. Ekspercka ocena jest bowiem obarczona dużym skrzywieniem interpretacyjnym, które jest zależne od indywidualnych doświadczeń klinicznych danego lekarza. Ponadto, prosta ocena faktograficzna okazuje się niewystarczająca do określenia wiarygodności tego typu treści. Podczas seminarium przedstawię efekty moich i zespołu wysiłków w kierunku optymalizacji procesu anotacji. Zaproponowaliśmy metodę szeregowania zdań, dzięki której zdania o niższej wiarygodności z większym prawdopodobieństwem zostaną umieszczone na początku kolejki do oceny. Przedstawię również nasze propozycje rozszerzenia instrukcji dla anotatorów, mającej na celu zwiększenie spójności ocen. Na koniec zaproszę do dyskusji na temat potencjalnych kierunków badań w celu wykrywania szkodliwych narracji w tzw. fake newsach medycznych.

9 marca 2021 (seminarium łączone z instytutowym)

Aleksander Wawer (Instytut Podstaw Informatyki PAN), Izabela Chojnicka (Wydział Psychologii UW), Justyna Sarzyńska-Wawer (Instytut Psychologii PAN)

https://www.youtube.com/watch?v=ja04r8WW4Nk Uczenie maszynowe w wykrywaniu schizofrenii i autyzmu na podstawie wypowiedzi tekstowych  Wystąpienie w języku polskim.

Diagnostyka zaburzeń psychicznych na podstawie danych tekstowych to nowy obszar zastosowań dla przetwarzania języka naturalnego, a w szczególności metod uczenia maszynowego i głębokiego uczenia. Omówimy serię eksperymentów wykonanych na polskojęzycznych danych tekstowych dotyczących zaburzeń ze spektrum autyzmu i schizofrenii. Wystąpienie rozpoczniemy od analizy obydwu zaburzeń oraz przedstawienia narzędzi diagnostycznych: TLC i ADOS-2, wraz z charakterystyką zebranych danych. Przedstawimy efekty zastosowania metod słownikowych, mierzących takie wymiary jak poziom abstrakcji językowej oraz wydźwięk. Następnie przejdziemy do prób automatycznego diagnozowania obydwu zaburzeń. Porównamy skuteczność: (1) tradycyjnych narzędzi diagnostycznych TLC i ADOS-2, (2) metod uczenia maszynowego i głębokiego uczenia zastosowanych do danych zgromadzonych przez te narzędzia oraz (3) psychiatrów. Omówimy skuteczność najprostszych metod typu bag-of-words, metod słownikowych, a także głębokich sieci neuronowych. Przedstawimy eksperymenty z transfer learning, a także uczeniem w scenariuszach zero-shot i few-shot, dedykowanych sytuacjom o małej liczebności danych, co jest typowym problemem w warunkach klinicznych. Psychiatria to jedna z nielicznych dziedzin medycyny, w których diagnoza większości zaburzeń opiera się na subiektywnej ocenie psychiatry. Nasze prace są krokiem w kierunku wprowadzenia zautomatyzowanych i obiektywnych narzędzi wspomagających diagnostykę.

15 marca 2021

Filip Graliński, Agnieszka Kaliska (Applica.ai / Uniwersytet Adama Mickiewicza), Tomasz Stanisławek, Anna Wróblewska (Applica.ai / Politechnika Warszawska), Dawid Lipiński, Bartosz Topolski (Applica.ai), Paulina Rosalska (Applica.ai / Uniwersytet Mikołaja Kopernika), Przemysław Biecek (Politechnika Warszawska / Samsung R&D Polska)

https://www.youtube.com/watch?v=uDBaqxmzppk Wyzwania ekstrakcji informacji z dokumentów: Kleister NDA/Charity  Wystąpienie w języku polskim. Slajdy po angielsku.

Wystąpienie będzie poświęcone dwóm nowych zbiorom danych z zakresu ekstrakcji informacji z dokumentów PDF: Kleister NDA i Kleister Charity. W zbiorach tych znalazły się zarówno dokumenty born-digital, jak i dokumenty skanowane; w obu przypadkach są to długie dokumenty w języku angielskim o charakterze formalnym. W tych wyzwaniach, system NLP ma za zadanie znaleźć lub wywnioskować informacje różnego typu posiłkując się zarówno cechami tekstowymi, jak i strukturalnymi.

12 kwietnia 2021

Marek Kubis (Uniwersytet Adama Mickiewicza)

https://www.youtube.com/watch?v=37d0br2axyQ Ilościowa analiza sieci postaci w polskich powieściach XIX i XX wieku  Wystąpienie w języku polskim.

W wystąpieniu przedstawię wyniki dotyczące ilościowej analizy sieci postaci indukowanych z polskich powieści. Korpus zbudowany na potrzeby prezentowanych badań składa się z XIX- i XX-wiecznych tekstów dostępnych w domenie publicznej. Omówię sposób przygotowania korpusu oraz procedurę ekstrakcji sieci. Przedstawię obserwacje dotyczące własności strukturalnych indukowanych sieci oraz skonfrontuję je z wynikami, które uzyskano dla powieści anglojęzycznych. Porównam sieci pozyskane z tekstów XIX-wiecznych z sieciami powieści XX-wiecznych.

7 czerwca 2021

Maciej Ogrodniczuk, Michał Rudolf (Instytut Podstaw Informatyki PAN)

ParlaMint: Towards Comparable Parliamentary Corpora  Pierwsza część slajdów w języku polskim.

Marta Kołczyńska (Instytut Studiów Politycznych PAN)

Parliamentary debates in COVID times  Druga część slajdów w języku angielskim.

W pierwszej części wystąpienia opowiemy o finansowanym przez CLARIN-ERIC projekcie ParlaMint, którego celem jest stworzenie wielojęzycznego porównywalnego korpusu danych parlamentarnych na podstawie narodowych korpusów stenogramów. Druga część wystąpienia będzie poświęcona pracom grupy badawczej, która wykorzystała dane korpusu ParlaMint w zadaniu analizy debat parlamentarnych podczas hackathonu Helsinki Digital Humanities Hackathon #DHH21.



Seminarium „Przetwarzanie języka naturalnego” 2019–20

23 września 2019

Igor Boguslavsky (Institute for Information Transmission Problems, Russian Academy of Sciences / Universidad Politécnica de Madrid)

Semantic analysis based on inference  Wystąpienie w języku angielskim.

I will present a semantic analyzer SemETAP, which is a module of a linguistic processor ETAP designed to perform analysis and generation of NL texts. We proceed from the assumption that the depth of understanding is determined by the number and quality of inferences we can draw from the text. Extensive use of background knowledge and inferences permits to extract implicit information.

Salient features of SemETAP include:

— knowledge base contains both linguistic and background knowledge;

— inference types include strict entailments and plausible expectations;

— words and concepts of the ontology may be supplied with explicit decompositions for inference purposes;

— two levels of semantic structure are distinguished. Basic semantic structure (BSemS) interprets the text in terms of ontological elements. Enhanced semantic structure (EnSemS) extends BSemS by means of a series of inferences;

— a new logical formalism Etalog is developed in which all inference rules are written.

7 października 2019

Tomasz Stanisz (Instytut Fizyki Jądrowej PAN)

https://www.youtube.com/watch?v=sRreAjtf2Jo Co sieć złożona może powiedzieć o tekście?  Wystąpienie w języku polskim.

Sieci złożone, które znalazły zastosowanie w ilościowym opisie wielu różnych zjawisk, okazały się atrakcyjne także w badaniach nad językiem naturalnym. Formalizm sieciowy pozwala badać język z różnych punktów widzenia – sieć złożona może reprezentować na przykład wzajemne położenie słów w tekście, pokrewieństwo znaczeń, czy relacje gramatyczne. Jednym z rodzajów sieci lingwistycznych są sieci sąsiedztwa słów, opisujące współwystępowanie słów w tekstach. Pomimo prostoty konstrukcji, sieci sąsiedztwa słów mają szereg właściwości pozwalających na ich praktyczne wykorzystanie. Struktura takich sieci, wyrażona odpowiednio zdefiniowanymi wielkościami, odzwierciedla pewne cechy języka; zastosowanie metod uczenia maszynowego do zbiorów tych wielkości może posłużyć między innymi do zidentyfikowania autora tekstu.

21 października 2019

Agnieszka Patejuk (Instytut Podstaw Informatyki PAN / Uniwersytet Oksfordzki), Adam Przepiórkowski (Instytut Podstaw Informatyki PAN / Uniwersytet Warszawski)

Koordynacja w standardzie Universal Dependencies  Wystąpienie w języku polskim. Slajdy po angielsku.

Universal Dependencies (UD; https://universaldependencies.org/) to dominujący schemat znakowania składniowego wykorzystywany przez liczne parsery dla wielu języków. Schemat ten nie do końca dobrze radzi sobie z reprezentacją koordynacji, tj. konstrukcji współrzędnie złożonych. W niniejszym referacie zaproponujemy reprezentacje dwóch aspektów koordynacji, które nie miały wcześniej dobrych reprezentacji nie tylko w UD, ale także w teoriach zależnościowych: koordynacji różnych funkcji gramatycznych oraz koordynacji zagnieżdżonej.

4 listopada 2019

Marcin Będkowski (Uniwersytet Warszawski / Instytut Badań Edukacyjnych), Wojciech Stęchły, Leopold Będkowski, Joanna Rabiega-Wiśniewska (Instytut Badań Edukacyjnych), Michał Marcińczuk (Politechnika Wrocławska), Grzegorz Wojdyga, Łukasz Kobyliński (Instytut Podstaw Informatyki PAN)

https://www.youtube.com/watch?v=-oSBqG4_VDk Podobieństwo opisów kwalifikacji znajdujących się w Zintegrowanym Rejestrze Kwalifikacji  Wystąpienie w języku polskim.

Analiza istniejących rozwiązań opisujących grupowanie kwalifikacji  Wystąpienie w języku polskim.

W referacie omówiono problem porównywania dokumentów zawartych w Zintegrowanym Rejestrze Kwalifikacji pod względem ich podobieństwa treściowego.

W pierwszej części scharakteryzujemy tło zagadnienia, w tym strukturę opisu efektów uczenia się w kwalifikacjach oraz zdań opisujących efekty uczenia się. Zgodnie z definicją zawartą w ustawie o Zintegrowanym Systemie Kwalifikacji efekt uczenia się to wiedza, umiejętności oraz kompetencje społeczne nabyte w procesie uczenia się, a kwalifikacja to zestaw efektów uczenia się, których osiągnięcie potwierdza się odpowiednim dokumentem (np. dyplomem, certyfikatem). Zdania, których referentami są efekty uczenia się, mają ustabilizowaną budowę i składają się zasadniczo z tzw. czasownika operacyjnego (opisującego czynność stanowiącą efekt uczenia się) oraz frazy nominalnej stanowiącej jego dopełnienie (nazywającej obiekt będący przedmiotem tej czynności, w skrócie: obiekt umiejętności). Przykładowo: „Określa wady wzroku i sposoby ich korekty na podstawie pomiaru refrakcji oczu” czy „Uczeń odczytuje rysunki techniczne.”.

W drugiej części zarysujemy podejście pozwalające na określenie stopnia podobieństwa między kwalifikacjami oraz ich grupowanie, wraz z jego założeniami i stojącymi za nimi intuicjami. Określimy przyjęte rozumienie podobieństwa treściowego, mianowicie zarysujemy podejście określania podobieństwa tekstów w wariancie umożliwiającym automatyczne przetwarzanie tekstu z wykorzystaniem narzędzi komputerowych. Przedstawimy prosty model reprezentacji wypowiedzi, tzw. bag of words, w dwóch wersjach.

Pierwsza z nich zakłada pełną atomizację efektów uczenia się (w tym fraz nominalnych, obiektów umiejętności) i przedstawienie ich jako zbiorów pojedynczych zlematyzowanych rzeczowników będących reprezentacją obiektów umiejętności. Druga opiera się na n-gramach z uwzględnieniem miary TFIDF (tj. ważenie częstością termów – odwrotna częstość w dokumentach), pozwalające na wydobycie z tekstów słów i fraz kluczowych.

Pierwsze podejście można określić mianem „rozrzutnego”, natomiast drugie – „oszczędnego”. Pierwsze pozwala bowiem dla każdej kwalifikacji przedstawić wiele kwalifikacji podobnych (choć stopień podobieństwa bywa niski). Natomiast drugie dopuszcza sytuację, w której dla danej kwalifikacji nie znajdzie się żadna podobna.

W części trzeciej opiszemy przykładowe grupowania i listy rankingowe bazujące na obu podejściach, oparte na skalowaniu wielowymiarowym i algorytmie k-średnich oraz grupowaniu hierarchicznym. Przedstawimy także studium przypadku, które posłuży do zilustrowania zalet oraz niedostatków obu podejść.

W czwartej części przedstawimy wnioski dotyczące grupowania kwalifikacji, ale także ogólne wnioski związane z określaniem słów kluczy. W szczególności przedstawimy wnioski dotyczące stosowania wskazanych metod do porównywania tekstów zróżnicowanej długości, a także częściowo pokrywających się (zawierających wspólne fragmenty).

Referat został przygotowany we współpracy z autorami ekspertyzy dotyczącej automatycznej analizy i porównywania kwalifikacji w celu ich grupowania przygotowanej w ramach projektu „Prowadzenie i rozwój Zintegrowanego Rejestru Kwalifikacji”, POWR.02.11.00-00-0001/17.

18 listopada 2019

Alexander Rosen (Uniwersytet Karola w Pradze)

https://www.youtube.com/watch?v=kkqlUnq7jGE Wielojęzyczny korpus równoległy InterCorp: reprezentacja kategorii gramatycznych  Wystąpienie w języku angielskim.

Wielojęzyczny korpus równoległy InterCorp, będący częścią Czeskiego Korpusu Narodowego, od 2008 roku jest dostępny online; stale powiększa się, osiągając obecnie wielkość 1,7 miliarda słów w 40 językach. Znaczną część InterCorpu stanowią teksty literackie, które uzupełniają teksty prawne, publicystyczne, wystąpienia parlamentarne, napisy filmowe i Biblia. Teksty wiązane są na poziomie zdań i – w większości języków – otagowane oraz lematyzowane. Podczas wykładu skoncentruję się na kwestii adnotacji morfosyntaktycznych, wykorzystując specyficzne dla języków zestawy tagsetów i reguły tokenizacji oraz zbadam różne rozwiązania, w tym oparte na wytycznych, danych i narzędziach opracowanych w ramach projektu Universal Dependencies.

21 listopada 2019

Alexander Rosen (Uniwersytet Karola w Pradze)

https://www.youtube.com/watch?v=OQ-3B4-MXCw Czeski korpus uczniowski  Wystąpienie w języku angielskim.

Teksty tworzone przez osoby uczące się języka (rodzimego lub obcego) zawierają różnego rodzaju zjawiska niekanoniczne, co komplikuje anotację językową i jednocześnie wymaga wyraźnego oznaczenia odchyleń od normy. Chociaż istnieje wiele korpusów uczniowskich języka angielskiego, a ostatnio również inne języki nadrabiają w tym swoje zaległości, do tej pory nie pojawiło się powszechnie przyjęte podejście do projektowania taksonomii błędów i schematu anotacji. W przypadku CzeSL, korpusu czeskiego jako drugiego języka, zaprojektowano i przetestowano kilka takich podejść, które później rozszerzono również na teksty przygotowane przez czeskie dzieci w wieku szkolnym. Podczas wykładu pokażę wady i zalety tych podejść, szczególnie w odniesieniu do czeskiego jako języka o wysokiej fleksyjności i swobodnym szyku wyrazów w zdaniu.

12 grudnia 2019

Aleksandra Tomaszewska (Instytut Lingwistyki Stosowanej UW)

https://www.youtube.com/watch?v=_WJF6BuQML4 Międzygatunkowa analiza zapożyczeń unijnych w języku polskim – potrzeba automatyzacji  Wystąpienie w języku polskim.

W trakcie prezentacji przedstawiony zostanie projekt „Brukselizmy – mechanizmy powstawania, funkcje, ewolucja i asymilacja w polszczyźnie” (Diamentowy Grant MNiSW), którego celem jest analiza i kategoryzacja zapożyczeń unijnych – efektów kontaktów językowych w Unii Europejskiej. Podczas pierwszej części seminarium autorka omówi tło teoretyczne zjawiska, założenia projektu badawczego oraz zaprezentuje skompilowany roboczy korpus gatunkowy polszczyzny unijnej złożony z trzech podkorpusów – transkrypcji wywiadów z europosłami, prawa unijnego (rozporządzeń i dyrektyw) oraz komunikatów prasowych instytucji Unii Europejskiej. W dalszej części wystąpienia zaprezentowane zostaną metody i narzędzia wykorzystywane w badaniu, w tym sposoby prowadzenia analiz na zgromadzonym materiale badawczym. Na konkretnych przykładach zasygnalizowana zostanie również potrzeba automatyzacji badań nad najnowszymi zapożyczeniami na gruncie polskim.

13 stycznia 2020

Ryszard Tuora, Łukasz Kobyliński (Instytut Podstaw Informatyki PAN)

https://www.youtube.com/watch?v=sux6l5glZrA Integracja narzędzi do przetwarzania języka polskiego we frameworku spaCy  Wystąpienie w języku polskim.

W naszym projekcie staramy się zapełnić lukę pomiędzy wypracowanymi przez lata, zaawansowanymi narzędziami dedykowanymi do rozmaitych zadań w ramach przetwarzania języka polskiego a użytkownikami szukającymi i oczekującymi łatwego dostępu do tych technologii. spaCy jest open-source'owym frameworkiem do NLP znajdującym się w ścisłej czołówce popularności, ale mimo to nie posiada obecnie oficjalnego wsparcia dla języka polskiego. W referacie opowiemy o przygotowanym przez nas modelu do spaCy, który umożliwia segmentację, lematyzację, analizę morfosyntaktyczną, parsowanie zależnościowe i wykrywanie jednostek nazewniczych. Przedstawimy zintegrowane narzędzia, wyniki ewaluacyjne, przykładowe zastosowania oraz możliwe ścieżki rozwoju istniejącego modelu.

27 stycznia 2020

Alina Wróblewska, Katarzyna Krasnowska-Kieraś (Instytut Podstaw Informatyki PAN)

https://www.youtube.com/watch?v=v6YncOiFMuY Informacje lingwistyczne w wektorowych reprezentacjach zdań  Wystąpienie w języku polskim.

W referacie zostaną przedstawione wyniki badań nad kodowaniem informacji lingwistycznych w wektorowych reprezentacjach zdań (ang. sentence embeddings). W badaniach zastosowano metody oparte na uniwersalnych zadaniach próbkowania (ang. probing tasks) oraz na bardziej zaawansowanych zadaniach NLP (ang. downstream tasks). Wyniki eksperymentów na językach angielskim i polskim pokazały, że różne typy embeddingów zdań w różnym stopniu kodują informacje lingwistyczne. Wyniki badań zostały opublikowane w artykule Empirical Linguistic Study of Sentence Embeddings w materiałach konferencji ACL 2019.

24 lutego 2020

Piotr Niewiński (Samsung R&D Polska), Aleksander Wawer, Grzegorz Wojdyga (Instytut Podstaw Informatyki PAN)

https://www.youtube.com/watch?v=kU79Q00fCI0 Weryfikacja faktów w konkursie FEVER  Wystąpienie w języku polskim. Slajdy po angielsku.

Aleksander Wawer, Grzegorz Wojdyga (Instytut Podstaw Informatyki PAN), Justyna Sarzyńska-Wawer (Instytut Psychologii PAN)

Fact Checking or Psycholinguistics: How to Distinguish Fake and True Claims?  Wystąpienie w języku polskim. Slajdy po angielsku.

Piotr Niewiński, Maria Pszona, Maria Janicka (Samsung R&D Polska)

Generative Enhanced Model (extended, redesigned & fine-tuned GPT language model) for adversarial attacks  Wystąpienie w języku polskim. Slajdy po angielsku.

W referacie zostaną przedstawione prace nad konkursem FEVER (Fact Extraction and Verification). "Fake-newsy" są stały się groźnym fenomenem współczesnego obiegu informacyjnego. Istnieje wiele podejść do problemu rozpoznawania fałszywych wiadomości – w konkursie FEVER, mając pewien tekst, zadaniem jest znalezienie konkretnych dowodów z pewnych źródeł celem weryfikacji. W trakcie prezentacji pokażemy najciekawsze pomysły zgłoszone przez uczestników poprzednich edycji, omówimy nasz artykuł porównujący podejścia weryfikacji faktów z analizą psycholingwistyczną, a także przedstawimy zwycięski system do oszukania systemów weryfikacji faktów.

9 marca 2020

Piotr Przybyła (Instytut Podstaw Informatyki PAN)

https://www.youtube.com/watch?v=YWdqlMR6bfs Ocena wiarygodności dokumentów na podstawie stylu  Wystąpienie w języku polskim.

W ramach wystąpienia przedstawię wyniki prac nad automatycznym wykrywaniem dokumentów o niskiej wiarygodności, takich jak zmyślone wiadomości (ang. 'fake news'), na podstawie ich własności stylistycznych. Opiszę zgromadzony korpus 103.219 dokumentów z 223 źródeł i wyjaśnię dlaczego zastosowanie zwykłych klasyfikatorów tekstu nie przynosi zadowalających rezultatów. Przedstawię metody opracowane specjalnie dla tego zadania na bazie sieci neuronowych i cech stylometrycznych oraz osiągane przez nie wyniki. Przekonamy się także, czy opracowane klasyfikatory rzeczywiście uwzględniają słownictwo charakterystyczne dla zmyślonych wiadomości. Wyniki badań zostały opublikowane w pracy Capturing the Style of Fake News na konferencji AAAI 2020.



Seminarium „Przetwarzanie języka naturalnego” 2018–19

1 października 2018

Janusz S. Bień (Katedra Lingwistyki Formalnej UW, prof. emeryt)

https://www.youtube.com/watch?v=mOYzwpjTAf4 Elektroniczne indeksy leksykograficzne  Wystąpienie w języku polskim.

Omówione zostaną indeksy do zasobów leksykograficznych dostępnych w Internecie w formacie DjVu. Indeksy takie mogą być przeglądane, modyfikowane i tworzone za pomocą swobodnego (dostępnego bezpłatnie na otwartej licencji) programu djview4poliqarp — zostanie przedstawiona geneza i historia tego programu. W programie tym obsługa indeksów została pierwotnie wprowadzona na potrzeby indeksu haseł do XIX-wiecznego słownika Lindego, ale może być wykorzystywana również do innych zasobów, jak to zostanie pokazane na przykładach. Zostaną w szczególności zademonstrowane — po raz pierwszy publicznie — ulepszenia wprowadzone do programu w ostatnich miesiącach.

15 października 2018

Wojciech Jaworski, Szymon Rutkowski (Uniwersytet Warszawski)

https://www.youtube.com/watch?v=SbPAdmRmW08 Wielowarstwowy regułowy model fleksji języka polskiego  Wystąpienie w języku polskim.

Referat poświęcony będzie wielowarstwowemu modelowi fleksji języka polskiego. Model opracowany został na podstawie haseł pochodzących ze Słownika Gramatycznego Języka Polskiego; nie korzysta z koncepcji paradygmatu odmiany. Model składa się z trzech warstw ręcznie opracowanych reguł: „warstwy ortograficzno-fonetycznej” konwertującej segment do reprezentacji odzwierciedlającej prawidłowości morfologiczne języka, „warstwy analitycznej” generującej lemat oraz określającej afiksy oraz „warstwy interpretacji” nadającej interpretację morfosyntaktyczną na podstawie wykrytych afiksów. Model dostarcza wiedzę o języku analizatorowi morfologicznemu zaopatrzonemu w funkcję odgadywania lematów i interpretacji morfosyntaktycznych dla form nie należących do słownika (ang. guesser). Drugim zastosowaniem jest generowanie form słów na podstawie lematu i interpretacji morfosyntaktycznej. Podczas referatu poruszone zostanie również zagadnienie dezambiguacji wyników dostarczanych przez analizator morfologiczny. Wersja demonstracyjna programu dostępna jest w Internecie.

29 października 2018

Jakub Waszczuk (Uniwersytet Heinricha Heinego w Düsseldorfie)

https://www.youtube.com/watch?v=zjGQRG2PNu0 Od tagowania morfoskładniowego do identyfikacji czasownikowych jednostek wielowyrazowych: podejście dyskryminatywne  Wystąpienie w języku polskim. Slajdy w języku angielskim.

Pierwsza część referatu poświęcona została narzędziu Concraft-pl 2.0, nowej wersji morfoskładniowego tagera dla języka polskiego bazującego na warunkowych polach losowych. Concraft-pl 2.0 przeprowadza podział na słowa (tokenizację) w ramach ujednoznaczniania morfoskładniowego, co pozwala używać go bezpośrednio na grafach wyjściowych analizatora Morfeusz. Inne istniejące tagery dla języka polskiego albo ignorują ten problem, albo opierają się na heurystykach stosowanych przed fazą ujednoznaczniania. W drugiej części referatu przedstawiona została metoda automatycznej identyfikacji czasownikowych jednostek wielowyrazowych opierająca się na wynikach analizy zależnościowej. W tym podejściu identyfikacja sprowadza się do problemu etykietowania, w którym jedna z dwóch etykiet (MWE/not-MWE) musi zostać określona dla każdego wierzchołka drzewa zależnościowego. Do rozwiązania tego problemu wykorzystany został model warunkowych pól losowych dostosowany do drzewiastej struktury danych wejściowych. System oparty na tym podejściu uzyskał pierwsze miejsce w zamkniętej ścieżce konkursu PARSEME shared task 2018.

5 listopada 2018

Jakub Kozakoszczak (Uniwersytet Warszawski / Uniwersytet Heinricha Heinego w Düsseldorfie)

https://www.youtube.com/watch?v=sz7dGmf8p3k Zawsze od rana do środy — semantyka i normalizacja quasi-okresowych określeń czasu w języku polskim  Wystąpienie w języku polskim.

Standardowo, wyrażenia takie jak „Januarys” lub „Fridays” są interpretowane w językach reprezentacji wiedzy czasowej jako plastry (slices) kolekcji czasowych drugiego stopnia, czyli np. wszystkie piąte elementy siedmioelementowych ciągów dni wyrównanych z ciągiem tygodni kalendarzowych. W wystąpieniu przedstawię wynik prac nad normalizacją najczęstszych polskich wyrażeń quasi-okresowych dla potrzeb systemu rezerwacyjnego. W części językoznawczej przedstawię argumenty przeciwko tłumaczeniu wyrażeń typu „piątki” na „piąte dni tygodnia” i testy semantyczne na proste klasy quasi-okresowości. W części formalnej zaproponuję rozszerzenie istniejących rozwiązań o reprezentację intensjonalnych operatorów quasi-okresowych „od”, „do”, „przed” i „po” obciętych do argumentów, dla których są monotoniczne. W części implementacyjnej zaprezentuję algorytm leniwego wyliczania uogólnionego przecięcia kolekcji.

19 listopada 2018

Daniel Zeman (Instytut Lingwistyki Formalnej i Stosowanej, Uniwersytet Karola w Pradze)

https://www.youtube.com/watch?v=xUmZ8Mxcmg0 Universal Dependencies i języki słowiańskie  Wystąpienie w języku angielskim.

Przedstawię Universal Dependencies, ogólnoświatową inicjatywę mającą na celu udostępnienie wielojęzycznych korpusów zaanotowanych na poziomie morfologicznym i składniowym zgodnie z uniwersalnymi wytycznymi. Omówię koncepcję kluczowych argumentów (ang. core arguments), która jest jednym z fundamentów UD. W drugiej części wykładu skupię się na kilku interesujących problemach i wyzwaniach związanych z zastosowaniem Uniwersalnych Zależności w językach słowiańskich. Omówię przykłady z 12 języków słowiańskich reprezentowanych obecnie w UD, które pokazują, że nadal można poprawić spójność międzyjęzykową.

3 grudnia 2018

Ekaterina Lapshinova-Koltunski (Uniwersytet Kraju Saary)

https://www.youtube.com/watch?v=UQ_6dDNEw8E Analiza i anotacja koreferencji na potrzeby lingwistyki kontrastywnej i translatoryki  Wystąpienie w języku angielskim.

Podczas wykładu opowiem o trwających pracach nad analizą koreferencji w kontekście wielojęzycznym. Przedstawię dwa podejścia do analizy zjawisk koreferencyjnych: (1) teoretyczne, gdy na podstawie wiedzy lingwistycznej definiujemy kategorie językowe i używamy ich do stworzenia anotowanego korpusu, który można wykorzystać albo do dalszej analizy lingwistycznej, albo jako dane treningowe dla zastosowań NLP, (2) oparte na danych: w tym przypadku zaczynamy od zestawu płytkich cech naszym zdaniem związanych z dyskursem, wyodrębniamy struktury z dużej ilości danych i analizujemy je z językowego punktu widzenia próbując opisać i wyjaśnić obserwowane zjawiska za pomocą istniejących teorii i gramatyk.

7 stycznia 2019

Adam Przepiórkowski (Instytut Podstaw Informatyki PAN / Uniwersytet Warszawski), Agnieszka Patejuk (Instytut Podstaw Informatyki PAN / Uniwersytet Oksfordzki)

Enhanced Universal Dependencies  Wystąpienie w języku polskim. Slajdy w języku angielskim.

Celem referatu jest prezentacja dwóch nurtów naszych prac związanych z Universal Dependencies (UD), czyli ze standardem znakowania składniowego korpusów tekstów (http://universaldependencies.org/). Pierwszy nurt dotyczy opracowania nowego banku drzew języka polskiego, w pełni wykorzystującego obecną rozszerzoną wersję standardu. Korpus ten jest wynikiem konwersji wcześniejszego ‘banku drzew’, zawierającego znakowanie zgodne z teorią Lexical Functional Grammar, a więc nie tylko drzewa składnikowe, ale także struktury funkcyjne. W referacie omówiony zostanie proces konwersji, a także wynik tego procesu, czyli uzyskany bank drzew języka polskiego. Drugi nurt prac dotyczy natomiast podstaw standardu UD, a szczególnie pewnych jego niespójności i braków, które zidentyfikowaliśmy w trakcie tworzenia polskiego korpusu zgodnego z tym standardem. Skupimy się tutaj na dwóch obszarach, które są szczególnie problematyczne w omawianym standardzie, a mianowicie na odróżnieniu funkcji gramatycznych ‘pierwszorzędnych’ (ang. core) i ‘drugorzędnych’ (ang. oblique) – w zamierzeniu twórców standardu rozróżnienie to miało zastąpić (lecz nie do końca zastępuje) dychotomię argument/modyfikator – oraz na koordynacji, czyli zjawisku trudnym dla wszystkich podejść zależnościowych.

14 stycznia 2019

Agata Savary (Université François Rabelais Tours)

Dosłowne interpretacje jednostek wielowyrazowych: analiza ilościowa i jakościowa  Wystąpienie w języku polskim. Slajdy w języku angielskim.

Jednostki wielowyrazowe (ang. multiword expressions), takie jak „wyciągnąć nogi” (umrzeć), „wziąć udział” czy „bać się”, to związki frazeologiczne odznaczające się nieregularnymi własnościami na poziomie słownictwa, składni, a przede wszystkim semantyki. Są one istotnym wyzwaniem m.in. dla modelowania języka i dla lingwistyki komputerowej z uwagi na ich niekompozycyjne znaczenie, tzn. niemożność ustalenia znaczenia danego wyrażenia w sposób regularny na bazie znaczeń jego pojedynczych składników i zachodzących między nimi związków składniowych. Dodatkowo wyrażenia takie cechuje możliwość występowania zarówno w znaczeniu przenośnym jak i dosłownym (np. „wyciągnął nogi” w sensie „zmarł”, w opozycji do „położył się na trawie i wyciągnął nogi”). Dosłownym interpretacjom jednostek wielowyrazowych poświęcono szereg prac z dziedziny psycholingwistyki, lingwistyki i przetwarzania języka naturalnego, jednak zjawisko to nie zostało jak dotąd precyzyjne zdefiniowane ani poddane analizie ilościowej. Na tym seminarium zaproponuję definicję dosłownej interpretacji jednostki wielowyrazowej w oparciu m.in. o jej składnię. Zaprezentuję też analizę jakościową i ilościową tego zjawiska dla języka polskiego oraz dla 4 innych typologicznie odległych języków: baskijskiego, greckiego, niemieckiego i portugalskiego. Wyniki tego studium, przeprowadzonego na bazie korpusu wielojęzycznego sieci naukowej PARSEME, wskazują m.in. na rzadkość użycia jednostek wielowyrazowych w ich znaczeniach dosłownych. Pokażę również, jakiego typu ograniczenia morfologiczne i składniowe niektórych jednostek wielowyrazowych pozwalają odróżnić ich interpretacje metaforyczne od dosłownych oraz, przeciwnie, jakie ich wystąpienia cechuje daleko idąca niejednoznaczność.

21 stycznia 2019

Marek Łaziński (Uniwersytet Warszawski), Michał Woźniak (Uniwersytet Jagielloński)

Aspekt czasownika w słownikach i korpusach. Jak i po co tagować pary aspektowe?  Wystąpienie w języku polskim.

W referacie przedstawione zostaną zasady tagowania par aspektowych w nowym Korpusie polsko-niemieckim Uniwersytetu Warszawskiego i Uniwersytetu Gutenberga w Moguncji. Zanim to uczynimy, przyjrzymy się nieuporządkowanym informacjom o aspekcie czasownika w najważniejszych polskich słownikach oraz w NKJP. Dotychczasowe tagowanie aspektu w korpusach słowiańskich ogranicza się do jednego tokenu, tymczasem aspekt jest kategorią parzystą i warto rozpatrywać go w ramach par czasownikowych. Zakładamy, że jest to możliwe we wszystkich korpusach języków słowiańskich, w tym w NKJP, choć trzeba się zgodzić na pewne uproszczenia. Projekt informacji aspektowej w korpusie składa się z 3 części:

1. Tag 1 powtarza informację aspektową z NKJP, uzupełniając ją o wartość „dwuaspektowy”, poprawiając błędy i rozdzielając dokonaność/niedokonaność parzystą (pisać-napisać) od nieparzystej (stać, runąć).

2. Tag 2 określa morfologiczny wyznacznik aspektu w ramach pary: prefiks, sufiks lub supletywizm morfemów.

3. Tag 3 odnosi do pary aspektowej.

Przypisanie tagów odbywa się na podstawie listy i nie uwzględnia faktu, że czasownik potencjalnie parzysty może być także użyty jako imperfectivum tantum, np. „długopis cienko pisze”. W wypadku trójek aspektowych, np. tworzyć:stworzyć:stwarzać oraz alternatywnych odpowiedników dk w zależności od znaczenia, np. malować:pomalować/namalować korpus zaznacza każde przypisanie do potencjalnej pary. Czasownik stworzyć jest przypisany do par tworzyć:stworzyć i stwarzać:stworzyć (tylko w pierwszym wypadku wyznacznikiem aspektu jest prefiks), czasownik malować do par malować:pomalować i malować:namalować. Mimo niejednoznaczności odniesienia do par otamowany wstępnie korpus pozwala uzyskać wiarygodną informację o zachowaniu kategorii, także w ujęciu porównawczym słowiańsko-niesłowiańskim. W referacie przedstawimy wyniki wstępnego określenia profilu gramatycznego czasowników dk i ndk z par prefiksalnych i sufiksalnych.

11 lutego 2019

Anna Wróblewska (Applica / Politechnika Warszawska), Filip Graliński (Applica / Uniwersytet Adama Mickiewicza)

https://www.youtube.com/watch?v=tZ_rkR7XqRY Rozumienie modeli uczenia maszynowego opartych na tekście – rozpoznawanie emocji i detekcja języka obraźliwego  Wystąpienie w języku polskim. Slajdy w języku angielskim.

W jaki sposób radzimy sobie z problemami z modelowaniem tekstu w aplikacjach biznesowych? Przedstawimy prototypową architekturę do automatyzacji procesów w pracy z danymi tekstowymi oraz kilka przykładów użycia modeli uczenia maszynowego. Przypadki użycia będą dotyczyć m.in. wykrywania emocji i języka obraźliwego. Pokażemy również nasze narzędzie do analizy zbiorów danych i modeli.

28 lutego 2019

Jakub Dutkiewicz (Politechnika Poznańska)

https://www.youtube.com/watch?v=Ap2zn8-RfWI Empirical research on medical information retrieval  Wystąpienie w języku polskim. Slajdy w języku angielskim.

Przedstawiamy wyniki i procedury ewaluacji konkursu bioCADDIE 2016 w zakresie wyszukiwania precyzyjnych danych medycznych. Nasze dobre wyniki wynikają użycia word embedding dla wyznaczenia słów rozszerzających zapytanie z odpowiednimi wagami. Ocena ponad 10000 dokumentów związana jest z dużym wysiłkiem. Ponad 10 lat temu została zaproponowana prosta metoda próbkowania w celu oszacowania średniej dokładności (AP) i znormalizowanego skumulowanego zysku informacyjnego (NDCG), w warunkach niekompletnych adnotacji. Aby ta metoda działała, liczba ocenionych dokumentów musi być stosunkowo duża. Takie warunki nie zostały spełnione w konkursie bioCADDIE 2016 i TREC PM 2017, 2018. Specyfika oceny bioCADDIE sprawia, że wyniki uzyskane po konkursie są niekompatybilne z uzyskanymi podczas konkursu. W bioCADDIE, w przypadku niektórych pytań nie było żadnego zaadnotowanego relewantnego dokumentu. Wyniki są silnie uzależnione od pozycji odcięcia. Jako efekt, uzyskana w bioCADDIE miara infAP jest słabo skorelowana z infNDCG, a różnica może wynieść do 0,15-0,20 wartości bezwzględnej. Proponujemy symulowane środowisko z właściwościami, które odzwierciedlają rzeczywiste systemy. W ramach symulacji wdrażamy szereg działań ewaluacyjnych i omawiamy użyteczność środków z częściowo przypisanymi do nich zbiorami dokumentów w odniesieniu do wielkości zbioru, liczby adnotowanych dokumentów i proporcji między liczbą relewantnych i nierelewantnych dokumentów. W szczególności koncentrujemy się na zachowaniu wyżej wymienionych AP i NDCG oraz ich estymowanych wersjach.

21 marca 2019

Grzegorz Wojdyga (Instytut Podstaw Informatyki PAN)

Optymalizacja rozmiaru modeli językowych  Wystąpienie w języku polskim.

Podczas seminarium zostaną omówione wyniki pracy nad redukcją rozmiaru modeli językowych. Autor dokona przeglądu literatury na temat redukcji rozmiaru rekurencyjnych sieci neuronowych (pod kątem modeli językowych). Następnie zostaną przedstawione własne implementacje wraz z wynikami ewaluacji na różnych korpusach polskich i angielskich.

25 marca 2019

Łukasz Dębowski (Instytut Podstaw Informatyki PAN)

https://www.youtube.com/watch?v=gIoI-A00Y7M GPT-2 – kilka refleksji obserwatora  Wystąpienie w języku polskim.

GPT-2 to najnowszy neuronowy statystyczny model języka autorstwa zespołu OpenAI. Statystyczny model języka to rozkład prawdopodobieństwa na tekstach, który może służyć do automatycznego generowania tekstów. W istocie GPT-2 okazał się zaskakująco dobrym generatorem semantycznie spójnych tekstów długości kilku akapitów, istotnie przesuwając granice tego, co uchodziło dotychczas za możliwe technicznie. Antycypując zastosowanie GPT-2 do generowania fake-newsów zespół OpenAI zdecydował się upublicznić tylko dziesięciokrotnie zredukowaną wersję modelu. W swoim wystąpieniu podzielę się refleksjami odnośnie GPT-2.

8 kwietnia 2019

Agnieszka Wołk (Polsko-Japońska Akademia Technik Komputerowych i Instytut Badań Literackich PAN)

https://www.youtube.com/watch?v=QVrY4rRzMOI Zastosowanie kolokacji językowych w badaniach ilościowych  Wystąpienie w języku polskim.

Celem prezentacji jest wsparcie ogromnego wysiłku niezbędnego do analizy kompetencji w zakresie frazeologicznego pisania poprzez opracowanie automatycznego narzędzia do oceny tekstów. Podejmowana jest próba zmierzenia zarówno biegłości w pisaniu w drugim języku (L2), jak i jakości tekstu. Technika CollGram, która przeszukuje korpus referencyjny w celu określenia częstotliwości każdej pary (n-gramów) i oblicza wynik t-score oraz powiązane informacje. Jako korpus referencyjny posłużyliśmy się korpusem poziomu 3 współczesnego amerykańskiego języka angielskiego (COCA). Nasze rozwiązanie sprawdzało się w pisemnej ocenie i jest dostępne bezpłatnie jako serwis internetowy lub jako źródło dla innych badaczy. Przedstawiamy również, jak używać go jako narzędzi do wczesnego wykrywania depresji oraz stylometrii.

15 kwietnia 2019

Alina Wróblewska, Piotr Rybak (Instytut Podstaw Informatyki PAN)

https://www.youtube.com/watch?v=p-VldtRqvmg Automatyczna analiza zależnościowa języka polskiego  Wystąpienie w języku polskim.

Parsowanie zależnościowe jest kluczowym problemem w zaawansowanych zadaniach NLP. Struktura predykatywno-argumentowa zakodowana w strukturach zależnościowych może wspierać tłumaczenie maszynowe, odpowiadanie na pytania, analizę wydźwięku itp. W prezentacji przedstawimy PDB – największy bank drzew zależnościowych dla języka polskiego, oraz COMBO – niezależny od języka system neuronowy do tagowania, analizy morfologicznej, lematyzacji i parsowania zależnościowego.

13 maja 2019

Piotr Niewiński, Maria Pszona, Alessandro Seganti, Helena Sobol (Samsung R&D Polska), Aleksander Wawer (Instytut Podstaw Informatyki PAN)

https://www.youtube.com/watch?v=_-3z7AoIPU8 Samsung R&D Polska w konkursie SemEval 2019  Wystąpienie w języku polskim. Slajdy w języku angielskim.

Prezentacja przedstawia rozwiązania zgłoszone przez Samsung R&D Polska w konkursie SemEval 2019. Uzyskały one drugie miejsca w dwóch różnych zadaniach konkursu.

1. Weryfikacja faktów na forach internetowych

Przedstawimy system zaprojektowany w ramach konkursu SemEval. Zadanie polegało na zaklasyfikowaniu pytań do jednej z trzech kategorii: OPINIA, FAKT lub ROZRYWKA. Przedstawimy rozwiązanie, które zajęło drugie miejsce: głęboko zregularyzowana rezydualna sieć neuronowa wykorzystująca embeddingi uzyskane przy pomocy enkodera Universal Sencence Encoder. Model ten porównamy z dwoma innymi zaproponowanymi architekturami opartymi o metody zespołowe (ensemble).

2. Deep-learningowy klasyfikator zdań obraźliwych

Jak zdefiniować „obraźliwe treści”? Czym są „brzydkie słowa”? W naszej prezentacji omówimy trudności w określeniu tego, co obraźliwe, wulgarne i niepożądane w mediach społecznościowych (np. na Twitterze). Następnie zaprezentujemy nasz system zastosowany w zadaniach 5 i 6 SemEval 2019 (w którym osiągnęliśmy drugie miejsce dla podzadania C zadania 6). Porównamy również osiągi naszego modelu z podejściami stanu techniki i przedstawimy, jak przewyższył on inne systemy dzięki zastosowaniu obserwacji lingwistycznych.

27 maja 2019

Magdalena Zawisławska (Uniwersytet Warszawski)

https://www.youtube.com/watch?v=157YzQ70bV4 Synamet – polski korpus metafor synestezyjnych  Wystąpienie w języku polskim.

Celem referatu jest omówienie procedury identyfikacji metafor synestezyjnych oraz anotacji jednostek metaforycznych (JM) w korpusie Synamet, który powstał w ramach grantu NCN (UMO-2014/15/B/HS2/00182). Podstawą teoretyczną opisu metafor była teoria metafory pojęciowej Lakoffa i Johnsona połączona z semantyką ramową Fillmore’a. Lakoff i Johnson definiują metaforę jako rzutowanie pojęciowe z domeny źródłowej na domenę docelową, np. MIŁOŚĆ TO PODRÓŻ. Ponieważ pojęcie domeny jest niejasne, w projekcie zostało zastąpione przez ramę interpretacyjną, która ponadto (w odróżnieniu od domeny) łączy poziom semantyczny z językowym (ramy interpretacyjne są aktywowane przez jednostki leksykalne). Metafora synestezyjna w węższym rozumieniu polega na opisie danej percepcji za pomocą leksyki prymarnie odnoszącej się do innej percepcji, np. jasny dźwięk (WZROK → SŁUCH), zaś w szerszym – do opisu zjawisk niepercepcyjnych za pomocą wyrażeń odnoszących się do wrażeń zmysłowych, np. szorstki charakter (DOTYK → CZŁOWIEK). W projekcie Synamet zastosowano jeszcze szerszą definicję metafory synestezyjnej – każde wyrażenie, w którym zostały aktywowane dwie różne ramy, z których jedna była percepcyjna, było traktowane jako metafora synestezyjna. Teksty w korpusie Synamet pochodzą z blogów poświęconym recenzjom perfum, wina, piwa, muzyki, czy kawy, gdzie ze względu na tematykę szansa na znalezienie metafor synestezyjnych była największa. W referacie zaprezentowane zostaną podstawowe statystyki korpusu i atypowe jednostki metaforyczne, które wymagały modyfikacji procedury anotacji.



Seminarium „Przetwarzanie języka naturalnego” 2017–18

2 października 2017

Paweł Rutkowski (Uniwersytet Warszawski)

https://www.youtube.com/watch?v=Acfdv6kUe5I Polski język migowy z perspektywy lingwistyki korpusowej  Wystąpienie w języku polskim. Slajdy w jęz. angielskim.

Polski język migowy (PJM) jest w pełni funkcjonalnym językiem wizualno-przestrzennym, którym posługuje się polska społeczność Głuchych. Jego rozwój rozpoczął się w drugiej dekadzie XIX wieku – wraz z założeniem pierwszej szkoły dla głuchych w Polsce. Do niedawna poświęcano mu bardzo niewiele uwagi w badaniach językoznawczych. Celem niniejszego wystąpienia jest przedstawienie szeroko zakrojonego projektu badawczego służącego opracowaniu obszernego i reprezentatywnego korpusu PJM. Korpus ten jest obecnie tworzony na Uniwersytecie Warszawskim. Ma formę zbioru klipów wideo przedstawiających osoby głuche posługujące się PJM w różnych kontekstach komunikacyjnych. Filmy są szczegółowo anotowane: segmentowane, lematyzowane, tłumaczone na polszczyznę, znakowane pod względem różnych cech gramatycznych i transkrybowane za pomocą symboli HamNoSys. W skali międzynarodowej korpus PJM jest obecnie jednym z dwóch największych zbiorów oznakowanych danych migowych. Na szczególną uwagę zasługuje kwestia frekwencji leksykalnej w PJM. Dane tego typu opracowane zostały dotąd dla zaledwie kilku języków migowych – m.in. dla amerykańskiego języka migowego, nowozelandzkiego języka migowego, brytyjskiego języka migowego, australijskiego języka migowego i słoweńskiego języka migowego. Podstawy empiryczne tych badań wahały się od 100 000 (NZSL) do zaledwie 4 000 jednostek tekstowych (ASL). Niniejsze wystąpienie wpisuje się w dyskusję dotyczącą właściwości frekwencyjnych leksemów języków migowych poprzez przeanalizowanie o wiele większego zbioru relewantnych danych z PJM.

23 października 2017

Katarzyna Krasnowska-Kieraś, Piotr Rybak, Alina Wróblewska (Instytut Podstaw Informatyki PAN)

https://www.youtube.com/watch?v=8qzqn69nCmg Ewaluacja polskich wektorów dystrybucyjnych w kontekście dezambiguacji morfoskładniowej i parsowania zależnościowego  Wystąpienie w języku polskim.

Uczenie maszynowe oparte na głębokich sieciach neuronowych okazało się bardzo skuteczną heurystyką w różnych zadaniach przetwarzania języka naturalnego. Ważnym komponentem sieci neuronowych jest reprezentacja wektorowa cech (tzw. feature embedding). Istnieje możliwość tworzenia wektorów dystrybucyjnych cech różnego typu, np. wyrazów czy części mowy. Przedmiotem prezentacji będą wyniki analizy, która pokazała, dla jakich cech można obliczać modele dystrybucyjne typu „embedding” dla języków fleksyjnych. Ponadto przedstawimy propozycję ewaluacji in vivo wektorów dystrybucyjnych w kontekście dwóch podstawowych zadań NLP – dezambiguacji morfoskładniowej oraz parsowania zależnościowego. Nasze eksperymenty ewaluacyjne zostały przeprowadzone na zasobach w języku polskim. Przedstawione badania były inspiracją do stworzenia dezambiguatora morfoskładniowego – Toygger, który wygrał Zadanie 1 (A) w konkursie PolEval 2017 i który również zostanie przedstawiony podczas wystąpienia.

6 listopada 2017

Szymon Łęski (Samsung R&D Polska)

https://www.youtube.com/watch?v=266ftzwmKeU Głębokie sieci neuronowe w modelach języka  Wystąpienie w języku polskim. Slajdy w jęz. angielskim.

W czasie wykładu przedstawię wprowadzenie do modeli językowych: tradycyjnych, opartych na n-gramach, oraz nowych, opartych na sieciach rekurencyjnych. Następnie, na podstawie artykułów z ostatnich lat, omówię najciekawsze pomysły rozszerzeń i modyfikacji sieciowych modeli językowych, takie jak modyfikacje reprezentacji słów czy modele z wyjściem nie ograniczonym do z góry ustalonego słownika.

20 listopada 2017

Michał Ptaszyński (Kitami Institute of Technology, Japonia)

https://www.youtube.com/watch?v=hUtI5lCyUew Analiza emocji w kontekście jako jeden ze sposobów na osiągnięcie Roztropności Komputerowej  Wystąpienie w języku polskim.

Badania nad emocjami w dziedzinie Sztucznej Inteligencji i dziedzinach pokrewnych nabrały w ostatnich latach prędkości. Niestety, w większości badań emocje są analizowane bez otaczającego ich kontekstu. W wykładzie spróbuję przekonać słuchaczy, iż rozpoznawanie emocji bez analizowania ich kontekstu jest niekompletne i nie może być wystarczające do praktycznych zastosowań w świecie rzeczywistym. Opiszę także niektóre konsekwencje nieuwzględnienia kontekstu emocji. Na koniec przedstawię jedno podejście, w którym podjęliśmy się analizy emocji w ich kontekście i krótko opiszę pierwsze eksperymenty przeprowadzone w tym kierunku.

27 listopada 2017 (prezentacja na seminarium IPI PAN)

Maciej Ogrodniczuk (Instytut Podstaw Informatyki PAN)

Automatyczne wykrywanie koreferencji nominalnej w języku polskim  Wystąpienie w języku polskim.

Tematem wykładu będzie propozycja opisu nominalnych zależności koreferencyjnych w polszczyźnie (czyli zbiorów konstrukcji tekstowych posiadających wspólną referencję) oraz prace nad implementacją metod do ich wykrywania. Przedstawię wykorzystane do tego celu podejście korpusowe z ręczną anotacją konstrukcji koreferencyjnych oraz proces tworzenia narzędzi lingwistyczno-informatycznych wraz z oceną ich jakości za pomocą standardowych metod ewaluacyjnych.

4 grudnia 2017

Adam Dobaczewski, Piotr Sobotka, Sebastian Żurowski (Uniwersytet Mikołaja Kopernika w Toruniu)

https://www.youtube.com/watch?v=az06czLflMw Słownik reduplikacji i powtórzeń polskich  Wystąpienie w języku polskim.

W naszym wystąpieniu przedstawimy słownik przygotowany przez zespół z Instytutu Języka Polskiego UMK w Toruniu (grant NPRH 11H 13 0265 82). W słowniku rejestrujemy wyrażenia języka polskiego, w których zaobserwować można obecność mechanizmu reduplikacji lub powtórzenia form tych samych leksemów. Jednostki języka wyróżniamy zgodnie z założeniami gramatyki operacyjnej A. Bogusławskiego i dzielimy je na dwie podstawowe grupy: (i) jednostki leksykalne składające się z dwóch takich samych segmentów lub form tego samego leksemu (typu całkiem całkiem; fakt faktem, że _); (ii) jednostki operacyjne bazujące na jakimś schemacie powtórzenia słów należących do pewnej przewidzianej przez ten schemat klasy (typu N[nom] N[inst], ale _, gdzie N to dowolny rzeczownik, np. sąd sądem, ale _; miłość miłością, ale _). Ze względu na stosunkowo niewielką liczbę zarejestrowanych jednostek przygotowaliśmy słownik w postaci tradycyjnej (drukowanej). Jego podstawą materiałową są zasoby NKJP, które przeszukiwane były za pomocą wyszukiwarki powtórzeń w korpusie NKJP. Narzędzie to zostało specjalnie przygotowane na potrzeby tego projektu w ZIL IPI PAN.

29 stycznia 2018

Roman Grundkiewicz (Uniwersytet Adama Mickiewicza/Uniwersytet Edynburski)

https://www.youtube.com/watch?v=dj9rTwzDCdA Automatyczna poprawa błędów językowych za pomocą tłumaczenia maszynowego  Wystąpienie w języku polskim.

Podczas wystąpienia opowiem o zadaniu automatycznej poprawy błędów językowych w tekstach pisanych przez osoby uczące się języka angielskiego jako języka obcego. Przedstawię wyniki badań nad zastosowaniem statystycznego tłumaczenia maszynowego opartego na frazach, które w sposób znaczący poszerzyły aktualny stan wiedzy w dziedzinie. Omówię jak istotna jest właściwa optymalizacja modelu na podstawie przyjętej automatycznej miary ewaluacji oraz zastosowanie odpowiednich cech gęstych i rzadkich. Zwięźle opiszę również dalsze badania z wykorzystaniem neuronowego tłumaczenia maszynowego.

12 lutego 2018

Agnieszka Mykowiecka, Aleksander Wawer, Małgorzata Marciniak, Piotr Rychlik (Instytut Podstaw Informatyki PAN)

https://www.youtube.com/watch?v=9QPldbRyIzU Wykorzystanie semantyki dystrybucyjnej do oceny metaforyczności polskich fraz rzeczownikowych  Wystąpienie w języku polskim.

Na seminarium omówimy wektorowe modele języka skonstruowane dla polskiego w oparciu o lematy i formy słów oraz ich wykorzystanie w typowych zastosowaniach rozpoznawania synonimii i analogii między zadanymi parami słów. Następnie przedstawimy wykorzystanie wektorowych modeli do rozpoznawania metaforycznego i literalnego znaczenia fraz typu przymiotnik-rzeczownik (AN). Przedstawimy implementację oceniającą frazy izolowane oraz porównamy ją do metod opisanych w literaturze. Na koniec przedstawimy stan prac dotyczących rozpoznawania metaforycznego lub literalnego znaczenia frazy AN w kontekście zdaniowym.

26 lutego 2018

Celina Heliasz (Uniwersytet Warszawski)

Tworzyć czy współtworzyć? O poszukiwaniu synergii między informatykami a lingwistami  Wystąpienie w języku polskim.

Główny temat mojego referatu stanowią metody prowadzenia badań z zakresu lingwistyki korpusowej, którą zajmują się obecnie zarówno informatycy, jak i lingwiści. W referacie zaprezentuję próby ustalania i wizualizowania relacji semantycznych w tekście, podejmowane przez informatyków w ramach projektów RST (Rhetorical Structure Theory) i PDTB (Penn Discourse Treebank), które następnie skontrastuję z analogicznymi próbami podjętymi przez informatyków i lingwistów w IPI PAN w ramach przedsięwzięcia CLARIN-PL. Celem referatu będzie przedstawienie uwarunkowań efektywnej analizy lingwistycznej, które muszą zostać wzięte pod uwagę przy projektowaniu narzędzi informatycznych, jeśli narzędzia te mają służyć prowadzeniu badań nad tekstem i wyprowadzaniu z nich mocnych podstaw teorii lingwistycznych, a nie tylko wdrażaniu gotowych teorii z tego zakresu.

9 kwietnia 2018

Jan Kocoń (Politechnika Wrocławska)

https://www.youtube.com/watch?v=XgSyuWEHWhU Rozpoznawanie wyrażeń temporalnych i opisów sytuacji w dokumentach tekstowych dla języka polskiego  Wystąpienie w języku polskim.

Wyrażeniem temporalnym nazywamy ciąg wyrazów, który informuje o tym, kiedy, jak często sytuacja ma miejsce lub jak długo trwa. Opisy sytuacji to wyrażenia językowe, które sygnalizują zmianę stanu w opisie rzeczywistości oraz niektóre stany. Zagadnienia te wchodzą w zakres wydobywania informacji z tekstu (ang. Information Extraction). Są one dobrze zdefiniowane i opisane dla języka angielskiego oraz częściowo dla innych języków. Specyfikacja TimeML, której język opisu informacji temporalnej został zaakceptowany jako standard ISO, doczekała się oficjalnych adaptacji dla sześciu języków, a część dotycząca opisu wyrażeń temporalnych jest zdefiniowana dla jedenastu języków. Rezultatem prac, prowadzonych w ramach CLARIN-PL, jest adaptacja wytycznych TimeML dla języka polskiego. Motywacją do realizacji tego tematu był fakt, że z informacji temporalnej korzystają różne metody inżynierii języka naturalnego, w tym metody do odpowiadania na pytania zadawane w języku naturalnym, automatycznego streszczania tekstu, wydobywania relacji semantycznych i wiele innych. Metody te umożliwiają badaczom z dziedziny nauk humanistycznych i społecznych pracę z bardzo dużymi zbiorami tekstów, których analiza bez wykorzystania wymienionych metod byłaby bardzo czasochłonna, o ile w ogóle możliwa. Oprócz samej adaptacji języka opisu informacji temporalnej, kluczowym aspektem dla infrastruktury wykorzystującej metody do rozpoznawania wyrażeń temporalnych i opisów sytuacji, jest jakość oraz wydajność metod. Na prezentacji zostanie omówiona zarówno analiza jakości danych przygotowywanych przez ekspertów dziedzinowych (w tym analiza zgodności anotacji), jak i wyniki badań mających na celu redukcję złożoności obliczeniowej problemu przy jednoczesnym zachowaniu niepogorszonej jakości działania metod.

23 kwietnia 2018

Włodzimierz Gruszczyński, Dorota Adamiec, Renata Bronikowska (Instytut Języka Polskiego PAN), Witold Kieraś, Dorota Komosińska, Marcin Woliński (Instytut Podstaw Informatyki PAN)

https://www.youtube.com/watch?v=APvZdALq6ZU Korpus historyczny – problemy transliteracji, transkrypcji i anotacji na przykładzie Elektronicznego Korpusu Tekstów Polskich z XVII i XVIII w. (do 1772 r.)  Wystąpienie w języku polskim.

W czasie seminarium omówiony zostanie proces powstawania Elektronicznego Korpusu Tekstów Polskich z XVII i XVIII w. (KorBa, czyli Korpus Barokowy) ze szczególnym uwzględnieniem tych zadań i problemów, które nie występują w trakcie tworzenia korpusu współczesnych polskich tekstów (np. NKJP) lub różnią się w istotny sposób od analogicznych zadań i problemów występujących przy tworzeniu korpusów tekstów współczesnych. Poszczególne problemy omówione zostaną w kolejności ich pojawiania się w trakcie tworzenia korpusu. Przedstawimy także narzędzia, które powstały w trakcie realizacji projektu (stworzone na potrzeby projektu lub dostosowane do tych potrzeb). Po ogólnej prezentacji projektu KorBa (założenia, finansowanie, zespół, stan obecny, przeznaczenie korpusu) omówione zostaną kwestie zasady doboru tekstów, problemy występujące przy pozyskiwaniu tekstów i włączaniu ich do bazy danych, problem ogromnego zróżnicowania ortograficznego tekstów i konieczność ich transkrypcji na współczesną ortografię, problemy analizy morfologicznej oraz narzędzia do ręcznego i automatycznego znakowania morfosyntaktycznego podkorpusu oraz przeszukiwania korpusu.

14 maja 2018

Łukasz Kobyliński, Michał Wasiluk i Zbigniew Gawłowicz (Instytut Podstaw Informatyki PAN)

https://www.youtube.com/watch?v=QpmLVzqQfcM MTAS: nowa wyszukiwarka korpusowa. Doświadczenia wdrożeniowe w kontekście polskich korpusów językowych  Wystąpienie w języku polskim.

Podczas seminarium omówimy nasze doświadczenia w kontekście języka polskiego z oprogramowaniem MTAS, które jest silnikiem przeszukiwania korpusów tekstowych. Przedstawimy dotychczasowe wdrożenia oprogramowania MTAS w takich projektach związanych z korpusami tekstowymi jak KORBA (korpus języka polskiego XVII i XVIII wieku), korpus XIX wieku, a także w przypadku Narodowego Korpusu Języka Polskiego. Omówimy również wstępne eksperymenty dotyczące wykorzystania oprogramowania MTAS w Korpusomacie – narzędziu do tworzenia własnych korpusów tekstowych. W trakcie prezentacji przedstawimy rozwiązania problemów, na które napotkaliśmy adaptując MTAS do wykorzystania w kontekście języka polskiego oraz wstępne wyniki testów wydajnościowych. Przedyskutujemy również możliwości wyszukiwania za pomocą tego silnika oraz plany dalszej adaptacji i rozwoju.

21 maja 2018 (prezentacja na seminarium IPI PAN)

Piotr Borkowski (Instytut Podstaw Informatyki PAN)

https://www.youtube.com/watch?v=o2FFtfrqh3I Metody semantycznej kategoryzacji w zadaniach analizy dokumentów tekstowych  Wystąpienie w języku polskim.

W przygotowywanej pracy doktorskiej zatytułowanej „Metody semantycznej kategoryzacji w zadaniach analizy dokumentów tekstowych” zaproponowano oraz zbadano nowy algorytm semantycznej kategoryzacji dokumentów. Na jego podstawie opracowano nowy algorytm agregacji kategorii, rodzinę algorytmów semantycznych klasyfikatorów, a także heterogeniczny komitet klasyfikatorów (łączący algorytm semantycznej kategoryzacji i znanych dotąd klasyfikatorów). W ramach referatu przedstawię pokrótce ich koncepcję oraz wyniki badań ich skuteczności.

28 maja 2018

Krzysztof Wołk (Polsko-Japońska Akademia Technik Komputerowych)

https://www.youtube.com/watch?v=FyeVRSXbBOg Eksploracja i wykorzystanie korpusów porównywalnych w tłumaczeniu maszynowym  Wystąpienie w języku polskim.

Problemem, który zostanie przedstawiony na seminarium, jest poprawa tłumaczenia maszynowego mowy z języka polskiego na angielski. Najpopularniejsze metodologie i narzędzia tłumaczenia nie są dobrze dostosowane do języka polskiego, a zatem wymagają adaptacji. Brakuje w zasobów językowych zarówno monolingwalnych jak i bilingwalnych dla języka polskiego. Dlatego głównym celem badania było opracowanie automatycznego zestawu narzędzi do przygotowywania zasobów tekstowych poprzez wydobywanie informacji z korpusów porównywalnych oraz prawie porównywalnych. Eksperymenty przeprowadzono głównie na swobodnej ludzkiej mowie, składającej się z wykładów, napisów do filmów, prac Parlamentu Europejskiego i tekstów Europejskiej Agencji Leków. Celem była rygorystyczna analiza problemów i poprawa jakości systemów bazowych, tj. dostosowanie technik i parametrów treningowych w celu zwiększenia wyniku Bilingual Evaluation Understudy (BLEU) w celu uzyskania maksymalnej wydajności. Kolejnym celem było stworzenie dodatkowych dwujęzycznych i jednojęzycznych zasobów tekstowych poprzez wykorzystanie dostępnych danych online oraz uzyskanie i wydobycie porównywalnych korpusów dla równoległych par zdań. Do tego zadania wykorzystano metodologię wykorzystującą maszynę wektorów pomocniczych i algorytm Needlemana-Wunscha wraz z łańcuchem specjalistycznych narzędzi.

4 czerwca 2018

Piotr Przybyła (University of Manchester)

https://www.youtube.com/watch?v=thHOtqsfsys Wspomaganie przesiewania dokumentów w przeglądach systematycznych z użyciem uczenia maszynowego i eksploracji tekstu  Wystąpienie w języku polskim.

Przeglądy systematyczne, mające na celu zbiorczą analizę całej dostępnej literatury dotyczącej danego zagadnienia, są podstawowym narzędziem w badaniach medycznych. Ich najbardziej pracochłonny etap stanowi ręczne przesiewanie streszczeń tysięcy artykułów zwróconych przez wyszukiwarki w celu wskazania kilkudziesięciu rzeczywiście dotyczących wybranego tematu. Problem ten można przedstawić jako zadanie klasyfikacji dokumentów, i, przy wsparciu nienadzorowanych technik eksploracji tekstu, uzyskać znaczące przyspieszenie całego procesu. Prezentacja obejmie dostosowanie algorytmów uczenia maszynowego do specyfiki zadania, techniki wyszukiwania, wydobywania i wizualizacji tematów i pojęć w kolekcjach, wdrożenie systemu i ewaluację w NICE (National Institute for Health and Care Excellence), agencji opracowującej wytyczne dla służby zdrowia w Wielkiej Brytanii.

11 czerwca 2018

Danijel Korzinek (Polsko-Japońska Akademia Technik Komputerowych)

https://www.youtube.com/watch?v=mc8T5rXlk1I Proces przygotowania korpusu mowy na podstawie nagrań Polskiej Kroniki Filmowej  Wystąpienie w języku polskim. Slajdy w jęz. angielskim.

Na prezentacji zostanie omówiony proces tworzenia korpusu mowy oparty o nagrania z Polskiej Kroniki Filmowej, jaki stworzono w ramach projektu CLARIN-PL. Zasób ten jest niezwykle cenny ze względu na jego przydatność w badaniach lingwistycznych, szczególnie w kontekście mowy i języka historycznego. Za cel wybrano sobie okres w latach 1945–1960. W prezentacji zostaną omówione różne zagadnienia: od kwestii prawnych dotyczących uzyskania samych zasobów, do szczegółów technicznych dotyczących dostosowania narzędzi analizy mowy do tej nietypowej dziedziny.



Seminarium „Przetwarzanie języka naturalnego” 2016–17

10 października 2016

Katarzyna Pakulska (Samsung), Barbara Rychalska (Samsung podczas realizacji zadania), Krystyna Chodorowska (Samsung podczas realizacji zadania, ICM obecnie), Wojciech Walczak (Samsung), Piotr Andruszkiewicz (Samsung)

Detektor Parafraz – polskie rozwiązanie, które wygrało SemEval 2016  Wystąpienie w języku polskim. Slajdy w języku angielskim.

Celem seminarium jest przedstawienie systemu opracowanego w celu wykrywania semantycznego podobieństwa tekstu w języku angielskim. Przedstawiane rozwiązanie osiągnęło najwyższe wyniki w swoim zadaniu podczas konkursu SemEval 2016. Celem zadania było zmierzenie podobieństwa semantycznego między dwoma zdaniami w skali 0-5 w sposób zbliżony do oceny ludzkiej. Prezentowana metoda jest nowatorskim połączeniem rekursywnych auto-enkoderów używanych do trenowania sieci głębokich (RAE) oraz systemu kar i nagród opartego o bibliotekę WordNet. W celu osiagnięcia lepszych wyników rozszerzono model rozwiązania o zestaw klasyfikatorów obejmujący wiodące rozwiązania w swojej klasie oraz wiele innych cech używanych jako wejścia do regresji liniowej dla metody wektorów nośnych.

24 października 2016

Adam Przepiórkowski, Jakub Kozakoszczak, Jan Winkowski, Daniel Ziembicki, Tadeusz Teleżyński (Instytut Podstaw Informatyki PAN, Uniwersytet Warszawski)

Korpus sformalizowanych kroków wynikania tekstowego  Wystąpienie w języku polskim.

Seminarium przedstawia stworzone w ramach CLARIN zasoby mające umożliwić jakościową ewaluację systemów RTE: dwa korpusy derywacji tekstowych i korpus reguł wynikania tekstowego. Derywacja tekstowa to ciąg atomowych kroków, które prowadzą od Tekstu do Hipotezy w parze wynikania tekstowego. Oryginalne pary pochodzą z korpusu FraCaS i polskiego tłumaczenia korpusu RTE3. Reguła wynikania tekstowego sankcjonuje relację wynikania między wejściem a wyjściem atomowego kroku za pomocą wzorców składniowych wyrażonych w standardzie UD i dodatkowych ograniczeń semantycznych, logicznych i kontekstualnych wyrażonych w FOL.

7 listopada 2016

Rafał Jaworski (Uniwersytet Adama Mickiewicza w Poznaniu)

Concordia – algorytm przeszukiwania pamięci tłumaczeń  Wystąpienie w języku polskim.

Celem seminarium jest przedstawienie algorytmu Concordia służącego do zmaksymalizowania wydajności pracy tłumacza ludzkiego. Algorytm łączy w sobie zalety klasycznego przeszukiwania pamięci tłumaczeń z funkcją wyszukiwania konkordancji. Ponieważ kluczowym wymaganiem stawianym przed mechanizmami wspomagania tłumaczenia jest szybkość działania, Concordia stosuje usprawnienia standardowych technik wyszukiwania przybliżonego pod kątem obniżenia złożoności obliczeniowej.

21 listopada 2016

Norbert Ryciak, Aleksander Wawer (Instytut Podstaw Informatyki PAN)

https://www.youtube.com/watch?v=hGKzZxFa0ik Rekurencyjne obliczanie semantyki fraz na podstawie informacji składniowej z użyciem głębokiego uczenia  Wystąpienie w języku polskim.

Seminarium prezentuje wstępne eksperymenty nad rekurencyjnym obliczaniem wydźwięku fraz z wykorzystaniem zależnościowych informacji składniowych i metod głębokiego uczenia maszynowego. Omówione zostaną implementacje sieci neuronowych powstałe w ramach Clarin 2. Prezentowane będą dane i wyniki uzyskane na zdaniach w języku angielskim. Na seminarium omówimy także powstające zasoby w języku polskim.

5 grudnia 2017

Dominika Rogozińska, Marcin Woliński (Instytut Podstaw Informatyki PAN)

Automatyczne metody ujednoznaczniania drzew rozbioru wypowiedzeń w języku polskim jako ostatnia faza przetwarzania parsera Świgra  Wystąpienie w języku polskim.

Referat przedstawia metody konstrukcji algorytmu ujednoznaczniania wyników parsowania wypowiedzeń w języku polskim dla parsera Świgra. Są to metody oparte na probabilistycznych gramatykach bezkontekstowych oraz modelu maksymalizacji entropii. Dyskutujemy różnice w składni języków angielskiego i polskiego oraz ich wpływ na właściwości wykorzystanych modeli probablistycznych. Przedstawiamy także wersję demonstracyjną modułu ujednoznaczniającego wykorzystującą model osiągający skuteczność na poziomie 96.2%.

9 stycznia 2017

Agnieszka Pluwak (Instytut Slawistyki PAN)

Budowa dziedzinowej reprezentacji wiedzy z pomocą rozszerzonej metody ramowej na podstawie korpusu umów najmu w języku polskim, angielskim i niemieckim  Wystąpienie w języku polskim.

Projekt FrameNet przez jego autorów określany jest jako baza leksykalna o charakterze ontologii (nie jest on ontologią sensu stricto ze względu na wybiorczy opis pojęć oraz relacji między ramami). Ontologie jako reprezentacje wiedzy w NLP powinny mieć zastosowanie do konkretnych dziedzin i tekstów, ale w literaturze przedmiotu do stycznia 2016 nie znalazłam przykładu reprezentacji wiedzy opartej w całości na ramach lub na rozbudowanej strukturze relacji między ramami. Znalazłam jedynie kilka przykładów dziedzinowych reprezentacji wiedzy z użyciem wybranych ram FrameNet (BioFrameNet, Legal FrameNet, etc.), w których wykorzystano je do łączenia danych z rożnych zasobów. Postanowiłam w mojej pracy doktorskiej przeprowadzić eksperyment budowy dziedzinowej reprezentacji wiedzy opartej na relacjach między ramami, określonymi na podstawie analizy tekstów umów najmu. Celem badania był opis ram użytecznych z punktu widzenia potencjalnej ekstrakcji danych z umów najmu, czyli zawierających odpowiedzi na pytania, jakie zadaje sobie profesjonalny analityk czytając tekst umowy. W pracy postawiłam różne pytania, m.in. czy będę mogła wykorzystać gotowe ramy FrameNet, czy też będę musiała zbudować własne? Czy język polski wniesie specyficzne problemy? Jak język specjalistyczny wpłynie na użycie ram? I wiele innych.

23 stycznia 2017

Marek Rogalski (Politechnika Łódzka)

Automatyczne parafrazowanie  Wystąpienie w języku polskim.

Parafrazowanie, czyli przedstawianie zasadniczego sensu pewnej wiadomości innymi słowami, stanowi wyznacznik zrozumienia tejże wiadomości. Kiedy nauczyciel pyta ucznia „a teraz, Jasiu, powiedz własnymi słowami...”, sprawdza na ile uczeń rozumie temat. Na prezentacji omówimy zagadnienie automatycznego parafrazowania. Wyodrębnimy zagadnienia składniowych i znaczeniowych parafraz. Omówimy zestaw technik, z pozornie odległych dziedzin, które mogą znaleźć zastosowanie w systemach automatycznego parafrazowania. Przedstawimy także rezultaty, które udało się nam uzyskać z ich pomocą.

6 lutego 2017

Łukasz Kobyliński (Instytut Podstaw Informatyki PAN)

https://www.youtube.com/watch?v=TP9pmPKla1k Korpusomat – narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego  Wystąpienie w języku polskim.

Korpusomat to internetowe narzędzie ułatwiające użytkownikowi samodzielne tworzenie korpusów do badań językoznawczych. Narzędzie umożliwia przesłanie zestawu plików tekstowych wraz z metadanymi, a następnie zlecenie ich automatycznej analizy morfologicznej i lematyzacji analizatorem Morfeusz oraz ujednoznacznienie wyników tagerem Concraft. Powstały korpus można następnie pobrać i badać na własnym komputerze, używając wyszukiwarki korpusowej Poliqarp do wykonywania zapytań dotyczących segmentacji tekstu, form podstawowych, znaczników fleksyjnych, wieloznaczności i dezambiguacji. Poliqarp pozwala także na zliczanie frekwencji określonych wyrazów oraz stosowanie podstawowych miar statystycznych niezbędnych w badaniach kwantytatywnych. Korpusomat – obok przetwarzania czystego tekstu – obsługuje również binarne formaty wejściowe, w tym popularny format plików ebooków i prasy elektronicznej – ePUB. Umożliwia również pobieranie tekstów źródłowych ze stron internetowych, automatycznie usuwając elementy nawigacyjne i pozostawiając do analizy jedynie treść główną dokumentu.

20 lutego 2017 (gościnny występ na seminarium IPI PAN)

Elżbieta Hajnicz (Instytut Podstaw Informatyki PAN)

https://youtu.be/lDKQ9jhIays Język reprezentacji słownika walencyjnego Walenty  Wystąpienie w języku polskim.

Słownik walencyjny języka polskiego Walenty przeznaczony jest do wykorzystania przez narzędzia przetwarzania języka naturalnego, przede wszystkim parsery, i dlatego posiada w pełni sformalizowaną reprezentację informacji walencyjnej. W trakcie seminarium zostanie omówione pojęcie walencji oraz język reprezentacji walencji w słowniku wraz z przykładami ilustrującymi, jakie zjawiska językowe są w dany sposób zapisywane. Główny temat stanowi poziom składniowy słownika, lecz w miarę możliwości zaprezentowany zostanie także jego poziom semantyczny.

2 marca 2017

Wojciech Jaworski (Uniwersytet Warszawski)

https://youtu.be/VgCsXsicoR8 Integracja parsera zależnościowego z parserem kategorialnym  Wystąpienie w języku polskim.

W ramach referatu opowiem o podziale na zdania i sterowaniu uruchamianiem poszczególnych parserów w ramach parsera hybrydowego powstającego w ramach projektu Clarin-bis. Opiszę przyjętą metodę konwersji struktur zależnościowych mającą uczynić je zgodnymi ze strukturami parsera kategorialnego. Konwersja będzie miała dwa aspekty: zmianę atrybutów poszczególnych węzłów oraz zmianę powiązań pomiędzy węzłami. Nakreślę w jaki sposób zastosowaną metodę można rozszerzyć tak, by konwertować skompresowane lasy generowane przez parser Świgra. Na koniec opowiem o planach i celu reimplementacji algorytmu MateParser.

13 marca 2017

Marek Kozłowski, Szymon Roziewski (Ośrodek Przetwarzania Informacji)

https://youtu.be/3mtjJfI3HkU Internetowe modele języka polskiego oraz semantyczne przetwarzanie tekstów  Wystąpienie w języku polskim.

W marcu 2016 zostaliśmy zaproszeni do Luksemburga na warsztaty pokazujące, jak wykorzystywany jest w Polsce system BabelNet – wielojęzykowa encyklopedia i sieć semantyczna zbudowana na podstawie danych dostępnych w Internecie (np. Wikipedia, WordNet). W ramach warsztatów wygłosiliśmy 3 referaty nt. różnych prac: grupowania krótkich tekstów ze wsparciem informacji semantycznej z BabelNetu, modelowania oceny sentymentu postaci historycznych, profilowania emocjonalnego filmów na podstawie napisów. Wyniki tych prac oraz możliwości BabelNetu prezentowaliśmy również w ramach otwartych spotkań firmy Allegro, tzw. AllegroMeetups. Przeprowadziliśmy też prace polegające na zbieraniu danych o polskich stronach internetowych z archiwum CommonCrawl – ogólnodostępnego otwartego repozytorium zebranych z całego świata stron internetowych, zawierające dane w ponad 40 językach, z okresu ponad 7 lat, o objętości idącej w petabajty (tysiące terabajtów). Naszym celem było opracowanie automatycznych narzędzi do rozproszonego przetwarzania olbrzymiego zbioru stron internetowych w celu wydobycia z nich polskich tekstów i zbudowania na ich podstawie modeli języka: modelu n-gramowego i dystrybucji semantycznej. Tak zbudowane modele pozwalają na usprawnienie metod przetwarzania tekstów (np. tokenizacji, ważenia istotności słów) oraz całej palety metod eksploracji (np. analizy sentymentu, klasyfikacji, grupowania tekstów) internetu.

20 marca 2017

Jakub Szymanik (University of Amsterdam)

https://www.youtube.com/watch?v=OzftWhtGoAU Relacja pomiędzy złożonością semantyczną a częstością występowania kwantyfikatorów w tekstach  Wystąpienie w języku polskim. Slajdy w języku angielskim.

W artykule napisanym wspólnie z Camilo Thorne, który zaprezentuję na seminarium, zadajemy pytanie czy złożoność semantyczna wpływa na częstotliwość występowania kwantyfikatorów uogólnionych w korpusie języka angielskiego opracowanym na podstawie Wikipedii. Za miarę złożoności semantycznej przyjmujemy minimalne urządzenie obliczeniowe, które rozpoznaje dany kwantyfikator. W ten sposób otrzymujemy trzy klasy wyrażeń kwantyfikatorowych o rosnącej złożoności: kwantyfikatory arystotelesowskie (rozpoznawalne przy acykliczne automaty skończone z dwoma stanami), kwantyfikatory numeryczne (rozpoznawane przez automaty skończone) i kwantyfikatory proporcjonalne (automaty ze stosem). Używając metod analizy regresji pokazujemy że złożoność semantyczna istotnie tłumaczy 27,29% wariancji w częstotliwości występowania kwantyfikatorów. Następnie porównujemy wpływ złożoności semantycznej do innych znanych źródeł złożoności językowej, zarazem semantycznych (np. monotoniczność) jak i bardziej powierzchownych (np. długość wyrażeń). Podsumowując, nasze obserwacje wskazują, iż semantycznie bardziej złożone kwantyfikatory występują w języku naturalnym rzadziej.

27 marca 2017 (wystąpienie połączone z seminarium instytutowym)

Paweł Morawiecki (Instytut Podstaw Informatyki PAN)

https://www.youtube.com/watch?v=onaYI6XY1S4 Wprowadzenie do głębokich sieci neuronowych  Wystąpienie w języku polskim.

Głębokie sieci neuronowe (DNN) w ostatnich kilku latach stały się narzędziem, które dla wielu problemów w przetwarzaniu obrazu i dźwięku dają najlepsze rozwiązania. Również w przetwarzaniu języka naturalnego można mówić o rewolucji i zupełnie nowych podejściach do problemów takich jak tłumaczenie czy reprezentacja słów. Prezentacja ta ma posłużyć wyrobieniu sobie dobrych intuicji związanych z DNN i funkcjonowaniem podstawowych architektur tych sieci. Omówię i zasugeruję również narzędzia i materiały źródłowe, które mogą pomóc w dalszym zgłębianiu tego zagadnienia i samodzielnych eksperymentach.

3 kwietnia 2017

Katarzyna Budzynska, Chris Reed (Instytut Filozofii i Socjologii PAN, University of Dundee)

Korpusy argumentacji oraz automatyczne wydobywanie i analiza argumentacji (część I)  Wystąpienie w języku angielskim.

Argumentacja, najistotniejsza forma komunikacji, przyciągała uwagę od samych początków naukowej refleksji. Centre for Argument Technology rozwija infrastrukturę dla badania struktur argumentacyjnych przez prawie dwie ostatnie dekady. Nasze podejście charakteryzuje się kilkoma istotnymi cechami. Po pierwsze, bazujemy na opartym na grafach standardzie reprezentacji argumentów, Argument Interchange Format AIF (Rahwan et al., 2007); oraz teorii zakotwiczania inferencji (Inference Anchoring Theory IAT; Budzynska & Reed, 2011), która pozwala nam ujmować dialogowy kontekst argumentacji. Po drugie, koncentrujemy się na różnorodnych aspektach struktur argumentacyjnych takich jak schematy argumentacji (Lawrence & Reed, 2016); illokucyjne intencje mówców związane z argumentacją (Budzynska et al., 2014a); etos autorów argumentów (Duthie et al., 2016); relacja refrazy, która parafrazuje fragmenty struktur argumentacyjnych (Konat et al., 2016); oraz protokoły argumentacyjnych gier dialogowych (Yaskorska & Budzynska, w przygotowaniu).

10 kwietnia 2017

Paweł Morawiecki (Instytut Podstaw Informatyki PAN)

https://www.youtube.com/watch?v=6H9oUYsfaw8 Sieci neuronowe do przetwarzania języka naturalnego – wybrane architektury i problemy  Wystąpienie w języku polskim.

W ostatnich kilku latach coraz więcej problemów z dziedziny przetwarzania języka naturalnego rozwiązywanych jest przy pomocy sieci neuronowych, w szczególności przy pomocy głębokich architektur. Wśród tych problemów znajdziemy klasyfikacje tematyczne tekstów, reprezentacje słów, etykietowanie zdjęć czy problem koreferencji. W prezentacji przedstawione będą najbardziej obiecujące architektury takie jak rekurencyjne i konwolucyjne sieci. Zagadnienia będą omawiane w kontekście konkretnego problemu – koreferencji dla języka polskiego.

15 maja 2017

Katarzyna Budzynska, Chris Reed (Instytut Filozofii i Socjologii PAN, University of Dundee)

Korpusy argumentacji oraz automatyczne wydobywanie i analiza argumentacji (część II)  Wystąpienie w języku angielskim.

W drugiej części wystąpienia opiszemy cechy struktur argumentacyjnych na przekładach zaczerpniętych z naszych korpusów AIF, które zawierają zaanotowane struktury argumentacyjne w wielorakich dziedzinach i gatunkach dyskursu (p. także narzędzie anotacyjne), w tym moralną debatę radiową (Budzynska et al., 2014b); transkrypty z debat parlamentarnych w Wielkiej Brytanii (Duthie et al., 2016); e-partycypacja (Konat et al., 2016; Lawrence et al., w druku); oraz prezydenckie debaty w Stanach Zjednoczonych w 2016 roku (Visser et al., w przygotowaniu). Pokażemy także, w jaki sposób te złożone struktury argumentacyjne, które z jednej strony sprawiają, że proces anotacji staje się czasochłonny i mniej miarodajny, mogą z drugiej strony prowadzić do automatycznego wydobywania różnorodnych wartościowych informacji przy użyciu technologii argument mining (Budzynska & Villata, 2017; Lawrence & Reed, w przygotowaniu) oraz argument analytics (Reed et al., w przygotowaniu).

12 czerwca 2017 (wystąpienie połączone z seminarium instytutowym)

Adam Pawłowski (Uniwersytet Wrocławski)

https://www.youtube.com/watch?v=RNIThH3b4uQ Struktury sekwencyjne w tekście  Wystąpienie w języku polskim.

Przedmiotem wykładu będzie zjawisko sekwencyjności w nauce o języku. Sekwencyjność jest tutaj definiowana jako cecha tekstu lub zbioru tekstów, wyrażająca relację następstwa dowolnych jednostek tego samego typu, uporządkowanych w linii tekstu, na osi czasu lub wg innej zmiennej (np. kolejności lektury czy publikowania). Do modelowania tak rozumianej sekwencyjności można wykorzystać m.in. szeregi czasowe, analizę spektralną, teorię szeregów stochastycznych, teorię informacji lub narzędzia akustyki. Podczas referatu przedstawię na podstawie badań własnych oraz literatury przedmiotu struktury sekwencyjne i ich wybrane modele w tekstach ciągłych; modele stosowane w odniesieniu do sekwencji wielu tekstów (znane jako chronologie dzieł); wspomnę o glottochronologii, czyli dziale lingwistyki kwantytatywnej, który stawia sobie za cel matematyczne modelowanie rozwoju języka w długich odcinkach czasu. Odniosę się wreszcie do filozoficznych prób wyjaśniania sekwencyjności (pojęcie „pamięci” tekstu, łańcuch przyczynowo skutkowy, pitagoreizm, platonizm).



Seminarium „Przetwarzanie języka naturalnego” 2015–16

12 października 2015

Vincent Ng (Uniwersytet Teksasu w Dallas)

Koreferencja w OntoNotes – i co dalej?  Wystąpienie w języku angielskim.

Znaczący postęp w dziedzinie wykrywania koreferencji dokonał się w ostatnim czasie m.in. dzięki dostępności ręcznie anotowanych korpusów MUC, ACE i OntoNotes. Koreferencja jest jednak zjawiskiem trudniejszym niż uwzględniają to obecne modele anotacyjne. W trakcie wystąpienia autor zaprezentował jej stosunkowo mniej zbadane aspekty, stanowiące wyzwanie nie mniej ambitne niż wykrywanie koreferencji obiektowej: zadaniu Winograd Schema Challenge, identyfikacji anafory zerowej i koreferencji zdarzeniowej.

26 października 2015

Wojciech Jaworski (Uniwersytet Warszawski)

Parser składniowo semantyczny dla języka polskiego  Wystąpienie w języku polskim.

Autor zaprezentował powstający w ramach projektu CLARIN-PL parser składniowo-semantyczny, przedstawił, jak działa preprocesing realizowany w oparciu o analizator morfologiczny "Morfeusz", opisał zintegrowaną ze słownikiem walencyjnym „Walenty” gramatykę kategorialną języka polskiego, z której korzysta parser oraz przybliżył formalizm grafów semantycznych służący do reprezentowania znaczenia tekstów. Wspomniał też o algorytmie parsera i strategiach optymalizacyjnych zapewniających jego szybkie działanie i pozwalających w zwarty sposób reprezentować niejednoznaczne rozbiory składniowe i semantyczne.

16 listopada 2015

Izabela Gatkowska (Uniwersytet Jagielloński)

Empiryczna sieć powiązań leksykalnych  Wystąpienie w języku polskim.

Empiryczna sieć powiązań leksykalnych jest wynikiem eksperymentu wykorzystującego ludzki mechanizm skojarzeniowy – badany podaje pierwszy wyraz, jaki przychodzi na myśl po zrozumieniu wyrazu bodźca. Badanie przeprowadzono cyklicznie, tj. wyrazy odpowiedzi uzyskane w cyklu pierwszym zostały użyte jako bodźce w cyklu drugim, co umożliwiło powstanie sieci semantycznej, która różni się od sieci budowanych z korpusów tekstowych, np. WORTSCHATZ oraz sieci budowanych ręcznie, np. WordNet. Uzyskane empirycznie powiązania pomiędzy wyrazami sieci mają kierunek i siłę powiązania. Zbiór powiązań wychodzących i przychodzących, w jakie wchodzi konkretny wyraz tworzy węzeł leksykalny sieci (podsieć). Sposób, w jaki sieć charakteryzuje znaczenia pokażemy na przykładzie powiązań zwrotnych, które są szczególnym przypadkiem zależności pomiędzy dwoma wyrazami występującymi w węźle leksykalnym. Jakościowa analiza powiązań zwrotnych wskazuje, iż znane językoznawstwu semantyczne relacje leksykalne, stosowane np. w słowniku WordNet, pozwalają zinterpretować tylko ok. 25% powiązań zwrotnych. Pozostałe powiązania można zinterpretować odwołując się do modelu opisu znaczenia zaproponowanego dla słownika FrameNet. Interpretacja jakościowa wszystkich powiązań występujących w węźle leksykalnym może pozwolić na badania porównawcze węzłów leksykalnych sieci zbudowanych eksperymentalnie dla różnych języków naturalnych, pozwala także na wyodrębnienie empirycznych modeli semantycznych obsługiwanych przez ten sam zestaw powiązań pomiędzy węzłami w sieci.

30 listopada 2015

Dora Montagna (Universidad Autónoma de Madrid)

Semantyczna reprezentacja hiszpańskiego czasownika polisemicznego  Wystąpienie w języku angielskim.

Autorka zaprezentowała teoretyczny model reprezentacji semantycznej oparty na teorii generatywnego leksykonu Pustejovskiego. Celem propozycji jest stworzenie bazy do automatycznego określania znaczeń i nowego modelu opisu leksykograficznego. Model ten zastosowano do analizy produktywnego czasownika w języku hiszpańskim, zakładając hipotezę niedookreśloności słów, w celu ustalenia wzorców zastosowań semantycznych.

7 grudnia 2015

Łukasz Kobyliński (Instytut Podstaw Informatyki PAN), Witold Kieraś (Uniwersytet Warszawski)

Tagery morfosyntaktyczne języka polskiego – stan obecny i perspektywy na przyszłość  Wystąpienie w języku polskim.

W trakcie prezentacji omówione zostały zaproponowane dotychczas podejścia do automatycznego znakowania morfosyntaktycznego tekstów w języku polskim, z naciskiem na analizę działania narzędzi publicznie dostępnych i możliwych do wykorzystania w praktyce. Przeprowadzona została analiza ilościowa i jakościowa błędów popełnianych przez tagery wraz z dyskusją o możliwych przyczynach i sposobach rozwiązania tych problemów. Wyniki tagowania dla języka polskiego zostały skontrastowane z rezultatami otrzymywanymi dla innych języków europejskich.

8 grudnia 2015

Salvador Pons Bordería (Universitat de València)

Discourse Markers from a pragmatic perspective: The role of discourse units in defining functions  Wystąpienie w języku angielskim.

One of the most disregarded aspects in the description of discourse markers is position. Notions such as "initial position" or "final position" are meaningless unless it can be specified with regard to what a DM is "initial" or "final". This presentation defended the idea that, for this question to be answered, appeal must be made to the notion of "discourse unit". Provided with a set of a) discourse units, and b) discourse positions, determining the function of a given DM is quasi-automatic.

11 stycznia 2016

Małgorzata Marciniak, Agnieszka Mykowiecka, Piotr Rychlik (Instytut Podstaw Informatyki PAN)

Ekstrakcja terminologii z tekstów w języku polskim – program TermoPL  Wystąpienie w języku polskim.

Na seminarium omówione zostały zagadnienia ekstrakcji terminologii z korpusów tekstów w języku polskim oraz przedstawiony program TermoPL, w którym zaimplementowane zostały zaproponowane rozwiązania. W omawianych pracach autorzy zastosowali metodę C-value, która ustala istotność terminów na podstawie ich częstości i liczby kontekstów. Metoda ta uwzględnia terminy zagnieżdżone – czyli takie, które są zawarte w dłuższych terminach. Niekiedy prowadzi to do ekstrakcji niepoprawnych semantycznie fraz (np. 'giełda papierów', 'USG jamy'). W celu eliminacji tego typu terminów zaproponowaliśmy metodę, która w procesie wyodrębniania zagnieżdżonych fraz kieruje się siłą powiązań między słowami.

25 stycznia 2015

Wojciech Jaworski (Uniwersytet Warszawski)

Parser składniowo-semantyczny dla języka polskiego: integracja z zasobami słownikowymi, parsowanie  Wystąpienie w języku polskim.

Podczas referatu autor opowiedział o integracji parsera składniowo semantycznego z SGJP, Polimorfem, Słowosiecią oraz Walentym. Przedstawił wstępne obserwacje dotyczące tego jaki wpływ na parsowanie ma uzupełnienie gramatyki o sprawdzanie preferencji selekcyjnych. Opisał też formalizm kategorialny służący do parsowania i przedstawił pokrótce, jak działa parser.

22 lutego 2016

Witold Dyrka (Politechnika Wrocławska)

Język(i) białek? – przesłanki, przyczynki i perspektywy  Wystąpienie w języku polskim.

W wystąpieniu autor przedstawił argumentację za traktowaniem sekwencji, względnie wyższych struktur białkowych, jako zdań w pewnym języku/językach. Następnie zaprezentował kilka interesujących wyników (własnych i nie tylko) zastosowania ilościowych metod analizy tekstu oraz narzędzi lingwistyki formalnej (np. probabilistycznych gramatyk bezkontekstowych) do analizy białek. Wystąpienie zakończyło przedstawienie planów dalszych prac w zakresie "lingwistyki białek" będące wstępem do dyskusji.

22 lutego 2016

Zespół Inżynierii Lingwistycznej (Instytut Podstaw Informatyki PAN)

Seminarium rozszerzone: prezentacja narzędzi Zespołu  Seria wystąpień w języku polskim.

12:00–12:15: Ludzie, projekty, narzędzia analizy lingwistycznej

12:15–12:45: Morfeusz 2: analizator i generator fleksyjny dla języka polskiego

12:45–13:15: Toposław: Tworzenie słowników terminów wielowyrazowych

13:15–13:45: Przerwa obiadowa

13:45–14:15: TermoPL: Ekstrakcja terminologii z tekstów w języku polskim

14:15–14:45: Walenty: Słownik walencyjny języka polskiego

14:45–15:15: POLFIE: Gramatyka LFG dla języka polskiego

7 marca 2016

Zbigniew Bronk (niezależny informatyk, współpracownik Zespołu Słownika Gramatycznego Języka Polskiego)

Znacznikowy język formalnego opisu polskiej deklinacji JOD  Wystąpienie w języku polskim.

JOD – znacznikowy język formalnego opisu polskiej deklinacji powstał w celu ścisłego opisania reguł i schematów odmiany rzeczowników i przymiotników w języku polskim. Pierwsze zastosowanie znalazł on przy opisie fleksji polskich nazwisk, z uwzględnieniem płci nosiciela lub nosicieli. Model ten jest podstawą działania „Automatu do odmiany nazwisk”. Referent omówił koncepcję języka i implementację jego interpretera oraz zaprezentował edytor JOD i serwis internetowy „Automat do odmiany nazwisk”.

21 marca 2016

Bartosz Zaborowski, Aleksander Zabłocki (Instytut Podstaw Informatyki PAN)

Poliqarp2 na ostatniej prostej  Wystąpienie w języku polskim.

W ramach seminarium autorzy przedstawili efekt swojej pracy z ostatnich trzech lat, czyli wyszukiwarkę korpusową Poliqarp 2: jej stronę techniczną i działanie widziane od strony użytkownika. Przypomnieli pokrótce model danych, na których operuje wyszukiwarka, budowę języka obsługiwanego przez nowego wykonawcę zapytań, jego siłę wyrazu, oraz różnice w stosunku do wcześniejszej wersji. Szczególną uwagę poświęcili elementom dodanym bądź zmienionym w trakcie rozwoju projektu (obsługa modelu Składnicy i LFG, post-processing, lukry składniowe). Wśród technikaliów znalazła się krótka prezentacja architektury narzędzia, ciekawostki związane z implementacją indeksów, a także nietrywialne decyzje związane z obsługą danych wejściowych (w szczególności NKJP). Na zakończenie zaprezentowane zostały wstępne wyniki wydajności i ich odniesienie do wydajności starego Poliqarpa.

4 kwietnia 2016

Aleksander Wawer (Instytut Podstaw Informatyki PAN)

Identyfikacja przedmiotów opinii w języku polskim  Wystąpienie w języku polskim.

Seminarium prezentowało rezultaty grantu NCN zakończonego w styczniu 2016 r. Przedstawiono trzy zasoby, powstałe w związku z projektem: oznaczony wydźwiękiem i przedmiotami opinii bank drzew zależnościowych pochodzący z korpusu recenzji produktów, fragment Składnicy zależnościowej oraz zbiór tweetów. Omówiono eksperymenty nad automatycznym rozpoznawaniem przedmiotów opinii. Obejmują one wykorzystanie dwóch metod analizy składniowej: zależnościowej oraz powierzchniowej, a także metody hybrydowe, w których wyniki analizy składniowej wykorzystywane są przez modele statystyczne (np. CRF).

21 kwietnia 2016

Magdalena Derwojedowa (Uniwersytet Warszawski)

„Tem lepiej, ale jest to interes miljonowy i traktujemy go poważnie” – 1000 razy po 1000 słów w 5 częściach  Wystąpienie w języku polskim.

W wystąpieniu Autorzy przedstawili milionowy korpus roboczy projektu „Automatyczna analiza fleksyjna polszczyzny XIX wieku” (DEC-2012/07/B/HS2/00570). Omówili jego strukturę, stylistyczne, czasowe i geograficzne zróżnicowanie próbek oraz charakterystykę fleksyjną na tle własności opisywanych w literaturze przedmiotu (prace I. Bajerowej).

9 maja 2016

Daniel Janus (Rebased.pl)

Od nieustrukturyzowanych danych do przeszukiwalnego korpusu bogatego w metadane: Skyscraper, P4, Smyrna  Wystąpienie w języku polskim.

Wystąpienie dotyczyło narzędzi ułatwiających konstrukcję własnych zbiorów danych, w szczególności korpusów. Omówiona została biblioteka Skyscraper, umożliwiająca ekstrakcję ustrukturyzowanych danych z całych witryn WWW, oraz program Smyrna, konkordancer dla języka polskiego z obsługą metadanych. Przedstawiono również przygotowany z użyciem tych narzędzi zbiór danych o nazwie Polish Parliamentary Proceedings Processor (PPPP lub P4), obejmujący m.in. uaktualniany na bieżąco korpus stenogramów sejmowych. Sporo miejsca poświęcono rozwiązaniom technicznym zastosowanym w prezentowanych narzędziach.

19 maja 2016

Kamil Kędzia, Konrad Krulikowski (Uniwersytet Warszawski)

Generowanie szablonów parafraz dla języka polskiego przy użyciu korpusu równoległego  Wystąpienie w języku polskim.

W ramach projektu CLARIN-PL przygotowano oprogramowanie służące generowaniu parafraz dla języka polskiego. Jego twórcy zaprezentują jego działanie na wybranych przykładach. Przybliżą również wykorzystaną metodę zespołu Ganitkevitch i in. (2013), która posłużyła jej autorom do stworzenia ogólnodostępnego zasobu Paraphrase Database (PPDB). Omówią także jej rozszerzenie służące do znajdowania szablonów parafraz, czy zastosowane podejście do wyzwań charakterystycznych dla języka polskiego. Dodatkowo przedstawią sposób mierzenia jakości parafraz.

23 maja 2016

Damir Ćavar (Indiana University)

The Free Linguistic Environment  Wystąpienie w języku angielskim.

The Free Linguistic Environment (FLE) started as a project to develop an open and free platform for white-box modeling and grammar engineering, i.e. development of natural language morphologies, prosody, syntax, and semantic processing components that are for example based on theoretical frameworks like two-level morphology, Lexical Functional Grammar (LFG), Glue Semantics, and similar. FLE provides a platform that makes use of some classical algorithms and also new approaches based on Weighted Finite State Transducer models to enable probabilistic modeling and parsing at all linguistic levels. Currently its focus is to provide a platform that is compatible with LFG and an extended version of it, one that we call Probabilistic Lexical Functional Grammar (PLFG). This probabilistic modeling can apply to the c(onstituent) -structure component, i.e. a Context Free Grammar (CFG) backbone can be extended by a Probabilistic Context Free Grammar (PCFG). Probabilities in PLFG can also be associated with structural representations and corresponding f(unctional feature)-structures or semantic properties, i.e. structural and functional properties and their relations can be modeled using weights that can represent probabilities or other forms of complex scores or metrics. In addition to these extensions of the LFG-framework, FLE provides also an open platform for experimenting with algorithms for semantic processing or analyses based on (probabilistic) lexical analyses, c- and f-structures, or similar such representations. Its architecture is extensible to cope with different frameworks, e.g. dependency grammar, optimality theory based approaches, and many more.

6 czerwca 2016

Karol Opara (Instytut Badań Systemowych Polskiej Akademii Nauk)

Rymy częstochowskie w poezji polskiej – ujęcie ilościowe  Wystąpienie w języku polskim.

Fleksyjny charakter języka polskiego powoduje, że tak samo odmienione części mowy mają zazwyczaj jednobrzmiące końcówki. Umożliwia to łatwe tworzenie dużej liczby rymujących się ze sobą wyrazów nazywanych rymami częstochowskimi (albo gramatycznymi). W referacie przedstawiono wyniki badania jakości i finezji warsztatu poetyckiego różnych polskich twórców opartej na komputerowym wyliczaniu udziału rymów częstochowskich w ich liryce. Zaprezentowano metodę automatycznego wykrywania rymów, wydobywania z tekstu informacji o charakterze statystycznym oraz nowe, „literackie” kryterium doboru liczności próbki do testów statystycznych. Przedstawiono też ranking warsztatu poetyckiego różnych liryków polskich.

Zapraszamy także do zapoznania się z archiwum seminariów z lat 2000–15 oraz listą wystąpień z aktualnego roku akademickiego.