Seminarium „Przetwarzanie języka naturalnego” 2019–20

Seminarium Zespołu Inżynierii Lingwistycznej w Instytucie Podstaw Informatyki Polskiej Akademii Nauk odbywa się nieregularnie w poniedziałki zwykle o godz. 10:15 w siedzibie IPI PAN (ul. Jana Kazimierza 5, Warszawa) i ma charakter otwarty. Poszczególne referaty ogłaszane są na Polskiej Liście Językoznawczej oraz na stronie Lingwistyka komputerowa na Facebooku. Wszystkie nagrania dostępne są na kanale YouTube.

23 września 2019

Igor Boguslavsky (Institute for Information Transmission Problems, Russian Academy of Sciences / Universidad Politécnica de Madrid)

Semantic analysis based on inference

I will present a semantic analyzer SemETAP, which is a module of a linguistic processor ETAP designed to perform analysis and generation of NL texts. We proceed from the assumption that the depth of understanding is determined by the number and quality of inferences we can draw from the text. Extensive use of background knowledge and inferences permits to extract implicit information.

Salient features of SemETAP include:

— knowledge base contains both linguistic and background knowledge;

— inference types include strict entailments and plausible expectations;

— words and concepts of the ontology may be supplied with explicit decompositions for inference purposes;

— two levels of semantic structure are distinguished. Basic semantic structure (BSemS) interprets the text in terms of ontological elements. Enhanced semantic structure (EnSemS) extends BSemS by means of a series of inferences;

— a new logical formalism Etalog is developed in which all inference rules are written.

7 października 2019

Tomasz Stanisz (Instytut Fizyki Jądrowej PAN)

Co sieć złożona może powiedzieć o tekście?

Sieci złożone, które znalazły zastosowanie w ilościowym opisie wielu różnych zjawisk, okazały się atrakcyjne także w badaniach nad językiem naturalnym. Formalizm sieciowy pozwala badać język z różnych punktów widzenia – sieć złożona może reprezentować na przykład wzajemne położenie słów w tekście, pokrewieństwo znaczeń, czy relacje gramatyczne. Jednym z rodzajów sieci lingwistycznych są sieci sąsiedztwa słów, opisujące współwystępowanie słów w tekstach. Pomimo prostoty konstrukcji, sieci sąsiedztwa słów mają szereg właściwości pozwalających na ich praktyczne wykorzystanie. Struktura takich sieci, wyrażona odpowiednio zdefiniowanymi wielkościami, odzwierciedla pewne cechy języka; zastosowanie metod uczenia maszynowego do zbiorów tych wielkości może posłużyć między innymi do zidentyfikowania autora tekstu.

21 października 2019 (UWAGA: seminarium rozpocznie się wyjątkowo o 12:30)!

Agnieszka Patejuk (Instytut Podstaw Informatyki PAN / Uniwersytet Oksfordzki), Adam Przepiórkowski (Instytut Podstaw Informatyki PAN / Uniwersytet Warszawski)

Koordynacja w standardzie Universal Dependencies

Universal Dependencies (UD; https://universaldependencies.org/) to dominujący schemat znakowania składniowego wykorzystywany przez liczne parsery dla wielu języków. Schemat ten nie do końca dobrze radzi sobie z reprezentacją koordynacji, tj. konstrukcji współrzędnie złożonych. W niniejszym referacie zaproponujemy reprezentacje dwóch aspektów koordynacji, które nie miały wcześniej dobrych reprezentacji nie tylko w UD, ale także w teoriach zależnościowych: koordynacji różnych funkcji gramatycznych oraz koordynacji zagnieżdżonej.

4 listopada 2019

Marcin Będkowski (Instytut Badań Edukacyjnych), Łukasz Kobyliński (Instytut Podstaw Informatyki PAN)

Tytuł wystąpienia zostanie podany wkrótce

Streszczenie wystąpienia zostanie podane wkrótce.

18 listopada 2019

Alexander Rosen (Uniwersytet Karola w Pradze)

Wielojęzyczny korpus równoległy InterCorp: reprezentacja kategorii gramatycznych

Streszczenie wystąpienia zostanie podane wkrótce.

21 listopada 2019

Alexander Rosen (Uniwersytet Karola w Pradze)

Czeski korpus uczniowski

Streszczenie wystąpienia zostanie podane wkrótce.

Zapraszamy także do zapoznania się z archiwum seminariów z lat 2000–15 oraz listą wystąpień z lat 2015–19.

seminarium

Menu

Seminarium „Przetwarzanie języka naturalnego” 2019–20