Seminarium „Przetwarzanie języka naturalnego” 2019–20
Seminarium Zespołu Inżynierii Lingwistycznej w Instytucie Podstaw Informatyki Polskiej Akademii Nauk odbywa się nieregularnie w poniedziałki zwykle o godz. 10:15 w siedzibie IPI PAN (ul. Jana Kazimierza 5, Warszawa) i ma charakter otwarty. Poszczególne referaty ogłaszane są na Polskiej Liście Językoznawczej oraz na stronie Lingwistyka komputerowa na Facebooku. Wszystkie nagrania dostępne są na kanale YouTube. |
23 września 2019 |
Igor Boguslavsky (Institute for Information Transmission Problems, Russian Academy of Sciences / Universidad Politécnica de Madrid) |
I will present a semantic analyzer SemETAP, which is a module of a linguistic processor ETAP designed to perform analysis and generation of NL texts. We proceed from the assumption that the depth of understanding is determined by the number and quality of inferences we can draw from the text. Extensive use of background knowledge and inferences permits to extract implicit information. |
Salient features of SemETAP include: |
— knowledge base contains both linguistic and background knowledge; |
— inference types include strict entailments and plausible expectations; |
— words and concepts of the ontology may be supplied with explicit decompositions for inference purposes; |
— two levels of semantic structure are distinguished. Basic semantic structure (BSemS) interprets the text in terms of ontological elements. Enhanced semantic structure (EnSemS) extends BSemS by means of a series of inferences; |
— a new logical formalism Etalog is developed in which all inference rules are written. |
7 października 2019 |
Tomasz Stanisz (Instytut Fizyki Jądrowej PAN) |
Sieci złożone, które znalazły zastosowanie w ilościowym opisie wielu różnych zjawisk, okazały się atrakcyjne także w badaniach nad językiem naturalnym. Formalizm sieciowy pozwala badać język z różnych punktów widzenia – sieć złożona może reprezentować na przykład wzajemne położenie słów w tekście, pokrewieństwo znaczeń, czy relacje gramatyczne. Jednym z rodzajów sieci lingwistycznych są sieci sąsiedztwa słów, opisujące współwystępowanie słów w tekstach. Pomimo prostoty konstrukcji, sieci sąsiedztwa słów mają szereg właściwości pozwalających na ich praktyczne wykorzystanie. Struktura takich sieci, wyrażona odpowiednio zdefiniowanymi wielkościami, odzwierciedla pewne cechy języka; zastosowanie metod uczenia maszynowego do zbiorów tych wielkości może posłużyć między innymi do zidentyfikowania autora tekstu. |
21 października 2019 |
Agnieszka Patejuk (Instytut Podstaw Informatyki PAN / Uniwersytet Oksfordzki), Adam Przepiórkowski (Instytut Podstaw Informatyki PAN / Uniwersytet Warszawski) |
Universal Dependencies (UD; https://universaldependencies.org/) to dominujący schemat znakowania składniowego wykorzystywany przez liczne parsery dla wielu języków. Schemat ten nie do końca dobrze radzi sobie z reprezentacją koordynacji, tj. konstrukcji współrzędnie złożonych. W niniejszym referacie zaproponujemy reprezentacje dwóch aspektów koordynacji, które nie miały wcześniej dobrych reprezentacji nie tylko w UD, ale także w teoriach zależnościowych: koordynacji różnych funkcji gramatycznych oraz koordynacji zagnieżdżonej. |
4 listopada 2019 |
Marcin Będkowski (Uniwersytet Warszawski / Instytut Badań Edukacyjnych), Wojciech Stęchły, Leopold Będkowski, Joanna Rabiega-Wiśniewska (Instytut Badań Edukacyjnych), Michał Marcińczuk (Politechnika Wrocławska), Grzegorz Wojdyga, Łukasz Kobyliński (Instytut Podstaw Informatyki PAN) |
|
W referacie omówimy problem porównywania dokumentów zawartych w Zintegrowanym Rejestrze Kwalifikacji pod względem ich podobieństwa treściowego. |
W pierwszej części scharakteryzujemy tło zagadnienia, w tym strukturę opisu efektów uczenia się w kwalifikacjach oraz zdań opisujących efekty uczenia się. Zgodnie z definicją zawartą w ustawie o Zintegrowanym Systemie Kwalifikacji efekt uczenia się to wiedza, umiejętności oraz kompetencje społeczne nabyte w procesie uczenia się, a kwalifikacja to zestaw efektów uczenia się, których osiągnięcie potwierdza się odpowiednim dokumentem (np. dyplomem, certyfikatem). Zdania, których referentami są efekty uczenia się, mają ustabilizowaną budowę i składają się zasadniczo z tzw. czasownika operacyjnego (opisującego czynność stanowiącą efekt uczenia się) oraz frazy nominalnej stanowiącej jego dopełnienie (nazywającej obiekt będący przedmiotem tej czynności, w skrócie: obiekt umiejętności). Przykładowo: „Określa wady wzroku i sposoby ich korekty na podstawie pomiaru refrakcji oczu” czy „Uczeń odczytuje rysunki techniczne.”. |
W drugiej części zarysujemy podejście pozwalające na określenie stopnia podobieństwa między kwalifikacjami oraz ich grupowanie, wraz z jego założeniami i stojącymi za nimi intuicjami. Określimy przyjęte rozumienie podobieństwa treściowego, mianowicie zarysujemy podejście określania podobieństwa tekstów w wariancie umożliwiającym automatyczne przetwarzanie tekstu z wykorzystaniem narzędzi komputerowych. Przedstawimy prosty model reprezentacji wypowiedzi, tzw. bag of words, w dwóch wersjach. |
Pierwsza z nich zakłada pełną atomizację efektów uczenia się (w tym fraz nominalnych, obiektów umiejętności) i przedstawienie ich jako zbiorów pojedynczych zlematyzowanych rzeczowników będących reprezentacją obiektów umiejętności. Druga opiera się na n-gramach z uwzględnieniem miary TFIDF (tj. ważenie częstością termów – odwrotna częstość w dokumentach), pozwalające na wydobycie z tekstów słów i fraz kluczowych. |
Pierwsze podejście można określić mianem „rozrzutnego”, natomiast drugie – „oszczędnego”. Pierwsze pozwala bowiem dla każdej kwalifikacji przedstawić wiele kwalifikacji podobnych (choć stopień podobieństwa bywa niski). Natomiast drugie dopuszcza sytuację, w której dla danej kwalifikacji nie znajdzie się żadna podobna. |
W części trzeciej opiszemy przykładowe grupowania i listy rankingowe bazujące na obu podejściach, oparte na skalowaniu wielowymiarowym i algorytmie k-średnich oraz grupowaniu hierarchicznym. Przedstawimy także studium przypadku, które posłuży do zilustrowania zalet oraz niedostatków obu podejść. |
W czwartej części przedstawimy wnioski dotyczące grupowania kwalifikacji, ale także ogólne wnioski związane z określaniem słów kluczy. W szczególności przedstawimy wnioski dotyczące stosowania wskazanych metod do porównywania tekstów zróżnicowanej długości, a także częściowo pokrywających się (zawierających wspólne fragmenty). |
Referat został przygotowany we współpracy z autorami ekspertyzy dotyczącej automatycznej analizy i porównywania kwalifikacji w celu ich grupowania przygotowanej w ramach projektu „Prowadzenie i rozwój Zintegrowanego Rejestru Kwalifikacji”, POWR.02.11.00-00-0001/17. |
18 listopada 2019 |
Alexander Rosen (Uniwersytet Karola w Pradze) |
Wielojęzyczny korpus równoległy InterCorp: reprezentacja kategorii gramatycznych |
Wielojęzyczny korpus równoległy InterCorp, będący częścią Czeskiego Korpusu Narodowego, od 2008 roku jest dostępny online; stale powiększa się, osiągając obecnie wielkość 1,7 miliarda słów w 40 językach. Znaczną część InterCorpu stanowią teksty literackie, które uzupełniają teksty prawne, publicystyczne, wystąpienia parlamentarne, napisy filmowe i Biblia. Teksty wiązane są na poziomie zdań i – w większości języków – otagowane oraz lematyzowane. Podczas wykładu skoncentruję się na kwestii adnotacji morfosyntaktycznych, wykorzystując specyficzne dla języków zestawy tagsetów i reguły tokenizacji oraz zbadam różne rozwiązania, w tym oparte na wytycznych, danych i narzędziach opracowanych w ramach projektu Universal Dependencies. |
21 listopada 2019 |
Alexander Rosen (Uniwersytet Karola w Pradze) |
Czeski korpus uczniowski |
Teksty tworzone przez osoby uczące się języka (rodzimego lub obcego) zawierają różnego rodzaju zjawiska niekanoniczne, co komplikuje anotację językową i jednocześnie wymaga wyraźnego oznaczenia odchyleń od normy. Chociaż istnieje wiele korpusów uczniowskich języka angielskiego, a ostatnio również inne języki nadrabiają w tym swoje zaległości, do tej pory nie pojawiło się powszechnie przyjęte podejście do projektowania taksonomii błędów i schematu anotacji. W przypadku !CzeSL, korpusu czeskiego jako drugiego języka, zaprojektowano i przetestowano kilka takich podejść, które później rozszerzono również na teksty przygotowane przez czeskie dzieci w wieku szkolnym. Podczas wykładu pokażę wady i zalety tych podejść, szczególnie w odniesieniu do czeskiego jako języka o wysokiej fleksyjności i swobodnym szyku wyrazów w zdaniu. |
Zapraszamy także do zapoznania się z archiwum seminariów z lat 2000–15 oraz listą wystąpień z lat 2015–19. |
- 2 grudnia - 16 grudnia - 13 stycznia – Ryszard Tuora? Miał na przełomie grudnia i stycznia. - 27 stycznia (ew. 20 stycznia i 3 lutego)
(10-23 lutego: ferie mazowieckie)
- 24 lutego: ?
- 9 marca - 23 marca – może – Alex z Justyną, może nawet na instytutowym
- 6 kwietnia (12-13 kwietnia: Wielkanoc)
- 20 kwietnia - 4 maja
(LREC: 13–15 maja w Marsylii)
- 18 maja
- 1 czerwca - 15 czerwca
Umówić się z Brylską, zapytać tę od okulografii, czy to jest PJN Agnieszka Kwiatkowska – zobaczyć ten jej tekst, moze też coś opowie? Ew. Kasia Brylska, Monika Płużyczka na seminarium? Marcin Napiórkowski z Karolem? Maciej Karpiński Demenko – dawno już ich nie było; można iść po kluczu HLT Days Michał Marcińczuk
MTAS? – NLP dla tekstów historycznych – Marcin/Witek? razem z KORBĄ, pokazać oba ręcznie znakowane korpusy i benchmarki na tagerach – maj, – może Wrocław mógłby coś pokazać? – pisałem do Maćka P.
Krzysztof Wołk: Gdyby w przyszłości była potrzeba pracuję nad NMT we współpracy z kolegą który pracuje w dolinie krzemowej. On też będąc w PL mógłby wystąpić lub wystąpić zdalnie. Zajmuję się sieciami neuronowymi w tym NMT wraz ze mną, opisowym generowaniem ruchów modeli 3D oraz generowaniem sztuki pisanej za pomocą sieci, klasyfikacją pochodzenia nazwisk za pomocą sieci I podobnymi tematami.
– jakieś wystąpienia PolEvalowe? – Marcin, Witek: Chronofleks – Krzysztof Wołk: NMT na subword units – Piotrek Pęzik obiecał coś wygłosić – Marcin Junczys-Dowmunt przy okazji świąt?
Tomek Dwojak i inni z https://zpjn.wmi.amu.edu.pl/seminar/?
12 DATA 2017 (UWAGA: wystąpienie odbędzie się o 13:00 w ramach seminarium IPI PAN)
OSOBA (AFILIACJA)
Tytuł zostanie udostępniony w najbliższym czasie
Opis wystąpienia zostanie udostępniony wkrótce.
...

...