Seminarium „Przetwarzanie języka naturalnego” 2016–2017
Seminarium Zespołu Inżynierii Lingwistycznej w Instytucie Podstaw Informatyki Polskiej Akademii Nauk odbywa się nieregularnie w poniedziałki zwykle o godz. 10:15 w siedzibie IPI PAN (ul. Jana Kazimierza 5, Warszawa) i ma charakter otwarty. Poszczególne referaty ogłaszane są na Polskiej Liście Językoznawczej oraz na stronie Lingwistyka komputerowa na Facebooku. |
10 października 2016 |
Katarzyna Pakulska (Samsung), Barbara Rychalska (Samsung podczas realizacji zadania), Krystyna Chodorowska (Samsung podczas realizacji zadania, ICM obecnie), Wojciech Walczak (Samsung), Piotr Andruszkiewicz (Samsung) |
Detektor Parafraz – polskie rozwiązanie, które wygrało SemEval 2016 |
Celem seminarium jest przedstawienie systemu opracowanego w celu wykrywania semantycznego podobieństwa tekstu w języku angielskim. Przedstawiane rozwiązanie osiągnęło najwyższe wyniki w swoim zadaniu podczas konkursu SemEval 2016. Celem zadania było zmierzenie podobieństwa semantycznego między dwoma zdaniami w skali 0-5 w sposób zbliżony do oceny ludzkiej. Prezentowana metoda jest nowatorskim połączeniem rekursywnych auto-enkoderów używanych do trenowania sieci głębokich (RAE) oraz systemu kar i nagród opartego o bibliotekę WordNet. W celu osiagnięcia lepszych wyników rozszerzono model rozwiązania o zestaw klasyfikatorów obejmujący wiodące rozwiązania w swojej klasie oraz wiele innych cech używanych jako wejścia do regresji liniowej dla metody wektorów nośnych. |
24 października 2016 |
Adam Przepiórkowski, Jakub Kozakoszczak, Jan Winkowski, Daniel Ziembicki, Tadeusz Teleżyński (Instytut Podstaw Informatyki PAN, Uniwersytet Warszawski) |
Seminarium przedstawia stworzone w ramach CLARIN zasoby mające umożliwić jakościową ewaluację systemów RTE: dwa korpusy derywacji tekstowych i korpus reguł wynikania tekstowego. Derywacja tekstowa to ciąg atomowych kroków, które prowadzą od Tekstu do Hipotezy w parze wynikania tekstowego. Oryginalne pary pochodzą z korpusu FraCaS i polskiego tłumaczenia korpusu RTE3. Reguła wynikania tekstowego sankcjonuje relację wynikania między wejściem a wyjściem atomowego kroku za pomocą wzorców składniowych wyrażonych w standardzie UD i dodatkowych ograniczeń semantycznych, logicznych i kontekstualnych wyrażonych w FOL. |
7 listopada 2016 |
Rafał Jaworski (Uniwersytet Adama Mickiewicza w Poznaniu) |
Celem seminarium jest przedstawienie algorytmu Concordia (http://tmconcordia.sourceforge.net/), służącego do zmaksymalizowania wydajności pracy tłumacza ludzkiego. Algorytm łączy w sobie zalety klasycznego przeszukiwania pamięci tłumaczeń z funkcją wyszukiwania konkordancji. Ponieważ kluczowym wymaganiem stawianym przed mechanizmami wspomagania tłumaczenia jest szybkość działania, Concordia stosuje usprawnienia standardowych technik wyszukiwania przybliżonego pod kątem obniżenia złożoności obliczeniowej. |
21 listopada 2016 |
Norbert Ryciak, Aleksander Wawer (Instytut Podstaw Informatyki PAN) |
|
Seminarium prezentuje wstępne eksperymenty nad rekurencyjnym obliczaniem wydźwięku fraz z wykorzystaniem zależnościowych informacji składniowych i metod głębokiego uczenia maszynowego. Omówione zostaną implementacje sieci neuronowych powstałe w ramach Clarin 2. Prezentowane będą dane i wyniki uzyskane na zdaniach w języku angielskim. Na seminarium omówimy także powstające zasoby w języku polskim. |
5 grudnia 2017 |
Dominika Rogozińska, Marcin Woliński (Instytut Podstaw Informatyki PAN) |
Referat przedstawia metody konstrukcji algorytmu ujednoznaczniania wyników parsowania wypowiedzeń w języku polskim dla parsera Świgra. Są to metody oparte na probabilistycznych gramatykach bezkontekstowych oraz modelu maksymalizacji entropii. Dyskutujemy różnice w składni języków angielskiego i polskiego oraz ich wpływ na właściwości wykorzystanych modeli probablistycznych. Przedstawiamy także wersję demonstracyjną modułu ujednoznaczniającego wykorzystującą model osiągający skuteczność na poziomie 96.2%. |
9 stycznia 2017 |
Agnieszka Pluwak (Instytut Slawistyki PAN) |
Budowa dziedzinowej reprezentacji wiedzy z pomocą rozszerzonej metody ramowej na podstawie korpusu umów najmu w języku polskim, angielskim i niemieckim |
Projekt FrameNet przez jego autorów określany jest jako baza leksykalna o charakterze ontologii (nie jest on ontologią sensu stricto ze względu na wybiorczy opis pojęć oraz relacji między ramami). Ontologie jako reprezentacje wiedzy w NLP powinny mięć zastosowanie do konkretnych dziedzin i tekstów, ale w literaturze przedmiotu do stycznia 2016 nie znalazłam przykładu reprezentacji wiedzy opartej w całości na ramach lub na rozbudowanej strukturze relacji miedzy ramami. Znalazłam jedynie kilka przykładów dziedzinowych reprezentacji wiedzy z użyciem wybranych ram FrameNet (BioFrameNet, Legal FrameNet, etc.), w których wykorzystano je do łączenia danych z rożnych zasobów. Postanowiłam w mojej pracy doktorskiej przeprowadzić eksperyment budowy dziedzinowej reprezentacji wiedzy opartej na relacjach miedzy ramami, określonymi na podstawie analizy tekstów umów najmu. Celem badania był opis ram użytecznych z punktu widzenia potencjalnej ekstrakcji danych z umów najmu, czyli zawierających odpowiedzi na pytania, jakie zadaje sobie profesjonalny analityk czytając tekst umowy. W pracy postawiłam różne pytania, m.in. czy będę mogła wykorzystać gotowe ramy FrameNet, czy też będę musiała zbudować własne? Czy język polski wniesie specyficzne problemy? Jak język specjalistyczny wpłynie na użycie ram? I wiele innych. |
23 stycznia 2017 |
Marek Rogalski (Politechnika Łódzka) |
Automatyczne parafrazowanie |
Parafrazowanie, czyli przedstawianie zasadniczego sensu pewnej wiadomości innymi słowami, stanowi wyznacznik zrozumienia tejże wiadomości. Kiedy nauczyciel pyta ucznia „a teraz, Jasiu, powiedz własnymi słowami...”, sprawdza na ile uczeń rozumie temat. Na prezentacji omówimy zagadnienie automatycznego parafrazowania. Wyodrębnimy zagadnienia składniowych i znaczeniowych parafraz. Omówimy zestaw technik, z pozornie odległych dziedzin, które mogą znaleźć zastosowanie w systemach automatycznego parafrazowania. Przedstawimy także rezultaty, które udało się nam uzyskać z ich pomocą. |
Zapraszamy także do zapoznania się z archiwum seminariów z lat 2000-2015 oraz listą wystąpień z roku 2015-16. |
Ew. Kasia Brylska, Monika Płużyczka na seminarium? Marcin Napiórkowski z Karolem? Kto jeszcze? Może skorzystać z pieniędzy CLARIN-owych do zapraszania osób z całej Polski na seminaria?
COLING: 11-16 grudnia
6 lutego: Korpusomat
FERIE: 13–26 lutego
27 lutego: Jan Piotrowski 13 marca 27 marca
EACL: 3-7 kwietnia
10 kwietnia
WIELKANOC: 16-17 kwietnia
24 kwietnia 8 maja 22 maja 5 czerwca 19 czerwca