Differences between revisions 55 and 56

Seminarium „Przetwarzanie języka naturalnego” 2016–2017

Seminarium Zespołu Inżynierii Lingwistycznej w Instytucie Podstaw Informatyki Polskiej Akademii Nauk odbywa się nieregularnie w poniedziałki zwykle o godz. 10:15 w siedzibie IPI PAN (ul. Jana Kazimierza 5, Warszawa) i ma charakter otwarty. Poszczególne referaty ogłaszane są na Polskiej Liście Językoznawczej oraz na stronie Lingwistyka komputerowa na Facebooku.

10 października 2016

Katarzyna Pakulska (Samsung), Barbara Rychalska (Samsung podczas realizacji zadania), Krystyna Chodorowska (Samsung podczas realizacji zadania, ICM obecnie), Wojciech Walczak (Samsung), Piotr Andruszkiewicz (Samsung)

Detektor Parafraz – polskie rozwiązanie, które wygrało SemEval 2016

Celem seminarium jest przedstawienie systemu opracowanego w celu wykrywania semantycznego podobieństwa tekstu w języku angielskim. Przedstawiane rozwiązanie osiągnęło najwyższe wyniki w swoim zadaniu podczas konkursu SemEval 2016. Celem zadania było zmierzenie podobieństwa semantycznego między dwoma zdaniami w skali 0-5 w sposób zbliżony do oceny ludzkiej. Prezentowana metoda jest nowatorskim połączeniem rekursywnych auto-enkoderów używanych do trenowania sieci głębokich (RAE) oraz systemu kar i nagród opartego o bibliotekę WordNet. W celu osiagnięcia lepszych wyników rozszerzono model rozwiązania o zestaw klasyfikatorów obejmujący wiodące rozwiązania w swojej klasie oraz wiele innych cech używanych jako wejścia do regresji liniowej dla metody wektorów nośnych.

24 października 2016

Adam Przepiórkowski, Jakub Kozakoszczak, Jan Winkowski, Daniel Ziembicki, Tadeusz Teleżyński (Instytut Podstaw Informatyki PAN, Uniwersytet Warszawski)

Korpus sformalizowanych kroków wynikania tekstowego

Seminarium przedstawia stworzone w ramach CLARIN zasoby mające umożliwić jakościową ewaluację systemów RTE: dwa korpusy derywacji tekstowych i korpus reguł wynikania tekstowego. Derywacja tekstowa to ciąg atomowych kroków, które prowadzą od Tekstu do Hipotezy w parze wynikania tekstowego. Oryginalne pary pochodzą z korpusu FraCaS i polskiego tłumaczenia korpusu RTE3. Reguła wynikania tekstowego sankcjonuje relację wynikania między wejściem a wyjściem atomowego kroku za pomocą wzorców składniowych wyrażonych w standardzie UD i dodatkowych ograniczeń semantycznych, logicznych i kontekstualnych wyrażonych w FOL.

7 listopada 2016

Rafał Jaworski (Uniwersytet Adama Mickiewicza w Poznaniu)

Concordia – algorytm przeszukiwania pamięci tłumaczeń

Celem seminarium jest przedstawienie algorytmu Concordia (http://tmconcordia.sourceforge.net/), służącego do zmaksymalizowania wydajności pracy tłumacza ludzkiego. Algorytm łączy w sobie zalety klasycznego przeszukiwania pamięci tłumaczeń z funkcją wyszukiwania konkordancji. Ponieważ kluczowym wymaganiem stawianym przed mechanizmami wspomagania tłumaczenia jest szybkość działania, Concordia stosuje usprawnienia standardowych technik wyszukiwania przybliżonego pod kątem obniżenia złożoności obliczeniowej.

21 listopada 2016

Norbert Ryciak, Aleksander Wawer (Instytut Podstaw Informatyki PAN)

Rekurencyjne obliczanie semantyki fraz na podstawie informacji składniowej z użyciem głębokiego uczenia

Seminarium prezentuje wstępne eksperymenty nad rekurencyjnym obliczaniem wydźwięku fraz z wykorzystaniem zależnościowych informacji składniowych i metod głębokiego uczenia maszynowego. Omówione zostaną implementacje sieci neuronowych powstałe w ramach Clarin 2. Prezentowane będą dane i wyniki uzyskane na zdaniach w języku angielskim. Na seminarium omówimy także powstające zasoby w języku polskim.

5 grudnia 2017

Dominika Rogozińska, Marcin Woliński (Instytut Podstaw Informatyki PAN)

Automatyczne metody ujednoznaczniania drzew rozbioru wypowiedzeń w języku polskim jako ostatnia faza przetwarzania parsera Świgra

Referat przedstawia metody konstrukcji algorytmu ujednoznaczniania wyników parsowania wypowiedzeń w języku polskim dla parsera Świgra. Są to metody oparte na probabilistycznych gramatykach bezkontekstowych oraz modelu maksymalizacji entropii. Dyskutujemy różnice w składni języków angielskiego i polskiego oraz ich wpływ na właściwości wykorzystanych modeli probablistycznych. Przedstawiamy także wersję demonstracyjną modułu ujednoznaczniającego wykorzystującą model osiągający skuteczność na poziomie 96.2%.

9 stycznia 2017

Agnieszka Pluwak (Instytut Slawistyki PAN)

Tytuł wystąpienia zostanie podany wkrótce

Opis wystąpienia zostanie podany wkrótce.

23 stycznia 2017

Marek Rogalski (Politechnika Łódzka)

Automatyczne parafrazowanie

Parafrazowanie, czyli przedstawianie zasadniczego sensu pewnej wiadomości innymi słowami, stanowi wyznacznik zrozumienia tejże wiadomości. Kiedy nauczyciel pyta ucznia „a teraz, Jasiu, powiedz własnymi słowami...”, sprawdza na ile uczeń rozumie temat. Na prezentacji omówimy zagadnienie automatycznego parafrazowania. Wyodrębnimy zagadnienia składniowych i znaczeniowych parafraz. Omówimy zestaw technik, z pozornie odległych dziedzin, które mogą znaleźć zastosowanie w systemach automatycznego parafrazowania. Przedstawimy także rezultaty, które udało się nam uzyskać z ich pomocą.

Zapraszamy także do zapoznania się z archiwum seminariów z lat 2000-2015 oraz listą wystąpień z roku 2015-16.

-  ⇤ ← Revision 55 as of 2016-12-05 15:45:35 → 
  Size: 9279
  Editor: MaciejOgrodniczuk
  Comment:
+   ← Revision 56 as of 2016-12-05 15:48:19 → ⇥
  Size: 9267
  Editor: MaciejOgrodniczuk
  Comment:
-Deletions are marked like this.
+Additions are marked like this.
 Line 30:
-||<style="border:0;padding-left:30px;padding-bottom:15px">W referacie zostaną przedstawione metody konstrukcji algorytmu ujednoznaczniania wyników parsowania wypowiedzeń w języku polskim dla parsera Świgra. Są to metody oparte na probabilistycznych gramatykach bezkontekstowych oraz modelu maksymalizacji entropii. Przedyskutujemy różnice w składni języków angielskiego i polskiego, ich wpływ na właściwości wykorzystanych modeli probablistycznych. Przedstawimy też wersję demonstracyjną modułu ujednoznaczniającego wykorzystującą model osiągający skuteczność na poziomie 96.2%.||
+||<style="border:0;padding-left:30px;padding-bottom:15px">Referat przedstawia metody konstrukcji algorytmu ujednoznaczniania wyników parsowania wypowiedzeń w języku polskim dla parsera Świgra. Są to metody oparte na probabilistycznych gramatykach bezkontekstowych oraz modelu maksymalizacji entropii. Dyskutujemy różnice w składni języków angielskiego i polskiego oraz ich wpływ na właściwości wykorzystanych modeli probablistycznych. Przedstawiamy także wersję demonstracyjną modułu ujednoznaczniającego wykorzystującą model osiągający skuteczność na poziomie 96.2%.||

Diff for "seminarium"

Menu

Seminarium „Przetwarzanie języka naturalnego” 2016–2017