Seminarium „Przetwarzanie języka naturalnego” 2016–17

10 października 2016

Katarzyna Pakulska (Samsung), Barbara Rychalska (Samsung podczas realizacji zadania), Krystyna Chodorowska (Samsung podczas realizacji zadania, ICM obecnie), Wojciech Walczak (Samsung), Piotr Andruszkiewicz (Samsung)

Detektor Parafraz – polskie rozwiązanie, które wygrało SemEval 2016  Wystąpienie w języku polskim. Slajdy w języku angielskim.

Celem seminarium jest przedstawienie systemu opracowanego w celu wykrywania semantycznego podobieństwa tekstu w języku angielskim. Przedstawiane rozwiązanie osiągnęło najwyższe wyniki w swoim zadaniu podczas konkursu SemEval 2016. Celem zadania było zmierzenie podobieństwa semantycznego między dwoma zdaniami w skali 0-5 w sposób zbliżony do oceny ludzkiej. Prezentowana metoda jest nowatorskim połączeniem rekursywnych auto-enkoderów używanych do trenowania sieci głębokich (RAE) oraz systemu kar i nagród opartego o bibliotekę WordNet. W celu osiagnięcia lepszych wyników rozszerzono model rozwiązania o zestaw klasyfikatorów obejmujący wiodące rozwiązania w swojej klasie oraz wiele innych cech używanych jako wejścia do regresji liniowej dla metody wektorów nośnych.

24 października 2016

Adam Przepiórkowski, Jakub Kozakoszczak, Jan Winkowski, Daniel Ziembicki, Tadeusz Teleżyński (Instytut Podstaw Informatyki PAN, Uniwersytet Warszawski)

Korpus sformalizowanych kroków wynikania tekstowego  Wystąpienie w języku polskim.

Seminarium przedstawia stworzone w ramach CLARIN zasoby mające umożliwić jakościową ewaluację systemów RTE: dwa korpusy derywacji tekstowych i korpus reguł wynikania tekstowego. Derywacja tekstowa to ciąg atomowych kroków, które prowadzą od Tekstu do Hipotezy w parze wynikania tekstowego. Oryginalne pary pochodzą z korpusu FraCaS i polskiego tłumaczenia korpusu RTE3. Reguła wynikania tekstowego sankcjonuje relację wynikania między wejściem a wyjściem atomowego kroku za pomocą wzorców składniowych wyrażonych w standardzie UD i dodatkowych ograniczeń semantycznych, logicznych i kontekstualnych wyrażonych w FOL.

7 listopada 2016

Rafał Jaworski (Uniwersytet Adama Mickiewicza w Poznaniu)

Concordia – algorytm przeszukiwania pamięci tłumaczeń  Wystąpienie w języku polskim.

Celem seminarium jest przedstawienie algorytmu Concordia służącego do zmaksymalizowania wydajności pracy tłumacza ludzkiego. Algorytm łączy w sobie zalety klasycznego przeszukiwania pamięci tłumaczeń z funkcją wyszukiwania konkordancji. Ponieważ kluczowym wymaganiem stawianym przed mechanizmami wspomagania tłumaczenia jest szybkość działania, Concordia stosuje usprawnienia standardowych technik wyszukiwania przybliżonego pod kątem obniżenia złożoności obliczeniowej.

21 listopada 2016

Norbert Ryciak, Aleksander Wawer (Instytut Podstaw Informatyki PAN)

https://www.youtube.com/watch?v=hGKzZxFa0ik Rekurencyjne obliczanie semantyki fraz na podstawie informacji składniowej z użyciem głębokiego uczenia  Wystąpienie w języku polskim.

Seminarium prezentuje wstępne eksperymenty nad rekurencyjnym obliczaniem wydźwięku fraz z wykorzystaniem zależnościowych informacji składniowych i metod głębokiego uczenia maszynowego. Omówione zostaną implementacje sieci neuronowych powstałe w ramach Clarin 2. Prezentowane będą dane i wyniki uzyskane na zdaniach w języku angielskim. Na seminarium omówimy także powstające zasoby w języku polskim.

5 grudnia 2017

Dominika Rogozińska, Marcin Woliński (Instytut Podstaw Informatyki PAN)

Automatyczne metody ujednoznaczniania drzew rozbioru wypowiedzeń w języku polskim jako ostatnia faza przetwarzania parsera Świgra  Wystąpienie w języku polskim.

Referat przedstawia metody konstrukcji algorytmu ujednoznaczniania wyników parsowania wypowiedzeń w języku polskim dla parsera Świgra. Są to metody oparte na probabilistycznych gramatykach bezkontekstowych oraz modelu maksymalizacji entropii. Dyskutujemy różnice w składni języków angielskiego i polskiego oraz ich wpływ na właściwości wykorzystanych modeli probablistycznych. Przedstawiamy także wersję demonstracyjną modułu ujednoznaczniającego wykorzystującą model osiągający skuteczność na poziomie 96.2%.

9 stycznia 2017

Agnieszka Pluwak (Instytut Slawistyki PAN)

Budowa dziedzinowej reprezentacji wiedzy z pomocą rozszerzonej metody ramowej na podstawie korpusu umów najmu w języku polskim, angielskim i niemieckim  Wystąpienie w języku polskim.

Projekt FrameNet przez jego autorów określany jest jako baza leksykalna o charakterze ontologii (nie jest on ontologią sensu stricto ze względu na wybiorczy opis pojęć oraz relacji między ramami). Ontologie jako reprezentacje wiedzy w NLP powinny mieć zastosowanie do konkretnych dziedzin i tekstów, ale w literaturze przedmiotu do stycznia 2016 nie znalazłam przykładu reprezentacji wiedzy opartej w całości na ramach lub na rozbudowanej strukturze relacji między ramami. Znalazłam jedynie kilka przykładów dziedzinowych reprezentacji wiedzy z użyciem wybranych ram FrameNet (BioFrameNet, Legal FrameNet, etc.), w których wykorzystano je do łączenia danych z rożnych zasobów. Postanowiłam w mojej pracy doktorskiej przeprowadzić eksperyment budowy dziedzinowej reprezentacji wiedzy opartej na relacjach między ramami, określonymi na podstawie analizy tekstów umów najmu. Celem badania był opis ram użytecznych z punktu widzenia potencjalnej ekstrakcji danych z umów najmu, czyli zawierających odpowiedzi na pytania, jakie zadaje sobie profesjonalny analityk czytając tekst umowy. W pracy postawiłam różne pytania, m.in. czy będę mogła wykorzystać gotowe ramy FrameNet, czy też będę musiała zbudować własne? Czy język polski wniesie specyficzne problemy? Jak język specjalistyczny wpłynie na użycie ram? I wiele innych.

23 stycznia 2017

Marek Rogalski (Politechnika Łódzka)

Automatyczne parafrazowanie  Wystąpienie w języku polskim.

Parafrazowanie, czyli przedstawianie zasadniczego sensu pewnej wiadomości innymi słowami, stanowi wyznacznik zrozumienia tejże wiadomości. Kiedy nauczyciel pyta ucznia „a teraz, Jasiu, powiedz własnymi słowami...”, sprawdza na ile uczeń rozumie temat. Na prezentacji omówimy zagadnienie automatycznego parafrazowania. Wyodrębnimy zagadnienia składniowych i znaczeniowych parafraz. Omówimy zestaw technik, z pozornie odległych dziedzin, które mogą znaleźć zastosowanie w systemach automatycznego parafrazowania. Przedstawimy także rezultaty, które udało się nam uzyskać z ich pomocą.

6 lutego 2017

Łukasz Kobyliński (Instytut Podstaw Informatyki PAN)

https://www.youtube.com/watch?v=TP9pmPKla1k Korpusomat – narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego  Wystąpienie w języku polskim.

Korpusomat to internetowe narzędzie ułatwiające użytkownikowi samodzielne tworzenie korpusów do badań językoznawczych. Narzędzie umożliwia przesłanie zestawu plików tekstowych wraz z metadanymi, a następnie zlecenie ich automatycznej analizy morfologicznej i lematyzacji analizatorem Morfeusz oraz ujednoznacznienie wyników tagerem Concraft. Powstały korpus można następnie pobrać i badać na własnym komputerze, używając wyszukiwarki korpusowej Poliqarp do wykonywania zapytań dotyczących segmentacji tekstu, form podstawowych, znaczników fleksyjnych, wieloznaczności i dezambiguacji. Poliqarp pozwala także na zliczanie frekwencji określonych wyrazów oraz stosowanie podstawowych miar statystycznych niezbędnych w badaniach kwantytatywnych. Korpusomat – obok przetwarzania czystego tekstu – obsługuje również binarne formaty wejściowe, w tym popularny format plików ebooków i prasy elektronicznej – ePUB. Umożliwia również pobieranie tekstów źródłowych ze stron internetowych, automatycznie usuwając elementy nawigacyjne i pozostawiając do analizy jedynie treść główną dokumentu.

20 lutego 2017 (gościnny występ na seminarium IPI PAN)

Elżbieta Hajnicz (Instytut Podstaw Informatyki PAN)

https://youtu.be/lDKQ9jhIays Język reprezentacji słownika walencyjnego Walenty  Wystąpienie w języku polskim.

Słownik walencyjny języka polskiego Walenty przeznaczony jest do wykorzystania przez narzędzia przetwarzania języka naturalnego, przede wszystkim parsery, i dlatego posiada w pełni sformalizowaną reprezentację informacji walencyjnej. W trakcie seminarium zostanie omówione pojęcie walencji oraz język reprezentacji walencji w słowniku wraz z przykładami ilustrującymi, jakie zjawiska językowe są w dany sposób zapisywane. Główny temat stanowi poziom składniowy słownika, lecz w miarę możliwości zaprezentowany zostanie także jego poziom semantyczny.

2 marca 2017

Wojciech Jaworski (Uniwersytet Warszawski)

https://youtu.be/VgCsXsicoR8 Integracja parsera zależnościowego z parserem kategorialnym  Wystąpienie w języku polskim.

W ramach referatu opowiem o podziale na zdania i sterowaniu uruchamianiem poszczególnych parserów w ramach parsera hybrydowego powstającego w ramach projektu Clarin-bis. Opiszę przyjętą metodę konwersji struktur zależnościowych mającą uczynić je zgodnymi ze strukturami parsera kategorialnego. Konwersja będzie miała dwa aspekty: zmianę atrybutów poszczególnych węzłów oraz zmianę powiązań pomiędzy węzłami. Nakreślę w jaki sposób zastosowaną metodę można rozszerzyć tak, by konwertować skompresowane lasy generowane przez parser Świgra. Na koniec opowiem o planach i celu reimplementacji algorytmu MateParser.

13 marca 2017

Marek Kozłowski, Szymon Roziewski (Ośrodek Przetwarzania Informacji)

https://youtu.be/3mtjJfI3HkU Internetowe modele języka polskiego oraz semantyczne przetwarzanie tekstów  Wystąpienie w języku polskim.

W marcu 2016 zostaliśmy zaproszeni do Luksemburga na warsztaty pokazujące, jak wykorzystywany jest w Polsce system BabelNet – wielojęzykowa encyklopedia i sieć semantyczna zbudowana na podstawie danych dostępnych w Internecie (np. Wikipedia, WordNet). W ramach warsztatów wygłosiliśmy 3 referaty nt. różnych prac: grupowania krótkich tekstów ze wsparciem informacji semantycznej z BabelNetu, modelowania oceny sentymentu postaci historycznych, profilowania emocjonalnego filmów na podstawie napisów. Wyniki tych prac oraz możliwości BabelNetu prezentowaliśmy również w ramach otwartych spotkań firmy Allegro, tzw. AllegroMeetups. Przeprowadziliśmy też prace polegające na zbieraniu danych o polskich stronach internetowych z archiwum CommonCrawl – ogólnodostępnego otwartego repozytorium zebranych z całego świata stron internetowych, zawierające dane w ponad 40 językach, z okresu ponad 7 lat, o objętości idącej w petabajty (tysiące terabajtów). Naszym celem było opracowanie automatycznych narzędzi do rozproszonego przetwarzania olbrzymiego zbioru stron internetowych w celu wydobycia z nich polskich tekstów i zbudowania na ich podstawie modeli języka: modelu n-gramowego i dystrybucji semantycznej. Tak zbudowane modele pozwalają na usprawnienie metod przetwarzania tekstów (np. tokenizacji, ważenia istotności słów) oraz całej palety metod eksploracji (np. analizy sentymentu, klasyfikacji, grupowania tekstów) internetu.

20 marca 2017

Jakub Szymanik (University of Amsterdam)

https://www.youtube.com/watch?v=OzftWhtGoAU Relacja pomiędzy złożonością semantyczną a częstością występowania kwantyfikatorów w tekstach  Wystąpienie w języku polskim. Slajdy w języku angielskim.

W artykule napisanym wspólnie z Camilo Thorne, który zaprezentuję na seminarium, zadajemy pytanie czy złożoność semantyczna wpływa na częstotliwość występowania kwantyfikatorów uogólnionych w korpusie języka angielskiego opracowanym na podstawie Wikipedii. Za miarę złożoności semantycznej przyjmujemy minimalne urządzenie obliczeniowe, które rozpoznaje dany kwantyfikator. W ten sposób otrzymujemy trzy klasy wyrażeń kwantyfikatorowych o rosnącej złożoności: kwantyfikatory arystotelesowskie (rozpoznawalne przy acykliczne automaty skończone z dwoma stanami), kwantyfikatory numeryczne (rozpoznawane przez automaty skończone) i kwantyfikatory proporcjonalne (automaty ze stosem). Używając metod analizy regresji pokazujemy że złożoność semantyczna istotnie tłumaczy 27,29% wariancji w częstotliwości występowania kwantyfikatorów. Następnie porównujemy wpływ złożoności semantycznej do innych znanych źródeł złożoności językowej, zarazem semantycznych (np. monotoniczność) jak i bardziej powierzchownych (np. długość wyrażeń). Podsumowując, nasze obserwacje wskazują, iż semantycznie bardziej złożone kwantyfikatory występują w języku naturalnym rzadziej.

27 marca 2017 (wystąpienie połączone z seminarium instytutowym)

Paweł Morawiecki (Instytut Podstaw Informatyki PAN)

https://www.youtube.com/watch?v=onaYI6XY1S4 Wprowadzenie do głębokich sieci neuronowych  Wystąpienie w języku polskim.

Głębokie sieci neuronowe (DNN) w ostatnich kilku latach stały się narzędziem, które dla wielu problemów w przetwarzaniu obrazu i dźwięku dają najlepsze rozwiązania. Również w przetwarzaniu języka naturalnego można mówić o rewolucji i zupełnie nowych podejściach do problemów takich jak tłumaczenie czy reprezentacja słów. Prezentacja ta ma posłużyć wyrobieniu sobie dobrych intuicji związanych z DNN i funkcjonowaniem podstawowych architektur tych sieci. Omówię i zasugeruję również narzędzia i materiały źródłowe, które mogą pomóc w dalszym zgłębianiu tego zagadnienia i samodzielnych eksperymentach.

3 kwietnia 2017

Katarzyna Budzynska, Chris Reed (Instytut Filozofii i Socjologii PAN, University of Dundee)

Korpusy argumentacji oraz automatyczne wydobywanie i analiza argumentacji (część I)  Wystąpienie w języku angielskim.

Argumentacja, najistotniejsza forma komunikacji, przyciągała uwagę od samych początków naukowej refleksji. Centre for Argument Technology rozwija infrastrukturę dla badania struktur argumentacyjnych przez prawie dwie ostatnie dekady. Nasze podejście charakteryzuje się kilkoma istotnymi cechami. Po pierwsze, bazujemy na opartym na grafach standardzie reprezentacji argumentów, Argument Interchange Format AIF (Rahwan et al., 2007); oraz teorii zakotwiczania inferencji (Inference Anchoring Theory IAT; Budzynska & Reed, 2011), która pozwala nam ujmować dialogowy kontekst argumentacji. Po drugie, koncentrujemy się na różnorodnych aspektach struktur argumentacyjnych takich jak schematy argumentacji (Lawrence & Reed, 2016); illokucyjne intencje mówców związane z argumentacją (Budzynska et al., 2014a); etos autorów argumentów (Duthie et al., 2016); relacja refrazy, która parafrazuje fragmenty struktur argumentacyjnych (Konat et al., 2016); oraz protokoły argumentacyjnych gier dialogowych (Yaskorska & Budzynska, w przygotowaniu).

10 kwietnia 2017

Paweł Morawiecki (Instytut Podstaw Informatyki PAN)

https://www.youtube.com/watch?v=6H9oUYsfaw8 Sieci neuronowe do przetwarzania języka naturalnego – wybrane architektury i problemy  Wystąpienie w języku polskim.

W ostatnich kilku latach coraz więcej problemów z dziedziny przetwarzania języka naturalnego rozwiązywanych jest przy pomocy sieci neuronowych, w szczególności przy pomocy głębokich architektur. Wśród tych problemów znajdziemy klasyfikacje tematyczne tekstów, reprezentacje słów, etykietowanie zdjęć czy problem koreferencji. W prezentacji przedstawione będą najbardziej obiecujące architektury takie jak rekurencyjne i konwolucyjne sieci. Zagadnienia będą omawiane w kontekście konkretnego problemu – koreferencji dla języka polskiego.

15 maja 2017

Katarzyna Budzynska, Chris Reed (Instytut Filozofii i Socjologii PAN, University of Dundee)

Korpusy argumentacji oraz automatyczne wydobywanie i analiza argumentacji (część II)  Wystąpienie w języku angielskim.

W drugiej części wystąpienia opiszemy cechy struktur argumentacyjnych na przekładach zaczerpniętych z naszych korpusów AIF, które zawierają zaanotowane struktury argumentacyjne w wielorakich dziedzinach i gatunkach dyskursu (p. także narzędzie anotacyjne), w tym moralną debatę radiową (Budzynska et al., 2014b); transkrypty z debat parlamentarnych w Wielkiej Brytanii (Duthie et al., 2016); e-partycypacja (Konat et al., 2016; Lawrence et al., w druku); oraz prezydenckie debaty w Stanach Zjednoczonych w 2016 roku (Visser et al., w przygotowaniu). Pokażemy także, w jaki sposób te złożone struktury argumentacyjne, które z jednej strony sprawiają, że proces anotacji staje się czasochłonny i mniej miarodajny, mogą z drugiej strony prowadzić do automatycznego wydobywania różnorodnych wartościowych informacji przy użyciu technologii argument mining (Budzynska & Villata, 2017; Lawrence & Reed, w przygotowaniu) oraz argument analytics (Reed et al., w przygotowaniu).

12 czerwca 2017 (wystąpienie połączone z seminarium instytutowym)

Adam Pawłowski (Uniwersytet Wrocławski)

https://www.youtube.com/watch?v=RNIThH3b4uQ Struktury sekwencyjne w tekście  Wystąpienie w języku polskim.

Przedmiotem wykładu będzie zjawisko sekwencyjności w nauce o języku. Sekwencyjność jest tutaj definiowana jako cecha tekstu lub zbioru tekstów, wyrażająca relację następstwa dowolnych jednostek tego samego typu, uporządkowanych w linii tekstu, na osi czasu lub wg innej zmiennej (np. kolejności lektury czy publikowania). Do modelowania tak rozumianej sekwencyjności można wykorzystać m.in. szeregi czasowe, analizę spektralną, teorię szeregów stochastycznych, teorię informacji lub narzędzia akustyki. Podczas referatu przedstawię na podstawie badań własnych oraz literatury przedmiotu struktury sekwencyjne i ich wybrane modele w tekstach ciągłych; modele stosowane w odniesieniu do sekwencji wielu tekstów (znane jako chronologie dzieł); wspomnę o glottochronologii, czyli dziale lingwistyki kwantytatywnej, który stawia sobie za cel matematyczne modelowanie rozwoju języka w długich odcinkach czasu. Odniosę się wreszcie do filozoficznych prób wyjaśniania sekwencyjności (pojęcie „pamięci” tekstu, łańcuch przyczynowo skutkowy, pitagoreizm, platonizm).