Seminarium „Przetwarzanie języka naturalnego” 2015–2016
Seminarium Zespołu Inżynierii Lingwistycznej w Instytucie Podstaw Informatyki Polskiej Akademii Nauk odbywa się nieregularnie w poniedziałki zwykle o godz. 10:15 w siedzibie IPI PAN (ul. Jana Kazimierza 5, Warszawa) i ma charakter otwarty. Poszczególne referaty ogłaszane są na Polskiej Liście Językoznawczej oraz na stronie Lingwistyka komputerowa na Facebooku. |
12 października 2015 |
Vincent Ng (Uniwersytet Teksasu w Dallas) |
Znaczący postęp w dziedzinie wykrywania koreferencji dokonał się w ostatnim czasie m.in. dzięki dostępności ręcznie anotowanych korpusów MUC, ACE i OntoNotes. Koreferencja jest jednak zjawiskiem trudniejszym niż uwzględniają to obecne modele anotacyjne. W trakcie wystąpienia autor zaprezentował jej stosunkowo mniej zbadane aspekty, stanowiące wyzwanie nie mniej ambitne niż wykrywanie koreferencji obiektowej: zadaniu Winograd Schema Challenge, identyfikacji anafory zerowej i koreferencji zdarzeniowej. |
26 października 2015 |
Wojciech Jaworski (Uniwersytet Warszawski) |
Autor zaprezentował powstający w ramach projektu CLARIN-PL parser składniowo-semantyczny, przedstawił, jak działa preprocesing realizowany w oparciu o analizator morfologiczny "Morfeusz", opisał zintegrowaną ze słownikiem walencyjnym „Walenty” gramatykę kategorialną języka polskiego, z której korzysta parser oraz przybliżył formalizm grafów semantycznych służący do reprezentowania znaczenia tekstów. Wspomniał też o algorytmie parsera i strategiach optymalizacyjnych zapewniających jego szybkie działanie i pozwalających w zwarty sposób reprezentować niejednoznaczne rozbiory składniowe i semantyczne. |
16 listopada 2015 |
Izabela Gatkowska (Uniwersytet Jagielloński) |
Empiryczna sieć powiązań leksykalnych jest wynikiem eksperymentu wykorzystującego ludzki mechanizm skojarzeniowy – badany podaje pierwszy wyraz, jaki przychodzi na myśl po zrozumieniu wyrazu bodźca. Badanie przeprowadzono cyklicznie, tj. wyrazy odpowiedzi uzyskane w cyklu pierwszym zostały użyte jako bodźce w cyklu drugim, co umożliwiło powstanie sieci semantycznej, która różni się od sieci budowanych z korpusów tekstowych, np. WORTSCHATZ oraz sieci budowanych ręcznie, np. WordNet. Uzyskane empirycznie powiązania pomiędzy wyrazami sieci mają kierunek i siłę powiązania. Zbiór powiązań wychodzących i przychodzących, w jakie wchodzi konkretny wyraz tworzy węzeł leksykalny sieci (podsieć). Sposób, w jaki sieć charakteryzuje znaczenia pokażemy na przykładzie powiązań zwrotnych, które są szczególnym przypadkiem zależności pomiędzy dwoma wyrazami występującymi w węźle leksykalnym. Jakościowa analiza powiązań zwrotnych wskazuje, iż znane językoznawstwu semantyczne relacje leksykalne, stosowane np. w słowniku WordNet, pozwalają zinterpretować tylko ok. 25% powiązań zwrotnych. Pozostałe powiązania można zinterpretować odwołując się do modelu opisu znaczenia zaproponowanego dla słownika FrameNet. Interpretacja jakościowa wszystkich powiązań występujących w węźle leksykalnym może pozwolić na badania porównawcze węzłów leksykalnych sieci zbudowanych eksperymentalnie dla różnych języków naturalnych, pozwala także na wyodrębnienie empirycznych modeli semantycznych obsługiwanych przez ten sam zestaw powiązań pomiędzy węzłami w sieci. |
30 listopada 2015 |
Dora Montagna (Universidad Autónoma de Madrid) |
Semantyczna reprezentacja hiszpańskiego czasownika polisemicznego |
Autorka zaprezentowała teoretyczny model reprezentacji semantycznej oparty na teorii generatywnego leksykonu Pustejovskiego. Celem propozycji jest stworzenie bazy do automatycznego określania znaczeń i nowego modelu opisu leksykograficznego. Model ten zastosowano do analizy produktywnego czasownika w języku hiszpańskim, zakładając hipotezę niedookreśloności słów, w celu ustalenia wzorców zastosowań semantycznych. |
7 grudnia 2015 |
Łukasz Kobyliński (Instytut Podstaw Informatyki PAN), Witold Kieraś (Uniwersytet Warszawski) |
Tagery morfosyntaktyczne języka polskiego – stan obecny i perspektywy na przyszłość |
W trakcie prezentacji omówione zostały zaproponowane dotychczas podejścia do automatycznego znakowania morfosyntaktycznego tekstów w języku polskim, z naciskiem na analizę działania narzędzi publicznie dostępnych i możliwych do wykorzystania w praktyce. Przeprowadzona została analiza ilościowa i jakościowa błędów popełnianych przez tagery wraz z dyskusją o możliwych przyczynach i sposobach rozwiązania tych problemów. Wyniki tagowania dla języka polskiego zostały skontrastowane z rezultatami otrzymywanymi dla innych języków europejskich. |
8 grudnia 2015 |
Salvador Pons Bordería (Universitat de València) |
Discourse Markers from a pragmatic perspective: The role of discourse units in defining functions |
One of the most disregarded aspects in the description of discourse markers is position. Notions such as "initial position" or "final position" are meaningless unless it can be specified with regard to what a DM is "initial" or "final". This presentation defended the idea that, for this question to be answered, appeal must be made to the notion of "discourse unit". Provided with a set of a) discourse units, and b) discourse positions, determining the function of a given DM is quasi-automatic. |
11 stycznia 2016 |
Małgorzata Marciniak, Agnieszka Mykowiecka, Piotr Rychlik (Instytut Podstaw Informatyki PAN) |
Ekstrakcja terminologii z tekstów w języku polskim – program TermoPL |
Na seminarium omówione zostały zagadnienia ekstrakcji terminologii z korpusów tekstów w języku polskim oraz przedstawiony program TermoPL, w którym zaimplementowane zostały zaproponowane rozwiązania. W omawianych pracach autorzy zastosowali metodę C-value, która ustala istotność terminów na podstawie ich częstości i liczby kontekstów. Metoda ta uwzględnia terminy zagnieżdżone – czyli takie, które są zawarte w dłuższych terminach. Niekiedy prowadzi to do ekstrakcji niepoprawnych semantycznie fraz (np. 'giełda papierów', 'USG jamy'). W celu eliminacji tego typu terminów zaproponowaliśmy metodę, która w procesie wyodrębniania zagnieżdżonych fraz kieruje się siłą powiązań między słowami. |
25 stycznia 2015 |
Wojciech Jaworski (Uniwersytet Warszawski) |
Parser składniowo-semantyczny dla języka polskiego: integracja z zasobami słownikowymi, parsowanie |
Podczas referatu autor opowiedział o integracji parsera składniowo semantycznego z SGJP, Polimorfem, Słowosiecią oraz Walentym. Przedstawił wstępne obserwacje dotyczące tego jaki wpływ na parsowanie ma uzupełnienie gramatyki o sprawdzanie preferencji selekcyjnych. Opisał też formalizm kategorialny służący do parsowania i przedstawił pokrótce, jak działa parser. |
22 lutego 2016 |
Witold Dyrka (Politechnika Wrocławska) |
W wystąpieniu autor przedstawił argumentację za traktowaniem sekwencji, względnie wyższych struktur białkowych, jako zdań w pewnym języku/językach. Następnie zaprezentował kilka interesujących wyników (własnych i nie tylko) zastosowania ilościowych metod analizy tekstu oraz narzędzi lingwistyki formalnej (np. probabilistycznych gramatyk bezkontekstowych) do analizy białek. Wystąpienie zakończyło przedstawienie planów dalszych prac w zakresie "lingwistyki białek" będące wstępem do dyskusji. |
22 lutego 2016 |
Zespół Inżynierii Lingwistycznej (Instytut Podstaw Informatyki PAN) |
Seminarium rozszerzone: prezentacja narzędzi Zespołu |
12:00–12:15: Ludzie, projekty, narzędzia analizy lingwistycznej |
12:15–12:45: Morfeusz 2: analizator i generator fleksyjny dla języka polskiego |
12:45–13:15: Toposław: Tworzenie słowników terminów wielowyrazowych |
13:15–13:45: Przerwa obiadowa |
13:45–14:15: TermoPL: Ekstrakcja terminologii z tekstów w języku polskim |
14:15–14:45: Walenty: Słownik walencyjny języka polskiego |
14:45–15:15: POLFIE: Gramatyka LFG dla języka polskiego |
7 marca 2016 |
Zbigniew Bronk (niezależny informatyk, współpracownik Zespołu Słownika Gramatycznego Języka Polskiego) |
JOD – znacznikowy język formalnego opisu polskiej deklinacji powstał w celu ścisłego opisania reguł i schematów odmiany rzeczowników i przymiotników w języku polskim. Pierwsze zastosowanie znalazł on przy opisie fleksji polskich nazwisk, z uwzględnieniem płci nosiciela lub nosicieli. Model ten jest podstawą działania „Automatu do odmiany nazwisk”. Referent omówił koncepcję języka i implementację jego interpretera oraz zaprezentował edytor JOD i serwis internetowy „Automat do odmiany nazwisk”. |
21 marca 2016 |
Bartosz Zaborowski, Aleksander Zabłocki (Instytut Podstaw Informatyki PAN) |
W ramach seminarium autorzy przedstawili efekt swojej pracy z ostatnich trzech lat, czyli wyszukiwarkę korpusową Poliqarp 2: jej stronę techniczną i działanie widziane od strony użytkownika. Przypomnieli pokrótce model danych, na których operuje wyszukiwarka, budowę języka obsługiwanego przez nowego wykonawcę zapytań, jego siłę wyrazu, oraz różnice w stosunku do wcześniejszej wersji. Szczególną uwagę poświęcili elementom dodanym bądź zmienionym w trakcie rozwoju projektu (obsługa modelu Składnicy i LFG, post-processing, lukry składniowe). Wśród technikaliów znalazła się krótka prezentacja architektury narzędzia, ciekawostki związane z implementacją indeksów, a także nietrywialne decyzje związane z obsługą danych wejściowych (w szczególności NKJP). Na zakończenie zaprezentowane zostały wstępne wyniki wydajności i ich odniesienie do wydajności starego Poliqarpa. |
4 kwietnia 2016 |
Aleksander Wawer (Instytut Podstaw Informatyki PAN) |
Seminarium prezentowało rezultaty grantu NCN zakończonego w styczniu 2016 r. Przedstawiono trzy zasoby, powstałe w związku z projektem: oznaczony wydźwiękiem i przedmiotami opinii bank drzew zależnościowych pochodzący z korpusu recenzji produktów, fragment Składnicy zależnościowej oraz zbiór tweetów. Omówiono eksperymenty nad automatycznym rozpoznawaniem przedmiotów opinii. Obejmują one wykorzystanie dwóch metod analizy składniowej: zależnościowej oraz powierzchniowej, a także metody hybrydowe, w których wyniki analizy składniowej wykorzystywane są przez modele statystyczne (np. CRF). |
21 kwietnia 2016 |
Magdalena Derwojedowa (Uniwersytet Warszawski) |
W wystąpieniu Autorzy przedstawili milionowy korpus roboczy projektu „Automatyczna analiza fleksyjna polszczyzny XIX wieku” (DEC-2012/07/B/HS2/00570). Omówili jego strukturę, stylistyczne, czasowe i geograficzne zróżnicowanie próbek oraz charakterystykę fleksyjną na tle własności opisywanych w literaturze przedmiotu (prace I. Bajerowej). |
9 maja 2016 |
Daniel Janus (Rebased.pl) |
Wystąpienie dotyczyło narzędzi ułatwiających konstrukcję własnych zbiorów danych, w szczególności korpusów. Omówiona została biblioteka Skyscraper, umożliwiająca ekstrakcję ustrukturyzowanych danych z całych witryn WWW, oraz program Smyrna, konkordancer dla języka polskiego z obsługą metadanych. Przedstawiono również przygotowany z użyciem tych narzędzi zbiór danych o nazwie Polish Parliamentary Proceedings Processor (PPPP lub P4), obejmujący m.in. uaktualniany na bieżąco korpus stenogramów sejmowych. Sporo miejsca poświęcono rozwiązaniom technicznym zastosowanym w prezentowanych narzędziach. |
19 maja 2016 |
Kamil Kędzia, Konrad Krulikowski (Uniwersytet Warszawski) |
Generowanie szablonów parafraz dla języka polskiego przy użyciu korpusu równoległego |
W ramach projektu CLARIN-PL przygotowano oprogramowanie służące generowaniu parafraz dla języka polskiego. Jego twórcy zaprezentują jego działanie na wybranych przykładach. Przybliżą również wykorzystaną metodę zespołu Ganitkevitch i in. (2013), która posłużyła jej autorom do stworzenia ogólnodostępnego zasobu Paraphrase Database (PPDB). Omówią także jej rozszerzenie służące do znajdowania szablonów parafraz, czy zastosowane podejście do wyzwań charakterystycznych dla języka polskiego. Dodatkowo przedstawią sposób mierzenia jakości parafraz. |
23 maja 2016 |
Damir Ćavar (Indiana University) |
The Free Linguistic Environment (FLE) started as a project to develop an open and free platform for white-box modeling and grammar engineering, i.e. development of natural language morphologies, prosody, syntax, and semantic processing components that are for example based on theoretical frameworks like two-level morphology, Lexical Functional Grammar (LFG), Glue Semantics, and similar. FLE provides a platform that makes use of some classical algorithms and also new approaches based on Weighted Finite State Transducer models to enable probabilistic modeling and parsing at all linguistic levels. Currently its focus is to provide a platform that is compatible with LFG and an extended version of it, one that we call Probabilistic Lexical Functional Grammar (PLFG). This probabilistic modeling can apply to the c(onstituent) -structure component, i.e. a Context Free Grammar (CFG) backbone can be extended by a Probabilistic Context Free Grammar (PCFG). Probabilities in PLFG can also be associated with structural representations and corresponding f(unctional feature)-structures or semantic properties, i.e. structural and functional properties and their relations can be modeled using weights that can represent probabilities or other forms of complex scores or metrics. In addition to these extensions of the LFG-framework, FLE provides also an open platform for experimenting with algorithms for semantic processing or analyses based on (probabilistic) lexical analyses, c- and f-structures, or similar such representations. Its architecture is extensible to cope with different frameworks, e.g. dependency grammar, optimality theory based approaches, and many more. |
6 czerwca 2016 |
Karol Opara (Instytut Badań Systemowych Polskiej Akademii Nauk) |
Fleksyjny charakter języka polskiego powoduje, że tak samo odmienione części mowy mają zazwyczaj jednobrzmiące końcówki. Umożliwia to łatwe tworzenie dużej liczby rymujących się ze sobą wyrazów nazywanych rymami częstochowskimi (albo gramatycznymi). W referacie przedstawiono wyniki badania jakości i finezji warsztatu poetyckiego różnych polskich twórców opartej na komputerowym wyliczaniu udziału rymów częstochowskich w ich liryce. Zaprezentowano metodę automatycznego wykrywania rymów, wydobywania z tekstu informacji o charakterze statystycznym oraz nowe, „literackie” kryterium doboru liczności próbki do testów statystycznych. Przedstawiono też ranking warsztatu poetyckiego różnych liryków polskich. |
Seminarium „Przetwarzanie języka naturalnego” 2016–2017
10 października 2016 |
Katarzyna Pakulska (Samsung), Barbara Rychalska (Samsung podczas realizacji zadania), Krystyna Chodorowska (Samsung podczas realizacji zadania, ICM obecnie), Wojciech Walczak (Samsung), Piotr Andruszkiewicz (Samsung) |
Detektor Parafraz – polskie rozwiązanie, które wygrało SemEval 2016 |
Celem seminarium jest przedstawienie systemu opracowanego w celu wykrywania semantycznego podobieństwa tekstu w języku angielskim. Przedstawiane rozwiązanie osiągnęło najwyższe wyniki w swoim zadaniu podczas konkursu SemEval 2016. Celem zadania było zmierzenie podobieństwa semantycznego między dwoma zdaniami w skali 0-5 w sposób zbliżony do oceny ludzkiej. Prezentowana metoda jest nowatorskim połączeniem rekursywnych auto-enkoderów używanych do trenowania sieci głębokich (RAE) oraz systemu kar i nagród opartego o bibliotekę WordNet. W celu osiagnięcia lepszych wyników rozszerzono model rozwiązania o zestaw klasyfikatorów obejmujący wiodące rozwiązania w swojej klasie oraz wiele innych cech używanych jako wejścia do regresji liniowej dla metody wektorów nośnych. |
24 października 2016 |
Adam Przepiórkowski, Jakub Kozakoszczak, Jan Winkowski, Daniel Ziembicki, Tadeusz Teleżyński (Instytut Podstaw Informatyki PAN, Uniwersytet Warszawski) |
Seminarium przedstawia stworzone w ramach CLARIN zasoby mające umożliwić jakościową ewaluację systemów RTE: dwa korpusy derywacji tekstowych i korpus reguł wynikania tekstowego. Derywacja tekstowa to ciąg atomowych kroków, które prowadzą od Tekstu do Hipotezy w parze wynikania tekstowego. Oryginalne pary pochodzą z korpusu FraCaS i polskiego tłumaczenia korpusu RTE3. Reguła wynikania tekstowego sankcjonuje relację wynikania między wejściem a wyjściem atomowego kroku za pomocą wzorców składniowych wyrażonych w standardzie UD i dodatkowych ograniczeń semantycznych, logicznych i kontekstualnych wyrażonych w FOL. |
7 listopada 2016 |
Rafał Jaworski (Uniwersytet Adama Mickiewicza w Poznaniu) |
Celem seminarium jest przedstawienie algorytmu Concordia służącego do zmaksymalizowania wydajności pracy tłumacza ludzkiego. Algorytm łączy w sobie zalety klasycznego przeszukiwania pamięci tłumaczeń z funkcją wyszukiwania konkordancji. Ponieważ kluczowym wymaganiem stawianym przed mechanizmami wspomagania tłumaczenia jest szybkość działania, Concordia stosuje usprawnienia standardowych technik wyszukiwania przybliżonego pod kątem obniżenia złożoności obliczeniowej. |
21 listopada 2016 |
Norbert Ryciak, Aleksander Wawer (Instytut Podstaw Informatyki PAN) |
|
Seminarium prezentuje wstępne eksperymenty nad rekurencyjnym obliczaniem wydźwięku fraz z wykorzystaniem zależnościowych informacji składniowych i metod głębokiego uczenia maszynowego. Omówione zostaną implementacje sieci neuronowych powstałe w ramach Clarin 2. Prezentowane będą dane i wyniki uzyskane na zdaniach w języku angielskim. Na seminarium omówimy także powstające zasoby w języku polskim. |
5 grudnia 2017 |
Dominika Rogozińska, Marcin Woliński (Instytut Podstaw Informatyki PAN) |
Referat przedstawia metody konstrukcji algorytmu ujednoznaczniania wyników parsowania wypowiedzeń w języku polskim dla parsera Świgra. Są to metody oparte na probabilistycznych gramatykach bezkontekstowych oraz modelu maksymalizacji entropii. Dyskutujemy różnice w składni języków angielskiego i polskiego oraz ich wpływ na właściwości wykorzystanych modeli probablistycznych. Przedstawiamy także wersję demonstracyjną modułu ujednoznaczniającego wykorzystującą model osiągający skuteczność na poziomie 96.2%. |
9 stycznia 2017 |
Agnieszka Pluwak (Instytut Slawistyki PAN) |
Projekt FrameNet przez jego autorów określany jest jako baza leksykalna o charakterze ontologii (nie jest on ontologią sensu stricto ze względu na wybiorczy opis pojęć oraz relacji między ramami). Ontologie jako reprezentacje wiedzy w NLP powinny mieć zastosowanie do konkretnych dziedzin i tekstów, ale w literaturze przedmiotu do stycznia 2016 nie znalazłam przykładu reprezentacji wiedzy opartej w całości na ramach lub na rozbudowanej strukturze relacji między ramami. Znalazłam jedynie kilka przykładów dziedzinowych reprezentacji wiedzy z użyciem wybranych ram FrameNet (BioFrameNet, Legal FrameNet, etc.), w których wykorzystano je do łączenia danych z rożnych zasobów. Postanowiłam w mojej pracy doktorskiej przeprowadzić eksperyment budowy dziedzinowej reprezentacji wiedzy opartej na relacjach między ramami, określonymi na podstawie analizy tekstów umów najmu. Celem badania był opis ram użytecznych z punktu widzenia potencjalnej ekstrakcji danych z umów najmu, czyli zawierających odpowiedzi na pytania, jakie zadaje sobie profesjonalny analityk czytając tekst umowy. W pracy postawiłam różne pytania, m.in. czy będę mogła wykorzystać gotowe ramy FrameNet, czy też będę musiała zbudować własne? Czy język polski wniesie specyficzne problemy? Jak język specjalistyczny wpłynie na użycie ram? I wiele innych. |
23 stycznia 2017 |
Marek Rogalski (Politechnika Łódzka) |
Automatyczne parafrazowanie |
Parafrazowanie, czyli przedstawianie zasadniczego sensu pewnej wiadomości innymi słowami, stanowi wyznacznik zrozumienia tejże wiadomości. Kiedy nauczyciel pyta ucznia „a teraz, Jasiu, powiedz własnymi słowami...”, sprawdza na ile uczeń rozumie temat. Na prezentacji omówimy zagadnienie automatycznego parafrazowania. Wyodrębnimy zagadnienia składniowych i znaczeniowych parafraz. Omówimy zestaw technik, z pozornie odległych dziedzin, które mogą znaleźć zastosowanie w systemach automatycznego parafrazowania. Przedstawimy także rezultaty, które udało się nam uzyskać z ich pomocą. |
6 lutego 2017 |
Łukasz Kobyliński (Instytut Podstaw Informatyki PAN) |
|
Korpusomat to internetowe narzędzie ułatwiające użytkownikowi samodzielne tworzenie korpusów do badań językoznawczych. Narzędzie umożliwia przesłanie zestawu plików tekstowych wraz z metadanymi, a następnie zlecenie ich automatycznej analizy morfologicznej i lematyzacji analizatorem Morfeusz oraz ujednoznacznienie wyników tagerem Concraft. Powstały korpus można następnie pobrać i badać na własnym komputerze, używając wyszukiwarki korpusowej Poliqarp do wykonywania zapytań dotyczących segmentacji tekstu, form podstawowych, znaczników fleksyjnych, wieloznaczności i dezambiguacji. Poliqarp pozwala także na zliczanie frekwencji określonych wyrazów oraz stosowanie podstawowych miar statystycznych niezbędnych w badaniach kwantytatywnych. Korpusomat – obok przetwarzania czystego tekstu – obsługuje również binarne formaty wejściowe, w tym popularny format plików ebooków i prasy elektronicznej – ePUB. Umożliwia również pobieranie tekstów źródłowych ze stron internetowych, automatycznie usuwając elementy nawigacyjne i pozostawiając do analizy jedynie treść główną dokumentu. |
20 lutego 2017 (gościnny występ na seminarium IPI PAN) |
Elżbieta Hajnicz (Instytut Podstaw Informatyki PAN) |
Słownik walencyjny języka polskiego Walenty przeznaczony jest do wykorzystania przez narzędzia przetwarzania języka naturalnego, przede wszystkim parsery, i dlatego posiada w pełni sformalizowaną reprezentację informacji walencyjnej. W trakcie seminarium zostanie omówione pojęcie walencji oraz język reprezentacji walencji w słowniku wraz z przykładami ilustrującymi, jakie zjawiska językowe są w dany sposób zapisywane. Główny temat stanowi poziom składniowy słownika, lecz w miarę możliwości zaprezentowany zostanie także jego poziom semantyczny. |
2 marca 2017 |
Wojciech Jaworski (Uniwersytet Warszawski) |
W ramach referatu opowiem o podziale na zdania i sterowaniu uruchamianiem poszczególnych parserów w ramach parsera hybrydowego powstającego w ramach projektu Clarin-bis. Opiszę przyjętą metodę konwersji struktur zależnościowych mającą uczynić je zgodnymi ze strukturami parsera kategorialnego. Konwersja będzie miała dwa aspekty: zmianę atrybutów poszczególnych węzłów oraz zmianę powiązań pomiędzy węzłami. Nakreślę w jaki sposób zastosowaną metodę można rozszerzyć tak, by konwertować skompresowane lasy generowane przez parser Świgra. Na koniec opowiem o planach i celu reimplementacji algorytmu MateParser. |
13 marca 2017 |
Marek Kozłowski, Szymon Roziewski (Ośrodek Przetwarzania Informacji) |
|
W marcu 2016 zostaliśmy zaproszeni do Luksemburga na warsztaty pokazujące, jak wykorzystywany jest w Polsce system BabelNet – wielojęzykowa encyklopedia i sieć semantyczna zbudowana na podstawie danych dostępnych w Internecie (np. Wikipedia, WordNet). W ramach warsztatów wygłosiliśmy 3 referaty nt. różnych prac: grupowania krótkich tekstów ze wsparciem informacji semantycznej z BabelNetu, modelowania oceny sentymentu postaci historycznych, profilowania emocjonalnego filmów na podstawie napisów. Wyniki tych prac oraz możliwości BabelNetu prezentowaliśmy również w ramach otwartych spotkań firmy Allegro, tzw. AllegroMeetups. Przeprowadziliśmy też prace polegające na zbieraniu danych o polskich stronach internetowych z archiwum CommonCrawl – ogólnodostępnego otwartego repozytorium zebranych z całego świata stron internetowych, zawierające dane w ponad 40 językach, z okresu ponad 7 lat, o objętości idącej w petabajty (tysiące terabajtów). Naszym celem było opracowanie automatycznych narzędzi do rozproszonego przetwarzania olbrzymiego zbioru stron internetowych w celu wydobycia z nich polskich tekstów i zbudowania na ich podstawie modeli języka: modelu n-gramowego i dystrybucji semantycznej. Tak zbudowane modele pozwalają na usprawnienie metod przetwarzania tekstów (np. tokenizacji, ważenia istotności słów) oraz całej palety metod eksploracji (np. analizy sentymentu, klasyfikacji, grupowania tekstów) internetu. |
20 marca 2017 |
Jakub Szymanik (University of Amsterdam) |
|
W artykule napisanym wspólnie z Camilo Thorne, który zaprezentuję na seminarium, zadajemy pytanie czy złożoność semantyczna wpływa na częstotliwość występowania kwantyfikatorów uogólnionych w korpusie języka angielskiego opracowanym na podstawie Wikipedii. Za miarę złożoności semantycznej przyjmujemy minimalne urządzenie obliczeniowe, które rozpoznaje dany kwantyfikator. W ten sposób otrzymujemy trzy klasy wyrażeń kwantyfikatorowych o rosnącej złożoności: kwantyfikatory arystotelesowskie (rozpoznawalne przy acykliczne automaty skończone z dwoma stanami), kwantyfikatory numeryczne (rozpoznawane przez automaty skończone) i kwantyfikatory proporcjonalne (automaty ze stosem). Używając metod analizy regresji pokazujemy że złożoność semantyczna istotnie tłumaczy 27,29% wariancji w częstotliwości występowania kwantyfikatorów. Następnie porównujemy wpływ złożoności semantycznej do innych znanych źródeł złożoności językowej, zarazem semantycznych (np. monotoniczność) jak i bardziej powierzchownych (np. długość wyrażeń). Podsumowując, nasze obserwacje wskazują, iż semantycznie bardziej złożone kwantyfikatory występują w języku naturalnym rzadziej. |
27 marca 2017 (wystąpienie połączone z seminarium instytutowym) |
Paweł Morawiecki (Instytut Podstaw Informatyki PAN) |
Głębokie sieci neuronowe (DNN) w ostatnich kilku latach stały się narzędziem, które dla wielu problemów w przetwarzaniu obrazu i dźwięku dają najlepsze rozwiązania. Również w przetwarzaniu języka naturalnego można mówić o rewolucji i zupełnie nowych podejściach do problemów takich jak tłumaczenie czy reprezentacja słów. Prezentacja ta ma posłużyć wyrobieniu sobie dobrych intuicji związanych z DNN i funkcjonowaniem podstawowych architektur tych sieci. Omówię i zasugeruję również narzędzia i materiały źródłowe, które mogą pomóc w dalszym zgłębianiu tego zagadnienia i samodzielnych eksperymentach. |
3 kwietnia 2017 |
Katarzyna Budzynska, Chris Reed (Instytut Filozofii i Socjologii PAN, University of Dundee) |
Korpusy argumentacji oraz automatyczne wydobywanie i analiza argumentacji (część I) |
Argumentacja, najistotniejsza forma komunikacji, przyciągała uwagę od samych początków naukowej refleksji. Centre for Argument Technology rozwija infrastrukturę dla badania struktur argumentacyjnych przez prawie dwie ostatnie dekady. Nasze podejście charakteryzuje się kilkoma istotnymi cechami. Po pierwsze, bazujemy na opartym na grafach standardzie reprezentacji argumentów, Argument Interchange Format AIF (Rahwan et al., 2007); oraz teorii zakotwiczania inferencji (Inference Anchoring Theory IAT; Budzynska & Reed, 2011), która pozwala nam ujmować dialogowy kontekst argumentacji. Po drugie, koncentrujemy się na różnorodnych aspektach struktur argumentacyjnych takich jak schematy argumentacji (Lawrence & Reed, 2016); illokucyjne intencje mówców związane z argumentacją (Budzynska et al., 2014a); etos autorów argumentów (Duthie et al., 2016); relacja refrazy, która parafrazuje fragmenty struktur argumentacyjnych (Konat et al., 2016); oraz protokoły argumentacyjnych gier dialogowych (Yaskorska & Budzynska, w przygotowaniu). |
10 kwietnia 2017 |
Paweł Morawiecki (Instytut Podstaw Informatyki PAN) |
|
W ostatnich kilku latach coraz więcej problemów z dziedziny przetwarzania języka naturalnego rozwiązywanych jest przy pomocy sieci neuronowych, w szczególności przy pomocy głębokich architektur. Wśród tych problemów znajdziemy klasyfikacje tematyczne tekstów, reprezentacje słów, etykietowanie zdjęć czy problem koreferencji. W prezentacji przedstawione będą najbardziej obiecujące architektury takie jak rekurencyjne i konwolucyjne sieci. Zagadnienia będą omawiane w kontekście konkretnego problemu – koreferencji dla języka polskiego. |
15 maja 2017 |
Katarzyna Budzynska, Chris Reed (Instytut Filozofii i Socjologii PAN, University of Dundee) |
Korpusy argumentacji oraz automatyczne wydobywanie i analiza argumentacji (część II) |
W drugiej części wystąpienia opiszemy cechy struktur argumentacyjnych na przekładach zaczerpniętych z naszych korpusów AIF, które zawierają zaanotowane struktury argumentacyjne w wielorakich dziedzinach i gatunkach dyskursu (p. także narzędzie anotacyjne), w tym moralną debatę radiową (Budzynska et al., 2014b); transkrypty z debat parlamentarnych w Wielkiej Brytanii (Duthie et al., 2016); e-partycypacja (Konat et al., 2016; Lawrence et al., w druku); oraz prezydenckie debaty w Stanach Zjednoczonych w 2016 roku (Visser et al., w przygotowaniu). Pokażemy także, w jaki sposób te złożone struktury argumentacyjne, które z jednej strony sprawiają, że proces anotacji staje się czasochłonny i mniej miarodajny, mogą z drugiej strony prowadzić do automatycznego wydobywania różnorodnych wartościowych informacji przy użyciu technologii argument mining (Budzynska & Villata, 2017; Lawrence & Reed, w przygotowaniu) oraz argument analytics (Reed et al., w przygotowaniu). |
12 czerwca 2017 (wystąpienie połączone z seminarium instytutowym) |
Adam Pawłowski (Uniwersytet Wrocławski) |
Przedmiotem wykładu będzie zjawisko sekwencyjności w nauce o języku. Sekwencyjność jest tutaj definiowana jako cecha tekstu lub zbioru tekstów, wyrażająca relację następstwa dowolnych jednostek tego samego typu, uporządkowanych w linii tekstu, na osi czasu lub wg innej zmiennej (np. kolejności lektury czy publikowania). Do modelowania tak rozumianej sekwencyjności można wykorzystać m.in. szeregi czasowe, analizę spektralną, teorię szeregów stochastycznych, teorię informacji lub narzędzia akustyki. Podczas referatu przedstawię na podstawie badań własnych oraz literatury przedmiotu struktury sekwencyjne i ich wybrane modele w tekstach ciągłych; modele stosowane w odniesieniu do sekwencji wielu tekstów (znane jako chronologie dzieł); wspomnę o glottochronologii, czyli dziale lingwistyki kwantytatywnej, który stawia sobie za cel matematyczne modelowanie rozwoju języka w długich odcinkach czasu. Odniosę się wreszcie do filozoficznych prób wyjaśniania sekwencyjności (pojęcie „pamięci” tekstu, łańcuch przyczynowo skutkowy, pitagoreizm, platonizm). |