Differences between revisions 153 and 154

Seminarium „Przetwarzanie języka naturalnego” 2015–2016

Seminarium Zespołu Inżynierii Lingwistycznej w Instytucie Podstaw Informatyki Polskiej Akademii Nauk odbywa się nieregularnie w poniedziałki zwykle o godz. 10:15 w siedzibie IPI PAN (ul. Jana Kazimierza 5, Warszawa) i ma charakter otwarty. Poszczególne referaty ogłaszane są na Polskiej Liście Językoznawczej oraz na stronie Lingwistyka komputerowa na Facebooku. Wszystkie nagrania dostępne są na kanale YouTube.

12 października 2015

Vincent Ng (Uniwersytet Teksasu w Dallas)

Koreferencja w OntoNotes – i co dalej?

Znaczący postęp w dziedzinie wykrywania koreferencji dokonał się w ostatnim czasie m.in. dzięki dostępności ręcznie anotowanych korpusów MUC, ACE i OntoNotes. Koreferencja jest jednak zjawiskiem trudniejszym niż uwzględniają to obecne modele anotacyjne. W trakcie wystąpienia autor zaprezentował jej stosunkowo mniej zbadane aspekty, stanowiące wyzwanie nie mniej ambitne niż wykrywanie koreferencji obiektowej: zadaniu Winograd Schema Challenge, identyfikacji anafory zerowej i koreferencji zdarzeniowej.

26 października 2015

Wojciech Jaworski (Uniwersytet Warszawski)

Parser składniowo semantyczny dla języka polskiego

Autor zaprezentował powstający w ramach projektu CLARIN-PL parser składniowo-semantyczny, przedstawił, jak działa preprocesing realizowany w oparciu o analizator morfologiczny "Morfeusz", opisał zintegrowaną ze słownikiem walencyjnym „Walenty” gramatykę kategorialną języka polskiego, z której korzysta parser oraz przybliżył formalizm grafów semantycznych służący do reprezentowania znaczenia tekstów. Wspomniał też o algorytmie parsera i strategiach optymalizacyjnych zapewniających jego szybkie działanie i pozwalających w zwarty sposób reprezentować niejednoznaczne rozbiory składniowe i semantyczne.

16 listopada 2015

Izabela Gatkowska (Uniwersytet Jagielloński)

Empiryczna sieć powiązań leksykalnych

Empiryczna sieć powiązań leksykalnych jest wynikiem eksperymentu wykorzystującego ludzki mechanizm skojarzeniowy – badany podaje pierwszy wyraz, jaki przychodzi na myśl po zrozumieniu wyrazu bodźca. Badanie przeprowadzono cyklicznie, tj. wyrazy odpowiedzi uzyskane w cyklu pierwszym zostały użyte jako bodźce w cyklu drugim, co umożliwiło powstanie sieci semantycznej, która różni się od sieci budowanych z korpusów tekstowych, np. WORTSCHATZ oraz sieci budowanych ręcznie, np. WordNet. Uzyskane empirycznie powiązania pomiędzy wyrazami sieci mają kierunek i siłę powiązania. Zbiór powiązań wychodzących i przychodzących, w jakie wchodzi konkretny wyraz tworzy węzeł leksykalny sieci (podsieć). Sposób, w jaki sieć charakteryzuje znaczenia pokażemy na przykładzie powiązań zwrotnych, które są szczególnym przypadkiem zależności pomiędzy dwoma wyrazami występującymi w węźle leksykalnym. Jakościowa analiza powiązań zwrotnych wskazuje, iż znane językoznawstwu semantyczne relacje leksykalne, stosowane np. w słowniku WordNet, pozwalają zinterpretować tylko ok. 25% powiązań zwrotnych. Pozostałe powiązania można zinterpretować odwołując się do modelu opisu znaczenia zaproponowanego dla słownika FrameNet. Interpretacja jakościowa wszystkich powiązań występujących w węźle leksykalnym może pozwolić na badania porównawcze węzłów leksykalnych sieci zbudowanych eksperymentalnie dla różnych języków naturalnych, pozwala także na wyodrębnienie empirycznych modeli semantycznych obsługiwanych przez ten sam zestaw powiązań pomiędzy węzłami w sieci.

30 listopada 2015

Dora Montagna (Universidad Autónoma de Madrid)

Semantyczna reprezentacja hiszpańskiego czasownika polisemicznego

Autorka zaprezentowała teoretyczny model reprezentacji semantycznej oparty na teorii generatywnego leksykonu Pustejovskiego. Celem propozycji jest stworzenie bazy do automatycznego określania znaczeń i nowego modelu opisu leksykograficznego. Model ten zastosowano do analizy produktywnego czasownika w języku hiszpańskim, zakładając hipotezę niedookreśloności słów, w celu ustalenia wzorców zastosowań semantycznych.

7 grudnia 2015

Łukasz Kobyliński (Instytut Podstaw Informatyki PAN), Witold Kieraś (Uniwersytet Warszawski)

Tagery morfosyntaktyczne języka polskiego – stan obecny i perspektywy na przyszłość

W trakcie prezentacji omówione zostały zaproponowane dotychczas podejścia do automatycznego znakowania morfosyntaktycznego tekstów w języku polskim, z naciskiem na analizę działania narzędzi publicznie dostępnych i możliwych do wykorzystania w praktyce. Przeprowadzona została analiza ilościowa i jakościowa błędów popełnianych przez tagery wraz z dyskusją o możliwych przyczynach i sposobach rozwiązania tych problemów. Wyniki tagowania dla języka polskiego zostały skontrastowane z rezultatami otrzymywanymi dla innych języków europejskich.

8 grudnia 2015

Salvador Pons Bordería (Universitat de València)

Discourse Markers from a pragmatic perspective: The role of discourse units in defining functions

One of the most disregarded aspects in the description of discourse markers is position. Notions such as "initial position" or "final position" are meaningless unless it can be specified with regard to what a DM is "initial" or "final". This presentation defended the idea that, for this question to be answered, appeal must be made to the notion of "discourse unit". Provided with a set of a) discourse units, and b) discourse positions, determining the function of a given DM is quasi-automatic.

11 stycznia 2016

Małgorzata Marciniak, Agnieszka Mykowiecka, Piotr Rychlik (Instytut Podstaw Informatyki PAN)

Ekstrakcja terminologii z tekstów w języku polskim – program TermoPL

Na seminarium omówione zostały zagadnienia ekstrakcji terminologii z korpusów tekstów w języku polskim oraz przedstawiony program TermoPL, w którym zaimplementowane zostały zaproponowane rozwiązania. W omawianych pracach autorzy zastosowali metodę C-value, która ustala istotność terminów na podstawie ich częstości i liczby kontekstów. Metoda ta uwzględnia terminy zagnieżdżone – czyli takie, które są zawarte w dłuższych terminach. Niekiedy prowadzi to do ekstrakcji niepoprawnych semantycznie fraz (np. 'giełda papierów', 'USG jamy'). W celu eliminacji tego typu terminów zaproponowaliśmy metodę, która w procesie wyodrębniania zagnieżdżonych fraz kieruje się siłą powiązań między słowami.

25 stycznia 2015

Wojciech Jaworski (Uniwersytet Warszawski)

Parser składniowo-semantyczny dla języka polskiego: integracja z zasobami słownikowymi, parsowanie

Podczas referatu autor opowiedział o integracji parsera składniowo semantycznego z SGJP, Polimorfem, Słowosiecią oraz Walentym. Przedstawił wstępne obserwacje dotyczące tego jaki wpływ na parsowanie ma uzupełnienie gramatyki o sprawdzanie preferencji selekcyjnych. Opisał też formalizm kategorialny służący do parsowania i przedstawił pokrótce, jak działa parser.

22 lutego 2016

Witold Dyrka (Politechnika Wrocławska)

Język(i) białek? – przesłanki, przyczynki i perspektywy

W wystąpieniu autor przedstawił argumentację za traktowaniem sekwencji, względnie wyższych struktur białkowych, jako zdań w pewnym języku/językach. Następnie zaprezentował kilka interesujących wyników (własnych i nie tylko) zastosowania ilościowych metod analizy tekstu oraz narzędzi lingwistyki formalnej (np. probabilistycznych gramatyk bezkontekstowych) do analizy białek. Wystąpienie zakończyło przedstawienie planów dalszych prac w zakresie "lingwistyki białek" będące wstępem do dyskusji.

22 lutego 2016

Zespół Inżynierii Lingwistycznej (Instytut Podstaw Informatyki PAN)

Seminarium rozszerzone: prezentacja narzędzi Zespołu

12:00–12:15: Ludzie, projekty, narzędzia analizy lingwistycznej

12:15–12:45: Morfeusz 2: analizator i generator fleksyjny dla języka polskiego

12:45–13:15: Toposław: Tworzenie słowników terminów wielowyrazowych

13:15–13:45: Przerwa obiadowa

13:45–14:15: TermoPL: Ekstrakcja terminologii z tekstów w języku polskim

14:15–14:45: Walenty: Słownik walencyjny języka polskiego

14:45–15:15: POLFIE: Gramatyka LFG dla języka polskiego

7 marca 2016

Zbigniew Bronk (niezależny informatyk, współpracownik Zespołu Słownika Gramatycznego Języka Polskiego)

Znacznikowy język formalnego opisu polskiej deklinacji JOD

JOD – znacznikowy język formalnego opisu polskiej deklinacji powstał w celu ścisłego opisania reguł i schematów odmiany rzeczowników i przymiotników w języku polskim. Pierwsze zastosowanie znalazł on przy opisie fleksji polskich nazwisk, z uwzględnieniem płci nosiciela lub nosicieli. Model ten jest podstawą działania „Automatu do odmiany nazwisk”. Referent omówił koncepcję języka i implementację jego interpretera oraz zaprezentował edytor JOD i serwis internetowy „Automat do odmiany nazwisk”.

21 marca 2016

Bartosz Zaborowski, Aleksander Zabłocki (Instytut Podstaw Informatyki PAN)

Poliqarp2 na ostatniej prostej

W ramach seminarium autorzy przedstawili efekt swojej pracy z ostatnich trzech lat, czyli wyszukiwarkę korpusową Poliqarp 2: jej stronę techniczną i działanie widziane od strony użytkownika. Przypomnieli pokrótce model danych, na których operuje wyszukiwarka, budowę języka obsługiwanego przez nowego wykonawcę zapytań, jego siłę wyrazu, oraz różnice w stosunku do wcześniejszej wersji. Szczególną uwagę poświęcili elementom dodanym bądź zmienionym w trakcie rozwoju projektu (obsługa modelu Składnicy i LFG, post-processing, lukry składniowe). Wśród technikaliów znalazła się krótka prezentacja architektury narzędzia, ciekawostki związane z implementacją indeksów, a także nietrywialne decyzje związane z obsługą danych wejściowych (w szczególności NKJP). Na zakończenie zaprezentowane zostały wstępne wyniki wydajności i ich odniesienie do wydajności starego Poliqarpa.

4 kwietnia 2016

Aleksander Wawer (Instytut Podstaw Informatyki PAN)

Identyfikacja przedmiotów opinii w języku polskim

Seminarium prezentowało rezultaty grantu NCN zakończonego w styczniu 2016 r. Przedstawiono trzy zasoby, powstałe w związku z projektem: oznaczony wydźwiękiem i przedmiotami opinii bank drzew zależnościowych pochodzący z korpusu recenzji produktów, fragment Składnicy zależnościowej oraz zbiór tweetów. Omówiono eksperymenty nad automatycznym rozpoznawaniem przedmiotów opinii. Obejmują one wykorzystanie dwóch metod analizy składniowej: zależnościowej oraz powierzchniowej, a także metody hybrydowe, w których wyniki analizy składniowej wykorzystywane są przez modele statystyczne (np. CRF).

21 kwietnia 2016

Magdalena Derwojedowa (Uniwersytet Warszawski)

„Tem lepiej, ale jest to interes miljonowy i traktujemy go poważnie” – 1000 razy po 1000 słów w 5 częściach

W wystąpieniu Autorzy przedstawili milionowy korpus roboczy projektu „Automatyczna analiza fleksyjna polszczyzny XIX wieku” (DEC-2012/07/B/HS2/00570). Omówili jego strukturę, stylistyczne, czasowe i geograficzne zróżnicowanie próbek oraz charakterystykę fleksyjną na tle własności opisywanych w literaturze przedmiotu (prace I. Bajerowej).

9 maja 2016

Daniel Janus (Rebased.pl)

Od nieustrukturyzowanych danych do przeszukiwalnego korpusu bogatego w metadane: Skyscraper, P4, Smyrna

Wystąpienie dotyczyło narzędzi ułatwiających konstrukcję własnych zbiorów danych, w szczególności korpusów. Omówiona została biblioteka Skyscraper, umożliwiająca ekstrakcję ustrukturyzowanych danych z całych witryn WWW, oraz program Smyrna, konkordancer dla języka polskiego z obsługą metadanych. Przedstawiono również przygotowany z użyciem tych narzędzi zbiór danych o nazwie Polish Parliamentary Proceedings Processor (PPPP lub P4), obejmujący m.in. uaktualniany na bieżąco korpus stenogramów sejmowych. Sporo miejsca poświęcono rozwiązaniom technicznym zastosowanym w prezentowanych narzędziach.

19 maja 2016

Kamil Kędzia, Konrad Krulikowski (Uniwersytet Warszawski)

Generowanie szablonów parafraz dla języka polskiego przy użyciu korpusu równoległego

W ramach projektu CLARIN-PL przygotowano oprogramowanie służące generowaniu parafraz dla języka polskiego. Jego twórcy zaprezentują jego działanie na wybranych przykładach. Przybliżą również wykorzystaną metodę zespołu Ganitkevitch i in. (2013), która posłużyła jej autorom do stworzenia ogólnodostępnego zasobu Paraphrase Database (PPDB). Omówią także jej rozszerzenie służące do znajdowania szablonów parafraz, czy zastosowane podejście do wyzwań charakterystycznych dla języka polskiego. Dodatkowo przedstawią sposób mierzenia jakości parafraz.

23 maja 2016

Damir Ćavar (Indiana University)

The Free Linguistic Environment

The Free Linguistic Environment (FLE) started as a project to develop an open and free platform for white-box modeling and grammar engineering, i.e. development of natural language morphologies, prosody, syntax, and semantic processing components that are for example based on theoretical frameworks like two-level morphology, Lexical Functional Grammar (LFG), Glue Semantics, and similar. FLE provides a platform that makes use of some classical algorithms and also new approaches based on Weighted Finite State Transducer models to enable probabilistic modeling and parsing at all linguistic levels. Currently its focus is to provide a platform that is compatible with LFG and an extended version of it, one that we call Probabilistic Lexical Functional Grammar (PLFG). This probabilistic modeling can apply to the c(onstituent) -structure component, i.e. a Context Free Grammar (CFG) backbone can be extended by a Probabilistic Context Free Grammar (PCFG). Probabilities in PLFG can also be associated with structural representations and corresponding f(unctional feature)-structures or semantic properties, i.e. structural and functional properties and their relations can be modeled using weights that can represent probabilities or other forms of complex scores or metrics. In addition to these extensions of the LFG-framework, FLE provides also an open platform for experimenting with algorithms for semantic processing or analyses based on (probabilistic) lexical analyses, c- and f-structures, or similar such representations. Its architecture is extensible to cope with different frameworks, e.g. dependency grammar, optimality theory based approaches, and many more.

6 czerwca 2016

Karol Opara (Instytut Badań Systemowych Polskiej Akademii Nauk)

Rymy częstochowskie w poezji polskiej – ujęcie ilościowe

Fleksyjny charakter języka polskiego powoduje, że tak samo odmienione części mowy mają zazwyczaj jednobrzmiące końcówki. Umożliwia to łatwe tworzenie dużej liczby rymujących się ze sobą wyrazów nazywanych rymami częstochowskimi (albo gramatycznymi). W referacie przedstawiono wyniki badania jakości i finezji warsztatu poetyckiego różnych polskich twórców opartej na komputerowym wyliczaniu udziału rymów częstochowskich w ich liryce. Zaprezentowano metodę automatycznego wykrywania rymów, wydobywania z tekstu informacji o charakterze statystycznym oraz nowe, „literackie” kryterium doboru liczności próbki do testów statystycznych. Przedstawiono też ranking warsztatu poetyckiego różnych liryków polskich.

Seminarium „Przetwarzanie języka naturalnego” 2016–2017

10 października 2016

Katarzyna Pakulska (Samsung), Barbara Rychalska (Samsung podczas realizacji zadania), Krystyna Chodorowska (Samsung podczas realizacji zadania, ICM obecnie), Wojciech Walczak (Samsung), Piotr Andruszkiewicz (Samsung)

Detektor Parafraz – polskie rozwiązanie, które wygrało SemEval 2016

Celem seminarium jest przedstawienie systemu opracowanego w celu wykrywania semantycznego podobieństwa tekstu w języku angielskim. Przedstawiane rozwiązanie osiągnęło najwyższe wyniki w swoim zadaniu podczas konkursu SemEval 2016. Celem zadania było zmierzenie podobieństwa semantycznego między dwoma zdaniami w skali 0-5 w sposób zbliżony do oceny ludzkiej. Prezentowana metoda jest nowatorskim połączeniem rekursywnych auto-enkoderów używanych do trenowania sieci głębokich (RAE) oraz systemu kar i nagród opartego o bibliotekę WordNet. W celu osiagnięcia lepszych wyników rozszerzono model rozwiązania o zestaw klasyfikatorów obejmujący wiodące rozwiązania w swojej klasie oraz wiele innych cech używanych jako wejścia do regresji liniowej dla metody wektorów nośnych.

24 października 2016

Adam Przepiórkowski, Jakub Kozakoszczak, Jan Winkowski, Daniel Ziembicki, Tadeusz Teleżyński (Instytut Podstaw Informatyki PAN, Uniwersytet Warszawski)

Korpus sformalizowanych kroków wynikania tekstowego

Seminarium przedstawia stworzone w ramach CLARIN zasoby mające umożliwić jakościową ewaluację systemów RTE: dwa korpusy derywacji tekstowych i korpus reguł wynikania tekstowego. Derywacja tekstowa to ciąg atomowych kroków, które prowadzą od Tekstu do Hipotezy w parze wynikania tekstowego. Oryginalne pary pochodzą z korpusu FraCaS i polskiego tłumaczenia korpusu RTE3. Reguła wynikania tekstowego sankcjonuje relację wynikania między wejściem a wyjściem atomowego kroku za pomocą wzorców składniowych wyrażonych w standardzie UD i dodatkowych ograniczeń semantycznych, logicznych i kontekstualnych wyrażonych w FOL.

7 listopada 2016

Rafał Jaworski (Uniwersytet Adama Mickiewicza w Poznaniu)

Concordia – algorytm przeszukiwania pamięci tłumaczeń

Celem seminarium jest przedstawienie algorytmu Concordia służącego do zmaksymalizowania wydajności pracy tłumacza ludzkiego. Algorytm łączy w sobie zalety klasycznego przeszukiwania pamięci tłumaczeń z funkcją wyszukiwania konkordancji. Ponieważ kluczowym wymaganiem stawianym przed mechanizmami wspomagania tłumaczenia jest szybkość działania, Concordia stosuje usprawnienia standardowych technik wyszukiwania przybliżonego pod kątem obniżenia złożoności obliczeniowej.

21 listopada 2016

Norbert Ryciak, Aleksander Wawer (Instytut Podstaw Informatyki PAN)

Rekurencyjne obliczanie semantyki fraz na podstawie informacji składniowej z użyciem głębokiego uczenia

Seminarium prezentuje wstępne eksperymenty nad rekurencyjnym obliczaniem wydźwięku fraz z wykorzystaniem zależnościowych informacji składniowych i metod głębokiego uczenia maszynowego. Omówione zostaną implementacje sieci neuronowych powstałe w ramach Clarin 2. Prezentowane będą dane i wyniki uzyskane na zdaniach w języku angielskim. Na seminarium omówimy także powstające zasoby w języku polskim.

5 grudnia 2017

Dominika Rogozińska, Marcin Woliński (Instytut Podstaw Informatyki PAN)

Automatyczne metody ujednoznaczniania drzew rozbioru wypowiedzeń w języku polskim jako ostatnia faza przetwarzania parsera Świgra

Referat przedstawia metody konstrukcji algorytmu ujednoznaczniania wyników parsowania wypowiedzeń w języku polskim dla parsera Świgra. Są to metody oparte na probabilistycznych gramatykach bezkontekstowych oraz modelu maksymalizacji entropii. Dyskutujemy różnice w składni języków angielskiego i polskiego oraz ich wpływ na właściwości wykorzystanych modeli probablistycznych. Przedstawiamy także wersję demonstracyjną modułu ujednoznaczniającego wykorzystującą model osiągający skuteczność na poziomie 96.2%.

9 stycznia 2017

Agnieszka Pluwak (Instytut Slawistyki PAN)

Budowa dziedzinowej reprezentacji wiedzy z pomocą rozszerzonej metody ramowej na podstawie korpusu umów najmu w języku polskim, angielskim i niemieckim

Projekt FrameNet przez jego autorów określany jest jako baza leksykalna o charakterze ontologii (nie jest on ontologią sensu stricto ze względu na wybiorczy opis pojęć oraz relacji między ramami). Ontologie jako reprezentacje wiedzy w NLP powinny mieć zastosowanie do konkretnych dziedzin i tekstów, ale w literaturze przedmiotu do stycznia 2016 nie znalazłam przykładu reprezentacji wiedzy opartej w całości na ramach lub na rozbudowanej strukturze relacji między ramami. Znalazłam jedynie kilka przykładów dziedzinowych reprezentacji wiedzy z użyciem wybranych ram FrameNet (BioFrameNet, Legal FrameNet, etc.), w których wykorzystano je do łączenia danych z rożnych zasobów. Postanowiłam w mojej pracy doktorskiej przeprowadzić eksperyment budowy dziedzinowej reprezentacji wiedzy opartej na relacjach między ramami, określonymi na podstawie analizy tekstów umów najmu. Celem badania był opis ram użytecznych z punktu widzenia potencjalnej ekstrakcji danych z umów najmu, czyli zawierających odpowiedzi na pytania, jakie zadaje sobie profesjonalny analityk czytając tekst umowy. W pracy postawiłam różne pytania, m.in. czy będę mogła wykorzystać gotowe ramy FrameNet, czy też będę musiała zbudować własne? Czy język polski wniesie specyficzne problemy? Jak język specjalistyczny wpłynie na użycie ram? I wiele innych.

23 stycznia 2017

Marek Rogalski (Politechnika Łódzka)

Automatyczne parafrazowanie

Parafrazowanie, czyli przedstawianie zasadniczego sensu pewnej wiadomości innymi słowami, stanowi wyznacznik zrozumienia tejże wiadomości. Kiedy nauczyciel pyta ucznia „a teraz, Jasiu, powiedz własnymi słowami...”, sprawdza na ile uczeń rozumie temat. Na prezentacji omówimy zagadnienie automatycznego parafrazowania. Wyodrębnimy zagadnienia składniowych i znaczeniowych parafraz. Omówimy zestaw technik, z pozornie odległych dziedzin, które mogą znaleźć zastosowanie w systemach automatycznego parafrazowania. Przedstawimy także rezultaty, które udało się nam uzyskać z ich pomocą.

6 lutego 2017

Łukasz Kobyliński (Instytut Podstaw Informatyki PAN)

Korpusomat – narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego

Korpusomat to internetowe narzędzie ułatwiające użytkownikowi samodzielne tworzenie korpusów do badań językoznawczych. Narzędzie umożliwia przesłanie zestawu plików tekstowych wraz z metadanymi, a następnie zlecenie ich automatycznej analizy morfologicznej i lematyzacji analizatorem Morfeusz oraz ujednoznacznienie wyników tagerem Concraft. Powstały korpus można następnie pobrać i badać na własnym komputerze, używając wyszukiwarki korpusowej Poliqarp do wykonywania zapytań dotyczących segmentacji tekstu, form podstawowych, znaczników fleksyjnych, wieloznaczności i dezambiguacji. Poliqarp pozwala także na zliczanie frekwencji określonych wyrazów oraz stosowanie podstawowych miar statystycznych niezbędnych w badaniach kwantytatywnych. Korpusomat – obok przetwarzania czystego tekstu – obsługuje również binarne formaty wejściowe, w tym popularny format plików ebooków i prasy elektronicznej – ePUB. Umożliwia również pobieranie tekstów źródłowych ze stron internetowych, automatycznie usuwając elementy nawigacyjne i pozostawiając do analizy jedynie treść główną dokumentu.

20 lutego 2017 (gościnny występ na seminarium IPI PAN)

Elżbieta Hajnicz (Instytut Podstaw Informatyki PAN)

Język reprezentacji słownika walencyjnego Walenty

Słownik walencyjny języka polskiego Walenty przeznaczony jest do wykorzystania przez narzędzia przetwarzania języka naturalnego, przede wszystkim parsery, i dlatego posiada w pełni sformalizowaną reprezentację informacji walencyjnej. W trakcie seminarium zostanie omówione pojęcie walencji oraz język reprezentacji walencji w słowniku wraz z przykładami ilustrującymi, jakie zjawiska językowe są w dany sposób zapisywane. Główny temat stanowi poziom składniowy słownika, lecz w miarę możliwości zaprezentowany zostanie także jego poziom semantyczny.

2 marca 2017

Wojciech Jaworski (Uniwersytet Warszawski)

Integracja parsera zależnościowego z parserem kategorialnym

W ramach referatu opowiem o podziale na zdania i sterowaniu uruchamianiem poszczególnych parserów w ramach parsera hybrydowego powstającego w ramach projektu Clarin-bis. Opiszę przyjętą metodę konwersji struktur zależnościowych mającą uczynić je zgodnymi ze strukturami parsera kategorialnego. Konwersja będzie miała dwa aspekty: zmianę atrybutów poszczególnych węzłów oraz zmianę powiązań pomiędzy węzłami. Nakreślę w jaki sposób zastosowaną metodę można rozszerzyć tak, by konwertować skompresowane lasy generowane przez parser Świgra. Na koniec opowiem o planach i celu reimplementacji algorytmu MateParser.

13 marca 2017

Marek Kozłowski, Szymon Roziewski (Ośrodek Przetwarzania Informacji)

Internetowe modele języka polskiego oraz semantyczne przetwarzanie tekstów

W marcu 2016 zostaliśmy zaproszeni do Luksemburga na warsztaty pokazujące, jak wykorzystywany jest w Polsce system BabelNet – wielojęzykowa encyklopedia i sieć semantyczna zbudowana na podstawie danych dostępnych w Internecie (np. Wikipedia, WordNet). W ramach warsztatów wygłosiliśmy 3 referaty nt. różnych prac: grupowania krótkich tekstów ze wsparciem informacji semantycznej z BabelNetu, modelowania oceny sentymentu postaci historycznych, profilowania emocjonalnego filmów na podstawie napisów. Wyniki tych prac oraz możliwości BabelNetu prezentowaliśmy również w ramach otwartych spotkań firmy Allegro, tzw. AllegroMeetups. Przeprowadziliśmy też prace polegające na zbieraniu danych o polskich stronach internetowych z archiwum CommonCrawl – ogólnodostępnego otwartego repozytorium zebranych z całego świata stron internetowych, zawierające dane w ponad 40 językach, z okresu ponad 7 lat, o objętości idącej w petabajty (tysiące terabajtów). Naszym celem było opracowanie automatycznych narzędzi do rozproszonego przetwarzania olbrzymiego zbioru stron internetowych w celu wydobycia z nich polskich tekstów i zbudowania na ich podstawie modeli języka: modelu n-gramowego i dystrybucji semantycznej. Tak zbudowane modele pozwalają na usprawnienie metod przetwarzania tekstów (np. tokenizacji, ważenia istotności słów) oraz całej palety metod eksploracji (np. analizy sentymentu, klasyfikacji, grupowania tekstów) internetu.

20 marca 2017

Jakub Szymanik (University of Amsterdam)

Relacja pomiędzy złożonością semantyczną a częstością występowania kwantyfikatorów w tekstach

W artykule napisanym wspólnie z Camilo Thorne, który zaprezentuję na seminarium, zadajemy pytanie czy złożoność semantyczna wpływa na częstotliwość występowania kwantyfikatorów uogólnionych w korpusie języka angielskiego opracowanym na podstawie Wikipedii. Za miarę złożoności semantycznej przyjmujemy minimalne urządzenie obliczeniowe, które rozpoznaje dany kwantyfikator. W ten sposób otrzymujemy trzy klasy wyrażeń kwantyfikatorowych o rosnącej złożoności: kwantyfikatory arystotelesowskie (rozpoznawalne przy acykliczne automaty skończone z dwoma stanami), kwantyfikatory numeryczne (rozpoznawane przez automaty skończone) i kwantyfikatory proporcjonalne (automaty ze stosem). Używając metod analizy regresji pokazujemy że złożoność semantyczna istotnie tłumaczy 27,29% wariancji w częstotliwości występowania kwantyfikatorów. Następnie porównujemy wpływ złożoności semantycznej do innych znanych źródeł złożoności językowej, zarazem semantycznych (np. monotoniczność) jak i bardziej powierzchownych (np. długość wyrażeń). Podsumowując, nasze obserwacje wskazują, iż semantycznie bardziej złożone kwantyfikatory występują w języku naturalnym rzadziej.

27 marca 2017 (wystąpienie połączone z seminarium instytutowym)

Paweł Morawiecki (Instytut Podstaw Informatyki PAN)

Wprowadzenie do głębokich sieci neuronowych

Głębokie sieci neuronowe (DNN) w ostatnich kilku latach stały się narzędziem, które dla wielu problemów w przetwarzaniu obrazu i dźwięku dają najlepsze rozwiązania. Również w przetwarzaniu języka naturalnego można mówić o rewolucji i zupełnie nowych podejściach do problemów takich jak tłumaczenie czy reprezentacja słów. Prezentacja ta ma posłużyć wyrobieniu sobie dobrych intuicji związanych z DNN i funkcjonowaniem podstawowych architektur tych sieci. Omówię i zasugeruję również narzędzia i materiały źródłowe, które mogą pomóc w dalszym zgłębianiu tego zagadnienia i samodzielnych eksperymentach.

3 kwietnia 2017

Katarzyna Budzynska, Chris Reed (Instytut Filozofii i Socjologii PAN, University of Dundee)

Korpusy argumentacji oraz automatyczne wydobywanie i analiza argumentacji (część I)

Argumentacja, najistotniejsza forma komunikacji, przyciągała uwagę od samych początków naukowej refleksji. Centre for Argument Technology rozwija infrastrukturę dla badania struktur argumentacyjnych przez prawie dwie ostatnie dekady. Nasze podejście charakteryzuje się kilkoma istotnymi cechami. Po pierwsze, bazujemy na opartym na grafach standardzie reprezentacji argumentów, Argument Interchange Format AIF (Rahwan et al., 2007); oraz teorii zakotwiczania inferencji (Inference Anchoring Theory IAT; Budzynska & Reed, 2011), która pozwala nam ujmować dialogowy kontekst argumentacji. Po drugie, koncentrujemy się na różnorodnych aspektach struktur argumentacyjnych takich jak schematy argumentacji (Lawrence & Reed, 2016); illokucyjne intencje mówców związane z argumentacją (Budzynska et al., 2014a); etos autorów argumentów (Duthie et al., 2016); relacja refrazy, która parafrazuje fragmenty struktur argumentacyjnych (Konat et al., 2016); oraz protokoły argumentacyjnych gier dialogowych (Yaskorska & Budzynska, w przygotowaniu).

10 kwietnia 2017

Paweł Morawiecki (Instytut Podstaw Informatyki PAN)

Sieci neuronowe do przetwarzania języka naturalnego – wybrane architektury i problemy

W ostatnich kilku latach coraz więcej problemów z dziedziny przetwarzania języka naturalnego rozwiązywanych jest przy pomocy sieci neuronowych, w szczególności przy pomocy głębokich architektur. Wśród tych problemów znajdziemy klasyfikacje tematyczne tekstów, reprezentacje słów, etykietowanie zdjęć czy problem koreferencji. W prezentacji przedstawione będą najbardziej obiecujące architektury takie jak rekurencyjne i konwolucyjne sieci. Zagadnienia będą omawiane w kontekście konkretnego problemu – koreferencji dla języka polskiego.

15 maja 2017

Katarzyna Budzynska, Chris Reed (Instytut Filozofii i Socjologii PAN, University of Dundee)

Korpusy argumentacji oraz automatyczne wydobywanie i analiza argumentacji (część II)

W drugiej części wystąpienia opiszemy cechy struktur argumentacyjnych na przekładach zaczerpniętych z naszych korpusów AIF, które zawierają zaanotowane struktury argumentacyjne w wielorakich dziedzinach i gatunkach dyskursu (p. także narzędzie anotacyjne), w tym moralną debatę radiową (Budzynska et al., 2014b); transkrypty z debat parlamentarnych w Wielkiej Brytanii (Duthie et al., 2016); e-partycypacja (Konat et al., 2016; Lawrence et al., w druku); oraz prezydenckie debaty w Stanach Zjednoczonych w 2016 roku (Visser et al., w przygotowaniu). Pokażemy także, w jaki sposób te złożone struktury argumentacyjne, które z jednej strony sprawiają, że proces anotacji staje się czasochłonny i mniej miarodajny, mogą z drugiej strony prowadzić do automatycznego wydobywania różnorodnych wartościowych informacji przy użyciu technologii argument mining (Budzynska & Villata, 2017; Lawrence & Reed, w przygotowaniu) oraz argument analytics (Reed et al., w przygotowaniu).

12 czerwca 2017 (wystąpienie połączone z seminarium instytutowym)

Adam Pawłowski (Uniwersytet Wrocławski)

Struktury sekwencyjne w tekście

Przedmiotem wykładu będzie zjawisko sekwencyjności w nauce o języku. Sekwencyjność jest tutaj definiowana jako cecha tekstu lub zbioru tekstów, wyrażająca relację następstwa dowolnych jednostek tego samego typu, uporządkowanych w linii tekstu, na osi czasu lub wg innej zmiennej (np. kolejności lektury czy publikowania). Do modelowania tak rozumianej sekwencyjności można wykorzystać m.in. szeregi czasowe, analizę spektralną, teorię szeregów stochastycznych, teorię informacji lub narzędzia akustyki. Podczas referatu przedstawię na podstawie badań własnych oraz literatury przedmiotu struktury sekwencyjne i ich wybrane modele w tekstach ciągłych; modele stosowane w odniesieniu do sekwencji wielu tekstów (znane jako chronologie dzieł); wspomnę o glottochronologii, czyli dziale lingwistyki kwantytatywnej, który stawia sobie za cel matematyczne modelowanie rozwoju języka w długich odcinkach czasu. Odniosę się wreszcie do filozoficznych prób wyjaśniania sekwencyjności (pojęcie „pamięci” tekstu, łańcuch przyczynowo skutkowy, pitagoreizm, platonizm).

Seminarium „Przetwarzanie języka naturalnego” 2017–2018

2 października 2017

Paweł Rutkowski (Uniwersytet Warszawski)

Polski język migowy z perspektywy lingwistyki korpusowej

Polski język migowy (PJM) jest w pełni funkcjonalnym językiem wizualno-przestrzennym, którym posługuje się polska społeczność Głuchych. Jego rozwój rozpoczął się w drugiej dekadzie XIX wieku – wraz z założeniem pierwszej szkoły dla głuchych w Polsce. Do niedawna poświęcano mu bardzo niewiele uwagi w badaniach językoznawczych. Celem niniejszego wystąpienia jest przedstawienie szeroko zakrojonego projektu badawczego służącego opracowaniu obszernego i reprezentatywnego korpusu PJM. Korpus ten jest obecnie tworzony na Uniwersytecie Warszawskim. Ma formę zbioru klipów wideo przedstawiających osoby głuche posługujące się PJM w różnych kontekstach komunikacyjnych. Filmy są szczegółowo anotowane: segmentowane, lematyzowane, tłumaczone na polszczyznę, znakowane pod względem różnych cech gramatycznych i transkrybowane za pomocą symboli HamNoSys. W skali międzynarodowej korpus PJM jest obecnie jednym z dwóch największych zbiorów oznakowanych danych migowych. Na szczególną uwagę zasługuje kwestia frekwencji leksykalnej w PJM. Dane tego typu opracowane zostały dotąd dla zaledwie kilku języków migowych – m.in. dla amerykańskiego języka migowego, nowozelandzkiego języka migowego, brytyjskiego języka migowego, australijskiego języka migowego i słoweńskiego języka migowego. Podstawy empiryczne tych badań wahały się od 100 000 (NZSL) do zaledwie 4 000 jednostek tekstowych (ASL). Niniejsze wystąpienie wpisuje się w dyskusję dotyczącą właściwości frekwencyjnych leksemów języków migowych poprzez przeanalizowanie o wiele większego zbioru relewantnych danych z PJM.

23 października 2017

Katarzyna Krasnowska-Kieraś, Piotr Rybak, Alina Wróblewska (Instytut Podstaw Informatyki PAN)

Ewaluacja polskich wektorów dystrybucyjnych w kontekście dezambiguacji morfoskładniowej i parsowania zależnościowego

Uczenie maszynowe oparte na głębokich sieciach neuronowych okazało się bardzo skuteczną heurystyką w różnych zadaniach przetwarzania języka naturalnego. Ważnym komponentem sieci neuronowych jest reprezentacja wektorowa cech (tzw. feature embedding). Istnieje możliwość tworzenia wektorów dystrybucyjnych cech różnego typu, np. wyrazów czy części mowy. Przedmiotem prezentacji będą wyniki analizy, która pokazała, dla jakich cech można obliczać modele dystrybucyjne typu „embedding” dla języków fleksyjnych. Ponadto przedstawimy propozycję ewaluacji in vivo wektorów dystrybucyjnych w kontekście dwóch podstawowych zadań NLP – dezambiguacji morfoskładniowej oraz parsowania zależnościowego. Nasze eksperymenty ewaluacyjne zostały przeprowadzone na zasobach w języku polskim. Przedstawione badania były inspiracją do stworzenia dezambiguatora morfoskładniowego – Toygger, który wygrał Zadanie 1 (A) w konkursie PolEval 2017 i który również zostanie przedstawiony podczas wystąpienia.

6 listopada 2017

Szymon Łęski (Samsung R&D Polska)

Głębokie sieci neuronowe w modelach języka

W czasie wykładu przedstawię wprowadzenie do modeli językowych: tradycyjnych, opartych na n-gramach, oraz nowych, opartych na sieciach rekurencyjnych. Następnie, na podstawie artykułów z ostatnich lat, omówię najciekawsze pomysły rozszerzeń i modyfikacji sieciowych modeli językowych, takie jak modyfikacje reprezentacji słów czy modele z wyjściem nie ograniczonym do z góry ustalonego słownika.

20 listopada 2017

Michał Ptaszyński (Kitami Institute of Technology, Japonia)

Analiza emocji w kontekście jako jeden ze sposobów na osiągnięcie Roztropności Komputerowej

Badania nad emocjami w dziedzinie Sztucznej Inteligencji i dziedzinach pokrewnych nabrały w ostatnich latach prędkości. Niestety, w większości badań emocje są analizowane bez otaczającego ich kontekstu. W wykładzie spróbuję przekonać słuchaczy, iż rozpoznawanie emocji bez analizowania ich kontekstu jest niekompletne i nie może być wystarczające do praktycznych zastosowań w świecie rzeczywistym. Opiszę także niektóre konsekwencje nieuwzględnienia kontekstu emocji. Na koniec przedstawię jedno podejście, w którym podjęliśmy się analizy emocji w ich kontekście i krótko opiszę pierwsze eksperymenty przeprowadzone w tym kierunku.

27 listopada 2017 (prezentacja na seminarium IPI PAN)

Maciej Ogrodniczuk (Instytut Podstaw Informatyki PAN)

Automatyczne wykrywanie koreferencji nominalnej w języku polskim

Tematem wykładu będzie propozycja opisu nominalnych zależności koreferencyjnych w polszczyźnie (czyli zbiorów konstrukcji tekstowych posiadających wspólną referencję) oraz prace nad implementacją metod do ich wykrywania. Przedstawię wykorzystane do tego celu podejście korpusowe z ręczną anotacją konstrukcji koreferencyjnych oraz proces tworzenia narzędzi lingwistyczno-informatycznych wraz z oceną ich jakości za pomocą standardowych metod ewaluacyjnych.

4 grudnia 2017

Adam Dobaczewski, Piotr Sobotka, Sebastian Żurowski (Uniwersytet Mikołaja Kopernika w Toruniu)

Słownik reduplikacji i powtórzeń polskich

W naszym wystąpieniu przedstawimy słownik przygotowany przez zespół z Instytutu Języka Polskiego UMK w Toruniu (grant NPRH 11H 13 0265 82). W słowniku rejestrujemy wyrażenia języka polskiego, w których zaobserwować można obecność mechanizmu reduplikacji lub powtórzenia form tych samych leksemów. Jednostki języka wyróżniamy zgodnie z założeniami gramatyki operacyjnej A. Bogusławskiego i dzielimy je na dwie podstawowe grupy: (i) jednostki leksykalne składające się z dwóch takich samych segmentów lub form tego samego leksemu (typu całkiem całkiem; fakt faktem, że _); (ii) jednostki operacyjne bazujące na jakimś schemacie powtórzenia słów należących do pewnej przewidzianej przez ten schemat klasy (typu N[nom] N[inst], ale _, gdzie N to dowolny rzeczownik, np. sąd sądem, ale _; miłość miłością, ale _). Ze względu na stosunkowo niewielką liczbę zarejestrowanych jednostek przygotowaliśmy słownik w postaci tradycyjnej (drukowanej). Jego podstawą materiałową są zasoby NKJP, które przeszukiwane były za pomocą wyszukiwarki powtórzeń w korpusie NKJP. Narzędzie to zostało specjalnie przygotowane na potrzeby tego projektu w ZIL IPI PAN.

29 stycznia 2018

Roman Grundkiewicz (Uniwersytet Adama Mickiewicza/Uniwersytet Edynburski)

Automatyczna poprawa błędów językowych za pomocą tłumaczenia maszynowego

Podczas wystąpienia opowiem o zadaniu automatycznej poprawy błędów językowych w tekstach pisanych przez osoby uczące się języka angielskiego jako języka obcego. Przedstawię wyniki badań nad zastosowaniem statystycznego tłumaczenia maszynowego opartego na frazach, które w sposób znaczący poszerzyły aktualny stan wiedzy w dziedzinie. Omówię jak istotna jest właściwa optymalizacja modelu na podstawie przyjętej automatycznej miary ewaluacji oraz zastosowanie odpowiednich cech gęstych i rzadkich. Zwięźle opiszę również dalsze badania z wykorzystaniem neuronowego tłumaczenia maszynowego.

12 lutego 2018

Agnieszka Mykowiecka, Aleksander Wawer, Małgorzata Marciniak, Piotr Rychlik (Instytut Podstaw Informatyki PAN)

Wykorzystanie semantyki dystrybucyjnej do oceny metaforyczności polskich fraz rzeczownikowych

Na seminarium omówimy wektorowe modele języka skonstruowane dla polskiego w oparciu o lematy i formy słów oraz ich wykorzystanie w typowych zastosowaniach rozpoznawania synonimii i analogii między zadanymi parami słów. Następnie przedstawimy wykorzystanie wektorowych modeli do rozpoznawania metaforycznego i literalnego znaczenia fraz typu przymiotnik-rzeczownik (AN). Przedstawimy implementację oceniającą frazy izolowane oraz porównamy ją do metod opisanych w literaturze. Na koniec przedstawimy stan prac dotyczących rozpoznawania metaforycznego lub literalnego znaczenia frazy AN w kontekście zdaniowym.

26 lutego 2018

Celina Heliasz (Uniwersytet Warszawski)

Tworzyć czy współtworzyć? O poszukiwaniu synergii między informatykami a lingwistami

Główny temat mojego referatu stanowią metody prowadzenia badań z zakresu lingwistyki korpusowej, którą zajmują się obecnie zarówno informatycy, jak i lingwiści. W referacie zaprezentuję próby ustalania i wizualizowania relacji semantycznych w tekście, podejmowane przez informatyków w ramach projektów RST (Rhetorical Structure Theory) i PDTB (Penn Discourse Treebank), które następnie skontrastuję z analogicznymi próbami podjętymi przez informatyków i lingwistów w IPI PAN w ramach przedsięwzięcia CLARIN-PL. Celem referatu będzie przedstawienie uwarunkowań efektywnej analizy lingwistycznej, które muszą zostać wzięte pod uwagę przy projektowaniu narzędzi informatycznych, jeśli narzędzia te mają służyć prowadzeniu badań nad tekstem i wyprowadzaniu z nich mocnych podstaw teorii lingwistycznych, a nie tylko wdrażaniu gotowych teorii z tego zakresu.

9 kwietnia 2018

Jan Kocoń (Politechnika Wrocławska)

Rozpoznawanie wyrażeń temporalnych i opisów sytuacji w dokumentach tekstowych dla języka polskiego

Wyrażeniem temporalnym nazywamy ciąg wyrazów, który informuje o tym, kiedy, jak często sytuacja ma miejsce lub jak długo trwa. Opisy sytuacji to wyrażenia językowe, które sygnalizują zmianę stanu w opisie rzeczywistości oraz niektóre stany. Zagadnienia te wchodzą w zakres wydobywania informacji z tekstu (ang. Information Extraction). Są one dobrze zdefiniowane i opisane dla języka angielskiego oraz częściowo dla innych języków. Specyfikacja TimeML, której język opisu informacji temporalnej został zaakceptowany jako standard ISO, doczekała się oficjalnych adaptacji dla sześciu języków, a część dotycząca opisu wyrażeń temporalnych jest zdefiniowana dla jedenastu języków. Rezultatem prac, prowadzonych w ramach CLARIN-PL, jest adaptacja wytycznych TimeML dla języka polskiego. Motywacją do realizacji tego tematu był fakt, że z informacji temporalnej korzystają różne metody inżynierii języka naturalnego, w tym metody do odpowiadania na pytania zadawane w języku naturalnym, automatycznego streszczania tekstu, wydobywania relacji semantycznych i wiele innych. Metody te umożliwiają badaczom z dziedziny nauk humanistycznych i społecznych pracę z bardzo dużymi zbiorami tekstów, których analiza bez wykorzystania wymienionych metod byłaby bardzo czasochłonna, o ile w ogóle możliwa. Oprócz samej adaptacji języka opisu informacji temporalnej, kluczowym aspektem dla infrastruktury wykorzystującej metody do rozpoznawania wyrażeń temporalnych i opisów sytuacji, jest jakość oraz wydajność metod. Na prezentacji zostanie omówiona zarówno analiza jakości danych przygotowywanych przez ekspertów dziedzinowych (w tym analiza zgodności anotacji), jak i wyniki badań mających na celu redukcję złożoności obliczeniowej problemu przy jednoczesnym zachowaniu niepogorszonej jakości działania metod.

23 kwietnia 2018

Włodzimierz Gruszczyński, Dorota Adamiec, Renata Bronikowska (Instytut Języka Polskiego PAN), Witold Kieraś, Dorota Komosińska, Marcin Woliński (Instytut Podstaw Informatyki PAN)

Korpus historyczny – problemy transliteracji, transkrypcji i anotacji na przykładzie Elektronicznego Korpusu Tekstów Polskich z XVII i XVIII w. (do 1772 r.)

W czasie seminarium omówiony zostanie proces powstawania Elektronicznego Korpusu Tekstów Polskich z XVII i XVIII w. (KorBa, czyli Korpus Barokowy) ze szczególnym uwzględnieniem tych zadań i problemów, które nie występują w trakcie tworzenia korpusu współczesnych polskich tekstów (np. NKJP) lub różnią się w istotny sposób od analogicznych zadań i problemów występujących przy tworzeniu korpusów tekstów współczesnych. Poszczególne problemy omówione zostaną w kolejności ich pojawiania się w trakcie tworzenia korpusu. Przedstawimy także narzędzia, które powstały w trakcie realizacji projektu (stworzone na potrzeby projektu lub dostosowane do tych potrzeb). Po ogólnej prezentacji projektu KorBa (założenia, finansowanie, zespół, stan obecny, przeznaczenie korpusu) omówione zostaną kwestie zasady doboru tekstów, problemy występujące przy pozyskiwaniu tekstów i włączaniu ich do bazy danych, problem ogromnego zróżnicowania ortograficznego tekstów i konieczność ich transkrypcji na współczesną ortografię, problemy analizy morfologicznej oraz narzędzia do ręcznego i automatycznego znakowania morfosyntaktycznego podkorpusu oraz przeszukiwania korpusu.

14 maja 2018

Łukasz Kobyliński, Michał Wasiluk i Zbigniew Gawłowicz (Instytut Podstaw Informatyki PAN)

MTAS: nowa wyszukiwarka korpusowa. Doświadczenia wdrożeniowe w kontekście polskich korpusów językowych

Podczas seminarium omówimy nasze doświadczenia w kontekście języka polskiego z oprogramowaniem MTAS, które jest silnikiem przeszukiwania korpusów tekstowych. Przedstawimy dotychczasowe wdrożenia oprogramowania MTAS w takich projektach związanych z korpusami tekstowymi jak KORBA (korpus języka polskiego XVII i XVIII wieku), korpus XIX wieku, a także w przypadku Narodowego Korpusu Języka Polskiego. Omówimy również wstępne eksperymenty dotyczące wykorzystania oprogramowania MTAS w Korpusomacie – narzędziu do tworzenia własnych korpusów tekstowych. W trakcie prezentacji przedstawimy rozwiązania problemów, na które napotkaliśmy adaptując MTAS do wykorzystania w kontekście języka polskiego oraz wstępne wyniki testów wydajnościowych. Przedyskutujemy również możliwości wyszukiwania za pomocą tego silnika oraz plany dalszej adaptacji i rozwoju.

21 maja 2018 (prezentacja na seminarium IPI PAN)

Piotr Borkowski (Instytut Podstaw Informatyki PAN)

Metody semantycznej kategoryzacji w zadaniach analizy dokumentów tekstowych

W przygotowywanej pracy doktorskiej zatytułowanej „Metody semantycznej kategoryzacji w zadaniach analizy dokumentów tekstowych” zaproponowano oraz zbadano nowy algorytm semantycznej kategoryzacji dokumentów. Na jego podstawie opracowano nowy algorytm agregacji kategorii, rodzinę algorytmów semantycznych klasyfikatorów, a także heterogeniczny komitet klasyfikatorów (łączący algorytm semantycznej kategoryzacji i znanych dotąd klasyfikatorów). W ramach referatu przedstawię pokrótce ich koncepcję oraz wyniki badań ich skuteczności.

28 maja 2018

Krzysztof Wołk (Polsko-Japońska Akademia Technik Komputerowych)

Eksploracja i wykorzystanie korpusów porównywalnych w tłumaczeniu maszynowym

Problemem, który zostanie przedstawiony na seminarium, jest poprawa tłumaczenia maszynowego mowy z języka polskiego na angielski. Najpopularniejsze metodologie i narzędzia tłumaczenia nie są dobrze dostosowane do języka polskiego, a zatem wymagają adaptacji. Brakuje w zasobów językowych zarówno monolingwalnych jak i bilingwalnych dla języka polskiego. Dlatego głównym celem badania było opracowanie automatycznego zestawu narzędzi do przygotowywania zasobów tekstowych poprzez wydobywanie informacji z korpusów porównywalnych oraz prawie porównywalnych. Eksperymenty przeprowadzono głównie na swobodnej ludzkiej mowie, składającej się z wykładów, napisów do filmów, prac Parlamentu Europejskiego i tekstów Europejskiej Agencji Leków. Celem była rygorystyczna analiza problemów i poprawa jakości systemów bazowych, tj. dostosowanie technik i parametrów treningowych w celu zwiększenia wyniku Bilingual Evaluation Understudy (BLEU) w celu uzyskania maksymalnej wydajności. Kolejnym celem było stworzenie dodatkowych dwujęzycznych i jednojęzycznych zasobów tekstowych poprzez wykorzystanie dostępnych danych online oraz uzyskanie i wydobycie porównywalnych korpusów dla równoległych par zdań. Do tego zadania wykorzystano metodologię wykorzystującą maszynę wektorów pomocniczych i algorytm Needlemana-Wunscha wraz z łańcuchem specjalistycznych narzędzi.

4 czerwca 2018

Piotr Przybyła (University of Manchester)

Wspomaganie przesiewania dokumentów w przeglądach systematycznych z użyciem uczenia maszynowego i eksploracji tekstu

Przeglądy systematyczne, mające na celu zbiorczą analizę całej dostępnej literatury dotyczącej danego zagadnienia, są podstawowym narzędziem w badaniach medycznych. Ich najbardziej pracochłonny etap stanowi ręczne przesiewanie streszczeń tysięcy artykułów zwróconych przez wyszukiwarki w celu wskazania kilkudziesięciu rzeczywiście dotyczących wybranego tematu. Problem ten można przedstawić jako zadanie klasyfikacji dokumentów, i, przy wsparciu nienadzorowanych technik eksploracji tekstu, uzyskać znaczące przyspieszenie całego procesu. Prezentacja obejmie dostosowanie algorytmów uczenia maszynowego do specyfiki zadania, techniki wyszukiwania, wydobywania i wizualizacji tematów i pojęć w kolekcjach, wdrożenie systemu i ewaluację w NICE (National Institute for Health and Care Excellence), agencji opracowującej wytyczne dla służby zdrowia w Wielkiej Brytanii.

11 czerwca 2018

Danijel Korzinek (Polsko-Japońska Akademia Technik Komputerowych)

Proces przygotowania korpusu mowy na podstawie nagrań Polskiej Kroniki Filmowej

Na prezentacji zostanie omówiony proces tworzenia korpusu mowy oparty o nagrania z Polskiej Kroniki Filmowej, jaki stworzono w ramach projektu CLARIN-PL. Zasób ten jest niezwykle cenny ze względu na jego przydatność w badaniach lingwistycznych, szczególnie w kontekście mowy i języka historycznego. Za cel wybrano sobie okres w latach 1945–1960. W prezentacji zostaną omówione różne zagadnienia: od kwestii prawnych dotyczących uzyskania samych zasobów, do szczegółów technicznych dotyczących dostosowania narzędzi analizy mowy do tej nietypowej dziedziny.

Seminarium „Przetwarzanie języka naturalnego” 2018–19

1 października 2018

Janusz S. Bień (Katedra Lingwistyki Formalnej UW, prof. emeryt)

Elektroniczne indeksy leksykograficzne

Omówione zostaną indeksy do zasobów leksykograficznych dostępnych w Internecie w formacie DjVu. Indeksy takie mogą być przeglądane, modyfikowane i tworzone za pomocą swobodnego (dostępnego bezpłatnie na otwartej licencji) programu djview4poliqarp — zostanie przedstawiona geneza i historia tego programu. W programie tym obsługa indeksów została pierwotnie wprowadzona na potrzeby indeksu haseł do XIX-wiecznego słownika Lindego, ale może być wykorzystywana również do innych zasobów, jak to zostanie pokazane na przykładach. Zostaną w szczególności zademonstrowane — po raz pierwszy publicznie — ulepszenia wprowadzone do programu w ostatnich miesiącach.

15 października 2018

Wojciech Jaworski, Szymon Rutkowski (Uniwersytet Warszawski)

Wielowarstwowy regułowy model fleksji języka polskiego

Referat poświęcony będzie wielowarstwowemu modelowi fleksji języka polskiego. Model opracowany został na podstawie haseł pochodzących ze Słownika Gramatycznego Języka Polskiego; nie korzysta z koncepcji paradygmatu odmiany. Model składa się z trzech warstw ręcznie opracowanych reguł: „warstwy ortograficzno-fonetycznej” konwertującej segment do reprezentacji odzwierciedlającej prawidłowości morfologiczne języka, „warstwy analitycznej” generującej lemat oraz określającej afiksy oraz „warstwy interpretacji” nadającej interpretację morfosyntaktyczną na podstawie wykrytych afiksów. Model dostarcza wiedzę o języku analizatorowi morfologicznemu zaopatrzonemu w funkcję odgadywania lematów i interpretacji morfosyntaktycznych dla form nie należących do słownika (ang. guesser). Drugim zastosowaniem jest generowanie form słów na podstawie lematu i interpretacji morfosyntaktycznej. Podczas referatu poruszone zostanie również zagadnienie dezambiguacji wyników dostarczanych przez analizator morfologiczny. Wersja demonstracyjna programu dostępna jest w Internecie.

29 października 2018

Jakub Waszczuk (Uniwersytet Heinricha Heinego w Düsseldorfie)

Od tagowania morfoskładniowego do identyfikacji czasownikowych jednostek wielowyrazowych: podejście dyskryminatywne

Pierwsza część referatu poświęcona została narzędziu Concraft-pl 2.0, nowej wersji morfoskładniowego tagera dla języka polskiego bazującego na warunkowych polach losowych. Concraft-pl 2.0 przeprowadza podział na słowa (tokenizację) w ramach ujednoznaczniania morfoskładniowego, co pozwala używać go bezpośrednio na grafach wyjściowych analizatora Morfeusz. Inne istniejące tagery dla języka polskiego albo ignorują ten problem, albo opierają się na heurystykach stosowanych przed fazą ujednoznaczniania. W drugiej części referatu przedstawiona została metoda automatycznej identyfikacji czasownikowych jednostek wielowyrazowych opierająca się na wynikach analizy zależnościowej. W tym podejściu identyfikacja sprowadza się do problemu etykietowania, w którym jedna z dwóch etykiet (MWE/not-MWE) musi zostać określona dla każdego wierzchołka drzewa zależnościowego. Do rozwiązania tego problemu wykorzystany został model warunkowych pól losowych dostosowany do drzewiastej struktury danych wejściowych. System oparty na tym podejściu uzyskał pierwsze miejsce w zamkniętej ścieżce konkursu PARSEME shared task 2018.

5 listopada 2018

Jakub Kozakoszczak (Uniwersytet Warszawski / Uniwersytet Heinricha Heinego w Düsseldorfie)

Zawsze od rana do środy — semantyka i normalizacja quasi-okresowych określeń czasu w języku polskim

Standardowo, wyrażenia takie jak „Januarys” lub „Fridays” są interpretowane w językach reprezentacji wiedzy czasowej jako plastry (slices) kolekcji czasowych drugiego stopnia, czyli np. wszystkie piąte elementy siedmioelementowych ciągów dni wyrównanych z ciągiem tygodni kalendarzowych. W wystąpieniu przedstawię wynik prac nad normalizacją najczęstszych polskich wyrażeń quasi-okresowych dla potrzeb systemu rezerwacyjnego. W części językoznawczej przedstawię argumenty przeciwko tłumaczeniu wyrażeń typu „piątki” na „piąte dni tygodnia” i testy semantyczne na proste klasy quasi-okresowości. W części formalnej zaproponuję rozszerzenie istniejących rozwiązań o reprezentację intensjonalnych operatorów quasi-okresowych „od”, „do”, „przed” i „po” obciętych do argumentów, dla których są monotoniczne. W części implementacyjnej zaprezentuję algorytm leniwego wyliczania uogólnionego przecięcia kolekcji.

19 listopada 2018

Daniel Zeman (Instytut Lingwistyki Formalnej i Stosowanej, Uniwersytet Karola w Pradze)

Universal Dependencies i języki słowiańskie

Przedstawię Universal Dependencies, ogólnoświatową inicjatywę mającą na celu udostępnienie wielojęzycznych korpusów zaanotowanych na poziomie morfologicznym i składniowym zgodnie z uniwersalnymi wytycznymi. Omówię koncepcję kluczowych argumentów (ang. core arguments), która jest jednym z fundamentów UD. W drugiej części wykładu skupię się na kilku interesujących problemach i wyzwaniach związanych z zastosowaniem Uniwersalnych Zależności w językach słowiańskich. Omówię przykłady z 12 języków słowiańskich reprezentowanych obecnie w UD, które pokazują, że nadal można poprawić spójność międzyjęzykową.

3 grudnia 2018

Ekaterina Lapshinova-Koltunski (Uniwersytet Kraju Saary)

Analiza i anotacja koreferencji na potrzeby lingwistyki kontrastywnej i translatoryki

Podczas wykładu opowiem o trwających pracach nad analizą koreferencji w kontekście wielojęzycznym. Przedstawię dwa podejścia do analizy zjawisk koreferencyjnych: (1) teoretyczne, gdy na podstawie wiedzy lingwistycznej definiujemy kategorie językowe i używamy ich do stworzenia anotowanego korpusu, który można wykorzystać albo do dalszej analizy lingwistycznej, albo jako dane treningowe dla zastosowań NLP, (2) oparte na danych: w tym przypadku zaczynamy od zestawu płytkich cech naszym zdaniem związanych z dyskursem, wyodrębniamy struktury z dużej ilości danych i analizujemy je z językowego punktu widzenia próbując opisać i wyjaśnić obserwowane zjawiska za pomocą istniejących teorii i gramatyk.

7 stycznia 2019

Adam Przepiórkowski (Instytut Podstaw Informatyki PAN / Uniwersytet Warszawski), Agnieszka Patejuk (Instytut Podstaw Informatyki PAN / Uniwersytet Oksfordzki)

Enhanced Universal Dependencies

Celem referatu jest prezentacja dwóch nurtów naszych prac związanych z Universal Dependencies (UD), czyli ze standardem znakowania składniowego korpusów tekstów (http://universaldependencies.org/). Pierwszy nurt dotyczy opracowania nowego banku drzew języka polskiego, w pełni wykorzystującego obecną rozszerzoną wersję standardu. Korpus ten jest wynikiem konwersji wcześniejszego ‘banku drzew’, zawierającego znakowanie zgodne z teorią Lexical Functional Grammar, a więc nie tylko drzewa składnikowe, ale także struktury funkcyjne. W referacie omówiony zostanie proces konwersji, a także wynik tego procesu, czyli uzyskany bank drzew języka polskiego. Drugi nurt prac dotyczy natomiast podstaw standardu UD, a szczególnie pewnych jego niespójności i braków, które zidentyfikowaliśmy w trakcie tworzenia polskiego korpusu zgodnego z tym standardem. Skupimy się tutaj na dwóch obszarach, które są szczególnie problematyczne w omawianym standardzie, a mianowicie na odróżnieniu funkcji gramatycznych ‘pierwszorzędnych’ (ang. core) i ‘drugorzędnych’ (ang. oblique) – w zamierzeniu twórców standardu rozróżnienie to miało zastąpić (lecz nie do końca zastępuje) dychotomię argument/modyfikator – oraz na koordynacji, czyli zjawisku trudnym dla wszystkich podejść zależnościowych.

14 stycznia 2019

Agata Savary (Université François Rabelais Tours)

Dosłowne interpretacje jednostek wielowyrazowych: analiza ilościowa i jakościowa

Jednostki wielowyrazowe (ang. multiword expressions), takie jak „wyciągnąć nogi” (umrzeć), „wziąć udział” czy „bać się”, to związki frazeologiczne odznaczające się nieregularnymi własnościami na poziomie słownictwa, składni, a przede wszystkim semantyki. Są one istotnym wyzwaniem m.in. dla modelowania języka i dla lingwistyki komputerowej z uwagi na ich niekompozycyjne znaczenie, tzn. niemożność ustalenia znaczenia danego wyrażenia w sposób regularny na bazie znaczeń jego pojedynczych składników i zachodzących między nimi związków składniowych. Dodatkowo wyrażenia takie cechuje możliwość występowania zarówno w znaczeniu przenośnym jak i dosłownym (np. „wyciągnął nogi” w sensie „zmarł”, w opozycji do „położył się na trawie i wyciągnął nogi”). Dosłownym interpretacjom jednostek wielowyrazowych poświęcono szereg prac z dziedziny psycholingwistyki, lingwistyki i przetwarzania języka naturalnego, jednak zjawisko to nie zostało jak dotąd precyzyjne zdefiniowane ani poddane analizie ilościowej. Na tym seminarium zaproponuję definicję dosłownej interpretacji jednostki wielowyrazowej w oparciu m.in. o jej składnię. Zaprezentuję też analizę jakościową i ilościową tego zjawiska dla języka polskiego oraz dla 4 innych typologicznie odległych języków: baskijskiego, greckiego, niemieckiego i portugalskiego. Wyniki tego studium, przeprowadzonego na bazie korpusu wielojęzycznego sieci naukowej PARSEME, wskazują m.in. na rzadkość użycia jednostek wielowyrazowych w ich znaczeniach dosłownych. Pokażę również, jakiego typu ograniczenia morfologiczne i składniowe niektórych jednostek wielowyrazowych pozwalają odróżnić ich interpretacje metaforyczne od dosłownych oraz, przeciwnie, jakie ich wystąpienia cechuje daleko idąca niejednoznaczność.

21 stycznia 2019

Marek Łaziński (Uniwersytet Warszawski), Michał Woźniak (Uniwersytet Jagielloński)

Aspekt czasownika w słownikach i korpusach. Jak i po co tagować pary aspektowe?

W referacie przedstawione zostaną zasady tagowania par aspektowych w nowym Korpusie polsko-niemieckim Uniwersytetu Warszawskiego i Uniwersytetu Gutenberga w Moguncji. Zanim to uczynimy, przyjrzymy się nieuporządkowanym informacjom o aspekcie czasownika w najważniejszych polskich słownikach oraz w NKJP. Dotychczasowe tagowanie aspektu w korpusach słowiańskich ogranicza się do jednego tokenu, tymczasem aspekt jest kategorią parzystą i warto rozpatrywać go w ramach par czasownikowych. Zakładamy, że jest to możliwe we wszystkich korpusach języków słowiańskich, w tym w NKJP, choć trzeba się zgodzić na pewne uproszczenia. Projekt informacji aspektowej w korpusie składa się z 3 części:

1. Tag 1 powtarza informację aspektową z NKJP, uzupełniając ją o wartość „dwuaspektowy”, poprawiając błędy i rozdzielając dokonaność/niedokonaność parzystą (pisać-napisać) od nieparzystej (stać, runąć).

2. Tag 2 określa morfologiczny wyznacznik aspektu w ramach pary: prefiks, sufiks lub supletywizm morfemów.

3. Tag 3 odnosi do pary aspektowej.

Przypisanie tagów odbywa się na podstawie listy i nie uwzględnia faktu, że czasownik potencjalnie parzysty może być także użyty jako imperfectivum tantum, np. „długopis cienko pisze”. W wypadku trójek aspektowych, np. tworzyć:stworzyć:stwarzać oraz alternatywnych odpowiedników dk w zależności od znaczenia, np. malować:pomalować/namalować korpus zaznacza każde przypisanie do potencjalnej pary. Czasownik stworzyć jest przypisany do par tworzyć:stworzyć i stwarzać:stworzyć (tylko w pierwszym wypadku wyznacznikiem aspektu jest prefiks), czasownik malować do par malować:pomalować i malować:namalować. Mimo niejednoznaczności odniesienia do par otamowany wstępnie korpus pozwala uzyskać wiarygodną informację o zachowaniu kategorii, także w ujęciu porównawczym słowiańsko-niesłowiańskim. W referacie przedstawimy wyniki wstępnego określenia profilu gramatycznego czasowników dk i ndk z par prefiksalnych i sufiksalnych.

11 lutego 2019

Anna Wróblewska (Applica / Politechnika Warszawska), Filip Graliński (Applica / Uniwersytet Adama Mickiewicza)

Rozumienie modeli uczenia maszynowego opartych na tekście – rozpoznawanie emocji i detekcja języka obraźliwego

W jaki sposób radzimy sobie z problemami z modelowaniem tekstu w aplikacjach biznesowych? Przedstawimy prototypową architekturę do automatyzacji procesów w pracy z danymi tekstowymi oraz kilka przykładów użycia modeli uczenia maszynowego. Przypadki użycia będą dotyczyć m.in. wykrywania emocji i języka obraźliwego. Pokażemy również nasze narzędzie do analizy zbiorów danych i modeli.

28 lutego 2019

Jakub Dutkiewicz (Politechnika Poznańska)

Empirical research on medical information retrieval

Przedstawiamy wyniki i procedury ewaluacji konkursu bioCADDIE 2016 w zakresie wyszukiwania precyzyjnych danych medycznych. Nasze dobre wyniki wynikają użycia word embedding dla wyznaczenia słów rozszerzających zapytanie z odpowiednimi wagami. Ocena ponad 10000 dokumentów związana jest z dużym wysiłkiem. Ponad 10 lat temu została zaproponowana prosta metoda próbkowania w celu oszacowania średniej dokładności (AP) i znormalizowanego skumulowanego zysku informacyjnego (NDCG), w warunkach niekompletnych adnotacji. Aby ta metoda działała, liczba ocenionych dokumentów musi być stosunkowo duża. Takie warunki nie zostały spełnione w konkursie bioCADDIE 2016 i TREC PM 2017, 2018. Specyfika oceny bioCADDIE sprawia, że wyniki uzyskane po konkursie są niekompatybilne z uzyskanymi podczas konkursu. W bioCADDIE, w przypadku niektórych pytań nie było żadnego zaadnotowanego relewantnego dokumentu. Wyniki są silnie uzależnione od pozycji odcięcia. Jako efekt, uzyskana w bioCADDIE miara infAP jest słabo skorelowana z infNDCG, a różnica może wynieść do 0,15-0,20 wartości bezwzględnej. Proponujemy symulowane środowisko z właściwościami, które odzwierciedlają rzeczywiste systemy. W ramach symulacji wdrażamy szereg działań ewaluacyjnych i omawiamy użyteczność środków z częściowo przypisanymi do nich zbiorami dokumentów w odniesieniu do wielkości zbioru, liczby adnotowanych dokumentów i proporcji między liczbą relewantnych i nierelewantnych dokumentów. W szczególności koncentrujemy się na zachowaniu wyżej wymienionych AP i NDCG oraz ich estymowanych wersjach.

21 marca 2019

Grzegorz Wojdyga (Instytut Podstaw Informatyki PAN)

Optymalizacja rozmiaru modeli językowych

Podczas seminarium zostaną omówione wyniki pracy nad redukcją rozmiaru modeli językowych. Autor dokona przeglądu literatury na temat redukcji rozmiaru rekurencyjnych sieci neuronowych (pod kątem modeli językowych). Następnie zostaną przedstawione własne implementacje wraz z wynikami ewaluacji na różnych korpusach polskich i angielskich.

25 marca 2019

Łukasz Dębowski (Instytut Podstaw Informatyki PAN)

GPT-2 – kilka refleksji obserwatora

GPT-2 to najnowszy neuronowy statystyczny model języka autorstwa zespołu OpenAI. Statystyczny model języka to rozkład prawdopodobieństwa na tekstach, który może służyć do automatycznego generowania tekstów. W istocie GPT-2 okazał się zaskakująco dobrym generatorem semantycznie spójnych tekstów długości kilku akapitów, istotnie przesuwając granice tego, co uchodziło dotychczas za możliwe technicznie. Antycypując zastosowanie GPT-2 do generowania fake-newsów zespół OpenAI zdecydował się upublicznić tylko dziesięciokrotnie zredukowaną wersję modelu. W swoim wystąpieniu podzielę się refleksjami odnośnie GPT-2.

8 kwietnia 2019

Agnieszka Wołk (Polsko-Japońska Akademia Technik Komputerowych i Instytut Badań Literackich PAN)

Zastosowanie kolokacji językowych w badaniach ilościowych

Celem prezentacji jest wsparcie ogromnego wysiłku niezbędnego do analizy kompetencji w zakresie frazeologicznego pisania poprzez opracowanie automatycznego narzędzia do oceny tekstów. Podejmowana jest próba zmierzenia zarówno biegłości w pisaniu w drugim języku (L2), jak i jakości tekstu. Technika CollGram, która przeszukuje korpus referencyjny w celu określenia częstotliwości każdej pary (n-gramów) i oblicza wynik t-score oraz powiązane informacje. Jako korpus referencyjny posłużyliśmy się korpusem poziomu 3 współczesnego amerykańskiego języka angielskiego (COCA). Nasze rozwiązanie sprawdzało się w pisemnej ocenie i jest dostępne bezpłatnie jako serwis internetowy lub jako źródło dla innych badaczy. Przedstawiamy również, jak używać go jako narzędzi do wczesnego wykrywania depresji oraz stylometrii.

15 kwietnia 2019

Alina Wróblewska, Piotr Rybak (Instytut Podstaw Informatyki PAN)

Automatyczna analiza zależnościowa języka polskiego

Parsowanie zależnościowe jest kluczowym problemem w zaawansowanych zadaniach NLP. Struktura predykatywno-argumentowa zakodowana w strukturach zależnościowych może wspierać tłumaczenie maszynowe, odpowiadanie na pytania, analizę wydźwięku itp. W prezentacji przedstawimy PDB – największy bank drzew zależnościowych dla języka polskiego, oraz COMBO – niezależny od języka system neuronowy do tagowania, analizy morfologicznej, lematyzacji i parsowania zależnościowego.

13 maja 2019

Piotr Niewiński, Maria Pszona, Alessandro Seganti, Helena Sobol (Samsung R&D Polska), Aleksander Wawer (Instytut Podstaw Informatyki PAN)

Samsung R&D Polska w konkursie SemEval 2019

Prezentacja przedstawia rozwiązania zgłoszone przez Samsung R&D Polska w konkursie SemEval 2019. Uzyskały one drugie miejsca w dwóch różnych zadaniach konkursu.

1. Weryfikacja faktów na forach internetowych

Przedstawimy system zaprojektowany w ramach konkursu SemEval. Zadanie polegało na zaklasyfikowaniu pytań do jednej z trzech kategorii: OPINIA, FAKT lub ROZRYWKA. Przedstawimy rozwiązanie, które zajęło drugie miejsce: głęboko zregularyzowana rezydualna sieć neuronowa wykorzystująca embeddingi uzyskane przy pomocy enkodera Universal Sencence Encoder. Model ten porównamy z dwoma innymi zaproponowanymi architekturami opartymi o metody zespołowe (ensemble).

2. Deep-learningowy klasyfikator zdań obraźliwych

Jak zdefiniować „obraźliwe treści”? Czym są „brzydkie słowa”? W naszej prezentacji omówimy trudności w określeniu tego, co obraźliwe, wulgarne i niepożądane w mediach społecznościowych (np. na Twitterze). Następnie zaprezentujemy nasz system zastosowany w zadaniach 5 i 6 SemEval 2019 (w którym osiągnęliśmy drugie miejsce dla podzadania C zadania 6). Porównamy również osiągi naszego modelu z podejściami stanu techniki i przedstawimy, jak przewyższył on inne systemy dzięki zastosowaniu obserwacji lingwistycznych.

27 maja 2019

Magdalena Zawisławska (Uniwersytet Warszawski)

Synamet – polski korpus metafor synestezyjnych

Celem referatu jest omówienie procedury identyfikacji metafor synestezyjnych oraz anotacji jednostek metaforycznych (JM) w korpusie Synamet, który powstał w ramach grantu NCN (UMO-2014/15/B/HS2/00182). Podstawą teoretyczną opisu metafor była teoria metafory pojęciowej Lakoffa i Johnsona połączona z semantyką ramową Fillmore’a. Lakoff i Johnson definiują metaforę jako rzutowanie pojęciowe z domeny źródłowej na domenę docelową, np. MIŁOŚĆ TO PODRÓŻ. Ponieważ pojęcie domeny jest niejasne, w projekcie zostało zastąpione przez ramę interpretacyjną, która ponadto (w odróżnieniu od domeny) łączy poziom semantyczny z językowym (ramy interpretacyjne są aktywowane przez jednostki leksykalne). Metafora synestezyjna w węższym rozumieniu polega na opisie danej percepcji za pomocą leksyki prymarnie odnoszącej się do innej percepcji, np. jasny dźwięk (WZROK → SŁUCH), zaś w szerszym – do opisu zjawisk niepercepcyjnych za pomocą wyrażeń odnoszących się do wrażeń zmysłowych, np. szorstki charakter (DOTYK → CZŁOWIEK). W projekcie Synamet zastosowano jeszcze szerszą definicję metafory synestezyjnej – każde wyrażenie, w którym zostały aktywowane dwie różne ramy, z których jedna była percepcyjna, było traktowane jako metafora synestezyjna. Teksty w korpusie Synamet pochodzą z blogów poświęconym recenzjom perfum, wina, piwa, muzyki, czy kawy, gdzie ze względu na tematykę szansa na znalezienie metafor synestezyjnych była największa. W referacie zaprezentowane zostaną podstawowe statystyki korpusu i atypowe jednostki metaforyczne, które wymagały modyfikacji procedury anotacji.

Zapraszamy także do zapoznania się z archiwum seminariów z lat 2000–15 oraz listą wystąpień z aktualnego roku akademickiego.

-  ⇤ ← Revision 153 as of 2019-08-26 18:44:50 → 
  Size: 105579
  Editor: MaciejOgrodniczuk
  Comment:
+   ← Revision 154 as of 2019-08-26 18:46:00 → ⇥
  Size: 104719
  Editor: MaciejOgrodniczuk
  Comment:
-Deletions are marked like this.
+Additions are marked like this.
 Line 283:
-||<style="border:0;padding-bottom:10px">Seminarium [[http://nlp.ipipan.waw.pl/|Zespołu Inżynierii Lingwistycznej]] w&nbsp;[[http://www.ipipan.waw.pl/|Instytucie Podstaw Informatyki]] [[http://www.pan.pl/|Polskiej Akademii Nauk]] odbywa się nieregularnie w&nbsp;poniedziałki zwykle o&nbsp;godz.&nbsp;10:15 w&nbsp;siedzibie IPI&nbsp;PAN (ul.&nbsp;Jana Kazimierza&nbsp;5, Warszawa) i&nbsp;ma charakter otwarty. Poszczególne referaty ogłaszane są na [[http://lists.nlp.ipipan.waw.pl/mailman/listinfo/ling|Polskiej Liście Językoznawczej]] oraz na stronie [[https://www.facebook.com/lingwistyka.komputerowa|Lingwistyka komputerowa]] na Facebooku. Wszystkie nagrania dostępne są na [[https://www.youtube.com/channel/UC5PEPpMqjAr7Pgdvq0wRn0w|kanale YouTube]].||<style="border:0;padding-left:30px;">[[seminar|{{attachment:seminarium-archiwum/en.png}}]]||

Diff for "seminarium-archiwum"

Menu

Seminarium „Przetwarzanie języka naturalnego” 2015–2016

Seminarium „Przetwarzanie języka naturalnego” 2016–2017

Seminarium „Przetwarzanie języka naturalnego” 2017–2018

Seminarium „Przetwarzanie języka naturalnego” 2018–19