Size: 16267
Comment:
|
Size: 19394
Comment:
|
Deletions are marked like this. | Additions are marked like this. |
Line 40: | Line 40: |
||<style="border:0;padding-left:30px;padding-bottom:15px">Streszczenie wystąpienia zostanie udostępnione w późniejszym terminie.|| | ||<style="border:0;padding-left:30px;padding-bottom:15px">Celem referatu jest prezentacja dwóch nurtów naszych prac związanych z Universal Dependencies (UD), czyli ze standardem znakowania składniowego korpusów tekstów (http://universaldependencies.org/). Pierwszy nurt dotyczy opracowania nowego banku drzew języka polskiego, w pełni wykorzystującego obecną rozszerzoną wersję standardu. Korpus ten jest wynikiem konwersji wcześniejszego ‘banku drzew’, zawierającego znakowanie zgodne z teorią Lexical Functional Grammar, a więc nie tylko drzewa składnikowe, ale także struktury funkcyjne. W referacie omówiony zostanie proces konwersji, a także wynik tego procesu, czyli uzyskany bank drzew języka polskiego. Drugi nurt prac dotyczy natomiast podstaw standardu UD, a szczególnie pewnych jego niespójności i braków, które zidentyfikowaliśmy w trakcie tworzenia polskiego korpusu zgodnego z tym standardem. Skupimy się tutaj na dwóch obszarach, które są szczególnie problematyczne w omawianym standardzie, a mianowicie na odróżnieniu funkcji gramatycznych ‘pierwszorzędnych’ (ang. core) i ‘drugorzędnych’ (ang. oblique) – w zamierzeniu twórców standardu rozróżnienie to miało zastąpić (lecz nie do końca zastępuje) dychotomię argument/modyfikator – oraz na koordynacji, czyli zjawisku trudnym dla wszystkich podejść zależnościowych.|| |
Line 44: | Line 44: |
||<style="border:0;padding-left:30px;padding-bottom:5px">'''Tytuł wystąpienia będzie dostępny wkrótce'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}} {{attachment:seminarium-archiwum/icon-en.gif|Slajdy w języku angielskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Streszczenie wystąpienia zostanie udostępnione w późniejszym terminie.|| |
||<style="border:0;padding-left:30px;padding-bottom:5px">'''Dosłowne interpretacje jednostek wielowyrazowych: analiza ilościowa i jakościowa'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}} {{attachment:seminarium-archiwum/icon-en.gif|Slajdy w języku angielskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Jednostki wielowyrazowe (ang. multiword expressions), takie jak „wyciągnąć nogi” (umrzeć), „wziąć udział” czy „bać się”, to związki frazeologiczne odznaczające się nieregularnymi własnościami na poziomie słownictwa, składni, a przede wszystkim semantyki. Są one istotnym wyzwaniem m.in. dla modelowania języka i dla lingwistyki komputerowej z uwagi na ich niekomopozycyjne znaczenie, tzn. niemożność ustalenia znaczenia danego wyrażenia w sposób regularny na bazie znaczeń jego pojedynczych składników i zachodzących między nimi związków składniowych. Dodatkowo wyrażenia takie cechuje możliwość występowania zarówno w znaczeniu przenośnym jak i dosłownym (np. „wyciągnął nogi” w sensie „zmarł”, w opozycji do „położył się na trawie i wyciągnął nogi”). Dosłownym interpretacjom jednostek wielowyrazowych poświęcono szereg prac z dziedziny psycholingwistyki, lingwistyki i przetwarzania języka naturalnego, jednak zjawisko to nie zostało jak dotąd precyzyjne zdefiniowane ani poddane analizie ilościowej. Na tym seminarium zaproponuję definicję dosłownej interpretacji jednostki wielowyrazowej w oparciu m.in. o jej składnię. Zaprezentuję też analizę jakościową i ilościową tego zjawiska dla języka polskiego oraz dla 4 innych typologicznie odległych języków: baskijskiego, greckiego, niemieckiego i portugalskiego. Wyniki tego studium, przeprowadzonego na bazie korpusy wielojęzycznego sieci naukowej [[http://www.parseme.eu|PARSEME]], wskazują m.in. na rzadkość użycia jednostek wielowyrazowych w ich znaczeniach dosłownych. Pokażę również, jakiego typu ograniczenia morfologiczne i składniowe niektórych jednostek wielowyrazowych pozwalają odróżnić ich interpretacje metaforyczne od dosłownych oraz, przeciwnie, jakie ich wystąpienia cechuje daleko idąca niejednoznaczność.|| |
Seminarium „Przetwarzanie języka naturalnego” 2018–19
Seminarium Zespołu Inżynierii Lingwistycznej w Instytucie Podstaw Informatyki Polskiej Akademii Nauk odbywa się nieregularnie w poniedziałki zwykle o godz. 10:15 w siedzibie IPI PAN (ul. Jana Kazimierza 5, Warszawa) i ma charakter otwarty. Poszczególne referaty ogłaszane są na Polskiej Liście Językoznawczej oraz na stronie Lingwistyka komputerowa na Facebooku. Wszystkie nagrania dostępne są na kanale YouTube. |
1 października 2018 |
Janusz S. Bień (Katedra Lingwistyki Formalnej UW, prof. emeryt) |
Omówione zostaną indeksy do zasobów leksykograficznych dostępnych w Internecie w formacie DjVu. Indeksy takie mogą być przeglądane, modyfikowane i tworzone za pomocą swobodnego (dostępnego bezpłatnie na otwartej licencji) programu djview4poliqarp — zostanie przedstawiona geneza i historia tego programu. W programie tym obsługa indeksów została pierwotnie wprowadzona na potrzeby indeksu haseł do XIX-wiecznego słownika Lindego, ale może być wykorzystywana również do innych zasobów, jak to zostanie pokazane na przykładach. Zostaną w szczególności zademonstrowane — po raz pierwszy publicznie — ulepszenia wprowadzone do programu w ostatnich miesiącach. |
15 października 2018 |
Wojciech Jaworski, Szymon Rutkowski (Uniwersytet Warszawski) |
Referat poświęcony będzie wielowarstwowemu modelowi fleksji języka polskiego. Model opracowany został na podstawie haseł pochodzących ze Słownika Gramatycznego Języka Polskiego; nie korzysta z koncepcji paradygmatu odmiany. Model składa się z trzech warstw ręcznie opracowanych reguł: „warstwy ortograficzno-fonetycznej” konwertującej segment do reprezentacji odzwierciedlającej prawidłowości morfologiczne języka, „warstwy analitycznej” generującej lemat oraz określającej afiksy oraz „warstwy interpretacji” nadającej interpretację morfosyntaktyczną na podstawie wykrytych afiksów. Model dostarcza wiedzę o języku analizatorowi morfologicznemu zaopatrzonemu w funkcję odgadywania lematów i interpretacji morfosyntaktycznych dla form nie należących do słownika (ang. guesser). Drugim zastosowaniem jest generowanie form słów na podstawie lematu i interpretacji morfosyntaktycznej. Podczas referatu poruszone zostanie również zagadnienie dezambiguacji wyników dostarczanych przez analizator morfologiczny. Wersja demonstracyjna programu dostępna jest w Internecie. |
29 października 2018 |
Jakub Waszczuk (Uniwersytet Heinricha Heinego w Düsseldorfie) |
|
Pierwsza część referatu poświęcona została narzędziu Concraft-pl 2.0, nowej wersji morfoskładniowego tagera dla języka polskiego bazującego na warunkowych polach losowych. Concraft-pl 2.0 przeprowadza podział na słowa (tokenizację) w ramach ujednoznaczniania morfoskładniowego, co pozwala używać go bezpośrednio na grafach wyjściowych analizatora Morfeusz. Inne istniejące tagery dla języka polskiego albo ignorują ten problem, albo opierają się na heurystykach stosowanych przed fazą ujednoznaczniania. W drugiej części referatu przedstawiona została metoda automatycznej identyfikacji czasownikowych jednostek wielowyrazowych opierająca się na wynikach analizy zależnościowej. W tym podejściu identyfikacja sprowadza się do problemu etykietowania, w którym jedna z dwóch etykiet (MWE/not-MWE) musi zostać określona dla każdego wierzchołka drzewa zależnościowego. Do rozwiązania tego problemu wykorzystany został model warunkowych pól losowych dostosowany do drzewiastej struktury danych wejściowych. System oparty na tym podejściu uzyskał pierwsze miejsce w zamkniętej ścieżce konkursu PARSEME shared task 2018. |
19 listopada 2018 |
Daniel Zeman (Instytut Lingwistyki Formalnej i Stosowanej, Uniwersytet Karola w Pradze) |
Przedstawię Universal Dependencies, ogólnoświatową inicjatywę mającą na celu udostępnienie wielojęzycznych korpusów zaanotowanych na poziomie morfologicznym i składniowym zgodnie z uniwersalnymi wytycznymi. Omówię koncepcję kluczowych argumentów (ang. core arguments), która jest jednym z fundamentów UD. W drugiej części wykładu skupię się na kilku interesujących problemach i wyzwaniach związanych z zastosowaniem Uniwersalnych Zależności w językach słowiańskich. Omówię przykłady z 12 języków słowiańskich reprezentowanych obecnie w UD, które pokazują, że nadal można poprawić spójność międzyjęzykową. |
3 grudnia 2018 |
Ekaterina Lapshinova-Koltunski (Uniwersytet Kraju Saary) |
|
Podczas wykładu opowiem o trwających pracach nad analizą koreferencji w kontekście wielojęzycznym. Przedstawię dwa podejścia do analizy zjawisk koreferencyjnych: (1) teoretyczne, gdy na podstawie wiedzy lingwistycznej definiujemy kategorie językowe i używamy ich do stworzenia anotowanego korpusu, który można wykorzystać albo do dalszej analizy lingwistycznej, albo jako dane treningowe dla zastosowań NLP, (2) oparte na danych: w tym przypadku zaczynamy od zestawu płytkich cech naszym zdaniem związanych z dyskursem, wyodrębniamy struktury z dużej ilości danych i analizujemy je z językowego punktu widzenia próbując opisać i wyjaśnić obserwowane zjawiska za pomocą istniejących teorii i gramatyk. |
7 stycznia 2019 |
Adam Przepiórkowski (Instytut Podstaw Informatyki PAN / Uniwersytet Warszawski), Agnieszka Patejuk (Instytut Podstaw Informatyki PAN / Uniwersytet Oksfordzki) |
Enhanced Universal Dependencies |
Celem referatu jest prezentacja dwóch nurtów naszych prac związanych z Universal Dependencies (UD), czyli ze standardem znakowania składniowego korpusów tekstów (http://universaldependencies.org/). Pierwszy nurt dotyczy opracowania nowego banku drzew języka polskiego, w pełni wykorzystującego obecną rozszerzoną wersję standardu. Korpus ten jest wynikiem konwersji wcześniejszego ‘banku drzew’, zawierającego znakowanie zgodne z teorią Lexical Functional Grammar, a więc nie tylko drzewa składnikowe, ale także struktury funkcyjne. W referacie omówiony zostanie proces konwersji, a także wynik tego procesu, czyli uzyskany bank drzew języka polskiego. Drugi nurt prac dotyczy natomiast podstaw standardu UD, a szczególnie pewnych jego niespójności i braków, które zidentyfikowaliśmy w trakcie tworzenia polskiego korpusu zgodnego z tym standardem. Skupimy się tutaj na dwóch obszarach, które są szczególnie problematyczne w omawianym standardzie, a mianowicie na odróżnieniu funkcji gramatycznych ‘pierwszorzędnych’ (ang. core) i ‘drugorzędnych’ (ang. oblique) – w zamierzeniu twórców standardu rozróżnienie to miało zastąpić (lecz nie do końca zastępuje) dychotomię argument/modyfikator – oraz na koordynacji, czyli zjawisku trudnym dla wszystkich podejść zależnościowych. |
14 stycznia 2019 |
Agata Savary (Université François Rabelais Tours) |
Dosłowne interpretacje jednostek wielowyrazowych: analiza ilościowa i jakościowa |
Jednostki wielowyrazowe (ang. multiword expressions), takie jak „wyciągnąć nogi” (umrzeć), „wziąć udział” czy „bać się”, to związki frazeologiczne odznaczające się nieregularnymi własnościami na poziomie słownictwa, składni, a przede wszystkim semantyki. Są one istotnym wyzwaniem m.in. dla modelowania języka i dla lingwistyki komputerowej z uwagi na ich niekomopozycyjne znaczenie, tzn. niemożność ustalenia znaczenia danego wyrażenia w sposób regularny na bazie znaczeń jego pojedynczych składników i zachodzących między nimi związków składniowych. Dodatkowo wyrażenia takie cechuje możliwość występowania zarówno w znaczeniu przenośnym jak i dosłownym (np. „wyciągnął nogi” w sensie „zmarł”, w opozycji do „położył się na trawie i wyciągnął nogi”). Dosłownym interpretacjom jednostek wielowyrazowych poświęcono szereg prac z dziedziny psycholingwistyki, lingwistyki i przetwarzania języka naturalnego, jednak zjawisko to nie zostało jak dotąd precyzyjne zdefiniowane ani poddane analizie ilościowej. Na tym seminarium zaproponuję definicję dosłownej interpretacji jednostki wielowyrazowej w oparciu m.in. o jej składnię. Zaprezentuję też analizę jakościową i ilościową tego zjawiska dla języka polskiego oraz dla 4 innych typologicznie odległych języków: baskijskiego, greckiego, niemieckiego i portugalskiego. Wyniki tego studium, przeprowadzonego na bazie korpusy wielojęzycznego sieci naukowej PARSEME, wskazują m.in. na rzadkość użycia jednostek wielowyrazowych w ich znaczeniach dosłownych. Pokażę również, jakiego typu ograniczenia morfologiczne i składniowe niektórych jednostek wielowyrazowych pozwalają odróżnić ich interpretacje metaforyczne od dosłownych oraz, przeciwnie, jakie ich wystąpienia cechuje daleko idąca niejednoznaczność. |
21 stycznia 2019 |
Marek Łaziński (Uniwersytet Warszawski), Michał Woźniak (Uniwersytet Jagielloński) |
Tytuł wystąpienia będzie dostępny wkrótce |
Streszczenie wystąpienia zostanie udostępnione w późniejszym terminie. |
11 lutego 2019 |
Anna Wróblewska (Politechnika Warszawska) |
Tytuł wystąpienia będzie dostępny wkrótce |
Streszczenie wystąpienia zostanie udostępnione w późniejszym terminie. |
25 lutego 2019 |
Jakub Dutkiewicz (Politechnika Poznańska) |
Empirical research on medical information retrieval |
Streszczenie wystąpienia zostanie udostępnione w późniejszym terminie. |
Zapraszamy także do zapoznania się z archiwum seminariów z lat 2000–15 oraz listą wystąpień z lat 2015–18. |