Seminarium „Przetwarzanie języka naturalnego” 2017–18
Seminarium Zespołu Inżynierii Lingwistycznej w Instytucie Podstaw Informatyki Polskiej Akademii Nauk odbywa się nieregularnie w poniedziałki zwykle o godz. 10:15 w siedzibie IPI PAN (ul. Jana Kazimierza 5, Warszawa) i ma charakter otwarty. Poszczególne referaty ogłaszane są na Polskiej Liście Językoznawczej oraz na stronie Lingwistyka komputerowa na Facebooku. Wszystkie nagrania dostępne są na kanale YouTube. |
2 października 2017 |
Paweł Rutkowski (Uniwersytet Warszawski) |
Polski język migowy (PJM) jest w pełni funkcjonalnym językiem wizualno-przestrzennym, którym posługuje się polska społeczność Głuchych. Jego rozwój rozpoczął się w drugiej dekadzie XIX wieku – wraz z założeniem pierwszej szkoły dla głuchych w Polsce. Do niedawna poświęcano mu bardzo niewiele uwagi w badaniach językoznawczych. Celem niniejszego wystąpienia jest przedstawienie szeroko zakrojonego projektu badawczego służącego opracowaniu obszernego i reprezentatywnego korpusu PJM. Korpus ten jest obecnie tworzony na Uniwersytecie Warszawskim. Ma formę zbioru klipów wideo przedstawiających osoby głuche posługujące się PJM w różnych kontekstach komunikacyjnych. Filmy są szczegółowo anotowane: segmentowane, lematyzowane, tłumaczone na polszczyznę, znakowane pod względem różnych cech gramatycznych i transkrybowane za pomocą symboli HamNoSys. W skali międzynarodowej korpus PJM jest obecnie jednym z dwóch największych zbiorów oznakowanych danych migowych. Na szczególną uwagę zasługuje kwestia frekwencji leksykalnej w PJM. Dane tego typu opracowane zostały dotąd dla zaledwie kilku języków migowych – m.in. dla amerykańskiego języka migowego, nowozelandzkiego języka migowego, brytyjskiego języka migowego, australijskiego języka migowego i słoweńskiego języka migowego. Podstawy empiryczne tych badań wahały się od 100 000 (NZSL) do zaledwie 4 000 jednostek tekstowych (ASL). Niniejsze wystąpienie wpisuje się w dyskusję dotyczącą właściwości frekwencyjnych leksemów języków migowych poprzez przeanalizowanie o wiele większego zbioru relewantnych danych z PJM. |
23 października 2017 |
Katarzyna Krasnowska-Kieraś, Piotr Rybak, Alina Wróblewska (Instytut Podstaw Informatyki PAN) |
Ewaluacja polskich wektorów dystrybucyjnych w kontekście dezambiguacji morfoskładniowej i parsowania zależnościowego |
Uczenie maszynowe oparte na głębokich sieciach neuronowych okazało się bardzo skuteczną heurystyką w różnych zadaniach przetwarzania języka naturalnego. Ważnym komponentem sieci neuronowych jest reprezentacja wektorowa cech (tzw. feature embedding). Istnieje możliwość tworzenia wektorów dystrybucyjnych cech różnego typu, np. wyrazów czy części mowy. Przedmiotem prezentacji będą wyniki analizy, która pokazała, dla jakich cech można obliczać modele dystrybucyjne typu „embedding” dla języków fleksyjnych. Ponadto przedstawimy propozycję ewaluacji in vivo wektorów dystrybucyjnych w kontekście dwóch podstawowych zadań NLP – dezambiguacji morfoskładniowej oraz parsowania zależnościowego. Nasze eksperymenty ewaluacyjne zostały przeprowadzone na zasobach w języku polskim. Przedstawione badania były inspiracją do stworzenia dezambiguatora morfoskładniowego – Toygger, który wygrał Zadanie 1 (A) w konkursie PolEval 2017 i który również zostanie przedstawiony podczas wystąpienia. |
6 listopada 2017 |
Szymon Łęski (Samsung R&D Polska) |
Głębokie sieci neuronowe w modelach języka |
Streszczenie wystąpienia będzie dostępne w najbliższym czasie. |
20 listopada 2017 |
Michał Ptaszyński (Kitami Institute of Technology, Japonia) |
Tytuł wystąpienia udostępnimy wkrótce |
Streszczenie wystąpienia będzie dostępne w najbliższym czasie. |
4 grudnia 2017 |
Sebastian Żurowski, Adam Dobaczewski, Piotr Sobotka (Uniwersytet Mikołaja Kopernika w Toruniu) |
Tytuł wystąpienia udostępnimy wkrótce |
Streszczenie wystąpienia będzie dostępne w najbliższym czasie. |
Zapraszamy także do zapoznania się z archiwum seminariów z lat 2000–15 oraz listą wystąpień z lat 2015–17. |
Łukasz zapyta Andruszkiewicza o to, kogo zaprosić z PWr Umówić się z Brylską, zapytać tę od okulografii, czy to jest PJN Agnieszka Kwiatkowska – zobaczyć ten jej tekst, moze też coś opowie? Ew. Kasia Brylska, Monika Płużyczka na seminarium? Marcin Napiórkowski z Karolem? Kto jeszcze? Może skorzystać z pieniędzy CLARIN-owych do zapraszania osób z całej Polski na seminaria? Maciej Karpiński Demenko – dawno już ich nie było; można iść po kluczu HLT Days Michał Marcińczuk
Kasia Krasnowska, Norbert Ryciak – po PolEvalu?
niebanalna lingwistycznie i informatycznie
Kasia w związku z jej udziałem (i zwycięstwem) w zadaniu polevalowym? jeśli nie wypełni całego seminarium, to może Łukasz mógłby coś dopowiedzieć o tym zadaniu, ew. anotacji nowych danych? – Norbert o swoim zwycięstwie? – jakiś temat korbofleksowy? coś się działo w nowej Anotatorni, ale to może też można pokazać przy okazji tematu tagerowego, – nowości w projekcie Aliny? bo Agnieszka i Małgosia pewnie mają teraz inne sprawy na głowie...
20 XI: Michał Ptaszyński 4 XII: Sebastian Żurowski? 18 XII (uwaga: właśnie tego dnia jest warsztat ELRC!) 8 I – kto może jeszcze przyjeżdżać z zagranicy na święta? 29 I (bo 15–28 I są ferie mazowieckie, TLT: 23-24 I) 12 II 26 II 12 III 26 III (Wielkanoc: 1–2 kwietnia, więc 26 marca jest w tygodniu wielkanocnym) 9 IV 23 IV 14 V 28 V (LREC: 7-12 V) 11 VI (NAACL: 1-6 VI)
12 DATA 2017 (UWAGA: wystąpienie odbędzie się o 13:00 w ramach seminarium IPI PAN)
OSOBA (AFILIACJA)
Tytuł zostanie udostępniony w najbliższym czasie
Opis wystąpienia zostanie udostępniony wkrótce.
...

...