Size: 16262
Comment:
|
Size: 17257
Comment:
|
Deletions are marked like this. | Additions are marked like this. |
Line 26: | Line 26: |
||<style="border:0;padding-top:5px;padding-bottom:5px">'''27 listopada 2017'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Maciej Ogrodniczuk''' (Instytut Podstaw Informatyki PAN)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''[[attachment:seminarium-archiwum/2017-11-27.pdf|Automatyczne wykrywanie koreferencji nominalnej w języku polskim]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Tematem wykładu będzie propozycja opisu nominalnych zależności koreferencyjnych w polszczyźnie (czyli zbiorów konstrukcji tekstowych posiadających wspólną referencję) oraz prace nad implementacją metod do ich wykrywania. Przedstawię wykorzystane do tego celu podejście korpusowe z ręczną anotacją konstrukcji koreferencyjnych oraz proces tworzenia narzędzi lingwistyczno-informatycznych wraz z oceną ich jakości za pomocą standardowych metod ewaluacyjnych.|| |
|
Line 74: | Line 79: |
– PJATK: korpusy porównywalne? spisywanie kronik? napisać do Maraska | |
Line 87: | Line 91: |
14 V 28 V (LREC: 7-12 V) 11 VI (NAACL: 1-6 VI) |
14 V – Witek i Marcin? 28 V (LREC: 7-12 V) – Danijel Korzinek 11 VI (NAACL: 1-6 VI) – Krzysztof Wołk |
Seminarium „Przetwarzanie języka naturalnego” 2017–18
Seminarium Zespołu Inżynierii Lingwistycznej w Instytucie Podstaw Informatyki Polskiej Akademii Nauk odbywa się nieregularnie w poniedziałki zwykle o godz. 10:15 w siedzibie IPI PAN (ul. Jana Kazimierza 5, Warszawa) i ma charakter otwarty. Poszczególne referaty ogłaszane są na Polskiej Liście Językoznawczej oraz na stronie Lingwistyka komputerowa na Facebooku. Wszystkie nagrania dostępne są na kanale YouTube. |
2 października 2017 |
Paweł Rutkowski (Uniwersytet Warszawski) |
Polski język migowy (PJM) jest w pełni funkcjonalnym językiem wizualno-przestrzennym, którym posługuje się polska społeczność Głuchych. Jego rozwój rozpoczął się w drugiej dekadzie XIX wieku – wraz z założeniem pierwszej szkoły dla głuchych w Polsce. Do niedawna poświęcano mu bardzo niewiele uwagi w badaniach językoznawczych. Celem niniejszego wystąpienia jest przedstawienie szeroko zakrojonego projektu badawczego służącego opracowaniu obszernego i reprezentatywnego korpusu PJM. Korpus ten jest obecnie tworzony na Uniwersytecie Warszawskim. Ma formę zbioru klipów wideo przedstawiających osoby głuche posługujące się PJM w różnych kontekstach komunikacyjnych. Filmy są szczegółowo anotowane: segmentowane, lematyzowane, tłumaczone na polszczyznę, znakowane pod względem różnych cech gramatycznych i transkrybowane za pomocą symboli HamNoSys. W skali międzynarodowej korpus PJM jest obecnie jednym z dwóch największych zbiorów oznakowanych danych migowych. Na szczególną uwagę zasługuje kwestia frekwencji leksykalnej w PJM. Dane tego typu opracowane zostały dotąd dla zaledwie kilku języków migowych – m.in. dla amerykańskiego języka migowego, nowozelandzkiego języka migowego, brytyjskiego języka migowego, australijskiego języka migowego i słoweńskiego języka migowego. Podstawy empiryczne tych badań wahały się od 100 000 (NZSL) do zaledwie 4 000 jednostek tekstowych (ASL). Niniejsze wystąpienie wpisuje się w dyskusję dotyczącą właściwości frekwencyjnych leksemów języków migowych poprzez przeanalizowanie o wiele większego zbioru relewantnych danych z PJM. |
23 października 2017 |
Katarzyna Krasnowska-Kieraś, Piotr Rybak, Alina Wróblewska (Instytut Podstaw Informatyki PAN) |
|
Uczenie maszynowe oparte na głębokich sieciach neuronowych okazało się bardzo skuteczną heurystyką w różnych zadaniach przetwarzania języka naturalnego. Ważnym komponentem sieci neuronowych jest reprezentacja wektorowa cech (tzw. feature embedding). Istnieje możliwość tworzenia wektorów dystrybucyjnych cech różnego typu, np. wyrazów czy części mowy. Przedmiotem prezentacji będą wyniki analizy, która pokazała, dla jakich cech można obliczać modele dystrybucyjne typu „embedding” dla języków fleksyjnych. Ponadto przedstawimy propozycję ewaluacji in vivo wektorów dystrybucyjnych w kontekście dwóch podstawowych zadań NLP – dezambiguacji morfoskładniowej oraz parsowania zależnościowego. Nasze eksperymenty ewaluacyjne zostały przeprowadzone na zasobach w języku polskim. Przedstawione badania były inspiracją do stworzenia dezambiguatora morfoskładniowego – Toygger, który wygrał Zadanie 1 (A) w konkursie PolEval 2017 i który również zostanie przedstawiony podczas wystąpienia. |
6 listopada 2017 |
Szymon Łęski (Samsung R&D Polska) |
W czasie wykładu przedstawię wprowadzenie do modeli językowych: tradycyjnych, opartych na n-gramach, oraz nowych, opartych na sieciach rekurencyjnych. Następnie, na podstawie artykułów z ostatnich lat, omówię najciekawsze pomysły rozszerzeń i modyfikacji sieciowych modeli językowych, takie jak modyfikacje reprezentacji słów czy modele z wyjściem nie ograniczonym do z góry ustalonego słownika. |
20 listopada 2017 |
Michał Ptaszyński (Kitami Institute of Technology, Japonia) |
|
Badania nad emocjami w dziedzinie Sztucznej Inteligencji i dziedzinach pokrewnych nabrały w ostatnich latach prędkości. Niestety, w większości badań emocje są analizowane bez otaczającego ich kontekstu. W wykładzie spróbuję przekonać słuchaczy, iż rozpoznawanie emocji bez analizowania ich kontekstu jest niekompletne i nie może być wystarczające do praktycznych zastosowań w świecie rzeczywistym. Opiszę także niektóre konsekwencje nieuwzględnienia kontekstu emocji. Na koniec przedstawię jedno podejście, w którym podjęliśmy się analizy emocji w ich kontekście i krótko opiszę pierwsze eksperymenty przeprowadzone w tym kierunku. |
27 listopada 2017 |
Maciej Ogrodniczuk (Instytut Podstaw Informatyki PAN) |
Automatyczne wykrywanie koreferencji nominalnej w języku polskim |
Tematem wykładu będzie propozycja opisu nominalnych zależności koreferencyjnych w polszczyźnie (czyli zbiorów konstrukcji tekstowych posiadających wspólną referencję) oraz prace nad implementacją metod do ich wykrywania. Przedstawię wykorzystane do tego celu podejście korpusowe z ręczną anotacją konstrukcji koreferencyjnych oraz proces tworzenia narzędzi lingwistyczno-informatycznych wraz z oceną ich jakości za pomocą standardowych metod ewaluacyjnych. |
4 grudnia 2017 |
Adam Dobaczewski, Piotr Sobotka, Sebastian Żurowski (Uniwersytet Mikołaja Kopernika w Toruniu) |
W naszym wystąpieniu przedstawimy słownik przygotowany przez zespół z Instytutu Języka Polskiego UMK w Toruniu (grant NPRH 11H 13 0265 82). W słowniku rejestrujemy wyrażenia języka polskiego, w których zaobserwować można obecność mechanizmu reduplikacji lub powtórzenia form tych samych leksemów. Jednostki języka wyróżniamy zgodnie z założeniami gramatyki operacyjnej A. Bogusławskiego i dzielimy je na dwie podstawowe grupy: (i) jednostki leksykalne składające się z dwóch takich samych segmentów lub form tego samego leksemu (typu całkiem całkiem; fakt faktem, że _); (ii) jednostki operacyjne bazujące na jakimś schemacie powtórzenia słów należących do pewnej przewidzianej przez ten schemat klasy (typu N[nom] N[inst], ale _, gdzie N to dowolny rzeczownik, np. sąd sądem, ale _; miłość miłością, ale _). Ze względu na stosunkowo niewielką liczbę zarejestrowanych jednostek przygotowaliśmy słownik w postaci tradycyjnej (drukowanej). Jego podstawą materiałową są zasoby NKJP, które przeszukiwane były za pomocą wyszukiwarki powtórzeń w korpusie NKJP. Narzędzie to zostało specjalnie przygotowane na potrzeby tego projektu w ZIL IPI PAN. |
29 stycznia 2018 |
Roman Grundkiewicz (Uniwersytet Adama Mickiewicza/Uniwersytet Edynburski) |
|
Podczas wystąpienia opowiem o zadaniu automatycznej poprawy błędów językowych w tekstach pisanych przez osoby uczące się języka angielskiego jako języka obcego. Przedstawię wyniki badań nad zastosowaniem statystycznego tłumaczenia maszynowego opartego na frazach, które w sposób znaczący poszerzyły aktualny stan wiedzy w dziedzinie. Omówię jak istotna jest właściwa optymalizacja modelu na podstawie przyjętej automatycznej miary ewaluacji oraz zastosowanie odpowiednich cech gęstych i rzadkich. Zwięźle opiszę również dalsze badania z wykorzystaniem neuronowego tłumaczenia maszynowego. |
12 lutego 2018 |
Agnieszka Mykowiecka, Aleksander Wawer, Małgorzata Marciniak, Piotr Rychlik (Instytut Podstaw Informatyki PAN) |
|
Na seminarium omówimy wektorowe modele języka skonstruowane dla polskiego w oparciu o lematy i formy słów oraz ich wykorzystanie w typowych zastosowaniach rozpoznawania synonimii i analogii między zadanymi parami słów. Następnie przedstawimy wykorzystanie wektorowych modeli do rozpoznawania metaforycznego i literalnego znaczenia fraz typu przymiotnik-rzeczownik (AN). Przedstawimy implementację oceniającą frazy izolowane oraz porównamy ją do metod opisanych w literaturze. Na koniec przedstawimy stan prac dotyczących rozpoznawania metaforycznego lub literalnego znaczenia frazy AN w kontekście zdaniowym. |
26 lutego 2018 |
Celina Heliasz (Uniwersytet Warszawski) |
Tworzyć czy współtworzyć? O poszukiwaniu synergii między informatykami a lingwistami |
Główny temat mojego referatu stanowią metody prowadzenia badań z zakresu lingwistyki korpusowej, którą zajmują się obecnie zarówno informatycy, jak i lingwiści. W referacie zaprezentuję próby ustalania i wizualizowania relacji semantycznych w tekście, podejmowane przez informatyków w ramach projektów RST (Rhetorical Structure Theory) i PDTB (Penn Discourse Treebank), które następnie skontrastuję z analogicznymi próbami podjętymi przez informatyków i lingwistów w IPI PAN w ramach przedsięwzięcia CLARIN-PL. Celem referatu będzie przedstawienie uwarunkowań efektywnej analizy lingwistycznej, które muszą zostać wzięte pod uwagę przy projektowaniu narzędzi informatycznych, jeśli narzędzia te mają służyć prowadzeniu badań nad tekstem i wyprowadzaniu z nich mocnych podstaw teorii lingwistycznych, a nie tylko wdrażaniu gotowych teorii z tego zakresu. |
Zapraszamy także do zapoznania się z archiwum seminariów z lat 2000–15 oraz listą wystąpień z lat 2015–17. |