Differences between revisions 1 and 211 (spanning 210 versions)

Seminarium „Przetwarzanie języka naturalnego” 2017–18

Seminarium Zespołu Inżynierii Lingwistycznej w Instytucie Podstaw Informatyki Polskiej Akademii Nauk odbywa się nieregularnie w poniedziałki zwykle o godz. 10:15 w siedzibie IPI PAN (ul. Jana Kazimierza 5, Warszawa) i ma charakter otwarty. Poszczególne referaty ogłaszane są na Polskiej Liście Językoznawczej oraz na stronie Lingwistyka komputerowa na Facebooku. Wszystkie nagrania dostępne są na kanale YouTube.

2 października 2017

Paweł Rutkowski (Uniwersytet Warszawski)

Polski język migowy z perspektywy lingwistyki korpusowej

Polski język migowy (PJM) jest w pełni funkcjonalnym językiem wizualno-przestrzennym, którym posługuje się polska społeczność Głuchych. Jego rozwój rozpoczął się w drugiej dekadzie XIX wieku – wraz z założeniem pierwszej szkoły dla głuchych w Polsce. Do niedawna poświęcano mu bardzo niewiele uwagi w badaniach językoznawczych. Celem niniejszego wystąpienia jest przedstawienie szeroko zakrojonego projektu badawczego służącego opracowaniu obszernego i reprezentatywnego korpusu PJM. Korpus ten jest obecnie tworzony na Uniwersytecie Warszawskim. Ma formę zbioru klipów wideo przedstawiających osoby głuche posługujące się PJM w różnych kontekstach komunikacyjnych. Filmy są szczegółowo anotowane: segmentowane, lematyzowane, tłumaczone na polszczyznę, znakowane pod względem różnych cech gramatycznych i transkrybowane za pomocą symboli HamNoSys. W skali międzynarodowej korpus PJM jest obecnie jednym z dwóch największych zbiorów oznakowanych danych migowych. Na szczególną uwagę zasługuje kwestia frekwencji leksykalnej w PJM. Dane tego typu opracowane zostały dotąd dla zaledwie kilku języków migowych – m.in. dla amerykańskiego języka migowego, nowozelandzkiego języka migowego, brytyjskiego języka migowego, australijskiego języka migowego i słoweńskiego języka migowego. Podstawy empiryczne tych badań wahały się od 100 000 (NZSL) do zaledwie 4 000 jednostek tekstowych (ASL). Niniejsze wystąpienie wpisuje się w dyskusję dotyczącą właściwości frekwencyjnych leksemów języków migowych poprzez przeanalizowanie o wiele większego zbioru relewantnych danych z PJM.

23 października 2017

Katarzyna Krasnowska-Kieraś, Piotr Rybak, Alina Wróblewska (Instytut Podstaw Informatyki PAN)

Ewaluacja polskich wektorów dystrybucyjnych w kontekście dezambiguacji morfoskładniowej i parsowania zależnościowego

Uczenie maszynowe oparte na głębokich sieciach neuronowych okazało się bardzo skuteczną heurystyką w różnych zadaniach przetwarzania języka naturalnego. Ważnym komponentem sieci neuronowych jest reprezentacja wektorowa cech (tzw. feature embedding). Istnieje możliwość tworzenia wektorów dystrybucyjnych cech różnego typu, np. wyrazów czy części mowy. Przedmiotem prezentacji będą wyniki analizy, która pokazała, dla jakich cech można obliczać modele dystrybucyjne typu „embedding” dla języków fleksyjnych. Ponadto przedstawimy propozycję ewaluacji in vivo wektorów dystrybucyjnych w kontekście dwóch podstawowych zadań NLP – dezambiguacji morfoskładniowej oraz parsowania zależnościowego. Nasze eksperymenty ewaluacyjne zostały przeprowadzone na zasobach w języku polskim. Przedstawione badania były inspiracją do stworzenia dezambiguatora morfoskładniowego – Toygger, który wygrał Zadanie 1 (A) w konkursie PolEval 2017 i który również zostanie przedstawiony podczas wystąpienia.

6 listopada 2017

Szymon Łęski (Samsung R&D Polska)

Głębokie sieci neuronowe w modelach języka

W czasie wykładu przedstawię wprowadzenie do modeli językowych: tradycyjnych, opartych na n-gramach, oraz nowych, opartych na sieciach rekurencyjnych. Następnie, na podstawie artykułów z ostatnich lat, omówię najciekawsze pomysły rozszerzeń i modyfikacji sieciowych modeli językowych, takie jak modyfikacje reprezentacji słów czy modele z wyjściem nie ograniczonym do z góry ustalonego słownika.

20 listopada 2017

Michał Ptaszyński (Kitami Institute of Technology, Japonia)

Analiza emocji w kontekście jako jeden ze sposobów na osiągnięcie Roztropności Komputerowej

Badania nad emocjami w dziedzinie Sztucznej Inteligencji i dziedzinach pokrewnych nabrały w ostatnich latach prędkości. Niestety, w większości badań emocje są analizowane bez otaczającego ich kontekstu. W wykładzie spróbuję przekonać słuchaczy, iż rozpoznawanie emocji bez analizowania ich kontekstu jest niekompletne i nie może być wystarczające do praktycznych zastosowań w świecie rzeczywistym. Opiszę także niektóre konsekwencje nieuwzględnienia kontekstu emocji. Na koniec przedstawię jedno podejście, w którym podjęliśmy się analizy emocji w ich kontekście i krótko opiszę pierwsze eksperymenty przeprowadzone w tym kierunku.

27 listopada 2017

Maciej Ogrodniczuk (Instytut Podstaw Informatyki PAN)

Automatyczne wykrywanie koreferencji nominalnej w języku polskim

Tematem wykładu będzie propozycja opisu nominalnych zależności koreferencyjnych w polszczyźnie (czyli zbiorów konstrukcji tekstowych posiadających wspólną referencję) oraz prace nad implementacją metod do ich wykrywania. Przedstawię wykorzystane do tego celu podejście korpusowe z ręczną anotacją konstrukcji koreferencyjnych oraz proces tworzenia narzędzi lingwistyczno-informatycznych wraz z oceną ich jakości za pomocą standardowych metod ewaluacyjnych.

4 grudnia 2017

Adam Dobaczewski, Piotr Sobotka, Sebastian Żurowski (Uniwersytet Mikołaja Kopernika w Toruniu)

Słownik reduplikacji i powtórzeń polskich

W naszym wystąpieniu przedstawimy słownik przygotowany przez zespół z Instytutu Języka Polskiego UMK w Toruniu (grant NPRH 11H 13 0265 82). W słowniku rejestrujemy wyrażenia języka polskiego, w których zaobserwować można obecność mechanizmu reduplikacji lub powtórzenia form tych samych leksemów. Jednostki języka wyróżniamy zgodnie z założeniami gramatyki operacyjnej A. Bogusławskiego i dzielimy je na dwie podstawowe grupy: (i) jednostki leksykalne składające się z dwóch takich samych segmentów lub form tego samego leksemu (typu całkiem całkiem; fakt faktem, że _); (ii) jednostki operacyjne bazujące na jakimś schemacie powtórzenia słów należących do pewnej przewidzianej przez ten schemat klasy (typu N[nom] N[inst], ale _, gdzie N to dowolny rzeczownik, np. sąd sądem, ale _; miłość miłością, ale _). Ze względu na stosunkowo niewielką liczbę zarejestrowanych jednostek przygotowaliśmy słownik w postaci tradycyjnej (drukowanej). Jego podstawą materiałową są zasoby NKJP, które przeszukiwane były za pomocą wyszukiwarki powtórzeń w korpusie NKJP. Narzędzie to zostało specjalnie przygotowane na potrzeby tego projektu w ZIL IPI PAN.

29 stycznia 2018

Roman Grundkiewicz (Uniwersytet Adama Mickiewicza/Uniwersytet Edynburski)

Automatyczna poprawa błędów językowych za pomocą tłumaczenia maszynowego

Podczas wystąpienia opowiem o zadaniu automatycznej poprawy błędów językowych w tekstach pisanych przez osoby uczące się języka angielskiego jako języka obcego. Przedstawię wyniki badań nad zastosowaniem statystycznego tłumaczenia maszynowego opartego na frazach, które w sposób znaczący poszerzyły aktualny stan wiedzy w dziedzinie. Omówię jak istotna jest właściwa optymalizacja modelu na podstawie przyjętej automatycznej miary ewaluacji oraz zastosowanie odpowiednich cech gęstych i rzadkich. Zwięźle opiszę również dalsze badania z wykorzystaniem neuronowego tłumaczenia maszynowego.

12 lutego 2018

Agnieszka Mykowiecka, Aleksander Wawer, Małgorzata Marciniak, Piotr Rychlik (Instytut Podstaw Informatyki PAN)

Wykorzystanie semantyki dystrybucyjnej do oceny metaforyczności polskich fraz rzeczownikowych

Na seminarium omówimy wektorowe modele języka skonstruowane dla polskiego w oparciu o lematy i formy słów oraz ich wykorzystanie w typowych zastosowaniach rozpoznawania synonimii i analogii między zadanymi parami słów. Następnie przedstawimy wykorzystanie wektorowych modeli do rozpoznawania metaforycznego i literalnego znaczenia fraz typu przymiotnik-rzeczownik (AN). Przedstawimy implementację oceniającą frazy izolowane oraz porównamy ją do metod opisanych w literaturze. Na koniec przedstawimy stan prac dotyczących rozpoznawania metaforycznego lub literalnego znaczenia frazy AN w kontekście zdaniowym.

26 lutego 2018

Celina Heliasz (Uniwersytet Warszawski)

Tworzyć czy współtworzyć? O poszukiwaniu synergii między informatykami a lingwistami

Główny temat mojego referatu stanowią metody prowadzenia badań z zakresu lingwistyki korpusowej, którą zajmują się obecnie zarówno informatycy, jak i lingwiści. W referacie zaprezentuję próby ustalania i wizualizowania relacji semantycznych w tekście, podejmowane przez informatyków w ramach projektów RST (Rhetorical Structure Theory) i PDTB (Penn Discourse Treebank), które następnie skontrastuję z analogicznymi próbami podjętymi przez informatyków i lingwistów w IPI PAN w ramach przedsięwzięcia CLARIN-PL. Celem referatu będzie przedstawienie uwarunkowań efektywnej analizy lingwistycznej, które muszą zostać wzięte pod uwagę przy projektowaniu narzędzi informatycznych, jeśli narzędzia te mają służyć prowadzeniu badań nad tekstem i wyprowadzaniu z nich mocnych podstaw teorii lingwistycznych, a nie tylko wdrażaniu gotowych teorii z tego zakresu.

28 maja 2018

Krzysztof Wołk (Polsko-Japońska Akademia Technik Komputerowych)

Eksploracja i wykorzystanie korpusów porównywalnych w tłumaczeniu maszynowym

Problemem, który zostanie przedstawiony na seminarium, jest poprawa tłumaczenia maszynowego mowy z języka polskiego na angielski. Najpopularniejsze metodologie i narzędzia tłumaczenia nie są dobrze dostosowane do języka polskiego, a zatem wymagają adaptacji. Brakuje w zasobów językowych zarówno monolingwalnych jak i bilingwalnych dla języka polskiego. Dlatego głównym celem badania było opracowanie automatycznego zestawu narzędzi do przygotowywania zasobów tekstowych poprzez wydobywanie informacji z korpusów porównywalnych oraz prawie porównywalnych. Eksperymenty przeprowadzono głównie na swobodnej ludzkiej mowie, składającej się z wykładów, napisów do filmów, prac Parlamentu Europejskiego i tekstów Europejskiej Agencji Leków. Celem była rygorystyczna analiza problemów i poprawa jakości systemów bazowych, tj. dostosowanie technik i parametrów treningowych w celu zwiększenia wyniku Bilingual Evaluation Understudy (BLEU) w celu uzyskania maksymalnej wydajności. Kolejnym celem było stworzenie dodatkowych dwujęzycznych i jednojęzycznych zasobów tekstowych poprzez wykorzystanie dostępnych danych online oraz uzyskanie i wydobycie porównywalnych korpusów dla równoległych par zdań. Do tego zadania wykorzystano metodologię wykorzystującą maszynę wektorów pomocniczych i algorytm Needlemana-Wunscha wraz z łańcuchem specjalistycznych narzędzi.

Zapraszamy także do zapoznania się z archiwum seminariów z lat 2000–15 oraz listą wystąpień z lat 2015–17.

-  ⇤ ← Revision 1 as of 2016-06-27 22:32:42 → 
  Size: 2220
  Editor: MaciejOgrodniczuk
  Comment:
+   ← Revision 211 as of 2018-02-25 11:56:18 → ⇥
  Size: 19396
  Editor: MaciejOgrodniczuk
  Comment:
-Deletions are marked like this.
+Additions are marked like this.
 Line 3:
-= Seminarium „Przetwarzanie języka naturalnego” 2016–2017 =
+= Seminarium „Przetwarzanie języka naturalnego” 2017–18 =
 Line 5:
-||<style="border:0;padding:0">Seminarium [[http://nlp.ipipan.waw.pl/|Zespołu Inżynierii Lingwistycznej]] w&nbsp;[[http://www.ipipan.waw.pl/|Instytucie Podstaw Informatyki]] [[http://www.pan.pl/|Polskiej Akademii Nauk]] odbywa się nieregularnie w&nbsp;poniedziałki zwykle o&nbsp;godz.&nbsp;10:15 w&nbsp;siedzibie IPI&nbsp;PAN (ul.&nbsp;Jana Kazimierza&nbsp;5, Warszawa) i&nbsp;ma charakter otwarty. Poszczególne referaty ogłaszane są na [[http://lists.nlp.ipipan.waw.pl/mailman/listinfo/ling|Polskiej Liście Językoznawczej]] oraz na stronie [[https://www.facebook.com/lingwistyka.komputerowa|Lingwistyka komputerowa]] na Facebooku. ||<style="border:0;padding-left:30px;">[[seminar-archive|{{attachment:en.png}}]]||
+||<style="border:0;padding-bottom:10px">Seminarium [[http://nlp.ipipan.waw.pl/|Zespołu Inżynierii Lingwistycznej]] w&nbsp;[[http://www.ipipan.waw.pl/|Instytucie Podstaw Informatyki]] [[http://www.pan.pl/|Polskiej Akademii Nauk]] odbywa się nieregularnie w&nbsp;poniedziałki zwykle o&nbsp;godz.&nbsp;10:15 w&nbsp;siedzibie IPI&nbsp;PAN (ul.&nbsp;Jana Kazimierza&nbsp;5, Warszawa) i&nbsp;ma charakter otwarty. Poszczególne referaty ogłaszane są na [[http://lists.nlp.ipipan.waw.pl/mailman/listinfo/ling|Polskiej Liście Językoznawczej]] oraz na stronie [[https://www.facebook.com/lingwistyka.komputerowa|Lingwistyka komputerowa]] na Facebooku. Wszystkie nagrania dostępne są na [[https://www.youtube.com/channel/UC5PEPpMqjAr7Pgdvq0wRn0w|kanale YouTube]].||<style="border:0;padding-left:30px;">[[seminar|{{attachment:seminarium-archiwum/en.png}}]]||
 Line 7:
-||<style="border:0;padding:0">Obecnie trwa przerwa wakacyjna – zapraszamy na następne wystąpienia w październiku oraz do zapoznania się z [[http://nlp.ipipan.waw.pl/NLP-SEMINAR/previous-p.html|archiwum seminariów z lat 2000-2015]] oraz [[http://zil.ipipan.waw.pl/seminarium-archiwum|listą wystąpień z roku 2015-16]].||
+||<style="border:0;padding-top:5px;padding-bottom:5px">'''2 października 2017'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Paweł Rutkowski''' (Uniwersytet Warszawski)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=Acfdv6kUe5I|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2017-10-02.pdf|Polski język migowy z perspektywy lingwistyki korpusowej]]''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}} {{attachment:seminarium-archiwum/icon-en.gif|Slajdy w jęz. angielskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Polski język migowy (PJM) jest w pełni funkcjonalnym językiem wizualno-przestrzennym, którym posługuje się polska społeczność Głuchych. Jego rozwój rozpoczął się w drugiej dekadzie XIX wieku – wraz z założeniem pierwszej szkoły dla głuchych w Polsce. Do niedawna poświęcano mu bardzo niewiele uwagi w badaniach językoznawczych. Celem niniejszego wystąpienia jest przedstawienie szeroko zakrojonego projektu badawczego służącego opracowaniu obszernego i reprezentatywnego korpusu PJM. Korpus ten jest obecnie tworzony na Uniwersytecie Warszawskim. Ma formę zbioru klipów wideo przedstawiających osoby głuche posługujące się PJM w różnych kontekstach komunikacyjnych. Filmy są szczegółowo anotowane: segmentowane, lematyzowane, tłumaczone na polszczyznę, znakowane pod względem różnych cech gramatycznych i transkrybowane za pomocą symboli !HamNoSys. W skali międzynarodowej korpus PJM jest obecnie jednym z dwóch największych zbiorów oznakowanych danych migowych. Na szczególną uwagę zasługuje kwestia frekwencji leksykalnej w PJM. Dane tego typu opracowane zostały dotąd dla zaledwie kilku języków migowych – m.in. dla amerykańskiego języka migowego, nowozelandzkiego języka migowego, brytyjskiego języka migowego, australijskiego języka migowego i słoweńskiego języka migowego. Podstawy empiryczne tych badań wahały się od 100 000 (NZSL) do zaledwie 4 000 jednostek tekstowych (ASL). Niniejsze wystąpienie wpisuje się w dyskusję dotyczącą właściwości frekwencyjnych leksemów języków migowych poprzez przeanalizowanie o wiele większego zbioru relewantnych danych z PJM.||
-Line 9:
+Line 12:
-##||<style="border:0;padding-top:5px;padding-bottom:5px">'''3 października 2016'''||
##||<style="border:0;padding-left:30px;padding-bottom:0px">'''?''' (Samsung Polska)||
##||<style="border:0;padding-left:30px;padding-bottom:5px">'''?''' &#160;{{attachment:icon-pl.gif|Wystąpienie w języku polskim.}}||
##||<style="border:0;padding-left:30px;padding-bottom:15px">Opis wystąpienia zostanie podany wkrótce.||
+||<style="border:0;padding-top:5px;padding-bottom:5px">'''23 października 2017'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Katarzyna Krasnowska-Kieraś''', '''Piotr Rybak''', '''Alina Wróblewska''' (Instytut Podstaw Informatyki PAN)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=8qzqn69nCmg|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2017-10-23.pdf|Ewaluacja polskich wektorów dystrybucyjnych w kontekście dezambiguacji morfoskładniowej i parsowania zależnościowego]]''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Uczenie maszynowe oparte na głębokich sieciach neuronowych okazało się bardzo skuteczną heurystyką w różnych zadaniach przetwarzania języka naturalnego. Ważnym komponentem sieci neuronowych jest reprezentacja wektorowa cech (tzw. feature embedding). Istnieje możliwość tworzenia wektorów dystrybucyjnych cech różnego typu, np. wyrazów czy części mowy. Przedmiotem prezentacji będą wyniki analizy, która pokazała, dla jakich cech można obliczać modele dystrybucyjne typu „embedding” dla języków fleksyjnych. Ponadto przedstawimy propozycję ewaluacji in vivo wektorów dystrybucyjnych w kontekście dwóch podstawowych zadań NLP – dezambiguacji morfoskładniowej oraz parsowania zależnościowego. Nasze eksperymenty ewaluacyjne zostały przeprowadzone na zasobach w języku polskim. Przedstawione badania były inspiracją do stworzenia dezambiguatora morfoskładniowego – Toygger, który wygrał Zadanie 1 (A) w konkursie [[http://poleval.pl|PolEval 2017]] i który również zostanie przedstawiony podczas wystąpienia.||
-Line 14:
+Line 17:
-##||<style="border:0;padding-top:5px;padding-bottom:5px">'''17 października 2016'''||
##||<style="border:0;padding-left:30px;padding-bottom:0px">'''Adam Przepiórkowski, Jakub Kozakoszczak, Jan Winkowski, Daniel Ziembicki, Tadeusz Teleżyński''' (Instytut Podstaw Informatyki PAN, Uniwersytet Warszawski)||
##||<style="border:0;padding-left:30px;padding-bottom:5px">'''Korpus sformalizowanych kroków wynikania tekstowego''' &#160;{{attachment:icon-pl.gif|Wystąpienie w języku polskim.}}||
##||<style="border:0;padding-left:30px;padding-bottom:15px">Opis wystąpienia zostanie podany wkrótce.||
+||<style="border:0;padding-top:5px;padding-bottom:5px">'''6 listopada 2017'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Szymon Łęski''' (Samsung R&D Polska)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=266ftzwmKeU|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2017-11-06.pdf|Głębokie sieci neuronowe w modelach języka]]''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}} {{attachment:seminarium-archiwum/icon-en.gif|Slajdy w jęz. angielskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">W czasie wykładu przedstawię wprowadzenie do modeli językowych: tradycyjnych, opartych na n-gramach, oraz nowych, opartych na sieciach rekurencyjnych. Następnie, na podstawie artykułów z ostatnich lat, omówię najciekawsze pomysły rozszerzeń i modyfikacji sieciowych modeli językowych, takie jak modyfikacje reprezentacji słów czy modele z wyjściem nie ograniczonym do z góry ustalonego słownika.||

||<style="border:0;padding-top:5px;padding-bottom:5px">'''20 listopada 2017'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Michał Ptaszyński''' (Kitami Institute of Technology, Japonia)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=hUtI5lCyUew|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2017-11-20.pdf|Analiza emocji w kontekście jako jeden ze sposobów na osiągnięcie Roztropności Komputerowej]]''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Badania nad emocjami w dziedzinie Sztucznej Inteligencji i dziedzinach pokrewnych nabrały w ostatnich latach prędkości. Niestety, w większości badań emocje są analizowane bez otaczającego ich kontekstu. W wykładzie spróbuję przekonać słuchaczy, iż rozpoznawanie emocji bez analizowania ich kontekstu jest niekompletne i nie może być wystarczające do praktycznych zastosowań w świecie rzeczywistym. Opiszę także niektóre konsekwencje nieuwzględnienia kontekstu emocji. Na koniec przedstawię jedno podejście, w którym podjęliśmy się analizy emocji w ich kontekście i krótko opiszę pierwsze eksperymenty przeprowadzone w tym kierunku.||

||<style="border:0;padding-top:5px;padding-bottom:5px">'''27 listopada 2017'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Maciej Ogrodniczuk''' (Instytut Podstaw Informatyki PAN)||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''[[attachment:seminarium-archiwum/2017-11-27.pdf|Automatyczne wykrywanie koreferencji nominalnej w języku polskim]]''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Tematem wykładu będzie propozycja opisu nominalnych zależności koreferencyjnych w polszczyźnie (czyli zbiorów konstrukcji tekstowych posiadających wspólną referencję) oraz prace nad implementacją metod do ich wykrywania. Przedstawię wykorzystane do tego celu podejście korpusowe z ręczną anotacją konstrukcji koreferencyjnych oraz proces tworzenia narzędzi lingwistyczno-informatycznych wraz z oceną ich jakości za pomocą standardowych metod ewaluacyjnych.||

||<style="border:0;padding-top:5px;padding-bottom:5px">'''4 grudnia 2017'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Adam Dobaczewski''', '''Piotr Sobotka''', '''Sebastian Żurowski''' (Uniwersytet Mikołaja Kopernika w Toruniu)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=az06czLflMw|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2017-12-04.pdf|Słownik reduplikacji i powtórzeń polskich]]''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">W naszym wystąpieniu przedstawimy słownik przygotowany przez zespół z Instytutu Języka Polskiego UMK w Toruniu (grant NPRH 11H 13 0265 82). W słowniku rejestrujemy wyrażenia języka polskiego, w których zaobserwować można obecność mechanizmu reduplikacji lub powtórzenia form tych samych leksemów. Jednostki języka wyróżniamy zgodnie z założeniami gramatyki operacyjnej A. Bogusławskiego i dzielimy je na dwie podstawowe grupy: (i) jednostki leksykalne składające się z dwóch takich samych segmentów lub form tego samego leksemu (typu ''całkiem całkiem''; ''fakt faktem, że _''); (ii) jednostki operacyjne bazujące na jakimś schemacie powtórzenia słów należących do pewnej przewidzianej przez ten schemat klasy (typu ''N[nom] N[inst], ale _'', gdzie N to dowolny rzeczownik, np. ''sąd sądem, ale _''; ''miłość miłością, ale _''). Ze względu na stosunkowo niewielką liczbę zarejestrowanych jednostek przygotowaliśmy słownik w postaci tradycyjnej (drukowanej). Jego podstawą materiałową są zasoby NKJP, które przeszukiwane były za pomocą wyszukiwarki powtórzeń w korpusie NKJP. Narzędzie to zostało specjalnie przygotowane na potrzeby tego projektu w ZIL IPI PAN.||

||<style="border:0;padding-top:5px;padding-bottom:5px">'''29 stycznia 2018'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Roman Grundkiewicz''' (Uniwersytet Adama Mickiewicza/Uniwersytet Edynburski)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=dj9rTwzDCdA|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2018-01-29.pdf|Automatyczna poprawa błędów językowych za pomocą tłumaczenia maszynowego]]''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Podczas wystąpienia opowiem o zadaniu automatycznej poprawy błędów językowych w tekstach pisanych przez osoby uczące się języka angielskiego jako języka obcego. Przedstawię wyniki badań nad zastosowaniem statystycznego tłumaczenia maszynowego opartego na frazach, które w sposób znaczący poszerzyły aktualny stan wiedzy w dziedzinie. Omówię jak istotna jest właściwa optymalizacja modelu na podstawie przyjętej automatycznej miary ewaluacji oraz zastosowanie odpowiednich cech gęstych i rzadkich. Zwięźle opiszę również dalsze badania z wykorzystaniem neuronowego tłumaczenia maszynowego.||

||<style="border:0;padding-top:5px;padding-bottom:5px">'''12 lutego 2018'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Agnieszka Mykowiecka''', '''Aleksander Wawer''', '''Małgorzata Marciniak''', '''Piotr Rychlik''' (Instytut Podstaw Informatyki PAN)||
||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=9QPldbRyIzU|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2018-02-12.pdf|Wykorzystanie semantyki dystrybucyjnej do oceny metaforyczności polskich fraz rzeczownikowych]]''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Na seminarium omówimy wektorowe modele języka skonstruowane dla polskiego w oparciu o lematy i formy słów oraz ich wykorzystanie w typowych zastosowaniach rozpoznawania synonimii i analogii między zadanymi parami słów. Następnie przedstawimy wykorzystanie wektorowych modeli do rozpoznawania metaforycznego i literalnego znaczenia fraz typu przymiotnik-rzeczownik (AN). Przedstawimy implementację oceniającą frazy izolowane oraz porównamy ją do metod opisanych w literaturze. Na koniec przedstawimy stan prac dotyczących rozpoznawania metaforycznego lub literalnego znaczenia frazy AN w kontekście zdaniowym.||

||<style="border:0;padding-top:5px;padding-bottom:5px">'''26 lutego 2018'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Celina Heliasz''' (Uniwersytet Warszawski)||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''Tworzyć czy współtworzyć? O poszukiwaniu synergii między informatykami a lingwistami''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Główny temat mojego referatu stanowią metody prowadzenia badań z zakresu lingwistyki korpusowej, którą zajmują się obecnie zarówno informatycy, jak i lingwiści. W referacie zaprezentuję próby ustalania i wizualizowania relacji semantycznych w tekście, podejmowane przez informatyków w ramach projektów RST (Rhetorical Structure Theory) i PDTB (Penn Discourse Treebank), które następnie skontrastuję z analogicznymi próbami podjętymi przez informatyków i lingwistów w IPI PAN w ramach przedsięwzięcia CLARIN-PL. Celem referatu będzie przedstawienie uwarunkowań efektywnej analizy lingwistycznej, które muszą zostać wzięte pod uwagę przy projektowaniu narzędzi informatycznych, jeśli narzędzia te mają służyć prowadzeniu badań nad tekstem i wyprowadzaniu z nich mocnych podstaw teorii lingwistycznych, a nie tylko wdrażaniu gotowych teorii z tego zakresu.||

||<style="border:0;padding-top:5px;padding-bottom:5px">'''28 maja 2018'''||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''Krzysztof Wołk''' (Polsko-Japońska Akademia Technik Komputerowych)||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''Eksploracja i wykorzystanie korpusów porównywalnych w tłumaczeniu maszynowym''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Problemem, który zostanie przedstawiony na seminarium, jest poprawa tłumaczenia maszynowego mowy z języka polskiego na angielski. Najpopularniejsze metodologie i narzędzia tłumaczenia nie są dobrze dostosowane do języka polskiego, a zatem wymagają adaptacji. Brakuje w zasobów językowych zarówno monolingwalnych jak i bilingwalnych dla języka polskiego. Dlatego głównym celem badania było opracowanie automatycznego zestawu narzędzi do przygotowywania zasobów tekstowych poprzez wydobywanie informacji z korpusów porównywalnych oraz prawie porównywalnych. Eksperymenty przeprowadzono głównie na swobodnej ludzkiej mowie, składającej się z wykładów, napisów do filmów, prac Parlamentu Europejskiego i tekstów Europejskiej Agencji Leków. Celem była rygorystyczna analiza problemów i poprawa jakości systemów bazowych, tj. dostosowanie technik i parametrów treningowych w celu zwiększenia wyniku Bilingual Evaluation Understudy (BLEU) w celu uzyskania maksymalnej wydajności. Kolejnym celem było stworzenie dodatkowych dwujęzycznych i jednojęzycznych zasobów tekstowych poprzez wykorzystanie dostępnych danych online oraz uzyskanie i wydobycie porównywalnych korpusów dla równoległych par zdań. Do tego zadania wykorzystano metodologię wykorzystującą maszynę wektorów pomocniczych i algorytm Needlemana-Wunscha wraz z łańcuchem specjalistycznych narzędzi.||

||<style="border:0;padding-top:0px">Zapraszamy także do zapoznania się z [[http://nlp.ipipan.waw.pl/NLP-SEMINAR/previous-p.html|archiwum seminariów z lat 2000–15]] oraz [[http://zil.ipipan.waw.pl/seminarium-archiwum|listą wystąpień z lat 2015–17]].||


{{{#!wiki comment


Umówić się z Brylską, zapytać tę od okulografii, czy to jest PJN
Agnieszka Kwiatkowska – zobaczyć ten jej tekst, moze też coś opowie?
Ew. Kasia Brylska, Monika Płużyczka na seminarium? Marcin Napiórkowski z Karolem?
Kto jeszcze? Może skorzystać z pieniędzy CLARIN-owych do zapraszania osób z całej Polski na seminaria?
Maciej Karpiński
Demenko – dawno już ich nie było; można iść po kluczu HLT Days
Michał Marcińczuk


niebanalna lingwistycznie i informatycznie

Kasia w związku z jej udziałem (i zwycięstwem) w zadaniu polevalowym? jeśli nie wypełni całego seminarium, to może Łukasz mógłby coś dopowiedzieć o tym zadaniu, ew. anotacji nowych danych?
– Norbert o swoim zwycięstwie?
– jakiś temat korbofleksowy? coś się działo w nowej Anotatorni, ale to może też można pokazać przy okazji tematu tagerowego – Witek obiecał, że opowiedzą w maju,
– nowości w projekcie Aliny? 

MTAS?
– NLP dla tekstów historycznych – Marcin/Witek? razem z KORBĄ, pokazać oba ręcznie znakowane korpusy i benchmarki na tagerach – maj,

– może Wrocław mógłby coś pokazać?
– Piotrek Pęzik
– Piotr Przybyła – 
– Darek Cz. 


Pytałem: AEP, Darka Czerskiego

1 III – Wojtek Jaworski? ale to czwartek!!!
12 III
26 III (Wielkanoc: 1–2 kwietnia, więc 26 marca jest w tygodniu wielkanocnym)
9 IV
23 IV – Witek, Marcin, Włodek, Renata?
14 V
28 V (LREC: 7-12 V) – Danijel Korzinek: Proces przygotowania korpusu mowy na podstawie nagrań Polskiej Kroniki Filmowej
11 VI (NAACL: 1-6 VI) – Krzysztof Wołk: Korpusy porównywalne 

jesień:
– Marcin, Witek: Chronofleks 
– Krzysztof Wołk: NMT na subword units
– Piotrek Pęzik obiecał coś wygłosić

||<style="border:0;padding-top:5px;padding-bottom:5px">'''12 DATA 2017''' ('''UWAGA: ''' wystąpienie odbędzie się o 13:00 w ramach [[https://ipipan.waw.pl/instytut/dzialalnosc-naukowa/seminaria/ogolnoinstytutowe|seminarium IPI PAN]])||
||<style="border:0;padding-left:30px;padding-bottom:0px">'''OSOBA''' (AFILIACJA)||
||<style="border:0;padding-left:30px;padding-bottom:5px">'''Tytuł zostanie udostępniony w najbliższym czasie''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">Opis wystąpienia zostanie udostępniony wkrótce.||

||<style="border:0;padding-left:30px;padding-bottom:5px">'''[[attachment:seminarium-archiwum/201--.pdf|...]]''' &#160;{{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}} {{attachment:seminarium-archiwum/icon-en.gif|Slajdy w języku angielskim.}}||
||<style="border:0;padding-left:30px;padding-bottom:15px">...||

}}}

Diff for "seminarium"

Menu

Seminarium „Przetwarzanie języka naturalnego” 2017–18