|
Size: 31127
Comment:
|
Size: 36765
Comment:
|
| Deletions are marked like this. | Additions are marked like this. |
| Line 1: | Line 1: |
| ## page was renamed from seminarium-archiwum | |
| Line 3: | Line 2: |
| = Seminarium „Przetwarzanie języka naturalnego” 2017–18 = ||<style="border:0;padding-bottom:10px">Seminarium [[http://nlp.ipipan.waw.pl/|Zespołu Inżynierii Lingwistycznej]] w [[http://www.ipipan.waw.pl/|Instytucie Podstaw Informatyki]] [[http://www.pan.pl/|Polskiej Akademii Nauk]] odbywa się nieregularnie w poniedziałki zwykle o godz. 10:15 w siedzibie IPI PAN (ul. Jana Kazimierza 5, Warszawa) i ma charakter otwarty. Poszczególne referaty ogłaszane są na [[http://lists.nlp.ipipan.waw.pl/mailman/listinfo/ling|Polskiej Liście Językoznawczej]] oraz na stronie [[https://www.facebook.com/lingwistyka.komputerowa|Lingwistyka komputerowa]] na Facebooku. Wszystkie nagrania dostępne są na [[https://www.youtube.com/channel/UC5PEPpMqjAr7Pgdvq0wRn0w|kanale YouTube]].||<style="border:0;padding-left:30px;">[[seminar|{{attachment:seminarium-archiwum/en.png}}]]|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''2 października 2017'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Paweł Rutkowski''' (Uniwersytet Warszawski)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=Acfdv6kUe5I|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2017-10-02.pdf|Polski język migowy z perspektywy lingwistyki korpusowej]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}} {{attachment:seminarium-archiwum/icon-en.gif|Slajdy w jęz. angielskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Polski język migowy (PJM) jest w pełni funkcjonalnym językiem wizualno-przestrzennym, którym posługuje się polska społeczność Głuchych. Jego rozwój rozpoczął się w drugiej dekadzie XIX wieku – wraz z założeniem pierwszej szkoły dla głuchych w Polsce. Do niedawna poświęcano mu bardzo niewiele uwagi w badaniach językoznawczych. Celem niniejszego wystąpienia jest przedstawienie szeroko zakrojonego projektu badawczego służącego opracowaniu obszernego i reprezentatywnego korpusu PJM. Korpus ten jest obecnie tworzony na Uniwersytecie Warszawskim. Ma formę zbioru klipów wideo przedstawiających osoby głuche posługujące się PJM w różnych kontekstach komunikacyjnych. Filmy są szczegółowo anotowane: segmentowane, lematyzowane, tłumaczone na polszczyznę, znakowane pod względem różnych cech gramatycznych i transkrybowane za pomocą symboli !HamNoSys. W skali międzynarodowej korpus PJM jest obecnie jednym z dwóch największych zbiorów oznakowanych danych migowych. Na szczególną uwagę zasługuje kwestia frekwencji leksykalnej w PJM. Dane tego typu opracowane zostały dotąd dla zaledwie kilku języków migowych – m.in. dla amerykańskiego języka migowego, nowozelandzkiego języka migowego, brytyjskiego języka migowego, australijskiego języka migowego i słoweńskiego języka migowego. Podstawy empiryczne tych badań wahały się od 100 000 (NZSL) do zaledwie 4 000 jednostek tekstowych (ASL). Niniejsze wystąpienie wpisuje się w dyskusję dotyczącą właściwości frekwencyjnych leksemów języków migowych poprzez przeanalizowanie o wiele większego zbioru relewantnych danych z PJM.|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''23 października 2017'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Katarzyna Krasnowska-Kieraś''', '''Piotr Rybak''', '''Alina Wróblewska''' (Instytut Podstaw Informatyki PAN)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=8qzqn69nCmg|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2017-10-23.pdf|Ewaluacja polskich wektorów dystrybucyjnych w kontekście dezambiguacji morfoskładniowej i parsowania zależnościowego]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Uczenie maszynowe oparte na głębokich sieciach neuronowych okazało się bardzo skuteczną heurystyką w różnych zadaniach przetwarzania języka naturalnego. Ważnym komponentem sieci neuronowych jest reprezentacja wektorowa cech (tzw. feature embedding). Istnieje możliwość tworzenia wektorów dystrybucyjnych cech różnego typu, np. wyrazów czy części mowy. Przedmiotem prezentacji będą wyniki analizy, która pokazała, dla jakich cech można obliczać modele dystrybucyjne typu „embedding” dla języków fleksyjnych. Ponadto przedstawimy propozycję ewaluacji in vivo wektorów dystrybucyjnych w kontekście dwóch podstawowych zadań NLP – dezambiguacji morfoskładniowej oraz parsowania zależnościowego. Nasze eksperymenty ewaluacyjne zostały przeprowadzone na zasobach w języku polskim. Przedstawione badania były inspiracją do stworzenia dezambiguatora morfoskładniowego – Toygger, który wygrał Zadanie 1 (A) w konkursie [[http://poleval.pl|PolEval 2017]] i który również zostanie przedstawiony podczas wystąpienia.|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''6 listopada 2017'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Szymon Łęski''' (Samsung R&D Polska)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=266ftzwmKeU|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2017-11-06.pdf|Głębokie sieci neuronowe w modelach języka]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}} {{attachment:seminarium-archiwum/icon-en.gif|Slajdy w jęz. angielskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">W czasie wykładu przedstawię wprowadzenie do modeli językowych: tradycyjnych, opartych na n-gramach, oraz nowych, opartych na sieciach rekurencyjnych. Następnie, na podstawie artykułów z ostatnich lat, omówię najciekawsze pomysły rozszerzeń i modyfikacji sieciowych modeli językowych, takie jak modyfikacje reprezentacji słów czy modele z wyjściem nie ograniczonym do z góry ustalonego słownika.|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''20 listopada 2017'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Michał Ptaszyński''' (Kitami Institute of Technology, Japonia)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=hUtI5lCyUew|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2017-11-20.pdf|Analiza emocji w kontekście jako jeden ze sposobów na osiągnięcie Roztropności Komputerowej]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Badania nad emocjami w dziedzinie Sztucznej Inteligencji i dziedzinach pokrewnych nabrały w ostatnich latach prędkości. Niestety, w większości badań emocje są analizowane bez otaczającego ich kontekstu. W wykładzie spróbuję przekonać słuchaczy, iż rozpoznawanie emocji bez analizowania ich kontekstu jest niekompletne i nie może być wystarczające do praktycznych zastosowań w świecie rzeczywistym. Opiszę także niektóre konsekwencje nieuwzględnienia kontekstu emocji. Na koniec przedstawię jedno podejście, w którym podjęliśmy się analizy emocji w ich kontekście i krótko opiszę pierwsze eksperymenty przeprowadzone w tym kierunku.|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''27 listopada 2017''' (prezentacja na seminarium IPI PAN)|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Maciej Ogrodniczuk''' (Instytut Podstaw Informatyki PAN)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''[[attachment:seminarium-archiwum/2017-11-27.pdf|Automatyczne wykrywanie koreferencji nominalnej w języku polskim]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Tematem wykładu będzie propozycja opisu nominalnych zależności koreferencyjnych w polszczyźnie (czyli zbiorów konstrukcji tekstowych posiadających wspólną referencję) oraz prace nad implementacją metod do ich wykrywania. Przedstawię wykorzystane do tego celu podejście korpusowe z ręczną anotacją konstrukcji koreferencyjnych oraz proces tworzenia narzędzi lingwistyczno-informatycznych wraz z oceną ich jakości za pomocą standardowych metod ewaluacyjnych.|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''4 grudnia 2017'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Adam Dobaczewski''', '''Piotr Sobotka''', '''Sebastian Żurowski''' (Uniwersytet Mikołaja Kopernika w Toruniu)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=az06czLflMw|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2017-12-04.pdf|Słownik reduplikacji i powtórzeń polskich]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">W naszym wystąpieniu przedstawimy słownik przygotowany przez zespół z Instytutu Języka Polskiego UMK w Toruniu (grant NPRH 11H 13 0265 82). W słowniku rejestrujemy wyrażenia języka polskiego, w których zaobserwować można obecność mechanizmu reduplikacji lub powtórzenia form tych samych leksemów. Jednostki języka wyróżniamy zgodnie z założeniami gramatyki operacyjnej A. Bogusławskiego i dzielimy je na dwie podstawowe grupy: (i) jednostki leksykalne składające się z dwóch takich samych segmentów lub form tego samego leksemu (typu ''całkiem całkiem''; ''fakt faktem, że _''); (ii) jednostki operacyjne bazujące na jakimś schemacie powtórzenia słów należących do pewnej przewidzianej przez ten schemat klasy (typu ''N[nom] N[inst], ale _'', gdzie N to dowolny rzeczownik, np. ''sąd sądem, ale _''; ''miłość miłością, ale _''). Ze względu na stosunkowo niewielką liczbę zarejestrowanych jednostek przygotowaliśmy słownik w postaci tradycyjnej (drukowanej). Jego podstawą materiałową są zasoby NKJP, które przeszukiwane były za pomocą wyszukiwarki powtórzeń w korpusie NKJP. Narzędzie to zostało specjalnie przygotowane na potrzeby tego projektu w ZIL IPI PAN.|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''29 stycznia 2018'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Roman Grundkiewicz''' (Uniwersytet Adama Mickiewicza/Uniwersytet Edynburski)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=dj9rTwzDCdA|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2018-01-29.pdf|Automatyczna poprawa błędów językowych za pomocą tłumaczenia maszynowego]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Podczas wystąpienia opowiem o zadaniu automatycznej poprawy błędów językowych w tekstach pisanych przez osoby uczące się języka angielskiego jako języka obcego. Przedstawię wyniki badań nad zastosowaniem statystycznego tłumaczenia maszynowego opartego na frazach, które w sposób znaczący poszerzyły aktualny stan wiedzy w dziedzinie. Omówię jak istotna jest właściwa optymalizacja modelu na podstawie przyjętej automatycznej miary ewaluacji oraz zastosowanie odpowiednich cech gęstych i rzadkich. Zwięźle opiszę również dalsze badania z wykorzystaniem neuronowego tłumaczenia maszynowego.|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''12 lutego 2018'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Agnieszka Mykowiecka''', '''Aleksander Wawer''', '''Małgorzata Marciniak''', '''Piotr Rychlik''' (Instytut Podstaw Informatyki PAN)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=9QPldbRyIzU|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2018-02-12.pdf|Wykorzystanie semantyki dystrybucyjnej do oceny metaforyczności polskich fraz rzeczownikowych]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Na seminarium omówimy wektorowe modele języka skonstruowane dla polskiego w oparciu o lematy i formy słów oraz ich wykorzystanie w typowych zastosowaniach rozpoznawania synonimii i analogii między zadanymi parami słów. Następnie przedstawimy wykorzystanie wektorowych modeli do rozpoznawania metaforycznego i literalnego znaczenia fraz typu przymiotnik-rzeczownik (AN). Przedstawimy implementację oceniającą frazy izolowane oraz porównamy ją do metod opisanych w literaturze. Na koniec przedstawimy stan prac dotyczących rozpoznawania metaforycznego lub literalnego znaczenia frazy AN w kontekście zdaniowym.|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''26 lutego 2018'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Celina Heliasz''' (Uniwersytet Warszawski)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''[[attachment:seminarium-archiwum/2018-02-26.pdf|Tworzyć czy współtworzyć? O poszukiwaniu synergii między informatykami a lingwistami]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Główny temat mojego referatu stanowią metody prowadzenia badań z zakresu lingwistyki korpusowej, którą zajmują się obecnie zarówno informatycy, jak i lingwiści. W referacie zaprezentuję próby ustalania i wizualizowania relacji semantycznych w tekście, podejmowane przez informatyków w ramach projektów RST (Rhetorical Structure Theory) i PDTB (Penn Discourse Treebank), które następnie skontrastuję z analogicznymi próbami podjętymi przez informatyków i lingwistów w IPI PAN w ramach przedsięwzięcia CLARIN-PL. Celem referatu będzie przedstawienie uwarunkowań efektywnej analizy lingwistycznej, które muszą zostać wzięte pod uwagę przy projektowaniu narzędzi informatycznych, jeśli narzędzia te mają służyć prowadzeniu badań nad tekstem i wyprowadzaniu z nich mocnych podstaw teorii lingwistycznych, a nie tylko wdrażaniu gotowych teorii z tego zakresu.|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''9 kwietnia 2018'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Jan Kocoń''' (Politechnika Wrocławska)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=XgSyuWEHWhU|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2018-04-09.pdf|Rozpoznawanie wyrażeń temporalnych i opisów sytuacji w dokumentach tekstowych dla języka polskiego]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Wyrażeniem temporalnym nazywamy ciąg wyrazów, który informuje o tym, ''kiedy'', ''jak często'' sytuacja ma miejsce lub ''jak długo'' trwa. Opisy sytuacji to wyrażenia językowe, które sygnalizują zmianę stanu w opisie rzeczywistości oraz niektóre stany. Zagadnienia te wchodzą w zakres wydobywania informacji z tekstu (ang. Information Extraction). Są one dobrze zdefiniowane i opisane dla języka angielskiego oraz częściowo dla innych języków. Specyfikacja TimeML, której język opisu informacji temporalnej został zaakceptowany jako standard ISO, doczekała się oficjalnych adaptacji dla sześciu języków, a część dotycząca opisu wyrażeń temporalnych jest zdefiniowana dla jedenastu języków. Rezultatem prac, prowadzonych w ramach CLARIN-PL, jest adaptacja wytycznych TimeML dla języka polskiego. Motywacją do realizacji tego tematu był fakt, że z informacji temporalnej korzystają różne metody inżynierii języka naturalnego, w tym metody do odpowiadania na pytania zadawane w języku naturalnym, automatycznego streszczania tekstu, wydobywania relacji semantycznych i wiele innych. Metody te umożliwiają badaczom z dziedziny nauk humanistycznych i społecznych pracę z bardzo dużymi zbiorami tekstów, których analiza bez wykorzystania wymienionych metod byłaby bardzo czasochłonna, o ile w ogóle możliwa. Oprócz samej adaptacji języka opisu informacji temporalnej, kluczowym aspektem dla infrastruktury wykorzystującej metody do rozpoznawania wyrażeń temporalnych i opisów sytuacji, jest jakość oraz wydajność metod. Na prezentacji zostanie omówiona zarówno analiza jakości danych przygotowywanych przez ekspertów dziedzinowych (w tym analiza zgodności anotacji), jak i wyniki badań mających na celu redukcję złożoności obliczeniowej problemu przy jednoczesnym zachowaniu niepogorszonej jakości działania metod.|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''23 kwietnia 2018'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Włodzimierz Gruszczyński, Dorota Adamiec, Renata Bronikowska''' (Instytut Języka Polskiego PAN), '''Witold Kieraś, Dorota Komosińska, Marcin Woliński''' (Instytut Podstaw Informatyki PAN)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=APvZdALq6ZU|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2018-04-23.pdf|Korpus historyczny – problemy transliteracji, transkrypcji i anotacji na przykładzie Elektronicznego Korpusu Tekstów Polskich z XVII i XVIII w. (do 1772 r.)]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">W czasie seminarium omówiony zostanie proces powstawania Elektronicznego Korpusu Tekstów Polskich z XVII i XVIII w. (!KorBa, czyli Korpus Barokowy) ze szczególnym uwzględnieniem tych zadań i problemów, które nie występują w trakcie tworzenia korpusu współczesnych polskich tekstów (np. NKJP) lub różnią się w istotny sposób od analogicznych zadań i problemów występujących przy tworzeniu korpusów tekstów współczesnych. Poszczególne problemy omówione zostaną w kolejności ich pojawiania się w trakcie tworzenia korpusu. Przedstawimy także narzędzia, które powstały w trakcie realizacji projektu (stworzone na potrzeby projektu lub dostosowane do tych potrzeb). Po ogólnej prezentacji projektu !KorBa (założenia, finansowanie, zespół, stan obecny, przeznaczenie korpusu) omówione zostaną kwestie zasady doboru tekstów, problemy występujące przy pozyskiwaniu tekstów i włączaniu ich do bazy danych, problem ogromnego zróżnicowania ortograficznego tekstów i konieczność ich transkrypcji na współczesną ortografię, problemy analizy morfologicznej oraz narzędzia do ręcznego i automatycznego znakowania morfosyntaktycznego podkorpusu oraz przeszukiwania korpusu.|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''14 maja 2018'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Łukasz Kobyliński, Michał Wasiluk i Zbigniew Gawłowicz''' (Instytut Podstaw Informatyki PAN)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=QpmLVzqQfcM|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2018-05-14.pdf|MTAS: nowa wyszukiwarka korpusowa. Doświadczenia wdrożeniowe w kontekście polskich korpusów językowych]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Podczas seminarium omówimy nasze doświadczenia w kontekście języka polskiego z oprogramowaniem MTAS, które jest silnikiem przeszukiwania korpusów tekstowych. Przedstawimy dotychczasowe wdrożenia oprogramowania MTAS w takich projektach związanych z korpusami tekstowymi jak KORBA (korpus języka polskiego XVII i XVIII wieku), korpus XIX wieku, a także w przypadku Narodowego Korpusu Języka Polskiego. Omówimy również wstępne eksperymenty dotyczące wykorzystania oprogramowania MTAS w Korpusomacie – narzędziu do tworzenia własnych korpusów tekstowych. W trakcie prezentacji przedstawimy rozwiązania problemów, na które napotkaliśmy adaptując MTAS do wykorzystania w kontekście języka polskiego oraz wstępne wyniki testów wydajnościowych. Przedyskutujemy również możliwości wyszukiwania za pomocą tego silnika oraz plany dalszej adaptacji i rozwoju.|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''21 maja 2018''' (prezentacja na seminarium IPI PAN)|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Piotr Borkowski''' (Instytut Podstaw Informatyki PAN)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=o2FFtfrqh3I|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2018-05-21.pdf|Metody semantycznej kategoryzacji w zadaniach analizy dokumentów tekstowych]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">W przygotowywanej pracy doktorskiej zatytułowanej „Metody semantycznej kategoryzacji w zadaniach analizy dokumentów tekstowych” zaproponowano oraz zbadano nowy algorytm semantycznej kategoryzacji dokumentów. Na jego podstawie opracowano nowy algorytm agregacji kategorii, rodzinę algorytmów semantycznych klasyfikatorów, a także heterogeniczny komitet klasyfikatorów (łączący algorytm semantycznej kategoryzacji i znanych dotąd klasyfikatorów). W ramach referatu przedstawię pokrótce ich koncepcję oraz wyniki badań ich skuteczności.|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''28 maja 2018'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Krzysztof Wołk''' (Polsko-Japońska Akademia Technik Komputerowych)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=FyeVRSXbBOg|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2018-05-28.pdf|Eksploracja i wykorzystanie korpusów porównywalnych w tłumaczeniu maszynowym]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Problemem, który zostanie przedstawiony na seminarium, jest poprawa tłumaczenia maszynowego mowy z języka polskiego na angielski. Najpopularniejsze metodologie i narzędzia tłumaczenia nie są dobrze dostosowane do języka polskiego, a zatem wymagają adaptacji. Brakuje w zasobów językowych zarówno monolingwalnych jak i bilingwalnych dla języka polskiego. Dlatego głównym celem badania było opracowanie automatycznego zestawu narzędzi do przygotowywania zasobów tekstowych poprzez wydobywanie informacji z korpusów porównywalnych oraz prawie porównywalnych. Eksperymenty przeprowadzono głównie na swobodnej ludzkiej mowie, składającej się z wykładów, napisów do filmów, prac Parlamentu Europejskiego i tekstów Europejskiej Agencji Leków. Celem była rygorystyczna analiza problemów i poprawa jakości systemów bazowych, tj. dostosowanie technik i parametrów treningowych w celu zwiększenia wyniku Bilingual Evaluation Understudy (BLEU) w celu uzyskania maksymalnej wydajności. Kolejnym celem było stworzenie dodatkowych dwujęzycznych i jednojęzycznych zasobów tekstowych poprzez wykorzystanie dostępnych danych online oraz uzyskanie i wydobycie porównywalnych korpusów dla równoległych par zdań. Do tego zadania wykorzystano metodologię wykorzystującą maszynę wektorów pomocniczych i algorytm Needlemana-Wunscha wraz z łańcuchem specjalistycznych narzędzi.|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''4 czerwca 2018'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Piotr Przybyła''' (University of Manchester)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://www.youtube.com/watch?v=thHOtqsfsys|{{attachment:seminarium-archiwum/youtube.png}}]] '''[[attachment:seminarium-archiwum/2018-06-04.pdf|Wspomaganie przesiewania dokumentów w przeglądach systematycznych z użyciem uczenia maszynowego i eksploracji tekstu]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Przeglądy systematyczne, mające na celu zbiorczą analizę całej dostępnej literatury dotyczącej danego zagadnienia, są podstawowym narzędziem w badaniach medycznych. Ich najbardziej pracochłonny etap stanowi ręczne przesiewanie streszczeń tysięcy artykułów zwróconych przez wyszukiwarki w celu wskazania kilkudziesięciu rzeczywiście dotyczących wybranego tematu. Problem ten można przedstawić jako zadanie klasyfikacji dokumentów, i, przy wsparciu nienadzorowanych technik eksploracji tekstu, uzyskać znaczące przyspieszenie całego procesu. Prezentacja obejmie dostosowanie algorytmów uczenia maszynowego do specyfiki zadania, techniki wyszukiwania, wydobywania i wizualizacji tematów i pojęć w kolekcjach, wdrożenie systemu i ewaluację w NICE (National Institute for Health and Care Excellence), agencji opracowującej wytyczne dla służby zdrowia w Wielkiej Brytanii.|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''11 czerwca 2018'''|| |
= Seminarium „Przetwarzanie języka naturalnego” 2024–25 = ||<style="border:0;padding-bottom:10px">Seminarium [[http://nlp.ipipan.waw.pl/|Zespołu Inżynierii Lingwistycznej]] w [[http://www.ipipan.waw.pl/|Instytucie Podstaw Informatyki]] [[http://www.pan.pl/|Polskiej Akademii Nauk]] odbywa się średnio co 2 tygodnie, zwykle w poniedziałki o godz. 10:15 (niekiedy online – prosimy o korzystanie z linku przy tytule wystąpienia) i ma charakter otwarty. Poszczególne referaty ogłaszane są na [[http://lists.nlp.ipipan.waw.pl/mailman/listinfo/ling|Polskiej Liście Językoznawczej]] oraz na stronie [[https://www.facebook.com/lingwistyka.komputerowa|Lingwistyka komputerowa]] na Facebooku. Nagrania wystąpień dostępne są na [[https://www.youtube.com/ipipan|kanale YouTube]].||<style="border:0;padding-left:30px;">[[seminar|{{attachment:seminarium-archiwum/en.png}}]]|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''7 października 2023'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Janusz S. Bień''' (profesor emeritus Uniwersytetu Warszawskiego) || ||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Identyfikacja czcionek w XVI-wiecznych drukach. Analiza przypadku'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienia w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Przetwarzanie tekstów wymaga ich zakodowania w odpowiednim standardzie, aktualnie praktyczne jedyną opcją jest standard Unicode. Niektóre czcionki stosowane w starodrukach są już uwzględnione w tym standardzie, niektóre sa dostępne w specjalistycznych fontach za pomocą tzw. funkcji zecerskich. Niektóre czcionki, opisane w monumentalnym dziele „[[https://polona.pl/preview/2177789b-4c73-48ae-ab76-f33d7f6f2070}Polonia Typographica Saeculi Sedecimi]]”, nie maja jednak swoich odpowiedników w standardzie. W referacie omówię kilka takich czcionek.|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''16 października 2023'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Konrad Wojtasik''', '''Vadim Shishkin''', '''Kacper Wołowiec''', '''Arkadiusz Janz''', '''Maciej Piasecki''' (Politechnika Wrocławska)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''[[attachment:seminarium-archiwum/2023-10-16.pdf|Ewaluacja i trenowanie modeli do wyszukiwania informacji w ustawieniu zero-shot dla różnych domen dokumentów]]'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Przeszukiwanie dużych kolekcji dokumentów w celu odnalezienia interesujących nas informacji jest niezwykle ważnym kierunkiem badawczym w dziedzinie przetwarzania języka naturalnego. Jest to kluczowy komponent w systemach odpowiadania na pytania, gdzie często model odpowiadający korzysta z informacji zawartych w bazie danych z aktualną wiedzą. Pozwala to nie tylko na aktualizację wiedzy, na podstawie której system odpowiada na zapytania użytkownika, ale również ogranicza jego halucynacje. Aktualnie modele do wyszukiwania informacji są sieciami neuronowymi i wymagają dużych zasobów uczących do ich wytrenowania. Przez wiele lat, metody dopasowania leksykalnego jak BM25, osiągały lepsze wyniki niż wytrenowane modele, jednak aktualne architektury i rozległe zbiory danych pozwalają na prześcignięcie leksykalnych rozwiązań. W prezentacji przedstawię dostępne zbiory służące do ewaluacji i trenowania aktualnych architektur do wyszukiwania informacji w kolekcjach dokumentów z różnych domen, jak i kierunki rozwoju na przyszłość.|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''30 października 2023'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Agnieszka Faleńska''' (Uniwersytet w Stuttgarcie)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''[[attachment:seminarium-archiwum/2023-10-30.pdf|Steps towards Bias-Aware NLP Systems]]'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:5px">Dla wielu, systemy przetwarzania języka naturalnego (NLP) stały się codziennością. Ich zastosowania sięgają od automatycznego tłumaczenia dokumentów po asystentów osobistych obsługiwanych głosem. W ostatnich latach, ten rosnący wpływ narzędzi AI na życie ludzi wywołuje znaczące obawy dotyczące możliwych szkód, jakie mogą one wyrządzić.|| ||<style="border:0;padding-left:30px;padding-bottom:15px">W tej prezentacji rozpocznę od przedstawienia kilku przykładów takich szkodliwych zachowań i omówię ich potencjalne źródła. Będę argumentować, że problemy związane z uprzedzeniami w modelach NLP powinny być rozwiązywane poprzez rozwijanie naszego zrozumienia ich źródeł językowych. Następnie prezentacja skoncentruje się na trzech powszechnie używanych źródłach danych: Wikipedii, tekstach instruktażowych i forum dyskusyjnym. Poprzez te przykłady pokażę, że niezależnie od perspektywy (czy mówimy o kimś, do kogoś, czy jako ktoś), subtelne uprzedzenia są obecne we wszystkich tych zbiorach danych i mogą przyczynić się do szkodliwych efektów modeli NLP.|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''13 listopada 2023'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Piotr Rybak''' (Instytut Podstaw Informatyki PAN)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''[[attachment:seminarium-archiwum/2023-11-13.pdf|Najnowsze postępy w rozwoju systemów do odpowiadania na pytania w języku polskim]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}} {{attachment:seminarium-archiwum/icon-en.gif|Slajdy po angielsku.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Mimo że odpowiadanie na pytania (ang. ''Question Answering'') jest jednym z popularniejszych zagadnień przetwarzania języka naturalnego, to do niedawna było ono praktycznie nieobecne w polskim środowisku naukowym. Ostatnie lata przyniosły jednak rozkwit prac związanych z tym tematem. Podczas tego wystąpienia opowiem na czym polega zagadnienie odpowiadania na pytania, jak działają obecne systemy rozwiązujące ten problem, a także jakie zbiory danych oraz modele są dostępne dla języka polskiego. W szczególności opowiem o zasobach tworzonych w IPI PAN, czyli zbiorach danych [[https://huggingface.co/datasets/ipipan/polqa|PolQA]] i [[https://huggingface.co/datasets/ipipan/maupqa|MAUPQA]] oraz modelu [[https://huggingface.co/ipipan/silver-retriever-base-v1|Silver Retriever]]. Na koniec wskażę dalsze kierunki prac, które wciąż pozostają otwarte jeśli chodzi o odpowiadanie na pytania w języku polskim.|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''11 grudnia 2023''' (seria krótkich wystąpień autorstwa badaczy z Coventry University)|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Xiaorui Jiang''', '''Opeoluwa Akinseloyin''', '''Vasile Palade''' (Coventry University)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''[[attachment:seminarium-archiwum/2023-12-11-1.pdf|Towards More Human-Effortless Systematic Review Automation]]'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w jęz. angielskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:10px">Systematic literature review (SLR) is the standard tool for synthesising medical and clinical evidence from the ocean of publications. SLR is extremely expensive. SLR is extremely expensive. AI can play a significant role in automating the SLR process, such as for citation screening, i.e., the selection of primary studies-based title and abstract. [[http://systematicreviewtools.com/|Some tools exist]], but they suffer from tremendous obstacles, including lack of trust. In addition, a specific characteristic of systematic review, which is the fact that each systematic review is a unique dataset and starts with no annotation, makes the problem even more challenging. In this study, we present some seminal but initial efforts on utilising the transfer learning and zero-shot learning capabilities of pretrained language models and large language models to solve or alleviate this challenge. Preliminary results are to be reported.|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Kacper Sówka''' (Coventry University)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''[[attachment:seminarium-archiwum/2023-12-11-2.pdf|Attack Tree Generation Using Machine Learning]]'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w jęz. angielskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:10px">My research focuses on applying machine learning and NLP to the problem of cybersecurity attack modelling. This is done by generating "attack tree" models using public cybersecurity datasets (CVE) and training a siamese neural network to predict the relationship between individual cybersecurity vulnerabilities using a DistilBERT encoder fine-tuned using Masked Language Modelling.|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Xiaorui Jiang''' (Coventry University)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''[[attachment:seminarium-archiwum/2023-12-11-3.pdf|Towards Semantic Science Citation Index]]'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w jęz. angielskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:10px">It is a difficult task to understand and summarise the development of scientific research areas. This task is especially cognitively demanding for postgraduate students and early-career researchers, of the whose main jobs is to identify such developments by reading a large amount of literature. Will AI help? We believe so. This short talk summarises some recent initial work on extracting the semantic backbone of a scientific area through the synergy of natural language processing and network analysis, which is believed to serve a certain type of discourse models for summarisation (in future work). As a small step from it, the second part of the talk introduces how comparison citations are utilised to improve multi-document summarisation of scientific papers.|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Xiaorui Jiang''', '''Alireza Daneshkhah''' (Coventry University)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''[[attachment:seminarium-archiwum/2023-12-11-4.pdf|Natural Language Processing for Automated Triaging at NHS]]'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w jęz. angielskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15x">In face of a post-COVID global economic slowdown and aging society, the primary care units in the National Healthcare Services (NHS) are receiving increasingly higher pressure, resulting in delays and errors in healthcare and patient management. AI can play a significant role in alleviating this investment-requirement discrepancy, especially in the primary care settings. A large portion of clinical diagnosis and management can be assisted with AI tools for automation and reduce delays. This short presentation reports the initial studies worked with an NHS partner on developing NLP-based solutions for the automation of clinical intention classification (to save more time for better patient treatment and management) and an early alert application for Gout Flare prediction from chief complaints (to avoid delays in patient treatment and management).|| ||<style="border:0;padding-top:15px;padding-bottom:5px">'''8 stycznia 2024'''|| |
| Line 84: | Line 43: |
| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''Proces przygotowania korpusu mowy na podstawie nagrań Polskiej Kroniki Filmowej'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Na prezentacji zostanie omówiony proces tworzenia korpusu mowy oparty o nagrania z Polskiej Kroniki Filmowej, jaki stworzono w ramach projektu CLARIN-PL. Zasób ten jest niezwykle cenny ze względu na jego przydatność w badaniach lingwistycznych, szczególnie w kontekście mowy i języka historycznego. Za cel wybrano sobie okres w latach 1945–1960. W prezentacji zostaną omówione różne zagadnienia: od kwestii prawnych dotyczących uzyskania samych zasobów, do szczegółów technicznych dotyczących dostosowania narzędzi analizy mowy do tej nietypowej dziedziny.|| ||<style="border:0;padding-top:0px">Zapraszamy także do zapoznania się z [[http://nlp.ipipan.waw.pl/NLP-SEMINAR/previous-p.html|archiwum seminariów z lat 2000–15]] oraz [[http://zil.ipipan.waw.pl/seminarium-archiwum|listą wystąpień z lat 2015–17]].|| |
||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''[[attachment:seminarium-archiwum/2024-01-08.pdf|ParlaSpeech – Tworzenie wielkoskalowych korpusów mowy w projekcie ParlaMint]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie po polsku.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Celem tego podprojektu było opracowanie procesów i stworzenie narzędzi pozwalających na powiązanie tekstowych korpusów stworzonych w ramach projektu [[https://www.clarin.eu/parlamint|ParlaMint]] z odpowiadającymi im materiałami audio i wideo dostępnymi w Internecie. Zadanie to było oczywiście bardziej złożone niż się to może intuicyjnie wydawać i jego powodzenie było uzależnione w największej mierze od poprawnego dopasowania bardzo długiego nagrania audio (kilkanaście godzin, czyli cały dzień pracy parlamentu) do odpowiadającego mu transkryptu, wraz ze wszystkimi błędami i niedokładnościami w dopasowaniu i kolejności występującymi między tymi dwoma modalnościami. Projekt został stworzony w oparciu o całkowicie otwarte oprogramowanie i modele, które są dostępne w publicznym repozytorium i mogą być zastosowane do innych projektów o podobnym zakresie wymagań. Na obecną chwile, wspomnianymi narzędziami w pełni opracowano korpusy w dwóch językach (polski i chorwacki), ale więcej jest tworzonych w tej chwili.|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''12 lutego 2024'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Tsimur Hadeliya''', '''Dariusz Kajtoch''' (Allegro ML Research)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''[[attachment:seminarium-archiwum/2024-02-12.pdf|Ewaluacja i analiza uczenia kontekstowego dla zadania klasyfikacji w języku polskim]]'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie po angielsku.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">With the advent of language models such as ChatGPT, we are witnessing a paradigm shift in the way we approach natural language processing tasks. Instead of training a model from scratch, we can now solve tasks by designing appropriate prompts and choosing suitable demonstrations as input to a generative model. This approach, known as in-context learning (ICL), has shown remarkable capabilities for classification tasks in the English language . In this presentation, we will investigate how different language models perform on Polish classification tasks using the ICL approach. We will explore the effectiveness of various models, including multilingual and large-scale models, and compare their results with existing solutions. Through a comprehensive evaluation and analysis, we aim to gain insights into the strengths and limitations of this approach for Polish classification tasks. Our findings will shed light on the potential of ICL for the Polish language. We will discuss challenges and opportunities, and propose directions for future work.|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''29 lutego 2024'''|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''Seminarium wyjazdowe: Warsztat „Analiza danych parlamentarnych”'''|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''Wprowadzenie'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">12:00–12:10: '''Powitanie'''|| ||<style="border:0;padding-left:30px;padding-bottom:10px">12:10–12:40: '''[[attachment:seminarium-archiwum/2024-02-29-1.pdf|Korpus Dyskursu Parlamentarnego i korpus ParlaMint]]''' (Maciej Ogrodniczuk)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''Zgłoszenia konkursowe'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">12:40–13:00: '''[[attachment:seminarium-archiwum/2024-02-29-2.pdf|Aplikacja do analizy sentymentu wypowiedzi parlamentarzystów RP]]''' (Bartłomiej Klimowski)|| ||<style="border:0;padding-left:30px;padding-bottom:0px">13:00–13:20: '''[[attachment:seminarium-archiwum/2024-02-29-3.pdf|Analiza dynamiki emocji w debatach parlamentarnych o wojnie w Ukrainie]]''' (Konrad Kiljan i Ewelina Gajewska)|| ||<style="border:0;padding-left:30px;padding-bottom:10px">13:20–13:40: '''[[attachment:seminarium-archiwum/2024-02-29-4.pdf|Język wrażliwy na płeć (gender-fair language) w polskim parlamencie: badanie korpusowe debat parlamentarnych w korpusie ParlaMint]]''' (Aleksandra Tomaszewska i Anna Jamka)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''Wykład na zaproszenie'''|| ||<style="border:0;padding-left:30px;padding-bottom:10px">14:00–15:00: '''[[attachment:seminarium-archiwum/2024-02-29-5.pdf|Zmiany w polszczyźnie ostatnich stu lat w zwierciadle debat parlamentarnych]]''' (Marek Łaziński)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''Dyskusja panelowa'''|| ||<style="border:0;padding-left:30px;padding-bottom:10px">15:00–15:45: '''Przetwarzanie danych parlamentarnych: co dalej?''' (Członkowie Kapituły Konkursu)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''Zakończenie'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">15:45–15:50: '''Wręczenie dyplomów'''|| ||<style="border:0;padding-left:30px;padding-bottom:15px">15:50–16:00: '''Podsumowanie warsztatu'''|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''25 marca 2024'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Piotr Przybyła''' (Uniwersytet Pompeu Fabry / Instytut Podstaw Informatyki PAN)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''[[attachment:seminarium-archiwum/2024-03-25.pdf|Czy klasyfikatory wiarygodności tekstu są odporne na działania antagonistyczne?]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Automatyczne klasyfikatory tekstu wykorzystuje się szeroko do pomocy w moderowaniu platform udostępniających treści generowane przez użytkowników, szczególnie sieci społecznościowych. Mogą być one używane do odsiewania treści nieprzyjaznych, dezinformujących, manipulujących lub wprost nielegalnych. Jednak trzeba wziąć pod uwagę, że autorzy takich tekstów często mają silną motywację do ich rozpowszechniania i mogą próbować modyfikować oryginalną treść, aż znajdą takie sformułowanie, które przedostanie się przez automatyczny filtr. Takie zmodyfikowane wersje oryginalnych danych, nazywane przykładami antagonistycznymi, odgrywają kluczową rolę w badaniu odporności modeli ML na ataki zmotywowanych aktorów. Wystąpienie będzie poświęcone systematycznej analizie tego problemu w kontekście wykrywania dezinformacji. Pokażę konkretne przykłady, gdzie podmiana pozornie nieistotnych słów powoduje zmianę decyzji klasyfikatora, jak również framework BODEGA do systematycznej oceny odporności modeli, wykorzystany również w zadaniu InCrediblAE na [[https://checkthat.gitlab.io/clef2024/task6/|warsztatach ewaluacyjnych CheckThat!]] na konferencji [[https://clef2024.imag.fr/|CLEF 2024]].|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''28 marca 2024'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Krzysztof Węcel''' (Uniwersytet Ekonomiczny w Poznaniu)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''[[attachment:seminarium-archiwum/2024-03-28.pdf|Wiarygodność informacji w kontekście procesu fact-checkingu]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Prezentacja będzie skupiała się na tematyce projektu !OpenFact, który jest odpowiedzią na problem fake newsów. W ramach projektu opracowujemy metody, które pozwalają na weryfikację wiarygodności informacji. W celu zapewnienia poprawności metodycznej bazujemy na procesie stosowanym przez agencje fact-checkingowe. Działania te opierają się na złożonych zbiorach danych, pozyskiwanych m.in. z !ClaimReview, Common Crawl czy poprzez monitoring mediów społecznościowych i ekstrakcję stwierdzeń z tekstów. Istotne jest również ocenianie informacji pod kątem jej wartości do weryfikacji (checkworthiness) oraz wiarygodności źródeł, których reputacja może wynikać z publikacji z !OpenAlex lub Crossref. Analiza stylometryczna pozwala na określenie autorstwa, a porównanie ludzkiej i maszynowej pracy otwiera nowe możliwości w wykrywaniu użycia sztucznej inteligencji. Używamy zarówno małych modeli językowych, jak i LLM uruchamianych zdalnie w różnych wariantach. Zbudowaliśmy duże zbiory stwierdzeń, które mogą służyć do weryfikacji nowych tekstów poprzez badanie podobieństwa semantycznego. Opisane są one dodatkowymi wciąż rozbudowywanymi metadanymi pozwalającymi na realizację różnych scenariuszy użycia.|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''25 kwietnia 2024'''|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Seminarium podsumowujące prace nad [[https://kwjp.pl|Korpusem Współczesnego Języka Polskiego (Dekada 2011–2020)]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wszystkie wystąpienia w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:0px">11:30–11:35: '''[[attachment:seminarium-archiwum/2024-04-25-1.pdf|O projekcie]]''' (Małgorzata Marciniak)|| ||<style="border:0;padding-left:30px;padding-bottom:0px">11:35–12:05: '''[[attachment:seminarium-archiwum/2024-04-25-2.pdf|Korpus Współczesnego Języka Polskiego, Dekada 2011−2020]]''' (Marek Łaziński)|| ||<style="border:0;padding-left:30px;padding-bottom:0px">12:05–12:35: '''[[attachment:seminarium-archiwum/2024-04-25-3.pdf|Znakowanie, lematyzacja, frekwencja]]''' (Witold Kieraś)|| ||<style="border:0;padding-left:30px;padding-bottom:0px">12:35–13:00: Przerwa kawowa|| ||<style="border:0;padding-left:30px;padding-bottom:0px">13:00–13:30: '''[[attachment:seminarium-archiwum/2024-04-25-4.pdf|Hybrydowa reprezentacja informacji składniowej]]''' (Marcin Woliński)|| ||<style="border:0;padding-left:30px;padding-bottom:15px">13:30–14:15: '''[[attachment:seminarium-archiwum/2024-04-25-5.pdf|Dyskusja o przyszłości korpusów]]'''|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''13 maja 2024'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Michal Křen''' (Uniwersytet Karola w Pradze)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''[[attachment:seminarium-archiwum/2024-05-13.pdf|Latest developments in the Czech National Corpus]]'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">The talk will give an overview of the Czech National Corpus (CNC) research infrastructure in all the main areas of its operation: corpus compilation, data annotation, application development and user support. Special attention will be paid to the variety of language corpora and user applications where CNC has recently seen a significant progress. In addition, it is the end-user web applications that shape the way linguists and other scholars think about the language data and how they can be utilized. The talk will conclude with an outline of future plans.|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''3 czerwca 2024''' (wystąpienie w ramach [[https://ipipan.waw.pl/instytut/dzialalnosc-naukowa/seminaria/ogolnoinstytutowe|seminarium IPI PAN]])|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Marcin Woliński''', '''Katarzyna Krasnowska-Kieraś''' (Instytut Podstaw Informatyki PAN)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''[[attachment:seminarium-archiwum/2024-06-03.pdf|Składnikowo-zależnościowe parsowanie języka naturalnego z wykorzystaniem sieci neuronowych]]'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie po polsku.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">W referacie przedstawimy autorską metodę automatycznej analizy składniowej (parsowania) języka naturalnego. W proponowanym podejściu struktury składniowe są wyrażane za pomocą kręgosłupów składniowych i ich powiązań, co pozwala jednocześnie wytwarzać dwa popularne typy reprezentacji: drzewa zależnościowe i składnikowe. Omówimy realizację tej metody w postaci zbioru klasyfikatorów nałożonych na wyjścia modelu językowego typu BERT. Testy algorytmu na danych polskich i niemieckich pokazały wysoką jakość uzyskiwanych wyników. Metoda została wykorzystana do wprowadzenia składniowej warstwy opisu w [[https://kwjp.pl|Korpusie Współczesnego Języka Polskiego]] opracowanym w IPI PAN.|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''4 lipca 2024'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Purificação Silvano''' (Uniwersytet w Porto)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''[[attachment:seminarium-archiwum/2024-07-04.pdf|Unifying Semantic Annotation with ISO 24617 for Narrative Extraction, Understanding and Visualisation]]'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">In this talk, I will present the successful application of Language resource management – Semantic annotation framework (ISO-24617) for representing semantic information in texts. Initially, I will introduce the harmonisation of five parts of ISO 24617 (1, 4, 7, 8, 9) into a comprehensive annotation scheme designed to represent semantic information pertaining to eventualities, times, participants, space, discourse relations and semantic roles. Subsequently, I will explore the applications of this annotation, specifically highlighting the [[https://text2story.inesctec.pt/|Text2Story]] and [[https://storysense.inesctec.pt/|StorySense]] projects, which focus on narrative extraction, understanding and visualisation of the journalistic text.|| ||<style="border:0;padding-top:15px">Zapraszamy także do zapoznania się z [[http://nlp.ipipan.waw.pl/NLP-SEMINAR/previous-p.html|archiwum seminariów z lat 2000–2015]] oraz [[http://zil.ipipan.waw.pl/seminarium-archiwum|listą wystąpień z lat 2015–2023]].|| |
| Line 92: | Line 106: |
| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''7 października 2023'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Uczestnicy konkursu PolEval 2024''' || ||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Planowana seria prezentacji uczestników zadań PolEvalowych'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienia w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Lista wystąpień będzie dostępna wkrótce.|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''11 marca 2024'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Mateusz Krubiński''' (Uniwersytet Karola w Pradze)|| ||<style="border:0;padding-left:30px;padding-bottom:15px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Tytuł wystąpienia podamy wkrótce'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-top:15px;padding-bottom:5px">'''8 stycznia 2024''' (prezentacja wyników projektu DARIAH.Lab)|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Zespół projektu DARIAH.Lab''' (Instytut Podstaw Informatyki PAN)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''Tytuł wystąpienia poznamy wkrótce'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie po polsku.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Streszczenie wystąpienia udostępnimy w najbliższym czasie.|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''3 października 2022'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''...''' (...)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[http://zil.ipipan.waw.pl/seminarium-online|{{attachment:seminarium-archiwum/teams.png}}]] '''Tytuł wystąpienia podamy wkrótce'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku polskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Opis wystąpienia udostępnimy już niedługo.|| WOLNE TERMINY: ATLAS: Explaining abstractive summarization - Emilia Wiśnios? Albo coś z NASK-owych tematów dot. przetwarzania prawa? Czy to jest to samo? ||<style="border:0;padding-bottom:10px">'''UWAGA''': ze względu na zakaz wstępu do IPI PAN dla osób niezatrudnionych w Instytucie, w stacjonarnej części seminarium mogą brać udział tylko pracownicy IPI PAN i prelegenci (także zewnętrzni). Dla pozostałych uczestników seminarium będzie transmitowane – prosimy o korzystanie z linku przy tytule wystąpienia.|| Uczestnicy Akcji COST CA18231: Multi3Generation: Multi-task, Multilingual, Multi-modal Language Generation: – Marcin PAPRZYCKI (marcin.paprzycki@ibspan.waw.pl) – Maria GANZHA (m.ganzha@mini.pw.edu.pl) – Katarzyna WASIELEWSKA-MICHNIEWSKA (katarzyna.wasielewska@ibspan.waw.pl) ||<style="border:0;padding-top:5px;padding-bottom:5px">'''6 czerwca 2022'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Paula Czarnowska''' (University of Cambridge)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">[[https://teams.microsoft.com/l/meetup-join/19%3a06de5a6d7ed840f0a53c26bf62c9ec18%40thread.tacv2/1643554817614?context=%7b%22Tid%22%3a%220425f1d9-16b2-41e3-a01a-0c02a63d13d6%22%2c%22Oid%22%3a%22f5f2c910-5438-48a7-b9dd-683a5c3daf1e%22%7d|{{attachment:seminarium-archiwum/teams.png}}]] '''Tytuł wystąpienia podamy wkrótce'''  {{attachment:seminarium-archiwum/icon-en.gif|Wystąpienie w języku angielskim.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">Opis wystąpienia udostępnimy już niedługo.|| ||<style="border:0;padding-top:5px;padding-bottom:5px">'''2 kwietnia 2020'''|| ||<style="border:0;padding-left:30px;padding-bottom:0px">'''Stan Matwin''' (Dalhousie University)|| ||<style="border:0;padding-left:30px;padding-bottom:5px">'''Efficient training of word embeddings with a focus on negative examples'''  {{attachment:seminarium-archiwum/icon-pl.gif|Wystąpienie w języku polskim.}} {{attachment:seminarium-archiwum/icon-en.gif|Slajdy po angielsku.}}|| ||<style="border:0;padding-left:30px;padding-bottom:15px">This presentation is based on our [[https://pdfs.semanticscholar.org/1f50/db5786913b43f9668f997fc4c97d9cd18730.pdf|AAAI 2018]] and [[https://aaai.org/ojs/index.php/AAAI/article/view/4683|AAAI 2019]] papers on English word embeddings. In particular, we examine the notion of “negative examples”, the unobserved or insignificant word-context co-occurrences, in spectral methods. we provide a new formulation for the word embedding problem by proposing a new intuitive objective function that perfectly justifies the use of negative examples. With the goal of efficient learning of embeddings, we propose a kernel similarity measure for the latent space that can effectively calculate the similarities in high dimensions. Moreover, we propose an approximate alternative to our algorithm using a modified Vantage Point tree and reduce the computational complexity of the algorithm with respect to the number of words in the vocabulary. We have trained various word embedding algorithms on articles of Wikipedia with 2.3 billion tokens and show that our method outperforms the state-of-the-art in most word similarity tasks by a good margin. We will round up our discussion with some general thought s about the use of embeddings in modern NLP.|| na [[https://www.youtube.com/ipipan|kanale YouTube]]. on [[https://www.youtube.com/ipipan|YouTube]]. Nowe typy: Aleksandra Gabryszak (DFKI Berlin): – https://aclanthology.org/people/a/aleksandra-gabryszak/ – https://www.researchgate.net/profile/Aleksandra-Gabryszak – miała tekst na warsztacie First Computing Social Responsibility Workshop (http://www.lrec-conf.org/proceedings/lrec2022/workshops/CSRNLP1/index.html) na LREC-u 2022: http://www.lrec-conf.org/proceedings/lrec2022/workshops/CSRNLP1/pdf/2022.csrnlp1-1.5.pdf Marcin Junczys-Dowmunt przy okazji świąt? Adam Jatowt? Piotrek Pęzik? Wrocław? Kwantyfikatory? MARCELL? Może Piotrek z Bartkiem? |
|
| Line 96: | Line 174: |
| Kto jeszcze? Może skorzystać z pieniędzy CLARIN-owych do zapraszania osób z całej Polski na seminaria? | |
| Line 99: | Line 176: |
| Michał Marcińczuk niebanalna lingwistycznie i informatycznie Kasia w związku z jej udziałem (i zwycięstwem) w zadaniu polevalowym? jeśli nie wypełni całego seminarium, to może Łukasz mógłby coś dopowiedzieć o tym zadaniu, ew. anotacji nowych danych? – Norbert o swoim zwycięstwie? – jakiś temat korbofleksowy? coś się działo w nowej Anotatorni, ale to może też można pokazać przy okazji tematu tagerowego – Witek obiecał, że opowiedzą w maju, – nowości w projekcie Aliny? |
|
| Line 112: | Line 180: |
| – Piotr Przybyła – pisałem, nie podjął tematu :) – Darek Cz. – pisałem Temat: Proces przygotowania korpusu mowy na podstawie nagrań Polskiej Kroniki Filmowej Opis: Na prezentacji zostanie omówiony proces tworzenia korpusu mowy oparty o nagrania z Polskiej Kroniki Filmowej, jaki stworzono w ramach projektu Clarin-PL. Zasób ten jest niezwykle cenny ze względu na jego przydatność w badaniach lingwistycznych, szczególnie w kontekście mowy i języka historycznego. Za cel wybrano sobie okres w latach 1945-1960. W prezentacji zostaną omówione różne zagadnienia: od kwestii prawnych dotyczących uzyskania samych zasobów, do szczegółów technicznych dotyczących dostosowania narzędzi analizy mowy do tej nietypowej dziedziny. Title: Preparing a speech corpus using the recordings of the Polish Film Chronicle Description: The presentation will describe how a speech corpus based on the Polish Film Chronicle, a collection of short historical news segments, was created during the Clarin-PL project. This resource is an extremely useful tool for linguistic research, specifically in the context of historical speech and language. The years 1945-1960 were chosen for this purpose. The presentation will discuss various topics: from the legal issues of acquiring the resources, to more the more technical aspects of dealing with the adaptation of speech analysis tools to this, rather uncommon domain. 28 V (LREC: 7-12 V) – Danijel Korzinek: Proces przygotowania korpusu mowy na podstawie nagrań Polskiej Kroniki Filmowej 11 VI (NAACL: 1-6 VI) – Krzysztof Wołk: Korpusy porównywalne jesień: – 1 października: prof. Bień: Elektroniczne indeksy leksykograficzne |
|
| Line 130: | Line 182: |
| – Marcin, Witek: Chronofleks – Krzysztof Wołk: NMT na subword units – Piotrek Pęzik obiecał coś wygłosić – Justyna Sarzyńska? – Marcin Junczys-Dowmunt przy okazji świąt? |
|
| Line 137: | Line 184: |
Będzie na Data Science Summit: Using topic modeling for differentiation based on Polish parliament plus person Aleksander Nosarzewski Statistician @ Citi Artykuł o GPT napisał Mateusz Litwin: https://www.linkedin.com/in/mateusz-litwin-06b3a919/ W OpenAI jest jeszcze https://www.linkedin.com/in/jakub-pachocki/ i https://www.linkedin.com/in/szymon-sidor-98164044/ Text data can be an invaluable source of information. In particular, what, how often and in which way we talk about given subjects can tell a lot about us. Unfortunately, manual scrambling through huge text datasets can be a cumbersome task. Luckily, there is a class of unsupervised models - topic models, which can perform this task for us, with very little input from our side. I will present how to use Structural Topic Model (STM) - an enhancement over popular LDA to obtain some kind of measure of differences between given groups or agents of interest, based on an example of Polish parliamentary speeches and political parties. |
Seminarium „Przetwarzanie języka naturalnego” 2024–25
Seminarium Zespołu Inżynierii Lingwistycznej w Instytucie Podstaw Informatyki Polskiej Akademii Nauk odbywa się średnio co 2 tygodnie, zwykle w poniedziałki o godz. 10:15 (niekiedy online – prosimy o korzystanie z linku przy tytule wystąpienia) i ma charakter otwarty. Poszczególne referaty ogłaszane są na Polskiej Liście Językoznawczej oraz na stronie Lingwistyka komputerowa na Facebooku. Nagrania wystąpień dostępne są na kanale YouTube. |
7 października 2023 |
Janusz S. Bień (profesor emeritus Uniwersytetu Warszawskiego) |
|
Przetwarzanie tekstów wymaga ich zakodowania w odpowiednim standardzie, aktualnie praktyczne jedyną opcją jest standard Unicode. Niektóre czcionki stosowane w starodrukach są już uwzględnione w tym standardzie, niektóre sa dostępne w specjalistycznych fontach za pomocą tzw. funkcji zecerskich. Niektóre czcionki, opisane w monumentalnym dziele „https://polona.pl/preview/2177789b-4c73-48ae-ab76-f33d7f6f2070}Polonia Typographica Saeculi Sedecimi”, nie maja jednak swoich odpowiedników w standardzie. W referacie omówię kilka takich czcionek. |
16 października 2023 |
Konrad Wojtasik, Vadim Shishkin, Kacper Wołowiec, Arkadiusz Janz, Maciej Piasecki (Politechnika Wrocławska) |
|
Przeszukiwanie dużych kolekcji dokumentów w celu odnalezienia interesujących nas informacji jest niezwykle ważnym kierunkiem badawczym w dziedzinie przetwarzania języka naturalnego. Jest to kluczowy komponent w systemach odpowiadania na pytania, gdzie często model odpowiadający korzysta z informacji zawartych w bazie danych z aktualną wiedzą. Pozwala to nie tylko na aktualizację wiedzy, na podstawie której system odpowiada na zapytania użytkownika, ale również ogranicza jego halucynacje. Aktualnie modele do wyszukiwania informacji są sieciami neuronowymi i wymagają dużych zasobów uczących do ich wytrenowania. Przez wiele lat, metody dopasowania leksykalnego jak BM25, osiągały lepsze wyniki niż wytrenowane modele, jednak aktualne architektury i rozległe zbiory danych pozwalają na prześcignięcie leksykalnych rozwiązań. W prezentacji przedstawię dostępne zbiory służące do ewaluacji i trenowania aktualnych architektur do wyszukiwania informacji w kolekcjach dokumentów z różnych domen, jak i kierunki rozwoju na przyszłość. |
30 października 2023 |
Agnieszka Faleńska (Uniwersytet w Stuttgarcie) |
Dla wielu, systemy przetwarzania języka naturalnego (NLP) stały się codziennością. Ich zastosowania sięgają od automatycznego tłumaczenia dokumentów po asystentów osobistych obsługiwanych głosem. W ostatnich latach, ten rosnący wpływ narzędzi AI na życie ludzi wywołuje znaczące obawy dotyczące możliwych szkód, jakie mogą one wyrządzić. |
W tej prezentacji rozpocznę od przedstawienia kilku przykładów takich szkodliwych zachowań i omówię ich potencjalne źródła. Będę argumentować, że problemy związane z uprzedzeniami w modelach NLP powinny być rozwiązywane poprzez rozwijanie naszego zrozumienia ich źródeł językowych. Następnie prezentacja skoncentruje się na trzech powszechnie używanych źródłach danych: Wikipedii, tekstach instruktażowych i forum dyskusyjnym. Poprzez te przykłady pokażę, że niezależnie od perspektywy (czy mówimy o kimś, do kogoś, czy jako ktoś), subtelne uprzedzenia są obecne we wszystkich tych zbiorach danych i mogą przyczynić się do szkodliwych efektów modeli NLP. |
13 listopada 2023 |
Piotr Rybak (Instytut Podstaw Informatyki PAN) |
|
Mimo że odpowiadanie na pytania (ang. Question Answering) jest jednym z popularniejszych zagadnień przetwarzania języka naturalnego, to do niedawna było ono praktycznie nieobecne w polskim środowisku naukowym. Ostatnie lata przyniosły jednak rozkwit prac związanych z tym tematem. Podczas tego wystąpienia opowiem na czym polega zagadnienie odpowiadania na pytania, jak działają obecne systemy rozwiązujące ten problem, a także jakie zbiory danych oraz modele są dostępne dla języka polskiego. W szczególności opowiem o zasobach tworzonych w IPI PAN, czyli zbiorach danych PolQA i MAUPQA oraz modelu Silver Retriever. Na koniec wskażę dalsze kierunki prac, które wciąż pozostają otwarte jeśli chodzi o odpowiadanie na pytania w języku polskim. |
11 grudnia 2023 (seria krótkich wystąpień autorstwa badaczy z Coventry University) |
Xiaorui Jiang, Opeoluwa Akinseloyin, Vasile Palade (Coventry University) |
Systematic literature review (SLR) is the standard tool for synthesising medical and clinical evidence from the ocean of publications. SLR is extremely expensive. SLR is extremely expensive. AI can play a significant role in automating the SLR process, such as for citation screening, i.e., the selection of primary studies-based title and abstract. Some tools exist, but they suffer from tremendous obstacles, including lack of trust. In addition, a specific characteristic of systematic review, which is the fact that each systematic review is a unique dataset and starts with no annotation, makes the problem even more challenging. In this study, we present some seminal but initial efforts on utilising the transfer learning and zero-shot learning capabilities of pretrained language models and large language models to solve or alleviate this challenge. Preliminary results are to be reported. |
Kacper Sówka (Coventry University) |
My research focuses on applying machine learning and NLP to the problem of cybersecurity attack modelling. This is done by generating "attack tree" models using public cybersecurity datasets (CVE) and training a siamese neural network to predict the relationship between individual cybersecurity vulnerabilities using a DistilBERT encoder fine-tuned using Masked Language Modelling. |
Xiaorui Jiang (Coventry University) |
It is a difficult task to understand and summarise the development of scientific research areas. This task is especially cognitively demanding for postgraduate students and early-career researchers, of the whose main jobs is to identify such developments by reading a large amount of literature. Will AI help? We believe so. This short talk summarises some recent initial work on extracting the semantic backbone of a scientific area through the synergy of natural language processing and network analysis, which is believed to serve a certain type of discourse models for summarisation (in future work). As a small step from it, the second part of the talk introduces how comparison citations are utilised to improve multi-document summarisation of scientific papers. |
Xiaorui Jiang, Alireza Daneshkhah (Coventry University) |
In face of a post-COVID global economic slowdown and aging society, the primary care units in the National Healthcare Services (NHS) are receiving increasingly higher pressure, resulting in delays and errors in healthcare and patient management. AI can play a significant role in alleviating this investment-requirement discrepancy, especially in the primary care settings. A large portion of clinical diagnosis and management can be assisted with AI tools for automation and reduce delays. This short presentation reports the initial studies worked with an NHS partner on developing NLP-based solutions for the automation of clinical intention classification (to save more time for better patient treatment and management) and an early alert application for Gout Flare prediction from chief complaints (to avoid delays in patient treatment and management). |
8 stycznia 2024 |
Danijel Korzinek (Polsko-Japońska Akademia Technik Komputerowych) |
|
Celem tego podprojektu było opracowanie procesów i stworzenie narzędzi pozwalających na powiązanie tekstowych korpusów stworzonych w ramach projektu ParlaMint z odpowiadającymi im materiałami audio i wideo dostępnymi w Internecie. Zadanie to było oczywiście bardziej złożone niż się to może intuicyjnie wydawać i jego powodzenie było uzależnione w największej mierze od poprawnego dopasowania bardzo długiego nagrania audio (kilkanaście godzin, czyli cały dzień pracy parlamentu) do odpowiadającego mu transkryptu, wraz ze wszystkimi błędami i niedokładnościami w dopasowaniu i kolejności występującymi między tymi dwoma modalnościami. Projekt został stworzony w oparciu o całkowicie otwarte oprogramowanie i modele, które są dostępne w publicznym repozytorium i mogą być zastosowane do innych projektów o podobnym zakresie wymagań. Na obecną chwile, wspomnianymi narzędziami w pełni opracowano korpusy w dwóch językach (polski i chorwacki), ale więcej jest tworzonych w tej chwili. |
12 lutego 2024 |
Tsimur Hadeliya, Dariusz Kajtoch (Allegro ML Research) |
|
With the advent of language models such as ChatGPT, we are witnessing a paradigm shift in the way we approach natural language processing tasks. Instead of training a model from scratch, we can now solve tasks by designing appropriate prompts and choosing suitable demonstrations as input to a generative model. This approach, known as in-context learning (ICL), has shown remarkable capabilities for classification tasks in the English language . In this presentation, we will investigate how different language models perform on Polish classification tasks using the ICL approach. We will explore the effectiveness of various models, including multilingual and large-scale models, and compare their results with existing solutions. Through a comprehensive evaluation and analysis, we aim to gain insights into the strengths and limitations of this approach for Polish classification tasks. Our findings will shed light on the potential of ICL for the Polish language. We will discuss challenges and opportunities, and propose directions for future work. |
29 lutego 2024 |
Seminarium wyjazdowe: Warsztat „Analiza danych parlamentarnych” |
Wprowadzenie |
12:00–12:10: Powitanie |
12:10–12:40: Korpus Dyskursu Parlamentarnego i korpus ParlaMint (Maciej Ogrodniczuk) |
Zgłoszenia konkursowe |
12:40–13:00: Aplikacja do analizy sentymentu wypowiedzi parlamentarzystów RP (Bartłomiej Klimowski) |
13:00–13:20: Analiza dynamiki emocji w debatach parlamentarnych o wojnie w Ukrainie (Konrad Kiljan i Ewelina Gajewska) |
13:20–13:40: Język wrażliwy na płeć (gender-fair language) w polskim parlamencie: badanie korpusowe debat parlamentarnych w korpusie ParlaMint (Aleksandra Tomaszewska i Anna Jamka) |
Wykład na zaproszenie |
14:00–15:00: Zmiany w polszczyźnie ostatnich stu lat w zwierciadle debat parlamentarnych (Marek Łaziński) |
Dyskusja panelowa |
15:00–15:45: Przetwarzanie danych parlamentarnych: co dalej? (Członkowie Kapituły Konkursu) |
Zakończenie |
15:45–15:50: Wręczenie dyplomów |
15:50–16:00: Podsumowanie warsztatu |
25 marca 2024 |
Piotr Przybyła (Uniwersytet Pompeu Fabry / Instytut Podstaw Informatyki PAN) |
|
Automatyczne klasyfikatory tekstu wykorzystuje się szeroko do pomocy w moderowaniu platform udostępniających treści generowane przez użytkowników, szczególnie sieci społecznościowych. Mogą być one używane do odsiewania treści nieprzyjaznych, dezinformujących, manipulujących lub wprost nielegalnych. Jednak trzeba wziąć pod uwagę, że autorzy takich tekstów często mają silną motywację do ich rozpowszechniania i mogą próbować modyfikować oryginalną treść, aż znajdą takie sformułowanie, które przedostanie się przez automatyczny filtr. Takie zmodyfikowane wersje oryginalnych danych, nazywane przykładami antagonistycznymi, odgrywają kluczową rolę w badaniu odporności modeli ML na ataki zmotywowanych aktorów. Wystąpienie będzie poświęcone systematycznej analizie tego problemu w kontekście wykrywania dezinformacji. Pokażę konkretne przykłady, gdzie podmiana pozornie nieistotnych słów powoduje zmianę decyzji klasyfikatora, jak również framework BODEGA do systematycznej oceny odporności modeli, wykorzystany również w zadaniu InCrediblAE na warsztatach ewaluacyjnych CheckThat! na konferencji CLEF 2024. |
28 marca 2024 |
Krzysztof Węcel (Uniwersytet Ekonomiczny w Poznaniu) |
Prezentacja będzie skupiała się na tematyce projektu OpenFact, który jest odpowiedzią na problem fake newsów. W ramach projektu opracowujemy metody, które pozwalają na weryfikację wiarygodności informacji. W celu zapewnienia poprawności metodycznej bazujemy na procesie stosowanym przez agencje fact-checkingowe. Działania te opierają się na złożonych zbiorach danych, pozyskiwanych m.in. z ClaimReview, Common Crawl czy poprzez monitoring mediów społecznościowych i ekstrakcję stwierdzeń z tekstów. Istotne jest również ocenianie informacji pod kątem jej wartości do weryfikacji (checkworthiness) oraz wiarygodności źródeł, których reputacja może wynikać z publikacji z OpenAlex lub Crossref. Analiza stylometryczna pozwala na określenie autorstwa, a porównanie ludzkiej i maszynowej pracy otwiera nowe możliwości w wykrywaniu użycia sztucznej inteligencji. Używamy zarówno małych modeli językowych, jak i LLM uruchamianych zdalnie w różnych wariantach. Zbudowaliśmy duże zbiory stwierdzeń, które mogą służyć do weryfikacji nowych tekstów poprzez badanie podobieństwa semantycznego. Opisane są one dodatkowymi wciąż rozbudowywanymi metadanymi pozwalającymi na realizację różnych scenariuszy użycia. |
25 kwietnia 2024 |
|
11:30–11:35: O projekcie (Małgorzata Marciniak) |
11:35–12:05: Korpus Współczesnego Języka Polskiego, Dekada 2011−2020 (Marek Łaziński) |
12:05–12:35: Znakowanie, lematyzacja, frekwencja (Witold Kieraś) |
12:35–13:00: Przerwa kawowa |
13:00–13:30: Hybrydowa reprezentacja informacji składniowej (Marcin Woliński) |
13:30–14:15: Dyskusja o przyszłości korpusów |
13 maja 2024 |
Michal Křen (Uniwersytet Karola w Pradze) |
The talk will give an overview of the Czech National Corpus (CNC) research infrastructure in all the main areas of its operation: corpus compilation, data annotation, application development and user support. Special attention will be paid to the variety of language corpora and user applications where CNC has recently seen a significant progress. In addition, it is the end-user web applications that shape the way linguists and other scholars think about the language data and how they can be utilized. The talk will conclude with an outline of future plans. |
3 czerwca 2024 (wystąpienie w ramach seminarium IPI PAN) |
Marcin Woliński, Katarzyna Krasnowska-Kieraś (Instytut Podstaw Informatyki PAN) |
|
W referacie przedstawimy autorską metodę automatycznej analizy składniowej (parsowania) języka naturalnego. W proponowanym podejściu struktury składniowe są wyrażane za pomocą kręgosłupów składniowych i ich powiązań, co pozwala jednocześnie wytwarzać dwa popularne typy reprezentacji: drzewa zależnościowe i składnikowe. Omówimy realizację tej metody w postaci zbioru klasyfikatorów nałożonych na wyjścia modelu językowego typu BERT. Testy algorytmu na danych polskich i niemieckich pokazały wysoką jakość uzyskiwanych wyników. Metoda została wykorzystana do wprowadzenia składniowej warstwy opisu w Korpusie Współczesnego Języka Polskiego opracowanym w IPI PAN. |
4 lipca 2024 |
Purificação Silvano (Uniwersytet w Porto) |
|
In this talk, I will present the successful application of Language resource management – Semantic annotation framework (ISO-24617) for representing semantic information in texts. Initially, I will introduce the harmonisation of five parts of ISO 24617 (1, 4, 7, 8, 9) into a comprehensive annotation scheme designed to represent semantic information pertaining to eventualities, times, participants, space, discourse relations and semantic roles. Subsequently, I will explore the applications of this annotation, specifically highlighting the Text2Story and StorySense projects, which focus on narrative extraction, understanding and visualisation of the journalistic text. |
Zapraszamy także do zapoznania się z archiwum seminariów z lat 2000–2015 oraz listą wystąpień z lat 2015–2023. |


