TermoPL
TermoPL is a tool created to extract terminology from domain corpora. It can also be used for other languages as long as you define the appropriate tagset and grammar. The program extracts phrases, candidates for terms, using Universal Dependency (UD) structures obtained from UD parsers or through a simple grammar that can be customized. It applies the C-value method to rank term candidates {being either the longest identified acceptable phrases or their nested subphrases}. The method operates on simplified base forms in order to unify morphological variants of terms and to recognise their contexts. For the method using simple grammar templates, the program supports the recognition of nested terms by word connection strength which allows eliminating truncated phrases from the top of the term list. For Polish, the program has an option to convert simplified forms of phrases into correct phrases in the nominative case. TermoPL accepts as input morphologically annotated and disambiguated domain texts and creates a list of terms, the top part of which comprises domain terminology. It can be used to compare two candidate term lists using four different coefficients showing asymmetry of term occurrences in this data. For Polish texts, TermoPL can group semantically related terms using plWordNet.
Its description can be found in the corrected verion of the article and the poster presented at LREC 2016.
Małgorzata Marciniak, Agnieszka Mykowiecka, and Piotr Rychlik. TermoPL — a flexible tool for terminology extraction. In Nicoletta Calzolari, Khalid Choukri, Thierry Declerck, Marko Grobelnik, Bente Maegaard, Joseph Mariani, Asuncion Moreno, Jan Odijk, and Stelios Piperidis, editors, Proceedings of the Tenth International Conference on Language Resources and Evaluation, LREC 2016, pages 2278–2284, Portorož, Slovenia, 2016. European Language Resources Association (ELRA), European Language Resources Association (ELRA). bibtex
TermoUD (prerelease version)
Downloads (current version: 8.0.0)
Instalacja gotowych pakietów
1. Wymagania podstawowe
Do uczestnictwa w warsztatach potrzebny jest komputer z dostępem do Internetu, systemem operacyjnym Windows, Linux (Ubuntu) lub MacOS X oraz zainstalowaną maszyną vitrualną Java (wesja 8 lub wyższa). W przypadku systemu Unix, należy zainstalować oprogramowanie Morfeusz 2.
2. Instalacja Javy
Javę można pobrać ze strony https://www.java.com/pl/. Należy zwrócić uwagę na to, czy instalowana wersja jest zgodna z posiadaną architekturą posiadanego komputera. Obecna wersja programu zakłada posiadanie przez użytkownika 64-bitowej wersji systemu.
3. Instalacja Morfeusza 2
Instalacja tego oprogramowania jest konieczna tylko w przypadku systemu Unix. Dla pozostałych systemów odpowiednie biblioteki są dostarczone wraz z programem TermoPL. Morfeusza można pobrać ze strony http://sgjp.pl/morfeusz/dopobrania.html, postępując zgodnie z zamieszczonymi tam instrukcjami.
4. Pobieranie i uruchamianie oprogramowania TermoPL
TermoPL można pobrać ze strony zil.ipipan.waw.pl/TermoPL. Znajdują się na niej przygotowane pakiety dla Mac OS X, Linux (Ubuntu) oraz Windows w wersji 64-bitowej. Należy wybrać stosowny pakiet klikając w jego nazwę, a następnie kliknąć w napis "Download". Oprogramowanie w postaci pliku zip zostanie pobrane do katalogu "Downloads" lub "Pobrane". Pobrany plik zip należy "rozpakować". W systemie Mac OS X "rozpakowywanie" uruchomi się automatycznie.
Wskazane by było również pobranie danych do ćwiczeń.
Program uruchamia się przez podwójne kliknięcie w ikonę pliku TermoPL.jar. TermoPL można również uruchomić poleceniem zawartym w pliku termopl.bat.
W przypadku systemu Unix jest to polecenie
java -Djava.library.path=/usr/lib/jni/ -jar TermoPL.jar
Pakiety
Dane do ćwiczeń