Kuźnia leksemów (Lexeme Forge)
Kuźnia jest narzędziem służącym do zespołowego tworzenia słowników odmiany dla języka polskiego opracowanym w ramach europejskiego projektu Cesar. Obecnie Kuźnia jest stosowana do pracy nad kolejnym wydaniem Słownika gramatycznego języka polskiego, a w związku z tym od niego dziedziczy swój system pojęciowy. W ramach CLARIN-PL narzędzie przystosowano do wykorzystania przez dowolnego użytkownika, mającego podstawową wiedzę z leksykografii, jako narzędzie służące do (współ)tworzenia fleksyjnych słowników dziedzinowych.
Kuźnia pozwala na eksport danych do formatów dwóch polskich analizatorów morfologicznych – Morfeusza i Morfologika. Oba analizatory udostępniane są z danymi ze słowników polszczyzny ogólnej. Pozwala to na poprawne zanalizowanie bardzo dużej liczby dokumentów tekstowych. Jednak żaden słownik nie jest kompletny. Jest to szczególnie zauważalne przy analizie tekstów branżowych (specjalistycznych) lub środowiskowych. Kuźnia pozwala na uzupełnienie tej luki. Dzięki niej mamy możliwość uzupełnienia brakujących danych z każdej dziedziny i z każdego rejestru polszczyzny. Co więcej – pozwala na tworzenie jednej wielkiej bazy danych z możliwością podziału słownictwa na odrębne zbiory, mające zarówno część wspólną, jak i część odrębną. Słownictwo z części wspólnej wystarczy opracować tylko raz, a następnie podpiąć je do tylu słowników, do ilu uznamy za stosowne.
Kuźnia zatem dzięki możliwości tworzenia całościowego zasobu słownikowego pozwala nam z jednej strony na uzupełnienie danych z dowolnej dziedziny wiedzy oraz dowolnego rejestru języka, z drugiej natomiast – dzięki wewnętrznemu podziałowi na pod(słowniki) pozwala uzyskać precyzyjne wyniki, z uwagi na dobranie do analizowanego tekstu odpowiedniego podzbioru danych.
Rejestracja
Kuźnię można zainstalować na własnym serwerze (zob. dalej), ale można też skorzystać z publicznej instalacji przygotowanej dla CLARIN-PL. Pierwszym krokiem do tworzenia własnego słownika od podstaw jest założenie konta w programie. W tym celu należy wypełnić formularz rejestracyjny na stronie http://kuznia.ipipan.clarin-pl.eu/accounts/register/. Na podany adres e-mail zostanie wysłany link aktywacyjny. Po aktywacji można się zalogować przez wpisanie nazwy użytkownika i hasła.
Wersja źródłowa programu
The most current version of Lexeme Forge may be found on Bitbucket repository.
This page offers the official BSD License release of Lexeme Forge, a tool for collaborative work on inflection dictionaries. By downloading the Lexeme Forge package you accept the conditions of that license.
Principal developer: Jan Szejko <Jan DOT Szejko AT SPAMFREE ipipan DOT waw DOT pl>
License: BSD 2-Clause License