SuperMatrix is a system to support automatic extraction of semantic relations, based on the analysis of large text corpora. System was developed as a tool for expansion of Polish wordnet (Słowosieć).Expansion consist of two steps: system suggests a potential links between lexical units. Linguist verify these suggestions and decide which form will go to wordnet. This speeded up the work and preserve the integrity of data entry.
Przygotował: Michał Marcińczuk <marcinczuk@gmail.com>
Data: 25.05.2016
Projekt: Clarin-PL (http://clarin-pl.eu)
Autorzy: Michał Marcińczuk, Jan Kocoń, Michał Krautforst
Modele do narzędzia Liner2.5 do rozpoznawania jednostek identyfikacyjnych.
Narzędzie Liner2.5 dostępne jest pod linkiem http://hdl.handle.net/11321/231.
Paczka zawiera trzy modele:
1. config-nam.ini -- granice jednostek identyfikacyjnych,
2. config-top9.ini -- granice i ogólna kategoryzacja jednostek (9 kategorii),
3. config-n82.ini -- granice i szczegółowa kategoryzacja jednostek (82 kategorie).
NELexicon2 to rozszerzona wersją gazetteera nazw własnych, która zawiera ponad 2,3 miliona unikalnych napisów. NELexicon został wzmogacony o następujące zasoby:
- zdrobnienia imion,
- obcojęzyczne formy polskich imion,
- nazwy wyciągnięte z infoboxów polskiej Wikipedii,
- formy odmiany nazw z infoboxów polskiej Wikipedii wyciągnięte z linków wewnętrznych Wikipedii,
- lista nazw rozpoznanych przez Liner2 z modelem 56 nam o liczbie wystąpień równej lub większej niż 5. Jako, że nazwy zostały rozpoznane automatycznie, to lista może zawierać błędnie rozpoznane nazwy.
- formy odmiany nazw wyciągnięte z polskiego Wikisłownika.