Web based, open stylometry system based on Multilevel Text Analysis. Runs cluto and stylo (R system) clusterisation methods. Based on Natural Language Processing Workflow engine (included in the distribution).
Zestaw skryptów w języku Python do wygenerowania słownika odmiany fraz w oparciu o linki wewnętrzne Wikipedii. Efektem analizy dumpa Wikipedii jest zestaw plików, zawierających:
A) wikilinks-difflen.txt — frazy mają różną liczbę tokenów,
B) wikilinks-samelen* — frazy mają taką samą liczbę tokenów,
1. wikilinks-samelen-textbase.txt — każda para tokenów ma przynajmniej jedną wspólną formę bazową,
1.a) wikilinks-samelen-textbase-one.txt — frazy zawierają po jednym tokenie,
1.b) wikilinks-samelen-textbase-multi.txt — frazy zawierają więcej niż jeden token,
2. wikilinks-samelen-rules.txt — co najmniej jedna para tokenów nie została dopasowana przez formy bazowe, tylko przez zastosowanie reguł podmiany końcówek dla formy tekstowej.
3. wikilinks-samelen-different.txt — pozostałe frazy, które nie zostały dopasowane.
Przykład zawartości pliku wikilinks-samelen-textbase-multi.txt:
Transformacja ustrojowa transformacji ustrojowej transformacji ustrojowych
Konstytucja ZSRR Konstytucji ZSRR
Rajd Tatrzański Rajdzie Tatrzańskim
Macierz dyskowa macierzą dyskową macierzy dyskowych
Osiedle Ptasie Osiedle Ptasie
objaw Brudzińskiego objawy Brudzińskiego
Chłopskie Stronnictwo Radykalne Chłopskiego Stronnictwa Radykalnego
Melanie Klein Melanią Klein
Jakub Sokołowski Jakuba Sokołowskiego
Letnie Igrzyska Olimpijskie Młodzieży 2010 Letnich Igrzysk Olimpijskich Młodzieży 2010
wyrabianie ciasta wyrabiania ciasta
bitwa nad rzeką Czoroch bitwie nad rzeką Czoroch
Nerw błędny nerwu błędnego nerwów błędnych
Pakt trzech paktu trzech Paktu Trzech Paktu trzech
Komisja Episkopatu Polski ds. Ekumenizmu Komisji Episkopatu Polski ds. Ekumenizmu
Flaga Albanii flagę Albanii flagi Albanii
Bitwa pod Chrobrzem bitwie pod Chrobrzem
Patriarcha Indii Zachodnich patriarchę Indii Zachodnich
procesy fizjologiczne proces fizjologiczny
energetyka jądrowa energetykę jądrową energetyce jądrowej energetyką jądrową energetyki jądrowej
zdanie syntetyczne zdania syntetyczne
Franciszek Ksawery Franciszek Ksawery Franciszka Ksawerego Franciszkiem Ksawerym
Obwód Tirana obwodzie Tirana
The named entity recognition model for fine-grained categories of entities (82 types) was trained on the KPWr corpus using Polish RoBERTa base language model.
Details can be found on the following page: https://github.com/mczuk/xlm-roberta-ner
Liner2.6 NER NKJP model
The package contains a pre-trained Liner2 (https://github.com/CLARIN-PL/Liner2) model for recognition named entities according to NKJP guidelines. The model was trained on the NKJP corpus (http://nkjp.pl/) and evaluated in the PolEval 2018 Task 2 (http://poleval.pl/tasks/).
The model won third place with the following results: Exact — 0.778, Overlap — 0.818, Final — 0.810.
References:
* NKJP corpus in TEI format — http://clip.ipipan.waw.pl/NationalCorpusOfPolish?action=AttachFile&do=view&target=NKJP-PodkorpusMilionowy-1.2.tar.gz
* PolEval 2018 Task 2 evaluation corpus — http://mozart.ipipan.waw.pl/~axw/poleval2018/
A set of basic language tools for the Polish language. Z4.2a Improving the quality of recognition of relations between events using Transformer-type deep networks.