CLARIN Tool Portal

python-g419wikitools-1.0

1 resources

Zestaw skryptów w języku Python do wygenerowania słownika odmiany fraz w oparciu o linki wewnętrzne Wikipedii. Efektem analizy dumpa Wikipedii jest zestaw plików, zawierających: A) wikilinks-difflen.txt — frazy mają różną liczbę tokenów, B) wikilinks-samelen* — frazy mają taką samą liczbę tokenów, 1. wikilinks-samelen-textbase.txt — każda para tokenów ma przynajmniej jedną wspólną formę bazową, 1.a) wikilinks-samelen-textbase-one.txt — frazy zawierają po jednym tokenie, 1.b) wikilinks-samelen-textbase-multi.txt — frazy zawierają więcej niż jeden token, 2. wikilinks-samelen-rules.txt — co najmniej jedna para tokenów nie została dopasowana przez formy bazowe, tylko przez zastosowanie reguł podmiany końcówek dla formy tekstowej. 3. wikilinks-samelen-different.txt — pozostałe frazy, które nie zostały dopasowane. Przykład zawartości pliku wikilinks-samelen-textbase-multi.txt: Transformacja ustrojowa transformacji ustrojowej transformacji ustrojowych Konstytucja ZSRR Konstytucji ZSRR Rajd Tatrzański Rajdzie Tatrzańskim Macierz dyskowa macierzą dyskową macierzy dyskowych Osiedle Ptasie Osiedle Ptasie objaw Brudzińskiego objawy Brudzińskiego Chłopskie Stronnictwo Radykalne Chłopskiego Stronnictwa Radykalnego Melanie Klein Melanią Klein Jakub Sokołowski Jakuba Sokołowskiego Letnie Igrzyska Olimpijskie Młodzieży 2010 Letnich Igrzysk Olimpijskich Młodzieży 2010 wyrabianie ciasta wyrabiania ciasta bitwa nad rzeką Czoroch bitwie nad rzeką Czoroch Nerw błędny nerwu błędnego nerwów błędnych Pakt trzech paktu trzech Paktu Trzech Paktu trzech Komisja Episkopatu Polski ds. Ekumenizmu Komisji Episkopatu Polski ds. Ekumenizmu Flaga Albanii flagę Albanii flagi Albanii Bitwa pod Chrobrzem bitwie pod Chrobrzem Patriarcha Indii Zachodnich patriarchę Indii Zachodnich procesy fizjologiczne proces fizjologiczny energetyka jądrowa energetykę jądrową energetyce jądrowej energetyką jądrową energetyki jądrowej zdanie syntetyczne zdania syntetyczne Franciszek Ksawery Franciszek Ksawery Franciszka Ksawerego Franciszkiem Ksawerym Obwód Tirana obwodzie Tirana

Use "python-g419wikitools-1.0"

Toposław 2 (2016-05-31)

3 resources

Toposław 2 is an editor of multi-world unit inflection lexicons.

Use "Toposław 2 (2016-05-31)"

ENIAM

4 resources

ENIAM: Categorial Syntactic-Semantic Parser for Polish

Use "ENIAM"

WebStylo

2 resources

Web based, open stylometry system based on Multilevel Text Analysis. Runs cluto and stylo (R system) clusterisation methods. Based on Natural Language Processing Workflow engine (included in the distribution).

Use "WebStylo"

Liner2.6 model NER NKJP

3 resources

Liner2.6 NER NKJP model The package contains a pre-trained Liner2 (https://github.com/CLARIN-PL/Liner2) model for recognition named entities according to NKJP guidelines. The model was trained on the NKJP corpus (http://nkjp.pl/) and evaluated in the PolEval 2018 Task 2 (http://poleval.pl/tasks/). The model won third place with the following results: Exact — 0.778, Overlap — 0.818, Final — 0.810. References: * NKJP corpus in TEI format — http://clip.ipipan.waw.pl/NationalCorpusOfPolish?action=AttachFile&do=view&target=NKJP-PodkorpusMilionowy-1.2.tar.gz * PolEval 2018 Task 2 evaluation corpus — http://mozart.ipipan.waw.pl/~axw/poleval2018/

Use "Liner2.6 model NER NKJP"

Liner2 temporal expressions model

1 resources

Liner2 model for temporal expression recognition and normalisation

Use "Liner2 temporal expressions model"

Universal Dependencies 2.10 models for UDPipe 2 (2022-07-11)

2 resources

Tokenizer, POS Tagger, Lemmatizer and Parser models for 123 treebanks of 69 languages of Universal Depenencies 2.10 Treebanks, created solely using UD 2.10 data (https://hdl.handle.net/11234/1-4758). The model documentation including performance can be found at https://ufal.mff.cuni.cz/udpipe/2/models#universal_dependencies_210_models . To use these models, you need UDPipe version 2.0, which you can download from https://ufal.mff.cuni.cz/udpipe/2 .

Use "Universal Dependencies 2.10 models for UDPipe 2 (2022-07-11)"