Result filters

Metadata provider

Language

Resource type

Availability

Loading...
703 record(s) found

Search results

  • CroSloEngual BERT

    Trilingual BERT (Bidirectional Encoder Representations from Transformers) model, trained on Croatian, Slovenian, and English data. State of the art tool representing words/tokens as contextually dependent word embeddings, used for various NLP classification tasks by finetuning the model end-to-end. CroSloEngual BERT are neural network weights and configuration files in pytorch format (ie. to be used with pytorch library).
  • Byte-Level Neural Error Correction Model for Icelandic - Yfirlestur (22.09)

    This Byte-Level Neural Error Correction Model for Icelandic is a fine-tuned byT5-base Transformer model for error correction in natural language. It acts as a machine translation model in that it “translates” from deficient Icelandic to correct Icelandic. The model is trained on parallel synthetic error data and real error data from the iceErrorCorpus (IceEC, http://hdl.handle.net/20.500.12537/73) and the three specialised error corpora (L2: http://hdl.handle.net/20.500.12537/131, dyslexia: http://hdl.handle.net/20.500.12537/132, child language: http://hdl.handle.net/20.500.12537/133). The synthetic error data (35M lines of parallel data) was created by filtering and then scrambling the Icelandic Gigaword Corpus (IGC, http://hdl.handle.net/20.500.12537/192) to simulate real grammatical and typographical errors. The pretrained byT5 model was trained on the synthetic data and finally fine-tuned on the real error data from IceEC. It can correct a variety of textual errors, even in texts containing many errors, such as those written by people with dyslexia. Measured on the iceEC test data, the model scores 0.862917 on the GLEU metric (modified BLEU for grammatical error correction) and 0.06% in TER (translation error rate). --- Þetta leiðréttingarlíkan fyrir íslensku er fínþjálfað byT5-base Transformer-líkan. Það er í raun þýðingalíkan sem þýðir úr íslenskum texta með villum yfir í texta án villna. Líkanið er þjálfað á samhliða gervivillugögnum og raunverulegum villum úr íslensku villumálheildinni (http://hdl.handle.net/20.500.12537/73) og sérhæfðu villumálheildunum þremur (íslenska sem erlent mál: http://hdl.handle.net/20.500.12537/131, lesblinda: http://hdl.handle.net/20.500.12537/132, barnatextar: http://hdl.handle.net/20.500.12537/133). Gervivillugögnin (35 milljón línur af samhliða gögnum) voru búin til með því að sía og svo rugla íslensku Risamálheildinni (http://hdl.handle.net/20.500.12537/192) með því að nota margs konar villumynstur til að líkja eftir raunverulegum málfræði- og ritunarvillum. Forþjálfaða byT5-líkanið var þjálfað á gervivillugögnunum og svo fínþjálfað á raungögnum úr villumálheildunum. Það getur leiðrétt fjölbreyttar textavillur, jafnvel í texta sem inniheldur mjög margar villur, svo sem frá fólki með lesblindu. Líkanið skorar 0.862917 GLEU-stig (BLEU nema lagað að málrýni) og er með 0.06% villuhlutfall í þýðingu (translation error rate), þegar það er metið á prófunarhluta íslensku villumálheildarinnar.
  • The CLASSLA-StanfordNLP model for morphosyntactic annotation of standard Slovenian 1.3

    This model for morphosyntactic annotation of standard Slovenian was built with the CLASSLA-StanfordNLP tool (https://github.com/clarinsi/classla-stanfordnlp) by training on the ssj500k training corpus (http://hdl.handle.net/11356/1210) and using the CLARIN.SI-embed.sl word embeddings (http://hdl.handle.net/11356/1204). The model produces simultaneously UPOS, FEATS and XPOS (MULTEXT-East) labels. The estimated F1 of the XPOS annotations is ~97.06. The difference to the previous version of the model is that the model now also includes the Sloleks inflectional lexicon.
  • VIADAT-ANALYZE

    A VIADAT module; VIADAT-ANALYZE is an interactive environment that enables the end user to work with stored, annotated and indexed audio recordings. Allowing visualization and extraction of results. Developed in cooperation with ÚSD AV ČR and NFA.
  • TimeAssign

    TimeAssign is a program which recognizes temporal expressions and assigns TimeML labels to words in Polish text using a Bi-LSTM based neural net and wordform embeddings.
  • python-g419wikitools-1.0

    Zestaw skryptów w języku Python do wygenerowania słownika odmiany fraz w oparciu o linki wewnętrzne Wikipedii. Efektem analizy dumpa Wikipedii jest zestaw plików, zawierających: A) wikilinks-difflen.txt — frazy mają różną liczbę tokenów, B) wikilinks-samelen* — frazy mają taką samą liczbę tokenów, 1. wikilinks-samelen-textbase.txt — każda para tokenów ma przynajmniej jedną wspólną formę bazową, 1.a) wikilinks-samelen-textbase-one.txt — frazy zawierają po jednym tokenie, 1.b) wikilinks-samelen-textbase-multi.txt — frazy zawierają więcej niż jeden token, 2. wikilinks-samelen-rules.txt — co najmniej jedna para tokenów nie została dopasowana przez formy bazowe, tylko przez zastosowanie reguł podmiany końcówek dla formy tekstowej. 3. wikilinks-samelen-different.txt — pozostałe frazy, które nie zostały dopasowane. Przykład zawartości pliku wikilinks-samelen-textbase-multi.txt: Transformacja ustrojowa transformacji ustrojowej transformacji ustrojowych Konstytucja ZSRR Konstytucji ZSRR Rajd Tatrzański Rajdzie Tatrzańskim Macierz dyskowa macierzą dyskową macierzy dyskowych Osiedle Ptasie Osiedle Ptasie objaw Brudzińskiego objawy Brudzińskiego Chłopskie Stronnictwo Radykalne Chłopskiego Stronnictwa Radykalnego Melanie Klein Melanią Klein Jakub Sokołowski Jakuba Sokołowskiego Letnie Igrzyska Olimpijskie Młodzieży 2010 Letnich Igrzysk Olimpijskich Młodzieży 2010 wyrabianie ciasta wyrabiania ciasta bitwa nad rzeką Czoroch bitwie nad rzeką Czoroch Nerw błędny nerwu błędnego nerwów błędnych Pakt trzech paktu trzech Paktu Trzech Paktu trzech Komisja Episkopatu Polski ds. Ekumenizmu Komisji Episkopatu Polski ds. Ekumenizmu Flaga Albanii flagę Albanii flagi Albanii Bitwa pod Chrobrzem bitwie pod Chrobrzem Patriarcha Indii Zachodnich patriarchę Indii Zachodnich procesy fizjologiczne proces fizjologiczny energetyka jądrowa energetykę jądrową energetyce jądrowej energetyką jądrową energetyki jądrowej zdanie syntetyczne zdania syntetyczne Franciszek Ksawery Franciszek Ksawery Franciszka Ksawerego Franciszkiem Ksawerym Obwód Tirana obwodzie Tirana