Result filters

Metadata provider

  • DSpace

Language

Resource type

Availability

Organisation

  • Reykjavik University

Active filters:

  • Metadata provider: DSpace
  • Organisation: Reykjavik University
Loading...
12 record(s) found

Search results

  • RÚV-DI Speaker Diarization v5 models (21.05)

    English This archive contains files generated from the recipe in kaldi-speaker-diarization/v5/. Its contents should be placed in a similar directory type, with symbolic links to diarization/, sid/, steps/, etc. It was created when Kaldi's master branch was at git commit 321d3959dabf667ea73cc98881400614308ccbbb. v5 These models are trained on the Althingi Parliamentary Speech corpus available on malfong.is. It uses MFCCS, x-vectors, PLDA and AHC. The recipe uses the Icelandic Rúv-di corpus as two hold out sets for tuning parameters. The Icelandic Rúv-di corpus is currently not publicly available. Íslenska Þetta skjalasafn inniheldur skrár frá kaldi-speaker-diarization v5. Innihaldi skjalasafnsins ætti að setja í eins möppu, með hlekki (symlinks) á diarization, sid, steps, o.s.frv. Notast var við Kaldi af master grein og Git commit 321d3959dabf667ea73cc98881400614308ccbbb. v5 Þessi líkön eru þjálfuð á gagnasafninu Alþingisræður til talgreiningar sem er aðgengilegt á malfong.is. Þau nota MFCC, x-vigra, PLDA, og AHC. Uppskriftin notar RÚV-di gagnasafnið sem hold-out gagnasöfn til að stilla forsendur. Eins og er þá er RÚV-di gagnasafnið ekki aðgengilegt almenningi.
  • RÚV-DI Speaker Diarization (21.10)

    These are a set of speaker diarization recipes which depend on the speech toolkit Kaldi. There are two types of recipes here. First are recipes used for decoding unseen audio. The second type of recipes are for training diarization models on the Rúv-di data. This tool also lists the DER for the Rúv-di dataset on most of the recipes. All DERs within this tool have no unscored collars and include overlapping speech Þessi pakki inniheldur forskriftir fyrir samræðugreind fyrir hugbúnaðarumhverfið Kaldi. Pakkinn inniheldur tvær tegundir af forskriftum. Annars vegar forskriftir sem greina samræður í nýjum hljóðskrám og hins vegar forskriftir til að þjálfa ný samræðugreindarlíkön með Rúv-di-gagnasafninu. Hluti forskriftanna innihalda villutíðni (DER) fyrir Rúv-di-gagnasettið.
  • CombiTagger

    The main purpose of CombiTagger is to read datafiles generated by individual taggers and use them to develop a combined tagger according to a specified algorithm. The system provides algorithms for simple and weighted voting, but it is extensible so that other combination algorithms can be added easily CombiTagger is implemented in Java.
  • RÚV-DI Speaker Diarization (20.09)

    These are a set of speaker diarization recipes which depend on the speech toolkit Kaldi. There are two types of recipes here. First are recipes used for decoding unseen audio. The second type of recipes are for training diarization models on the Rúv-di data. This tool also lists the DER for the Rúv-di dataset on most of the recipes. All DERs within this tool have no unscored collars and include overlapping speech
  • ABLTagger (PoS) - 2.0.0

    A Part-of-Speech (PoS) tagger for Icelandic. In this submission, you will find ABLTagger v2.0.0. This is a PoS tagger that works with the revised tagset and achieves an accuracy of 96.95% on MIM-Gold (cross-validation). For additional details, error analysis and categorization of this tagger and other taggers (including a previous version of ABLTagger), see I4 report for M4 (2021) in Language Technology Programme for Icelandic 2019-2023. For installation, usage, and other instructions see https://github.com/cadia-lvl/POS/releases/tag/m4 You should also check if a newer version is out (see README.md - versions) on CLARIN: - Model files - Docker image, version 2.0.0 ------------------------------------------------------------------------------------------- Markari fyrir íslensku. Í þessum pakka er ABLTagger v2.0.0. Þetta er markari sem virkar fyrir nýja markamengið og nær 96,95% nákvæmni á MÍM-Gull (krossprófanir). Fyrir nánari upplýsingar, villugreiningu og villuflokkun fyrir þennan markara og aðra (ásamt fyrri útgáfu af þessum markara), sjá I4 skýrslu fyrir vörðu 4 (2021) í Máltækniáætlun fyrir íslensku 2019-2023. Fyrir uppsetningar-, notenda- og aðrar leiðbeiningar sjá https://github.com/cadia-lvl/POS/releases/tag/m4 Einnig er gott að athuga þar hvort ný útgáfa sé komin út (sjá README.md - versions) Á CLARIN: - Líkan - Docker mynd, útgáfa 2.0.0
  • IceParser 1.5.0

    IceParser is a shallow parser for Icelandic. The parser comprises a sequence of finite-state transducers, which add syntactic information, in an incremental manner, into the input text. The input to IceParser is part-of-speech (PoS) tagged text and it produces output which includes annotation of both constituent structure and syntactic functions. The distributed file contains the entirety of IceNLP, a toolkit of various NLP tools for processing and analysing Icelandic. The current version of IceParser in IceNLP has been specifically changed and updated to be able to annotate input tagged with the revised Icelandic POS tagset. --- IceParser er hlutaþáttari fyrir íslensku. Þáttarinn samanstendur af röð af stöðuferjöldum sem bæta setningafræðilegum upplýsingum inn í inntakstextann á stigvaxandi hátt. Inntakið í IceParser er markaður texti og þáttarinn skilar af sér úttaki sem inniheldur bæði merkingar á setningaliðum og setningafræðilegum hlutverkum. Skráin sem fylgir inniheldur allt IceNLP, þ.e. safn tóla til að vinna með og greina íslensku. Núverandi útgáfa af IceParser í IceNLP hefur verið breytt og uppfærð til að greina og merkja inntak sem er markað með hinu endurskoðað íslenska markamengi.
  • ABLTagger (Lemmatizer) - 3.1.0

    A neural Lemmatizer for Icelandic. In this submission, you will find a pretrained lemmatizer model for ABLTagger v3.1.0. In this submission we provide a small lemmatizer that accepts as input the tokens and tags from the revised tagset. The lemmatizer achieves an accuracy of 98.3% on MIM-Gold (21.05, cross-validation). Það er minni nákvæmni en Nefnir. For installation, usage, and other instructions see https://github.com/icelandic-lt/POS. You should also check if a newer version is out (see README.md - versions) on CLARIN: - Model files ------------------------------------------------------------------------------------------- Lemmari fyrir íslensku. Í þessum pakka er forþjálfað lemmunar líkan fyrir ABLTagger v3.1.0. Í þessari útgáfu er lítill lemmari sem tekur inn tóka og mörk úr nýja markamengið. Lemmarinn nær 98.3% nákvæmni á MÍM-Gull (21.05, krossprófanir). Það er minni nákvæmni en Nefnir. Fyrir uppsetningar-, notenda- og aðrar leiðbeiningar sjá https://github.com/icelandic-lt/POS. Einnig er gott að athuga þar hvort ný útgáfa sé komin út (sjá README.md - versions) Á CLARIN: - Gögn fyrir líkan
  • IceEval - Icelandic Natural Language Processing Benchmark 22.09

    IceEval is a benchmark for evaluating and comparing the quality of pre-trained language models. The models are evaluated on a selection of four NLP tasks for Icelandic: part-of-speech tagging (using the MIM-GOLD corpus), named entity recognition (using the MIM-GOLD-NER corpus), dependency parsing (using the IcePaHC-UD corpus) and automatic text summarization (using the IceSum corpus). IceEval includes scripts for downloading the datasets, splitting them into training, validation and test splits and training and evaluating models for each task. The benchmark uses the Transformers, DiaParser and TransformerSum libraries for fine-tuning and evaluation. IceEval er tól til að meta og bera saman forþjálfuð mállíkön. Líkönin eru metin á fjórum máltækniverkefnum fyrir íslensku: mörkun (með MIM-GOLD málheildinni), nafnakennslum (með MIM-GOLD-NER málheildinni), þáttun (með IcePaHC-UD málheildinni) og sjálfvirkri samantekt (með IceSum málheildinni). IceEval inniheldur skriftur til að sækja gagnasöfnin, skipta þeim í þjálfunar- og prófunargögn og að fínstilla og meta líkön fyrir hvert verkefni. Transformers, DiaParser og TransformerSum forritasöfnin eru notuð til að fínstilla líkönin.
  • MT: Moses-SMT (1.0)

    Moses phrase-based statistical machine translation (Moses PBSMT) is a system which is used to develop and run machine translation models. It is distributed here as four packages: 1. Code from a github repository to train and run models. 2. Pretrained is-en system (Docker) 3. Pretrained en-is system (Docker) 4. Frontend to pre- and postprocess text for translation (Docker) The models here are not (exactly) the same as were used for human evaluation. These models have additionally been trained on open dictionaries to extend their vocabularies. Moses phrase-based statistical machine translation (Moses PBSMT) er kerfi til þess að þróa og keyra tölfræðilegar vélþýðingar. Hér er dreift fjórum pökkum: 1. Kóða af github geymslusvæði fyrir þjálfun og keyrslu á líkönum 2. Forþjálfuðu is-en vélþýðingarlíkani (Docker) 3. Forþjálfuðu en-is vélþýðingarlíkani (Docker) 4. Framenda til að for- og eftirvinna texta fyrir þýðingar (Docker) Líkönin sem eru sett hér eru ekki (nákvæmlega) þau sömu og voru notuð við mannlegt mat. Þessi líkön hafa aukalega verið þjálfuð á gögnum úr opnum orðabókum til þess að auka orðaforða.