CLARIN Tool Portal

IceEval - Icelandic Natural Language Processing Benchmark 22.09

1 resources

IceEval is a benchmark for evaluating and comparing the quality of pre-trained language models. The models are evaluated on a selection of four NLP tasks for Icelandic: part-of-speech tagging (using the MIM-GOLD corpus), named entity recognition (using the MIM-GOLD-NER corpus), dependency parsing (using the IcePaHC-UD corpus) and automatic text summarization (using the IceSum corpus). IceEval includes scripts for downloading the datasets, splitting them into training, validation and test splits and training and evaluating models for each task. The benchmark uses the Transformers, DiaParser and TransformerSum libraries for fine-tuning and evaluation. IceEval er tól til að meta og bera saman forþjálfuð mállíkön. Líkönin eru metin á fjórum máltækniverkefnum fyrir íslensku: mörkun (með MIM-GOLD málheildinni), nafnakennslum (með MIM-GOLD-NER málheildinni), þáttun (með IcePaHC-UD málheildinni) og sjálfvirkri samantekt (með IceSum málheildinni). IceEval inniheldur skriftur til að sækja gagnasöfnin, skipta þeim í þjálfunar- og prófunargögn og að fínstilla og meta líkön fyrir hvert verkefni. Transformers, DiaParser og TransformerSum forritasöfnin eru notuð til að fínstilla líkönin.

Use "IceEval - Icelandic Natural Language Processing Benchmark 22.09"

Icelandic Homograph Classifier (24.04.)

2 resources

IceHoC is a binary classifier for Icelandic homographs following the pattern V-ll-(V|$) where the 'll' can be pronounced either /tl/ or /l/. The classifier was trained on the Labeled Corpus of Icelandic Homographs (http://hdl.handle.net/20.500.12537/327). Please refer to the projects README for further discussions and guidelines for usage. IceHoC er tól sem flokkar íslensk samstafa orð sem fylgja mynstrinu V-ll-(V|$), eða sérhljóð-ll-sérhljóð_eða_lok_orðs. Í þessum orðum er 'll' borið fram ýmist /tl/ eða /l/, eftir merkingu orðsins. IceHoC var þjálfað á málheild íslenskra samstafa orða (http://hdl.handle.net/20.500.12537/327). Fyrir nánari umfjöllun og leiðbeiningar um notkun, sjá README.

Use "Icelandic Homograph Classifier (24.04.)"

ABLTagger (PoS) - 2.0.0

2 resources

A Part-of-Speech (PoS) tagger for Icelandic. In this submission, you will find ABLTagger v2.0.0. This is a PoS tagger that works with the revised tagset and achieves an accuracy of 96.95% on MIM-Gold (cross-validation). For additional details, error analysis and categorization of this tagger and other taggers (including a previous version of ABLTagger), see I4 report for M4 (2021) in Language Technology Programme for Icelandic 2019-2023. For installation, usage, and other instructions see https://github.com/cadia-lvl/POS/releases/tag/m4 You should also check if a newer version is out (see README.md - versions) on CLARIN: - Model files - Docker image, version 2.0.0 ------------------------------------------------------------------------------------------- Markari fyrir íslensku. Í þessum pakka er ABLTagger v2.0.0. Þetta er markari sem virkar fyrir nýja markamengið og nær 96,95% nákvæmni á MÍM-Gull (krossprófanir). Fyrir nánari upplýsingar, villugreiningu og villuflokkun fyrir þennan markara og aðra (ásamt fyrri útgáfu af þessum markara), sjá I4 skýrslu fyrir vörðu 4 (2021) í Máltækniáætlun fyrir íslensku 2019-2023. Fyrir uppsetningar-, notenda- og aðrar leiðbeiningar sjá https://github.com/cadia-lvl/POS/releases/tag/m4 Einnig er gott að athuga þar hvort ný útgáfa sé komin út (sjá README.md - versions) Á CLARIN: - Líkan - Docker mynd, útgáfa 2.0.0

Use "ABLTagger (PoS) - 2.0.0"

Icelandic TTS for Android (24.04.)

2 resources

The Símarómur application provides an Icelandic TTS application for the Android TTS service. The application provides access to one on-device voice. The app is developed with the needs of the visually impaired in mind, i.e. the voice is lightweight and very fast. Furthermore, Símarómur includes a user dictionary that allows users to define their pronunciation of words and abbreviations. Símarómur er Android app sem gerir notendum kleift að nota íslenskan talgervil í símunum, t.d. sem skjálesara. Ein rödd er í appinu, en appið er sérstaklega miðað að þörfum blindra og sjónskertra, þ.e. röddin er "létt" og mjög hröð. Einnig inniheldur Símarómur orðabók þar sem notendur geta skilgreint eigin framburð á orðum og skammstöfunum.

Use "Icelandic TTS for Android (24.04.)"

Icelandic TTS for Android (22.10)

2 resources

ENGLISH: The Símarómur application provides an Icelandic TTS application for the Android TTS service. The application provides access to voices over network of the Tiro TTS API and on-device voices that are bundled via assets. The app offers connections to most of the voices that have been developed within the LT program at this time. The voices themselves and the TTS service were developed at Reykjavik University and at Tiro ehf. (see e.g. http://hdl.handle.net/20.500.12537/268) ÍSLENSKA: Símarómur er Android app sem gerir notendum kleift að nota íslenskan talgervil í símunum, t.d. sem skjálesara. Símarómur býður upp á tengingar við flestar þær raddir sem þróaðar hafa verið innan Máltækniáætlunarinnar, annars vegar gegnum vefþjónustu Tiro og hins vegar sem raddir sem keyra á símanum sjálfum. Raddirnar sem Símarómur notar voru þjálfaðar hjá Háskólanum í Reykjavík, Tiro ehf. þróaði TTS-vefþjónustuna sem Símarómur notar (sjá http://hdl.handle.net/20.500.12537/268)

Use "Icelandic TTS for Android (22.10)"

Tokenizer for Icelandic text (2.0.3)

2 resources

Tokenizer is a compact pure-Python (2 and 3) executable program and module for tokenizing Icelandic text. It converts input text to streams of tokens, where each token is a separate word, punctuation sign, number/amount, date, e-mail, URL/URI, etc. It also segments the token stream into sentences, considering corner cases such as abbreviations and dates in the middle of sentences.

Use "Tokenizer for Icelandic text (2.0.3)"

OCR Post-Processing Transformer Model 23.04

2 resources

ENGLISH During the project L11 - Error models for OCR of The Language Technology Programme 2019-2023, various OCR post-processing models were trained. This is the best performing one. On texts from the 19th century to the early 20th century, it reduces word error rate from 6.49% to 3.08%, and character error rate from 1.39% to 0.73%. On modern texts, it reduces word error rate from 5.52% to 3.60% and character error rate from 1.17% to 1.0%. More info, such as how to use the model for inference, in README. ICELANDIC Í verkefninu L11 - Error models for OCR í Máltækniáætlun 2019-2023 voru nokkur ljóslestrarvilluleiðréttingarlíkön þjálfuð. Þetta er best þeirra. Líkanið lækkar hlutfall orðavillna (e. word error rate) úr 6,49% í 3,08% í textum frá 19. öld og fyrri hluta 20. aldar og hlutfall stafvillna úr 1,39% í 0,73%. Í nútímamálstextum lækkar það hlutfall orðavillna úr 5,52% í 3,60% og hlutfall stafvillna úr 1,17% í 1,0%. Nánari upplýsingar, svo sem hvernig má nota líkanið, er að finna í meðfylgjandi README-skjali.

Use "OCR Post-Processing Transformer Model 23.04"

IceNLP Natural Language Processing toolkit

3 resources

IceNLP is an open source Natural Language Processing (NLP) toolkit for analyzing and processing Icelandic text. The toolkit is implemented in Java. IceNLP er safn málgreiningartóla, gefið út með opnu leyfi, til þess að greina og vinna íslenskan texta. Tólin eru unnin í Java.

Use "IceNLP Natural Language Processing toolkit"

Upload2S3 (22.06)

2 resources

[ENGLISH] This project is a simple and straight forward way to upload podcast data like text files via a form to an AWS S3 bucket. This web application codebase is minimally derived from an existing ReactJS web application, samromur-chat. However, using this codebase does not require knowledge of samromur-chat. [ÍSLENSKA] Þetta verkefni býður upp á einfalda leið til þess að hlaða upp hlaðvarpsgögnum, t.d. textagögnum, á AWS S3. Kóðinn er lítillega byggður á ReactJS-forritinu samromur-chat. Ekki þarf þó þekkingu á samromur-chat til þess að nota þetta tól.

Use "Upload2S3 (22.06)"

Tokenizer for Icelandic text (3.3.2)

3 resources

Tokenizer is a compact pure-Python (2.7 and 3) executable program and module for tokenizing Icelandic text. It converts input text to streams of tokens, where each token is a separate word, punctuation sign, number/amount, date, e-mail, URL/URI, etc. It also segments the token stream into sentences, considering corner cases such as abbreviations and dates in the middle of sentences. More information at: https://github.com/mideind/Tokenizer Tokenizer er pakki fyrir Python 2.7 og 3, ásamt skipanalínutóli, sem sér um tilreiðslu íslensks texta. Pakkinn umbreytir inntakstexta í tókastraum. Hver tóki er stakt orð, greinarmerki, tala/upphæð, dags-/tímasetning, netfang, vefslóð o.s.frv. Tólið skiptir tókastraumnum einnig í setningar og tekur tillit til jaðartilvika eins og skammstafana og dagsetninga í miðjum setningum. Frekari upplýsingar á: https://github.com/mideind/Tokenizer

Use "Tokenizer for Icelandic text (3.3.2)"

Result filters

Metadata provider

Language

Resource type

Tool task

Availability

Organisation

Project

Keywords

Active filters:

Search results

IceEval - Icelandic Natural Language Processing Benchmark 22.09

Icelandic Homograph Classifier (24.04.)

ABLTagger (PoS) - 2.0.0

Icelandic TTS for Android (24.04.)

Icelandic TTS for Android (22.10)

Tokenizer for Icelandic text (2.0.3)

OCR Post-Processing Transformer Model 23.04

IceNLP Natural Language Processing toolkit

Upload2S3 (22.06)

Tokenizer for Icelandic text (3.3.2)