Result filters

Metadata provider

  • DSpace

Language

Resource type

Tool task

Organisation

  • Grammatek ehf.

Active filters:

  • Metadata provider: DSpace
  • Organisation: Grammatek ehf.
Loading...
9 record(s) found

Search results

  • Grapheme-to-phoneme (g2p) module for Icelandic (22.10)

    ENGLISH: Grapheme-to-phoneme (g2p) module for Icelandic. The module can be used to transcribe Icelandic in four pronunciation variants (standard pronunciation, north Iceland, north-east Iceland, south Iceland), with different levels of detail and in four different phonetic alphabets. Default output is X-SAMPA phonetic alphabet without syllabification or stress labeling, according to standard pronunciation. The module transcribes English words using the Icelandic phoneset but close to English transcription rules. A transcription dictionary is also a part of the package. The package can be installed from PyPI: pip install ice-g2p ICELANDIC: Hljóðritunarforrit (g2p) fyrir íslensku. Forritið má nota til þess að hljóðrita íslensku skv. fjórum framburðartilbrigðum (hefðbundnum framburði, harðmæli, rödduðum framburði og hv-framburði), með mismiklum upplýsingum og í fjórum mismunandi hljóðritunarstafrófum. Séu engar stillingar sérvaldar þá skilar forritið úttaki í X-SAMPA hljóðritunarstafrófinu, án atkvæðaskiptinga eða áherslumerkinga, skv. hefðbundnum framburði. Forritið hljóðritar ensk orð með íslenskum hljóðritunartáknum en eins nálægt enskum reglum og mögulegt er. Framburðarorðabók fylgir pakkanum. Hægt er að sækja pakkann á PyPI: pip install ice-g2p
  • Editor for pronunciation dictionaries

    A web application for the editing of pronunciation dictionaries. The tool offers detailed annotation of entries, e.g. on compounds, prefixes, dialects and part-of-speech. Exports dictionaries in .tsv format for use in speech applications. Vefviðmót til þess að vinna með framburðarorðabækur. Tólið býður upp á að merkja upplýsingar með hverju orði, t.d. hvort orðið sé samsett, byrji á forskeyti, framburðartilbrigði og orðflokk. Unna orðalista er svo hægt að flytja út á .tsv formi til notkunar í taltæknihugbúnaði.
  • TTS Document Reader (22.10)

    ENGLISH: This project contains a web application where users can upload a text document for reading by a TTS system. To set up this application you need a connection to a TTS service, the communication with the service is implemented in a way that matches the TTS service interface as implemented by the LT program. The application is written in Ruby-on-Rails. ÍSLENSKA: Þessi hugbúnaðarpakki inniheldur vefviðmótið Skjalalestur. Notendur geta hlaðið upp textaskjölum og fengið .mp3-skrá til baka þar sem skjalið hefur verið lesið af talgervli. Til þess að setja upp viðmótið þarf að hafa aðgang að talgervilsþjónustu. Ef nota á hugbúnaðinn óbreyttan þarf talgervilsþjónustan að hafa sömu forritunarskil (API) og talgervilsþjónustan sem þróuð var innan íslensku máltækniáætlunarinnar.
  • TTS Text Processing (22.10)

    ENGLISH: This project provides a TTS textprocessing pipeline for Icelandic. The pipeline includes modules for html parsing, text cleaning, text normalization for TTS, spell and grammar correction, phrasing, and grapheme-to-phoneme (g2p) conversion. Before a text can be fed into a TTS system it has to be converted into the format that was used when training that system. The format can be grapheme-based (i.e. alphabetic characters of the language in question are used as input) or phoneme-based (i.e. a phonetic alphabet like IPA or SAMPA are used as input). The TTS Textprocessing Pipeline for Icelandic offers both possibilities. ÍSLENSKA: Þessi hugbúnaðarpakki inniheldur textavinnslupípu fyrir íslenska talgervla. Pípan samanstendur af vinnslu html-skjala fyrir hljóðbækur, hreinsun texta, textanormun, stafsetningarleiðréttingu, innsetningu á þögnum og sjálfvirkri hljóðritun. Áður en hægt er að senda texta á talgervil þarf að forvinna hann, t.d. skrifa út tölustafi og skammstafanir, merkja inn þagnir og koma textanum að lokum á sama form og þjálfunargögn þess talgervils sem á að lesa textann. Yfirleitt eru talgervlar þjálfaðir á hljóðrituðum textum, þar sem textarnir eru hljóðritaðir skv. hljóðritunarstafrófum eins og IPA eða SAMPA, en einnig geta þeir verið þjálfaðir beint á textum skrifuðum með hefðbundnum bókstöfum. Textavinnslupípan býður upp á báða möguleika og einnig að vinna textann einungis að hluta.
  • Icelandic TTS for Android (22.10)

    ENGLISH: The Símarómur application provides an Icelandic TTS application for the Android TTS service. The application provides access to voices over network of the Tiro TTS API and on-device voices that are bundled via assets. The app offers connections to most of the voices that have been developed within the LT program at this time. The voices themselves and the TTS service were developed at Reykjavik University and at Tiro ehf. (see e.g. http://hdl.handle.net/20.500.12537/268) ÍSLENSKA: Símarómur er Android app sem gerir notendum kleift að nota íslenskan talgervil í símunum, t.d. sem skjálesara. Símarómur býður upp á tengingar við flestar þær raddir sem þróaðar hafa verið innan Máltækniáætlunarinnar, annars vegar gegnum vefþjónustu Tiro og hins vegar sem raddir sem keyra á símanum sjálfum. Raddirnar sem Símarómur notar voru þjálfaðar hjá Háskólanum í Reykjavík, Tiro ehf. þróaði TTS-vefþjónustuna sem Símarómur notar (sjá http://hdl.handle.net/20.500.12537/268)
  • Models for automatic g2p for Icelandic (20.10)

    Grapheme-to-phoneme (g2p) models for Icelandic, trained on an encoder-decoder LSTM neural network. The models are delivered with scripts for automatic transcription of Icelandic in the standard pronunciation variation, in the northern variation, north-east variation, and the south variation. To run the scripts the user needs to install Fairseq (see Readme in the project repository). Hljóðritunarlíkön fyrir íslensku, þjálfuð á LSTM tauganeti. Líkönunum fylgja skriftur til þess að hljóðrita íslensku skv. hefðbundnum framburði, harðmæli, rödduðum framburði og hv-framburði. Til þess að keyra skrifturnar þarf notandi að setja upp Fairseq (sjá nánari skjölun með verkefninu).
  • AnySoftKeyboard with custom autocompletion 22.10

    ENGLISH: This is a fork of the open source Android keyboard AnySoftKeyboard. This version contains a new autocompleter module based on finite-state-transducers (FST) as implemented in the Apache Lucene library. The autocompleter uses a bigram list from the Icelandic Gigaword Corpus (ICG, http://hdl.handle.net/20.500.12537/192) to enable next word suggestions from the beginning and not just after the user has used the keyboard for a certain amount of time, as implemented in the original keyboard. This version, however, still learns from the user, enhancing the original list with usage data and boosting frequently used combinations. ÍSLENSKA: Þetta er grein (e. fork) sem sveigð er frá opnu lyklaborði fyrir Android, AnySoftKeyboard. Þessi útgáfa inniheldur nýtt módúl fyrir ritspá, sem byggist á stöðuvélum Lucene hugbúnaðarins. Ritspáin notar orðatvístæður úr Íslenskri risamálheild (http://hdl.handle.net/20.500.12537/192) til þess að gera ritspá fyrir næsta orð mögulega strax þegar notandi byrjar að nota lyklaborðið, en ekki eingöngu byggða á fyrri notkun eins og upprunalega lyklaborðið. Þessi útgáfa lærir samt sem áður einnig af notkun, þannig að upprunalegi listinn breytist í takt við notkun en umfang hans helst.
  • Rule-based g2p for Icelandic

    Manually developed grapheme-to-phoneme (g2p) transcription rules for Icelandic, written in Thrax grammar syntax. The rules are for the standard Icelandic pronunciation, the northern variation, the north-eastern variation and the south pronunciation variation. The package also contains a command line tool in C++. Handskrifaðar hljóðritunarreglur fyrir íslensku, skrifaðar í Thrax. Reglurnar eru skrifaðar fyrir hefðbundinn íslenskan framburð, fyrir harðmæli, raddaðan framburð og hv-framburð. Skipanalínutól skrifað í C++ fylgir.
  • Icelandic Homograph Classifier (24.04.)

    IceHoC is a binary classifier for Icelandic homographs following the pattern V-ll-(V|$) where the 'll' can be pronounced either /tl/ or /l/. The classifier was trained on the Labeled Corpus of Icelandic Homographs (http://hdl.handle.net/20.500.12537/327). Please refer to the projects README for further discussions and guidelines for usage. IceHoC er tól sem flokkar íslensk samstafa orð sem fylgja mynstrinu V-ll-(V|$), eða sérhljóð-ll-sérhljóð_eða_lok_orðs. Í þessum orðum er 'll' borið fram ýmist /tl/ eða /l/, eftir merkingu orðsins. IceHoC var þjálfað á málheild íslenskra samstafa orða (http://hdl.handle.net/20.500.12537/327). Fyrir nánari umfjöllun og leiðbeiningar um notkun, sjá README.