Sgriptiau a Modelau Hyfforddi Newydd DeepSpeech i’r Gymraeg

Mae Prifysgol Bangor newydd ddatblygu sgriptiau a modelau hyfforddi newydd sy’n dwyn ynghyd nodweddion amrywiol DeepSpeech, ynghyd â data CommonVoice, ac mae’n darparu ateb cyflawn ar gyfer cynhyrchu modelau a sgorwyr ar gyfer adnabod lleferydd Cymraeg. Gallant fod o ddiddordeb i unrhyw ddefnyddwyr eraill DeepSpeech sy’n gweithio gydag ieithoedd eraill llai eu hadnoddau tebyg i’r Gymraeg.

Mae’r sgriptiau:

  • yn seiliedig ar DeepSpeech 0.7.4
  • yn defnyddio DeepSpeech’s Dockerfiles (ac felly yn hawdd eu paratoi a’u gosod)
  • yn hyfforddi gyda data CommonVoice
  • yn defnyddio dysgu trosglwyddol
  • gyda rhai setiau prawf a chorpysau ychwanegol, yn cynhyrchu sgorwyr / modelau iaith optimaidd ar gyfer cymwysiadau amrywiol
  • yn allforio modelau gyda metadata

Mae’r README 4 cychwynnol yn disgrifio sut i ddechrau.

Hoffem rannu hefyd y modelau sy’n cael eu cynhyrchu o’r sgriptiau hyn sydd i’w gweld yn https://github.com/techiaith/docker-deepspeech-cy/releases/tag/20.06 4

Ar hyn o bryd mae’r modelau hyn yn cael eu defnyddio mewn dau gymhwysiad prototeip y gall y gymuned Gymraeg eu gosod a rhoi cynnig arnyn nhw, sef trawsgrifydd wedi’i seilio ar Windows / C # ac ap cynorthwyydd llais Android / iOS 1 o’r enw Macsen. Gellir gweld cod ffynhonnell y cymwysiadau hyn gan ddefnyddio DeepSpeech hefyd ar GitHub.

Rydym yn ddiolchgar iawn i Mozilla am greu’r projectau Common Voice a DeepSpeech.

Ysgoloriaeth MRes KESS – Ontoleg Cyfraith Teulu a’r Gymraeg

Cynigir ysgoloriaeth blwyddyn i astudio ar gyfer gradd Meistr drwy Ymchwil neu MRes ar y pwnc “Safoni Termau Cyfraith Teulu’n Gymraeg drwy gyfrwng Ontoleg”.Ariannir y project hwn yn rhannol gan Gronfa Gymdeithasol Cydgyfeiriant Ewrop (ESF) ac fe’i noddir hefydgan Wasanaeth Llysoedd a Thribiwnlysoedd ei Mawrhydi (HM Courts and Tribunals Service)fel partner allanol y project.. Mae’r stori lawn i’w chael yma.

Mozilla CommonVoice, Paldaruo ac Adnabod Lleferydd Cymraeg

Mae Mozilla, y cwmni rhyngwladol o Galifornia sy’n gyfrifol am y porwr gwe Firefox, newydd lansio eu cynllun CommonVoice amlieithog. Ar ôl cychwyn gyda Saesneg y llynedd, mae tair iaith newydd yn cael eu hychwanegu yn awr, sef y Gymraeg, Almaeneg, a Ffrangeg. Llwyddodd y Gymraeg i gyrraedd y brig oherwydd cymorth gan yr Uned Technolegau Iaith yng Nghanolfan Bedwyr, Prifysgol Bangor.

Rhagor o Leisiau i Common Voice
https://blog.mozilla.org/press-uk/2018/06/07/more-common-voices/#Cymraeg

Rydyn ni’n hynod o falch am CommonVoice Cymraeg ac yn awyddus iawn i gannoedd a miloedd o siaradwyr Cymraeg gyfrannu eu lleisiau drwy’r wefan neu’r ap.

 

Ond beth am Paldaruo? – ein ap torfoli sydd eisoes wedi casglu ers 2014 hyd at 38 awr o ddata lleferydd gan dros 500 unigolyn, ac sydd wedi helpu gwireddu meddalwedd cynorthwyydd personol digidol Cymraeg cod agored fel Macsen. Mae’r Uned wedi defnyddio gwaith Paldaruo i gynorthwyo Mozilla darparu CommonVoice ar gyfer y Gymraeg ac ieithoedd eraill llai eu hadnoddau eraill.

Un o’r heriau yw canfod a darparu testunau hwylus i’w ddarllen ond sy’n cynnwys ystod eang a chytbwys o ffonemau’r iaith. Ar gyfer y lansiad, mae 1200 promt gan yr Uned o fewn CommonVoice Cymraeg ond bydd angen mwy. Wrth i ni, a’r gymuned Cymraeg, gyfrannu rhagor o destunau a recordiadau i CommonVoice Cymraeg, rydyn ni’n rhagweld y bydd y corpws yn hwb sylweddol i weithgareddau ymchwil a datblygu adnabod lleferydd Cymraeg yr Uned ac eraill.

Y gobaith yw y bydd y bartneriaeth rhwng Mozilla a Phrifysgol Bangor yn tyfu, ac y bydd y gweithgaredd hwn hefyd yn symbylu cwmnïau mawr eraill i gynnwys y Gymraeg ac ieithoedd eraill llai eu hadnoddau yn eu cynlluniau rhyngwladol.

Cyfeiriad y wefan yw : https://voice.mozilla.org/cy ac mae’r ap ar gael o https://itunes.apple.com/us/app/project-common-voice-by-mozilla/id1240588326

 

Yn cyflwyno Lleisiwr – Bancio Llais a Thestun i Leferydd Cymraeg Cod Agored

Ym mis Tachwedd 2017, derbyniodd yr Uned Technolegau Iaith grant bach oddi wrth gronfa Technoleg a’r Gymraeg, Llywodraeth Cymru, i weithio gyda’r Gwasanaeth Iechyd Gwladol ar broject i alluogi cleifion sydd ar fin colli eu gallu i siarad i fancio eu llais eu hun ac yna greu llais synthetig digidol personol ohono. Nid oedd hyn erioed wedi bod ar gael i siaradwyr Cymraeg o’r blaen, ac mae’n gam mawr ymlaen i gleifion Cymraeg eu hiaith.

Mae rhagor o wybodaeth am y gwasanaeth hwn i’w gael yma gan gynnwys manylion ar gyfer ddatblygwyr meddalwedd am god ffynhonnell y system.

Dyma fideo byr sy’n dangos sut mae modd i chi gofrestru am y gwasanaeth.

Mae’r pecyn wedi cael ymateb cychwynnol gadarnhaol iawn gan rhai therapyddion iaith a lleferydd ar y gwefannau cymdeithasol:

Adnoddau Lleferydd Newydd

Mae yna adnoddau newydd wedi’u cyhoeddi gennym dan broject Macsen a ariennir gan Lywodraeth Cymru. Dyma’r manylion isod. Mwynhewch!

Model Acwstig HTK

http://techiaith.cymru/htk/paldaruo-16kHz-2017-12-08.tar.gz

Lecsicon

http://techiaith.cymru/htk/lexicon-2017-12-08.tar.gz

Prosodylab Aligner

Mae ‘na fodelau acwstig HTK newydd o fewn Prosodylab Aligner Cymraeg hefyd:

https://github.com/techiaith/Prosodylab-Aligner/tree/v2.0_paldaruo_4

Model Acwstig Kaldi

http://techiaith.cymru/kaldi/decoders/paldaruo_macsen/tri3-2017-12-18.tar.gz

Cod hyfforddi yn GitHub

https://github.com/techiaith/kaldi-cy

RoboLlywydd

Neu’r gallu i greu llais synthetig Cymraeg eich hunan….

Fel rhan o’n gwaith ar broject Macsen, rydyn ni’n creu offer ar gyfer cynhyrchu lleisiau synthetig Cymraeg sy’n swnio’n naturiol.  Mae’r offer yn rhoi dull cyflym a hawdd o baratoi promptiau, a recordio llais unigolyn yn eu darllen, gan ddefnyddio gwybodaeth am seiniau’r Gymraeg, er mwyn adeiladu llais synthetig Cymraeg sy’n swnio’n debyg iawn i lais yr unigolyn a recordiwyd.

Dyma enghreifftiau o leisiau dau aelod o dîm techiaith wedi’u syntheseiddio’r gyda’r offer newydd :

Gwryw:

Benyw:

Cafodd y tîm gyfle i roi hyn ar brawf yn ddiweddar yn nigwyddiad SeneddLab 2017 gan adeiladu llais newydd mewn un awr i roi gwybodaeth lafar am Gynulliad Cenedlaethol Cymru. Fe roeson nhw’r enw ‘RoboLlywydd’ arno. Dipyn bach o hwyl oedd galw’r llais newydd yn ‘RoboLlywydd’, ond mae’n dangos beth sy’n bosib o safbwynt ddefnyddio lleisiau gwahanol unigolion o fewn cynorthwyydd personol digidol eich hunan. Mae’r fideo canlynol yn sôn rhagor am hyn (yn enwedig ar ôl y pumed munud a hanner) :

Rydyn ni wedi defnyddio system oedd eisoes ar gael yn god agored o’r enw MaryTTS ac mae modd i chi ei ddefnyddio ar gyfer y Gymraeg o’r gronfa GitHub ganlynol:

techiaith/docker-marytts

Darlith Cymdeithas Wyddonol Gwynedd

Fe fydd Dewi Bryn Jones o Uned Technolegau Iaith, Canolfan Bedwyr, Prifysgol Bangor yn traddodi ar y pwnc;

Datblygu Adnabod Lleferydd ar gyfer y Gymraeg.

Mae’n gynyddol bosibl i chi siarad gyda dyfeisiadau fel eich ffôn neu gyfrifiadur er mwyn hwyluso defnyddio apiau, gwefannau a hefyd derbyn atebion deallus a pherthnasol i gwestiynau a ofynnwyd mewn iaith naturiol. Apple Siri, Microsoft Cortana, Amazon Alexa a Google Assistant yw rhai o’r cynnyrch a gwasanaethau masnachol poblogaidd sydd yn gyrru’r newid hwn gyda’r iaith Saesneg.

Yn y ddarlith hon bydd Dewi Bryn Jones o Uned Technolegau Iaith, Canolfan Bedwyr, Prifysgol Bangor yn cyflwyno’r gwaith sydd ym Mangor ar ddatblygu adnabod lleferydd ar gyfer cychwyn galluogi’r un ddarpariaeth i ddefnyddwyr Cymraeg. Swyddogaeth adnabod lleferydd yw trosi sain lleferydd unigolyn i destun ac felly bydd Dewi yn esbonio’r dulliau a’r data a ddefnyddir yn ogystal â chyflwyno’r canlyniadau diweddaraf.

Cynhelir y cyfarfod am 7.30 ar nos Lun Tachwedd 14eg yn ystafell 1.07 (llawr cyntaf), Canolfan Bedwyr, Y Ganolfan Reolaeth, Ffordd y Coleg, Bangor.

 

Cyflwyno Macsen

Yn ystod 2015-2016 rydym wedi ceisio datblygu adnoddau newydd ar gyfer siarad Cymraeg gyda chyfrifiaduron. Gweler – Cychwyn ar Siarad i’ch cyfrifiadur , Tuag at ‘Siri’ Cymraeg

Mae’r dechnoleg yma’n dod yn fwyfwy pwysig wrth i’r llais dynol gael ei ddefnyddio mewn systemau holi ac ateb ar ffonau symudol a thabledi, systemau rheoli teclynnau fel setiau teledu a robotiaid, a systemau arddweud. Os na fydd modd defnyddio’r Gymraeg yn y sefyllfaoedd hyn, bydd yr iaith yn cael ei chau allan fwyfwy o’r byd digidol, a siaradwyr Cymraeg yn gorfod troi i’r Saesneg.

Er mwyn paratoi’r ffordd ar gyfer y dechnoleg newydd yn Gymraeg rydyn ni wedi cynhyrchu prototeip o system cwestiwn ac ateb lle mae cynorthwyydd personol o’r enw ‘Macsen’ yn gallu ateb cwestiynau llafar, er enghraifft ‘beth yw’r newyddion?’ neu ‘beth yw’r tywydd?’.

Dyma fideo i gyflwyno ac i arddangos Macsen yn gweithio ar gyfrifiadur bach Raspberry Pi:

Mae’r holl god ac adnoddau ar gael ar GitHub fel bod unrhyw un yn gallu ehangu a datblygu system ‘Macsen’ eu hunain. Prif dudalen ‘Macsen’ ar y we er mwyn gwybod sut i gychwyn arni yw:

http://techiaith.cymru/macsen

Bydd ein gwaith ar adnabod lleferydd ac ar adnoddau agored ar gyfer ‘Macsen’ yn parhau. Cysylltwch â ni os oes gennych chi, fel cwmni meddalwedd, clwb codio, ysgol neu fel haciwr cyffredinol unrhyw ddiddordeb eu cynnwys o fewn projectau meddalwedd eich hunain.

Datblygwyd ‘Macsen’ o fewn y project ‘Seilwaith Cyfathrebu Cymraeg’ a ariannwyd gan Llywodraeth Cymru ac S4C.

Cychwyn ar siarad Cymraeg i’ch cyfrifiadur

Rydyn ni wrthi’n datblygu adnabod lleferydd Cymraeg fel rhan o’n project Seilwaith Cyfathrebu Cymraeg a’i rannu yn agored ac am ddim ar y Porth Technolegau Iaith gyda datblygwyr meddalwedd ac apiau Cymraeg eraill.

Heddiw rydyn ni’n falch o fedru rhannu’r fersiynau cyntaf cychwynnol o’n system adnabod lleferydd Cymraeg.

Julius Cymraeg (julius-cy)

Mae’r ddarpariaeth newydd wedi’i chreu drwy ddatblygu a chynhyrchu ffeiliau arbennig sydd yn addasu meddalwedd adnabod lleferydd cod agored cyffredinol o’r enw Julius i allu adnabod Cymraeg yn lle Saesneg a Japanëeg.

mic_web
http://julius.osdn.jp/en_index.php

Mae’r fersiwn cyntaf i’w ryddhau yn galluogi Julius i adnabod cwestiynau a gorchmynion Cymraeg syml, penodol ynghylch y tywydd, newyddion, amser a cherddoriaeth. E.e:

  • “BETH YDY’R TYWYDD HEDDIW?”
  • “BETH YW TYWYDD YFORY?”
  • “BETH YW’R NEWYDDION?”
  • “FAINT O’R GLOCH YDY HI?”
  • “CHWARAEA GERDDORIAETH CYMRAEG”

Bydd fersiynau o Julius Cymraeg yn y dyfodol yn ceisio cynorthwyo nodweddion arddweud ac adnabod lleferydd mwy rhydd.

github_logo
https://github.com/techiaith/julius-cy

Mae ein haddasiadau ar gyfer Cymreigio Julius, yn ogystal â sgriptiau i hwyluso sefydlu popeth yn hwylus ar eich gyfrifiadur ar gael yn rhydd, yn agored ac am ddim ar GitHub.

Ewch i:

https://github.com/techiaith/julius-cy

 

Mae’n wych! Sut mae julius-cy yn gweithio?

Mae’r dudalen ‘Cefndir’ yn esbonio popeth am y fersiwn cyntaf :

https://github.com/techiaith/julius-cy/blob/master/CEFNDIR.md

Ar ôl darllen hwn bydd modd i chi ychwanegu testunau a chwestiynau eich hunain i Julius-cy!

Hmm. Dydy o ddim yn gweithio’n dda iawn i mi. Sut fedra i helpu?

Fersiynau cynnar yw’r modelau acwstig sydd gennym ni hyd yn hyn, felly mae’n bosib na fydd julius-cy yn adnabod lleisiau rhai unigolion yn llwyddiannus.

Os nad ydych chi eisoes wedi cyfrannu eich llais i’n Corpws Lleferydd Paldaruo, yna defnyddiwch ein ap Paldaruo (http://techiaith.bangor.ac.uk/paldaruo) ar unrhyw ddyfais iOS neu Android er mwyn i ni wella’r modelau acwstig gyda’ch llais chi.

Cyfieithu Peirianyddol Cymraeg yn y Cwmwl

coin-tinyRhan o’n project Seilwaith Cyfarthrebu Cymraeg yw gwella’r adnoddau cyfieithu peirianyddol er mwyn cael y budd mwyaf allan o wasanaethau sydd wedi’u seilio ar y Saesneg.

O ganlyniad, mae adnoddau cyfieithu peirianyddol Moses-SMT Porth Technolegau Iaith Cenedlaethol Cymru wedi eu hychwanegu i’r Ganolfan APIs fel y bydd modd eu defnyddio’n haws  o fewn  eich meddalwedd a phrojectau Cymraeg yn ogystal â systemau cof cyfieithu fel Trados, WordFast a CyfieithuCymru.

api cloudMae Moses-SMT Cymraeg<>Saesneg felly yn ymuno â llu o wasanaethau API technolegau iaith eraill yn y Ganolfan APIs fel Cysill, testun-i-leferydd, tagiwr rhannau ymadrodd, adnabod iaith, lemateiddiwr a Vocab i Gymreigio gwefannau, apiau a meddalwedd.

Yn debyg i’r wasanaethau API eraill byddwch angen derbyn allwedd API o’r Canolfan (http://techiaith.cymru/api/cofrestru/) ac yna defnyddio’r dogfennaeth a chod enghreifftiol rydyn ni wedi paratoi  ar GitHub i’ch helpu chi i gychwyn arni. Gweler: https://github.com/PorthTechnolegauIaith/moses-smt/blob/master/docs/APIArlein.md

Cyn i chi fwrw ymlaen, hoffem bwysleisio unwaith eto bwysigrwydd materion ansawdd – eich cyfrifoldeb chi yw sicrhau y defnyddir y meddalwedd cyfieithu peirianyddol hwn yn y dull priodol, gan gynnwys ôl-gyfieithu priodol ac ystyrlon (gweler Materion Ansawdd).

Demo

Mae gennyn ni ddemo ar-lein hefyd o’r peiriannau er mwyn i chi roi cynnig ar ofyn i’r peiriant gyfieithu ar eich rhan. Gweler: http://techiaith.cymru/cyfieithu/demo