Adnabod Lleferydd

Mae technolegau adnabod lleferydd yn caniatáu i system gyfrifiadurol adnabod geiriau a leferir gan berson er mwyn trosi’r sain yn destun. Nid yw hyn yn golygu o reidrwydd y bydd y system adnabod lleferydd yn deall ystyr pob gair.

Mae’r adnoddau adnabod lleferydd canlynol ar gael drwy’r Porth Technolegau Iaith:

Adnoddau Hyfforddi

Mae angen data ar gyfer hyfforddi  adnabod lleferydd at ddibenion ac/neu iaith newydd.

Lecsicon Ynganu Cymraeg

Lecsicon ynganu, sef ddisgrifiad ffonetegol o bob gair mewn iaith, yw un o’r adnoddau hanfodol.  Rhaid i’r lecsicon fod mor gynhwysfawr â phosib. Rhaid iddo gynnwys ynganiad pob gair sydd yn y parth defnydd.

Llwytho'r adnodd 'Lecsicon Ynganu Cymraeg' i lawr o metashare.techiaith.cymru

Download 'Lecsicon Ynganu Cymraeg' resource from metashare.techiaith.cymru

Datblygwyd rheolau llythrennau i sain (‘letter to sound rules’) ar gyfer y Gymraeg ar ffurf cod er mwyn allu greu’r lecsicon ynganu ar gyfer y Gymraeg. Dyma’r cod a ddatblygwyd:

techiaith/welsh-lts

Mae’r Gymraeg, ar y cyfan, yn iaith ffoneteg gydag ychydig iawn o eithriadau (i gymharu â Saesneg) felly roedd yn ddull dilys i ddatblygu cod i gynhyrchu’r lecsicon yn awtomatig.

Mae’r lecsicon, sydd wedi ei seilio ar restr eiriau Cysill, yn cynnwys dros hanner miliwm o eiriau gyda’u hynganiad. Hynny yw, pob treiglad, pob rhediad berf ayb

Corpws Lleferydd

Yr ail adnodd hanfodol sydd ei angen yw corpws lleferydd, sef casgliad o recordiadau gyda thrawsgrifiadau o’r hyn sydd yn cael ei ddweud. Diben y corpws lleferydd yw cynnwys digon o enghreifftiau o bob un ffonem yn eich iaith yn cael ei ynganu gan y nifer mwyaf o siaradwyr. Does dim rheidrwydd recordio pob un gair.

Mae modd defnyddio corpws lleferydd Paldaruo, sydd wedi ei chasglu trwy ddulliau torfoli’r ap Paldaruo, fel adnodd addas:

Corpws Lleferydd Paldaruo

Corpws Testunau

Mae’r trydydd hanfod, sef corpws testunau, yn galluogi creu modelau iaith, neu fodelau o’r tebygolrwydd bod gair yn dilyn gair penodol o fewn brawddeg. Mae’n modelu’r brawddegau bydd disgwyl i system adnabod lleferydd cynhyrchu yn y parth defnydd.

 

Citiau Adnabod Lleferydd

Yn ffodus iawn mae nifer o gitiau cod agored ar gael yn y byd academaidd i hwyluso unrhyw un i ddysgu, ymchwilio, datblygu a masnacheiddio adnabod lleferydd newydd.

Mae’r citiau yn hwyluso cyflawni’r dasg o greu modelau acwstig, eu profi ac yna eu defnyddio mewn gwahanol ddatgodwyr.

Dydy’r citiau hyn ddim yn gynnyrch gyda rhyngwynebau GUI ayb, ond yn hytrach yn gasgliad o ffeiliau cod ffynhonnell (iaith rhaglenni C a C++ yn bennaf) gyda sgriptiau ar gyfer eu crynhoi a’u rhedeg o fewn camau ehangach ar gyfer hyfforddi, profi a dadgodio. Mae’r citiau yn cynnwys rywfaint o ddogfennaeth neu’n gysylltiedig â llyfrau. Mae yna nifer o bapurau ymchwil academaidd ar gael hefyd. Yn ogystal mae yna diwtorialau a phrojectau cod agored ar y we gyda dogfennaeth fwy hygyrch.

Mae’r Porth Technolegau Iaith yn ogystal yn darparu amgylchoedd Docker ar gyfer hwyluso’n arw’r broses o hyfforddi a darparu adnabod lleferydd Cymraeg.

Kaldi Cymraeg

Mae Kaldi-ASR (http://kaldi-asr.org) wedi dod i’r amlwg yn y blynyddoedd diweddar fel cit wireddu adnabod lleferydd cod agored. Mae’n darparu gwelliannau a gwell hyblygrwydd trwyddedu a masnacheiddio na unrhyw cit arall. Mae hefyd yn darparu hyfforddi modelau acwstig gyda rhwydweithiau niwral. O ganlyniad mae ‘na gynnydd mawr yn ei ddefnydd gan ymchwilwyr, ddatblygwyr a chwmnïau.

Dyma adnodd amgylchedd hyfforddi modelau iaith ac acwstig Cymraeg gyda Kaldi:

techiaith/kaldi-cy

Defnyddir Kaldi Cymraeg o fewn ein project cynorthwyydd Cymraeg ‘Macsen‘ :

HTK Cymraeg

Mae’r HTK (Hidden Markov Model Speech Recognition Toolkit) o Brifysgol Caergrawnt wedi bod yn sail yn y maes ymchwil adnabod lleferydd ers y 90au ac mae  ei ddefnyddio yn llwyddiannus gyda’r Gymraeg gyda’r adnoddau canlynol:

techiaith/seilwaith

 

Julius Cymraeg

Mae Julius yn system weithredu adnabod lleferydd  LVCSR (‘large vocabulary continuous speech recognition’) yn unig. Defnyddir Julius i roi’r modelau acwstig a hyfforddir gan y HTK ar waith:

techiaith/julius-cy

 


Adnoddau Eraill

 

Gwaith Adnabod Lleferydd Uwch (GALLU)

Canlyniadau GALLU

Cofnodion Blog ynghylch Adnabod Lleferydd :

http://techiaith.cymru/category/adnabodlleferydd/