Mae technolegau adnabod lleferydd yn caniatáu i system gyfrifiadurol adnabod geiriau y mae rhywun yn eu siarad er mwyn trosi’r sain yn destun. Nid yw hyn yn golygu o reidrwydd y bydd y system adnabod lleferydd yn deall ystyr pob gair.
Mae’r adnoddau adnabod lleferydd canlynol ar gael drwy’r Porth Technolegau Iaith:
wav2vec2 (gyda KenLM) Cymraeg
Dyma’r ddarpariaeth adnabod lleferydd Cymraeg sydd, ar y foment, yn rhoi’r canlyniadau adnabod gorau posib.
Prif sylfaen yr adnabod lleferydd hwn yw modelau acwstig amlieithog enfawr sydd wedi’u cynllunio gan Facebook AI ac wedi’u hyfforddi dan oruchwyliaeth rannol. Yn wahanol i’r drefn flaenorol o hyfforddi modelau adnabod lleferydd gyda sain a thrawsgrifiadau, mae modelau wav2vec2 yn dysgu’r patrymau (ar lefel isel debyg i ffonemau) o sain lleferydd yn unig (heb drawsgrifiadau). Gan fod digonedd o ddata lleferydd heb drawsgrifiadau ar gael, mae modd hyfforddi ar gasgliadau mwy swmpus. Hyfforddwyd wav2vec2 xlsr gyda degau o filoedd o oriau o sain lleferydd yn cynnwys 53 iaith wahanol er mwyn manteisio hefyd ar debygrwydd seiniau ynganu trawsieithol.
Gweler https://ai.facebook.com/blog/wav2vec-20-learning-the-structure-of-speech-from-raw-audio/ am fwy o wybodaeth.
Ar gyfer troi’r modelau at ddibenion adnabod lleferydd Cymraeg, mae angen eu mireinio gyda data arferol sain a thrawsgrifiadau Cymraeg. Yn ffodus mae’r data yma ar gael gan broject Mozilla Common Voice, a gyda help model iaith KenLM, mae’r canlyniadau adnabod yn arbennig gyda chyfradd gwallau geiriau o 15%.
Dyma enghraifft o effeithiolrwydd y modelau o fewn ein pecyn cod agored a gwasanaeth Trawsgrifiwr Ar-lein Cymraeg. Gweler ‘Awgrym’ gan y peiriant adnabod lleferydd sydd bron iawn yn gywir o’i gymharu’r â’r testun wedi’i gywiro:
Mozilla DeepSpeech Cymraeg
Mae DeepSpeech yn ddarpariaeth adnabod lleferydd gan Mozilla, gwneuthurwyr y porwr Firefox. Er nad yw ei effeithiolrwydd, ar y foment, gystal â wav2vec2 (gweler uchod), mae modelau DeepSpeech yn llawer llai eu maint ac yn medru adnabod lleferydd yn fyw wrth i chi lefaru. Mae DeepSpeech yn addas felly ar gyfer cynnal adnabod lleferydd ar gyfrifiaduron cartref a dyfeisiau fel ffonau symudol.
Ewch i https://github.com/mozilla/deepspeech i ddysgu mwy am DeepSpeech.
Mae’r Porth Technolegau Iaith yn darparu’r modelau parod Cymraeg a sgriptiau ar gyfer eu hyfforddi o ddata Mozilla CommonVoice Cymraeg. Ewch i ddudalenau ‘Releases’ o fewn tudalennau GitHub i ddarllen rhagor ac ac i lwytho’r modelau eu hunain i lawr:
Rydym yn defnyddio’r modelau DeepSpeech Cymraeg o fewn ein ap Macsen ar gyfer adnabod cwestiynau neu orchmynion syml.
Citiau Adnabod Lleferydd Eraill
Defnyddiwyd y pecynnau canlynol yn y gorffennol i geisio gwireddu adnabod lleferydd Cymraeg:
Kaldi Cymraeg
Mae Kaldi-ASR (http://kaldi-asr.org) wedi dod i’r amlwg yn y blynyddoedd diweddar fel cit gwireddu adnabod lleferydd cod agored. Mae’n darparu gwelliannau a gwell hyblygrwydd trwyddedu a masnacheiddio na unrhyw git arall. Mae hefyd yn darparu hyfforddi modelau acwstig gyda rhwydweithiau niwral. O ganlyniad mae yna gynnydd mawr yn y defnydd ohono gan ymchwilwyr, datblygwyr a chwmnïau.
Dyma adnodd amgylchedd hyfforddi modelau iaith ac acwstig Cymraeg gyda Kaldi:
Defnyddir Kaldi Cymraeg o fewn ein project cynorthwyydd Cymraeg ‘Macsen‘ :
HTK Cymraeg
Mae’r HTK (Hidden Markov Model Speech Recognition Toolkit) o Brifysgol Caergrawnt wedi bod yn sail yn y maes ymchwil adnabod lleferydd ers y 90au ac wedi’i ddefnyddio yn llwyddiannus gyda’r Gymraeg gyda’r adnoddau canlynol:
Julius Cymraeg
Mae Julius yn system weithredu adnabod lleferydd LVCSR (‘large vocabulary continuous speech recognition’) yn unig. Defnyddir Julius i roi’r modelau acwstig a hyfforddir gan yr HTK ar waith:
Adnoddau Eraill