Adnabod lleferydd
Mae technolegau adnabod lleferydd yn trosi lleferydd neu iaith lafar i destun ysgrifenedig yn awtomatig.
Mae’r dechnoleg yn hanfodol ar gyfer creu gwasanaethau hygyrch, cynyddu cynhwysiant digidol, ac yn sail i lawer o wasanaethau modern fel is-deitlau awtomatig, systemau trawsgrifio a chynorthwywyr llais.
Mathau o Leferydd a Thrawsgrifio
Mae yna amrywiaeth o fathau gwahanol o leferydd a thrawsgrifio, gan gynnwys:
- Lleferydd wrth ddarllen – prosesu lleferydd sy’n darllen testun wedi’i ysgrifennu ymlaen llaw. Mae’n cynnwys iaith fwy ffurfiol a gywir o ran geirfa.
- Lleferydd digymell – prosesu lleferydd o sgyrsiau arferol a naturiol. Mae’n cynnwys oedi, ail-adrodd geiriau neu ail-gychwyn brawddegau a siarad yn llai ffurfiol gydag ambell i air Saesneg (‘code switching’)
- Trawsgrifio sain cyfan – prosesu recordiadau sain byr neu hir
- Trawsgrifio byw – trosi lleferydd i destun wrth i chi siarad
- Trawsgrifio ferbatim – cofnodi pob gair, oedi, ac ymadrodd yn union fel y’u llefarwyd
- Trawsgrifio is-deitlau hawdd eu darllen – creu is-deitlau o leferydd sy’n haws eu dilyn
- Trawsgrifio cyfarfodydd – cofnodi sgyrsiau aml-siaradwr gyda’r gallu i adnabod lleisiau a labelu pwy sy’n siarad
Adnoddau Adnabod Lleferydd ar gyfer Datblygwyr
Gweinydd API Adnabod Lleferydd Lleol
Bellach, mi allwch redeg adnabod lleferydd Cymraeg yn lleol ar eich caledwedd eich hun. Gall bweru cynorthwywyr llais amser real, trawsgrifio cyfarfodydd a darllediadau, cyfieithu lleferydd Cymraeg i’r Saesneg, a chynhyrchu is-deitlau’n awtomatig. Ewch fan hyn am fwy o wybodaeth.
Modelau
Mae ein modelau adnabod lleferydd Cymraeg a Saesneg ar gael i ddatblygwyr eu defnyddio mewn dwy ffordd:
- Drwy ganolfan APIs yr uned – ar gyfer integreiddio hawdd i’ch systemau a’ch gwasanaethau
- Yn lleol – drwy lawrlwytho o wefan Hugging Face a’u rhedeg ar weinydd neu gyfrifiadur lleol eich hunain:
Data
Mae ein casgliadau data ar gyfer adnabod lleferydd ar gael hefyd yn hwylus o wefan Hugging Face.
Ein Gwaith Datblygu
Wrth i’r data gynyddu, rydym wedi ei ddefnyddio i hyfforddi a datblygu modelau adnabod lleferydd ein hunain, gan ddilyn datblygiadau cyffrous y maes. Ein cam cyntaf oedd HTK (Hidden Markov Model Toolkit), cyn symud ymlaen i Kaldi a’i ddulliau mwy pwerus. Yn fwy diweddar, rydym wedi troi at hyfforddi modelau rhwydweithiau niwral arloesol fel wav2vec2 a Whisper. Gyda phob cam, gwelsom welliannau sylweddol – nid yn unig o ran cywirdeb, ond hefyd o ran y gallu i ddeall amrywiaeth eang o acenion Cymraeg a delio â sefyllfaoedd sain heriol.
Wrth ddatblygu adnoddau ar gyfer y Gymraeg, rydym hefyd yn ymwybodol o’r angen i fedru trawsgrifio Saesneg yn dda. Mae llawer o siaradwyr Cymraeg yn defnyddio’r ddwy iaith yn eu bywydau bob dydd, ac mae’n bwysig bod ein systemau’n gallu delio â’r ddwy iaith yn effeithiol – naill ai ar wahân neu mewn sgyrsiau sy’n newid rhwng y ddwy iaith.
Cymwysiadau Ymarferol gydag Adnabod Lleferydd
Mae ein modelau adnabod lleferydd ar waith mewn apiau a gwasanaethau go iawn ers sawl blwyddyn:
- Trawsgrifiwr – gwasanaeth ar-lein sy’n galluogi defnyddwyr i drawsgrifio eu recordiadau sain yn awtomatig
- Macsen – pecyn prototeip cynorthwyydd llais Cymraeg
Cydweithio gyda Phartneriaid
Nid gwaith ar ein pen ein hunain yw hwn. Rydym wedi cydweithio’n agos gyda nifer o sefydliadau a datblygwyr eraill, gan gynnwys:
- Mozilla Foundation drwy’r prosiect Common Voice
- Partneriaid rhwydwaith AI-iaith canolog Cymru-Llydaw
- Amazon a Chymdeithas Llywodraeth Leol Cymru (WLGA)
- Llu o gynhyrchwyr podlediadau a chynhyrchwyr sain lleferydd eraill sydd wedi cyfrannu eu data ac wedi rhoi caniatâd i ni ei rannu wedi’i drawsgrifio gennym
Mae’r cydweithrediadau hyn wedi bod yn hanfodol ar gyfer casglu data amrywiol, rhannu arbenigedd, a sicrhau bod ein hadnoddau’n ateb anghenion go iawn defnyddwyr a sefydliadau.
Gan Edrych i’r Dyfodol
Mae ein gwaith yn parhau i esblygu wrth i ni archwilio posibiliadau cyffrous technolegau newydd. Rydym yn datblygu systemau adnabod lleferydd sy’n gallu cyfieithu’n uniongyrchol o’r Gymraeg i’r Saesneg, gan gyfuno adnabod lleferydd a chyfieithu peirianyddol mewn un cam. Yn ogystal, rydym yn ymchwilio i alluoedd deallusol eraill megis adnabod iaith, adnabod acen, ac adnabod cywair – galluoedd sy’n hanfodol ar gyfer creu systemau mwy soffistigedig a sensitif i gyd-destun.
Rydym hefyd yn ymchwilio i fodelau iaith mawr (LLMs) sy’n gallu deall a phrosesu cyfarwyddiadau llafar yn Gymraeg, gan agor drysau newydd ar gyfer rhyngwynebau naturiol a chynorthwywyr llais Cymraeg.
Os hoffech chi wybod mwy am ein gwaith, neu os oes gennych chi ddiddordeb mewn cydweithio â ni, byddem wrth ein bodd yn clywed gennych chi. Cysylltwch â ni i drafod sut y gallwn ni gydweithio i ddatblygu technolegau lleferydd Cymraeg ymhellach.
