Adnabod lleferydd

mae macsen yn gwrando i'r defnyddiwr ac yn chwarae fiwsig

Mae technolegau adnabod lleferydd yn trosi lleferydd neu iaith lafar i destun ysgrifenedig yn awtomatig.

Mae’r dechnoleg yn hanfodol ar gyfer creu gwasanaethau hygyrch, cynyddu cynhwysiant digidol, ac yn sail i lawer o wasanaethau modern fel is-deitlau awtomatig, systemau trawsgrifio a chynorthwywyr llais.

mae macsen yn gwrando i'r defnyddiwr ac yn chwarae fiwsig

Mathau o Leferydd a Thrawsgrifio

Mae yna amrywiaeth o fathau gwahanol o leferydd a thrawsgrifio, gan gynnwys:

  • Lleferydd wrth ddarllen – prosesu lleferydd sy’n darllen testun wedi’i ysgrifennu ymlaen llaw. Mae’n cynnwys iaith fwy ffurfiol a gywir o ran geirfa.
  • Lleferydd digymell – prosesu lleferydd o sgyrsiau arferol a naturiol. Mae’n cynnwys oedi, ail-adrodd geiriau neu ail-gychwyn brawddegau a siarad yn llai ffurfiol gydag ambell i air Saesneg (‘code switching’)
  • Trawsgrifio sain cyfan – prosesu recordiadau sain byr neu hir
  • Trawsgrifio byw – trosi lleferydd i destun wrth i chi siarad
  • Trawsgrifio ferbatim – cofnodi pob gair, oedi, ac ymadrodd yn union fel y’u llefarwyd
  • Trawsgrifio is-deitlau hawdd eu darllen – creu is-deitlau o leferydd sy’n haws eu dilyn
  • Trawsgrifio cyfarfodydd – cofnodi sgyrsiau aml-siaradwr gyda’r gallu i adnabod lleisiau a labelu pwy sy’n siarad

Adnoddau Adnabod Lleferydd ar gyfer Datblygwyr

Gweinydd API Adnabod Lleferydd Lleol

Bellach, mi allwch redeg adnabod lleferydd Cymraeg yn lleol ar eich caledwedd eich hun. Gall bweru cynorthwywyr llais amser real, trawsgrifio cyfarfodydd a darllediadau, cyfieithu lleferydd Cymraeg i’r Saesneg, a chynhyrchu is-deitlau’n awtomatig. Ewch fan hyn am fwy o wybodaeth.

Modelau

Mae ein modelau adnabod lleferydd Cymraeg a Saesneg ar gael i ddatblygwyr eu defnyddio mewn dwy ffordd:

  • Drwy ganolfan APIs yr uned – ar gyfer integreiddio hawdd i’ch systemau a’ch gwasanaethau
  • Yn lleol – drwy lawrlwytho o wefan Hugging Face a’u rhedeg ar weinydd neu gyfrifiadur lleol eich hunain:

Data

Mae ein casgliadau data ar gyfer adnabod lleferydd ar gael hefyd yn hwylus o wefan Hugging Face.

Ein Gwaith Datblygu

Ers sawl blwyddyn bellach, rydym wedi bod yn datblygu adnoddau adnabod lleferydd Cymraeg o ansawdd gorau bosib. Mae’r gwaith hwn wedi cynnwys casglu, creu a dosbarthu corpws sylweddol o ddata lleferydd Cymraeg ar ffurf cod agored. Ein nod yw galluogi datblygwyr o bob cwr i ddefnyddio’r data i greu a gwella eu darpariaeth adnabod lleferydd Cymraeg eu cynhyrchion a’u gwasanaethau, gan gyfrannu at hyrwyddo a chynorthwyo’r Gymraeg.

Wrth i’r data gynyddu, rydym wedi ei ddefnyddio i hyfforddi a datblygu modelau adnabod lleferydd ein hunain, gan ddilyn datblygiadau cyffrous y maes. Ein cam cyntaf oedd HTK (Hidden Markov Model Toolkit), cyn symud ymlaen i Kaldi a’i ddulliau mwy pwerus. Yn fwy diweddar, rydym wedi troi at hyfforddi modelau rhwydweithiau niwral arloesol fel wav2vec2 a Whisper. Gyda phob cam, gwelsom welliannau sylweddol – nid yn unig o ran cywirdeb, ond hefyd o ran y gallu i ddeall amrywiaeth eang o acenion Cymraeg a delio â sefyllfaoedd sain heriol.

Wrth ddatblygu adnoddau ar gyfer y Gymraeg, rydym hefyd yn ymwybodol o’r angen i fedru trawsgrifio Saesneg yn dda. Mae llawer o siaradwyr Cymraeg yn defnyddio’r ddwy iaith yn eu bywydau bob dydd, ac mae’n bwysig bod ein systemau’n gallu delio â’r ddwy iaith yn effeithiol – naill ai ar wahân neu mewn sgyrsiau sy’n newid rhwng y ddwy iaith.

Cymwysiadau Ymarferol gydag Adnabod Lleferydd

Mae ein modelau adnabod lleferydd ar waith mewn apiau a gwasanaethau go iawn ers sawl blwyddyn:

  • Trawsgrifiwr – gwasanaeth ar-lein sy’n galluogi defnyddwyr i drawsgrifio eu recordiadau sain yn awtomatig
  • Macsen – pecyn prototeip cynorthwyydd llais Cymraeg

Cydweithio gyda Phartneriaid

Nid gwaith ar ein pen ein hunain yw hwn. Rydym wedi cydweithio’n agos gyda nifer o sefydliadau a datblygwyr eraill, gan gynnwys:

  • Mozilla Foundation drwy’r prosiect Common Voice
  • Partneriaid rhwydwaith AI-iaith canolog Cymru-Llydaw
  • Amazon a Chymdeithas Llywodraeth Leol Cymru (WLGA)
  • Llu o gynhyrchwyr podlediadau a chynhyrchwyr sain lleferydd eraill sydd wedi cyfrannu eu data ac wedi rhoi caniatâd i ni ei rannu wedi’i drawsgrifio gennym

Mae’r cydweithrediadau hyn wedi bod yn hanfodol ar gyfer casglu data amrywiol, rhannu arbenigedd, a sicrhau bod ein hadnoddau’n ateb anghenion go iawn defnyddwyr a sefydliadau.

Gan Edrych i’r Dyfodol

Mae ein gwaith yn parhau i esblygu wrth i ni archwilio posibiliadau cyffrous technolegau newydd. Rydym yn datblygu systemau adnabod lleferydd sy’n gallu cyfieithu’n uniongyrchol o’r Gymraeg i’r Saesneg, gan gyfuno adnabod lleferydd a chyfieithu peirianyddol mewn un cam. Yn ogystal, rydym yn ymchwilio i alluoedd deallusol eraill megis adnabod iaith, adnabod acen, ac adnabod cywair – galluoedd sy’n hanfodol ar gyfer creu systemau mwy soffistigedig a sensitif i gyd-destun.

Rydym hefyd yn ymchwilio i fodelau iaith mawr (LLMs) sy’n gallu deall a phrosesu cyfarwyddiadau llafar yn Gymraeg, gan agor drysau newydd ar gyfer rhyngwynebau naturiol a chynorthwywyr llais Cymraeg.

Os hoffech chi wybod mwy am ein gwaith, neu os oes gennych chi ddiddordeb mewn cydweithio â ni, byddem wrth ein bodd yn clywed gennych chi. Cysylltwch â ni i drafod sut y gallwn ni gydweithio i ddatblygu technolegau lleferydd Cymraeg ymhellach.