Gweinydd API Adnabod Lleferydd Lleol

Mae’r adnodd hwn, sydd ar gael o https://github.com/techiaith/welsh-whisperx, yn eich galluogi i redeg adnabod lleferydd Cymraeg yn lleol ar eich caledwedd eich hun — heb ddibynnu ar wasanaethau cwmwl allanol. Gall bweru cynorthwywyr llais amser real, trawsgrifio cyfarfodydd a darllediadau, cyfieithu lleferydd Cymraeg i’r Saesneg, a chynhyrchu is-deitlau’n awtomatig.

Mae’r system wedi’i hadeiladu i gynyddu gyda’r galw. Mae’n defnyddio pensaernïaeth ciw tasgau (Celery gyda Redis) sy’n eich galluogi i ychwanegu gweithwyr CPU neu GPU wrth i’ch anghenion dyfu — o un CPU yn trin ychydig o geisiadau i GPUs lluosog yn prosesu llawer o dasgau ar yr un pryd. Mae system flaenoriaeth dwy lefel yn sicrhau bod ceisiadau amser-sensitif fel mewnbwn llais i apiau yn cael eu trin ar unwaith, hyd yn oed pan fo tasgau trawsgrifio hirach yn rhedeg yn y cefndir.

Beth all y gweinydd API ei wneud

    • Trawsgrifio — trosi lleferydd Cymraeg i destun ysgrifenedig, gyda stampiau amser ar lefel geiriau a sgoriau hyder
    • Cyfieithu — cyfieithu lleferydd Cymraeg yn uniongyrchol i destun Saesneg
    • Adnabod siaradwyr — adnabod lleisiau gwahanol mewn recordiad a labelu pwy ddywedodd beth
    • Alinio lleferydd a thestun — alinio testun hysbys â sain, gan gynhyrchu stampiau amser manwl ar lefel geiriau a nodau
    • Cynhyrchu is-deitlau — cynhyrchu ffeiliau is-deitlau SRT a WebVTT yn awtomatig o leferydd
    • Normaleiddio testun Cymraeg — trosi lleferydd Cymraeg verbatim (gyda thalfyriadau, ffurfiau tafodieithol a lleferydd anffurfiol) i Gymraeg ysgrifenedig safonol

Wedi’i adeiladu ar gyfer dau achos defnydd

Mae’r API wedi’i gynllunio o amgylch dau fodd gwahanol:

Amser real

Mae’r diweddbwyntiau /transcribe/, /translate/ a /keyboard/ wedi’u hoptimeiddio ar gyfer cynorthwywyr llais a chymwysiadau rhyngweithiol. Caiff clipiau sain byr eu prosesu gyda’r oedi lleiaf posibl a dychwelir y canlyniadau’n uniongyrchol yn yr ymateb. Caiff y ceisiadau hyn eu cyfeirio at giw blaenoriaeth uchel fel nad ydynt byth yn cael eu hoedi gan waith cefndir.

Swp

Mae’r diweddbwyntiau /transcribe_long_form/ a /translate_long_form/ yn trin recordiadau hirach fel cyfarfodydd, cyfweliadau neu ddarllediadau. Mae’r API yn derbyn y sain, yn dychwelyd ID tasg, ac yn ei brosesu yn y cefndir gyda’r biblinell lawn — gan gynnwys adnabod siaradwyr a alinio sain a thestun. Gellir adalw’r canlyniadau fel JSON, SRT, WebVTT, ELAN neu destun plaen.

Alinio sain a thestun

Mae’r diweddbwyntiau /align/ a /align_long_form/ yn derbyn testun Cymraeg hysbys ochr yn ochr â ffeil sain ac yn dychwelyd stampiau amser manwl ar lefel geiriau a nodau gyda sgoriau hyder. Mae hyn yn ddefnyddiol ar gyfer cysoni trawsgrifiadau presennol â sain, creu is-deitlau wedi’u hamseru o sgriptiau, neu ymchwil ieithyddol lle mae angen amseru manwl.

Fformatau allbwn

Ar gyfer ceisiadau swp, mae’r API yn cynhyrchu ac yn storio sawl fformat allbwn:

  • JSON — canlyniad strwythuredig llawn gyda segmentau, stampiau amser geiriau, sgoriau hyder a thestun wedi’i normaleiddio
  • SRT / WebVTT — ffeiliau is-deitlau yn barod i’w defnyddio mewn chwaraewyr cyfryngau a llwyfannau fideo
  • ELAN — ffeiliau anodi ar gyfer offer dadansoddi ieithyddol
  • Testun plaen — trawsgrifiad testun syml
  • JSON Siaradwyr — canlyniad adnabod siaradwyr gyda labeli siaradwyr, testun ac amseru

Normaleiddio testun Cymraeg

Mae pob segment trawsgrifio yn cynnwys y testun gwreiddiol verbatim neu air am air a fersiwn wedi’i normaleiddio. Mae’r normaleiddiwr yn trosi Cymraeg llafar — gan gynnwys talfyriadau (bo’ fibod fi), ffurfiau tafodieithol ac arteffactau cyfnewid cod — i Gymraeg ysgrifenedig safonol. Mae allbwn cyfieithu (Saesneg) yn osgoi normaleiddio.

Rhedeg yn lleol ac yn cynyddu gyda’r galw

Mae’r system gyfan wedi’i phecynnu fel cynwysyddion Docker a gall redeg ar unrhyw beiriant heb neu gyda GPU NVIDIA. Gall un GPU 24GB redeg hyd at bedwar gweithiwr ar yr un pryd. I ymdopi â thrwygyrch uwch, ychwanegwch fwy o GPUs neu beiriannau — mae pob gweithiwr ychwanegol yn cynyddu’r capasiti heb unrhyw newidiadau cod. Mae’r system blaenoriaethu ciw yn dosbarthu gwaith yn awtomatig ar draws y gweithwyr sydd ar gael.

Adnoddau Cwmwl i ddatblygwyr

Mae’r gweinydd API adnabod lleferydd a’r holl fodelau sylfaenol ar gael hefyd drwy Canolfan APIs (https://api.techiaith.cymru) yr uned er mwyn integreiddio’n haws i’ch systemau a’ch gwasanaethau.

Canolfan Bedwyr

Neuadd Dyfrdwy
Ffordd Y Coleg
Bangor
Gwynedd
LL57 2DG

Elusen Gofrestredig: Rhif 1141565
Hawlfraint © 2001–2025

logo uned technolegau iaith
ariennir gan llywodraeth cymru