Dyma’r corpws a gasglwyd trwy ddulliau torfoli yr Ap Paldaruo, gyda diolch i’n holl gyfranwyr.
Cynlluniwyd Corpws Lleferydd Paldaruo i ddatblygu adnabod lleferydd awtomatig ar gyfer y Gymraeg. Mae angen llawer iawn o ddata i ddatblygu adnabod lleferydd ac fe gafodd y corpws ei gasglu drwy’r Ap Paldaruo – ap i gasglu data sain gan siaradwyr. Mae defnyddio ap i gasglu data gan siaradwyr Cymraeg yn golygu y gellir manteisio ar amrywiaeth siaradwyr, sy’n bwysig ar gyfer adnabod lleferydd. Mae torfoli yn cyfeirio at gael data gan nifer fawr o bobl, fel arfer dros y we.
CORPWS LLEFERYDD PALDARUO FERSIWN 5
Fersiwn 5 yw fersiwn cyfredol y corpws, a gyhoeddwyd ar 19fed Rhagfyr 2018. Mae’r data sain ar ffurf wav ar 48kHz. Mae fersiwn 5 yn cynnwys 40 awr o ddata ar draws 14,215 o ffeiliau. Mae 564 o siaradwyr unigol wedi cyfrannu at y corpws cyhoeddedig. Casglwyd y data dros y cyfnod 2014-2018.
SUT I LWYTHO’R CORPWS I LAWR
Gellir llwytho’r corpws i lawr drwy git
Mae modd llwytho’r corpws i lawr fel ffeil Zip, neu o’r llinell orchymyn gan ddefnyddio git lfs (https://git-lfs.github.com/). Os ydych chi’n defnyddio git lfs, defnyddiwch y gorchymyn canlynol:
$ git lfs clone --branch v5.0 --depth 1 https://git.techiaith.bangor.ac.uk/Data-Porth-Technolegau-Iaith/Corpws-Paldaruo.git
STRWYTHUR Y FFEILIAU
Rydym wedi defnyddio’r corpws gydag adnabod lleferydd HTK a Kaldi. Mae’r ffeiliau sain, metadata’r siaradwyr a manylion pob recordiad ar gael pan gaiff y corpws ei lwytho i lawr.
Mae’r ffolder audio/wav yn cynnwys y samplau wav ar gyfer pob siaradwr. Mae pob ffolder yn un siaradwr unigol. Mae metadata pob siaradwr ar gael yn y ffeil metadata.csv. Mae manylion yr holl samplau yn y corpws ar gael yn y ffeil samplau.txt.
DOSBARTHIAD SIARADWYR Y CORPWS
Mae’r corpws yn cynnwys data 564 siaradwr. Isod mae’r dosbarthiad yn seiliedig ar brif nodweddion y siaradwr:
OED
Amlder Canran
18-30 159 28.2
31-40 173 30.7
41-50 103 18.3
51-60 73 12.9
61-70 41 7.3
71-80 12 2.1
80+ 1 0.2
Cyfanswm 562 99.6
RHYW
Amlder Canran
Benyw 286 50.7
Gwryw 278 49.3
Cyfanswm 564 100
LLEOLIAD ACEN
Amlder Canran
Canolbarth 81 14.4
De Ddwyrain 82 14.5
De Orllewin 108 19.1
Gogledd Ddwyrain 53 9.4
Gogledd Orllewin 240 42.6
Cyfanswm 564 100
MATH ACEN
Amlder Canran
Dysgwr 79 14
Iaith Gyntaf 485 86
Cyfanswm 564 100
MANYLION Y CORPWS
Mae’r promtiau a ddarllenwyd gan gyfranwyr yn cynnwys geiriau unigol a brawddegau llawn. Mae geiriau unigol i’w gweld yn samplau 1-85. Brawddegau a chwestiynau yw’r samplau sy’n weddill. Mae enghreifftiau o’r ddau fath i’w gweld isod:
Geiriau unigol: */sample1 LLEUAD MELYN AELODAU SIARAD FFORDD YMLAEN CEFNOGAETH HELEN */sample2 GWRAIG OREN DIWRNOD GWAITH MEWN EISTEDDFOD DISGOWNT IDDO */sample3 OHERWYDD ELLIW AWDURDOD BLYNYDDOEDD GWLAD TYWYSOG LLYW UWCH */sample4 RHYBUDDIO ELEN UWCHRADDIO HWNNW BEIC CYMRU RHOI AELOD */sample5 RHAI STEROID CEFNOGAETH FELEN CAU GAREJ ANGAU YMHLITH
Brawddegau: */c9d8244ce45dfc242c50bf6a5032cdf0 BETH FYDD TYWYDD YFORY */adcb079e2a52e1d0b6477ff9e22f2613 FAINT O'R GLOCH YDY HI */28c511ad08560ccd329f85476155fff8 FAINT O'R GLOCH YW HI */01ab72b92f6829846eb58c2bbb538bca DYDW I DDIM YN BWRIADU BOD YNG NGHAERDYDD DROS Y GWYLIAU */0a9463ca8f7e5414f674a35e9a50636a MAE ANGEN I TI OFYN AM BETH HOFFET TI GAEL YN Y BWYTY */c59edf7c3bcd0f26134f56c19af0cc30 OEDD RHAID I TI DDWEUD NAD OEDDET TI’N GWYBOD UNRHYW BETH
Cydnabyddiaeth
Dylai unrhyw erthyglau neu feddalwedd a seiliwyd ar ddefnydd y corpws hwn ddyfynnu:
Cooper, S., Chan, D., Jones, D. B. (2018) The Paldaruo Speech Corpus, version 5 [http://techiaith.cymru/corpora/paldaruo/]
AP PALDARUO
Mae Ap Paldaruo ar gael ar iOS ac Android ar gyfer ffonau clyfar a thabledi. O fewn yr ap, mae pob cyfrannwr yn creu proffil sy’n rhoi gwybodaeth gefndirol amdanynt y gellir ei ddefnyddio i ddatblygu adnabod lleferydd, ac i ymchwilwyr eraill sydd â diddordeb mewn ymchwilio i amrywio ieithyddol yng Nghymru. Mae’r metadata a gasglwyd yn cynnwys: oedran, rhyw, lleoliad byw plentyndod, lleoliad byw cyfredol, amlder siarad Cymraeg. Gofynnir hefyd i gyfranwyr gategoreiddio a oes ganddyn nhw acen dysgwr neu iaith gyntaf, a pha ranbarth mae eu hacen yn dod ohono.
**HEFYD:: Mae’r cod ffynhonnell ar gael o https://github.com/techiaith/Paldaruo
Am ragor o wybodaeth am yr ap Paldaro, ewch i dudalen cartref yr Ap Paldaruo
Mae’r cod i’r fersiwn iOS o’r Ap Paldaruo hefyd ar gael ar GitHub: