Category Archives: Corpora

Mozilla CommonVoice, Paldaruo ac Adnabod Lleferydd Cymraeg

Mae Mozilla, y cwmni rhyngwladol o Galifornia sy’n gyfrifol am y porwr gwe Firefox, newydd lansio eu cynllun CommonVoice amlieithog. Ar ôl cychwyn gyda Saesneg y llynedd, mae tair iaith newydd yn cael eu hychwanegu yn awr, sef y Gymraeg, Almaeneg, a Ffrangeg. Llwyddodd y Gymraeg i gyrraedd y brig oherwydd cymorth gan yr Uned Technolegau Iaith yng Nghanolfan Bedwyr, Prifysgol Bangor.

Rhagor o Leisiau i Common Voice
https://blog.mozilla.org/press-uk/2018/06/07/more-common-voices/#Cymraeg

Rydyn ni’n hynod o falch am CommonVoice Cymraeg ac yn awyddus iawn i gannoedd a miloedd o siaradwyr Cymraeg gyfrannu eu lleisiau drwy’r wefan neu’r ap.

 

Ond beth am Paldaruo? – ein ap torfoli sydd eisoes wedi casglu ers 2014 hyd at 38 awr o ddata lleferydd gan dros 500 unigolyn, ac sydd wedi helpu gwireddu meddalwedd cynorthwyydd personol digidol Cymraeg cod agored fel Macsen. Mae’r Uned wedi defnyddio gwaith Paldaruo i gynorthwyo Mozilla darparu CommonVoice ar gyfer y Gymraeg ac ieithoedd eraill llai eu hadnoddau eraill.

Un o’r heriau yw canfod a darparu testunau hwylus i’w ddarllen ond sy’n cynnwys ystod eang a chytbwys o ffonemau’r iaith. Ar gyfer y lansiad, mae 1200 promt gan yr Uned o fewn CommonVoice Cymraeg ond bydd angen mwy. Wrth i ni, a’r gymuned Cymraeg, gyfrannu rhagor o destunau a recordiadau i CommonVoice Cymraeg, rydyn ni’n rhagweld y bydd y corpws yn hwb sylweddol i weithgareddau ymchwil a datblygu adnabod lleferydd Cymraeg yr Uned ac eraill.

Y gobaith yw y bydd y bartneriaeth rhwng Mozilla a Phrifysgol Bangor yn tyfu, ac y bydd y gweithgaredd hwn hefyd yn symbylu cwmnïau mawr eraill i gynnwys y Gymraeg ac ieithoedd eraill llai eu hadnoddau yn eu cynlluniau rhyngwladol.

Cyfeiriad y wefan yw : https://voice.mozilla.org/cy ac mae’r ap ar gael o https://itunes.apple.com/us/app/project-common-voice-by-mozilla/id1240588326

 

Corpora Gwefannau Cymdeithasol Newydd

Yma yn yr Uned Technolegau Iaith, rydym wedi bod yn casglu trydariadau Cymraeg o Twitter a chofnodion cyhoeddus a sylwadau Facebook ers chwe mis bellach.

Heddiw rydym yn falch i gyhoeddi y byddwn yn rhyddhau’r ddau gorpws enfawr yma at ddefnydd y cyhoedd!

twitterO heddiw ymlaen, byddwn yn rhyddhau casgliad o dros 2.6 miliwn trydariad Cymraeg, a 40,000 sylw a chofnod Facebook. Bydd y broses o gasglu negeseuon yn parhau a bydd maint y corpora yn dal i dyfu drwy’r amser hefyd.

Drwy ddefnyddio model adnabod-iaith a gynhyrchwyd yma ym Mhrifysgol Bangor (cadwch eich llygaid allan am hyn!) a’r project adnabod iaith cod agored, rydym wedi llwyddo i ddidoli miliynau o drydariadau a chofnodion Facebook er mwyn ffeindio’r testunau cyfrwng Cymraeg sy’n berthnasol i ni, gyda chyfradd cywirdeb o 99%.

fbMae hwn yn gyhoeddiad cyffrous ac arloesol, ac yn cynrychioli’r esiampl gyntaf o gorpora electronig ac anffurfiol cyfrwng Gymraeg ar gael unrhyw le.

Mae’r corpora yn nodedig gan eu bod nhw wedi’u creu yn gyfan gwbl ar-lein (drwy Twitter a Facebook) ac yn cynnwys cyfraniadau gan siaradwyr Cymraeg o bob rhan o’r byd.

Rydym yn rhagweld y bydd y corpora hyn yn cael eu defnyddio ar gyfer pob math o bethau – yn cynnwys hyfforddi systemau rhagweld testun ar gyfer ffonau, darganfod geiriau newydd yn y Gymraeg, ac ymchwil academaidd pellach.

Gallwch lwytho’r holl ffeiliau yma i lawr o’n tudalen we Corpora.

Cyn i chi lwytho’r ffeiliau yma i lawr, gofynnwn yn garedig eich bod yn darllen y ddogfennaeth a’r telerau ac amodau perthnasol.