Macsen

Mae Macsen yn feddalwedd cynorthwyydd personol Cymraeg cod agored tebyg i Alexa neu’r Google Assistant. Ystyr cod agored yw y gall unrhyw un weld, addasu a dosbarthu’r cod fel yr hoffen nhw. Mae’n gweithio fel ap ar ffôn neu dabled, ac mae ar gael ar gyfer dyfeisiau iOS ac Android yn ogystal â fersiwn ar-lein. Mae’n bosib siarad gyda Macsen mewn Cymraeg naturiol er mwyn gofyn iddo gwblhau tasgau neu ofyn am wybodaeth,

Erbyn hyn, mae gan ap Macsen nifer o sgiliau, gan gynnwys y gallu i chwarae cerddoriaeth Cymraeg ar Spotify, rhaglenni ar S4C Clic, rhoi’r golau ymlaen neu i ffwrdd, adrodd y newyddion diweddaraf, darparu rhagolygon y tywydd, defnyddio ChatGPT, cyfieithu lleferydd Saesneg i destun Cymraeg a thrawsgrifio lleferydd Cymraeg i destun. Felly mae modd teipio yn ogystal â defnyddio’r llais i ofyn cwestiynau a rhoi gorchmynion i Macsen.

Rydyn ni’n defnyddio’r project hwn i ddangos beth allwn ni greu wrth ddatblygu technoleg lleferydd a deallusrwydd artiffisial Cymraeg. Rydyn ni’n cyhoeddi’r cydrannau a’r adnoddau perthnasol yma yn agored ar y Porth Technolegau Iaith, er mwyn i ddatblygwyr eraill hefyd fedru’u defnyddio. Rydyn ni wrthi yn gwneud ymchwil pellach i’w wella, a’i alluogi mewn sefyllfaoedd eraill.

Dangos sgiliau Macsen

Dyma gyfres o fideos sy’n dangos y dechnoleg ar waith:

Manylion Sgiliau Macsen

Mae Macsen yn codi’r newyddion o benawdau Golwg360, a gallwch ofyn iddo am y prif benawdau, newyddion Cymru, Prydain a’r newyddion rhyngwladol, a’r newyddion busnes, iechyd, chwaraeon.

Daw’r gerddoriaeth o wefan Spotify. Ar hyn o bryd mae’n adnabod 21 band ac unigolyn, sef: Alffa, Anhrefn, Anweledig, Bryn Fôn, Cadi Gwen, Candelas, Cowbois Rhos Botwnnog, Cyrff, Gwibdaith Hen Frân, Gwilym Morus, Lleuwen, Mellt, Melys, Petrobas, Plant Duw, Sibrydion, Sŵnami, Y Bandana, Y Cyrff, Yr Ods, Yws Gwynedd. Os nad oes gennych gyfrif Spotify Premium, bydd weithiau yn chwarae darnau o gerddoriaeth wahanol i’r hyn y gofynsoch amdano – nodwedd o gyfrifon rhad ac am ddim Spotify  yw hynny, nid gwall ar yr adnabod lleferydd.

Daw’r tywydd o wefan OpenWeatherMap.

Mae Macsen yn defnyddio Model Iaith ChatGPT-4.

Technolegau Iaith Cymraeg o fewn Macsen

Mae ap Macsen yn defnyddio nifer o dechnolegau gwahanol er mwyn gweithio. Defnyddia adnabod lleferydd Mozilla DeepSpeech i drosi’r hyn yr ydych yn ei ddweud i mewn i destun. Yn dilyn hynny, mae technoleg adnabod bwriad yn cael ei ddefnyddio i adnabod a oedd hynny’n gais am newyddion, y tywydd, cerddoriaeth neu un o’r dewisiadau eraill. Pan fydd angen i Macsen ymateb ar lafar, mae’n gwneud hynny drwy ddefnyddio technoleg testun-i-leferydd i lefaru’r ymateb priodol.

Rydym yn dal wrthi yn gwella’r nodweddion lleferydd, ac os hoffech chi, gallwch ein helpu i’w wella yn y dyfodol drwy gyfrannu recordiadau o’ch llais. Gallwch wneud hyn o fewn yr ap drwy glicio ar Hyfforddi yno. Bydd hyn yn eich arwain i ddarllen yn uchel y brawddegau sy’n cael eu hadnabod ar gyfer y sgiliau yn yr ap. Byddwn yn defnyddio’r recordiadau hyn i greu setiau datblygu a setiau profi ar gyfer hyfforddi’r adnabod lleferydd. Os ydych am gyfrannu mwy na hyn, ewch i wefan CommonVoice Mozilla i recordio brawddegau ar gyfer y casgliad mawr o recordiadau.

Mae rhagor o wybodaeth am y technolegau hyn a’r Gymraeg ar gael yn y Llawlyfr Technolegau Iaith a gyhoeddwyd gan y Coleg Cymraeg Cenedlaethol.

Ariannwyd Macsen a’r gwaith adnabod lleferydd gan Lywodraeth Cymru, ac rydym yn diolch iddyn nhw ac i’r gwirfoddolwyr sydd wedi bod yn cyfrannu eu lleisiau i wella technoleg lleferydd. Diolch hefyd i Golwg360 ac i OpenWeatherMap am ganiatâd i ddefnyddio’u gwasanaethau ar-lein.

Mae’r cod i’r ap ar gael o GitHub yn y gobaith y bydd yn adnodd defnyddiol i ddatblygwyr:

techiaith/macsen-flutter

Yn ogystal, mae’r cod ar gyfer y parsiwr bwriad hefyd ar gael yn GitHub:

techiaith/macsen-sgwrsfot

Mae ddogfennaeth sut gellir defnyddio darpariaeth Macsen ar gyfer ehangu gwasanaeth digidol ar gael o fewn cod yr ap: https://github.com/techiaith/macsen-flutter/blob/master/docs/README.md

Cyhoeddiadau Ymchwil Macsen

Macsen: A Voice Assistant for Speakers of a Lesser Resourced Language, Proceedings of the 1st Joint SLTU and CCURL Workshop (SLTU-CCURL 2020), pages 194-201 Language Resources and Evaluation Conference (LREC 2020), Marseille, France Papur

Building Intelligent Assistants for Speakers of a Lesser-Resourced Language,CCURL 2016 2nd Workshop on Collaboration and Computing for Under-Resourced Languages ‘Towards an Alliance for Digital Language Diversity’ (LREC 2016), Portoroz, Slovenia. Papur

Tuag at Gynorthwyydd Personol Deallus Cymraeg, Astudiaeth Fer o APIs ar gyfer Gorchmynion Llafar, Systemau Cwestiwn ac Ateb a Thestun a Lleferydd ar gyfer Llywodraeth Cymru. Adroddiad