Tuag at ‘Siri’ Cymraeg….

Mae’n gynyddol bosibl i chi siarad gyda’ch ffôn neu gyfrifiadur er mwyn gorchymyn a rheoli rhaglenni a dyfeisiau, yn ogystal â derbyn atebion deallus a pherthnasol i gwestiynau a ofynnwyd mewn iaith naturiol.

Mae’r galluoedd hyn yn bosibl o ganlyniad i gynnydd diweddar mewn technolegau iaith megis adnabod lleferydd, cyfieithu peirianyddol a phrosesu a deall iaith naturiol. Hwy felly yw’r prif alluogwyr ar gyfer newid a fydd yn tarfu ar y drefn bresennol ac yn achosi shifft sylfaenol yn y ffordd y bydd defnyddwyr yn ymgysylltu â’u dyfeisiau a’r ffordd y byddant yn defnyddio technoleg yn ehangach.

O edrych ar hyn yn ei gyd-destun hanesyddol ehangach, hwn yw’r cam nesaf naturiol yn natblygiad y rhyngweithio rhwng pobl a chyfrifiaduron; o’r bysellfwrdd i’r llygoden, i dechnoleg cyffwrdd, i lais ac i iaith.

Mae pedwar prif lwyfan masnachol yn gyrru’r newid hwn, sef Siri, OK Google, Microsoft Cortana ac Amazon Alexa, yn ogystal â rhai llwyfannau agored llai adnabyddus.

 

 

Hyd yn hyn mae’r rhain yn darparu eu galluoedd pwerus yn Saesneg a rhai ieithoedd mawr eraill, a phrin yw’r dystiolaeth eu bod yn debygol o ymestyn eu dewis o ieithoedd i gynnwys y ‘gynffon hir’ o ieithoedd llai, gan gynnwys y Gymraeg, yn y dyfodol agos.

Noddwyd yr Uned felly gan Lywodraeth Cymru drwy ei Chronfa Technoleg Gymraeg a’r Cyfryngau Digidol ac S4C i weithredu’r project Seilwaith Cyfarthrebu Cymraeg i sicrhau nad yw defnyddwyr sydd â’r Gymraeg yn ddewis iaith iddynt yn cael eu gadael ar ôl mewn datblygiadau o’r fath.

Bydd yn gosod sylfeini amrediad o dechnolegau Cymraeg i’w defnyddio yn yr amgylcheddau hyn, gan gynnwys gwella’r adnoddau adnabod lleferydd Cymraeg yn ogystal â chyfieithu peirianyddol er mwyn cael y budd mwyaf allan o’r galluoedd a ddarperir drwy dechnolegau wedi’u seilio ar y Saesneg.

Bydd holl allbynnau’r project ar gael yma, o Borth Technolegau Iaith Cenedlaethol Cymru. Bydd y project yn symbylu datblygiad meddalwedd a gwasanaethau Cymraeg newydd a allai gyfrannu at brif-ffrydio’r Gymraeg yn y cam nesaf o ryngweithio rhwng pobl a chyfrifiaduron.

Yn y cyfamser, mae angen eich help! Cyfrannwch eich llais drwy ein ap Paldaruo:

paldaruo

iTunes Google Play

Project Raspberry Pi: Symud braich robot gyda’ch llais

Yn yr Eisteddfodau a digwyddiadau Hacio’r Iaith diweddar, rydym wedi arddangos ein breichiau robot sy’n glwm i Raspberry Pis ac sy’n yn ymateb i gyfarwyddyd yn y Gymraeg.

Dyma fideo o dair braich gyda’i gilydd :

Mae’n system adnabod lleferydd syml iawn a nawr, i’r rhai sy’n teimlo’n anturus, dyma gyfarwyddiadau ar sut y gallwch chithau gosod y demo ar eich Raspberry Pi chi.

Byddwch angen yr offer canlynol:

Os rydych yn defnyddio Raspberry Pi hŷn, gyda ddim ond dau borth USB, yna rydych angen hwb USB, fel http://www.modmypi.com/raspberry-pi/accessories/usb-hubs/pihub-official-4-port-raspberry-pi-usb-hub-eu-plug-5v-3a, er mwyn cysylltu popeth.

Mae’r demo yn defnyddio peiriant adnabod lleferydd cod agored o’r enw ‘Julius’. Mae hefyd yn defnyddio modelau acwstig rydym wedi eu cynhyrchu gyda recordiadau 20 unigolyn yn llefaru promtiau arbennig.

Teipiwch y canlynol o linell gorchymyn ar eich Raspberry Pi er mwyn gosod y system ‘Julius’:

$ sudo apt-get update
$ sudo apt-get install alsa-tools alsa-oss flex zlib1g-dev libc-bin libc-dev-bin python-pexpect libasound2 libasound2-dev cvs
$ cvs -z3 -d:pserver:anonymous@cvs.sourceforge.jp:/cvsroot/julius co julius4
$ export CFLAGS="-O2 -mcpu=arm1176jzf-s -mfpu=vfp -mfloat-abi=hard -pipe -fomit-frame-pointer"
$ ./configure --with-mictype=alsa
$ sudo make
$ sudo make install
$ export ALSADEV="plughw:1,0"
$ julius

Os yw’r llinell olaf yn achosi i’r canlynol ymddangos, yna rydych wedi gosod Julius yn llwyddiannus!

Julius rev.4.3.1 - based on
JuliusLib rev.4.3.1 (fast) built for x86_64-unknown-linux-gnu

Copyright (c) 1991-2013 Kawahara Lab., Kyoto University
Copyright (c) 1997-2000 Information-technology Promotion Agency, Japan
Copyright (c) 2000-2005 Shikano Lab., Nara Institute of Science and Technology
Copyright (c) 2005-2013 Julius project team, Nagoya Institute of Technology

Try '-setting' for built-in engine configuration.
Try '-help' for run time options.

Yn nesaf, rhaid i chi lwytho i lawr ein ffeiliau adnabod lleferydd braich robot o’r Porth Technolegau Iaith ar gyfer eu defnyddio gyda Julius.

$ mkdir robot
$ cd robot
$ wget http://techiaith.cymru/gallu/braichrobot.tar.gz
$ tar -zxvf braichrobot.tar.gz

Ac yna er mwyn cael y Raspberry Pi a’r fraich robot i ymateb i’r gorchmynion ar lafar, teipiwch:

$ cd braichrobot
$ sudo python robotarm_voicectl.py

Dylai’r gair ‘siaradwch’ ymddangos. Dyma beth fyddwch nawr yn gallu dweud wrth y fraich:

ysgwydd i fyny
ysgwydd i lawr
penelin i fyny
penelin i lawr
arddwrn i fyny
arddwrn i lawr
gafael agor
gafael cau
troi i’r chwith
troi i’r dde
golau ymlaen

Gobeithio bydd y project bach yma yn hwyl yn enwedig i ddisgyblion Ysgol Pont y Gof, Botwnnog a enillodd un o’n breichiau robot mewn cystadleuaeth codio yng Ngholeg Meirion Dwyfor ym Mhwllheli yn ystod yr haf:

Yn y cyfamser, diolch i nawdd gan Lywodraeth Cymru ac S4C, rydym yn parhau i ddatblygu adnabod lleferydd Cymraeg ac i’w chynnig yn rhad ac am ddim o fewn y Porth Technolegau Iaith. Ein bwriad yw datblygu systemau mwy soffistigedig a mwy defnyddiol.

Ond mae angen eich help! Cyfrannwch eich llais drwy ein ap Paldaruo:

paldaruo

iTunes Google Play

Mwy o adnoddau testun-i-leferydd Cymraeg ar GitHub

Ers ei lansio ym mis Mawrth, mae rhai codwyr a chwmnïau wedi bod yn defnyddio gwasanaeth yn y cwmwl API ar gyfer llefaru testun Cymraeg.

Yn aml iawn fodd bynnag, mae datblygwyr, mewn cwmnïau yn enwedig, eisiau defnyddio llefaru testun Cymraeg all-lein, a hynny gyda Microsoft Windows. O bryd i’w gilydd byddwn hefyd yn cael e-byst gan ddatblygwyr mewn ieithoedd eraill sydd â llai o adnoddau yn ein holi am help wrth ddefnyddio eu lleisiau eiu hunain gyda Microsoft Windows.

Mae ein llais llefaru testun Cymraeg yn bosib oherwydd System Synthesis Lleferydd Festival, sy’n wych. Serch hynny, nid yw Festival yn dda am gynnal Microsoft Windows o gwbl, fel mae datblygwyr y system eu hunain yn  cyfaddef.

Rydym o’r farn y dylai fod yn bosib cael llais Cymraeg Festival yn Microsoft Windows. Felly, rydym ni wedi cyhoeddi’r data llais sy’n gwneud i Festival siarad Cymraeg ar GitHub yn ogystal â haciad ar yr ochr i greu project datrysiad Visual Studio sy’n galluogi i Festival redeg ar Windows gyda rhyngwyneb COM a .NET sylfaenol iawn.

Gellir dod o hyd i’r data llais yma: https://github.com/PorthTechnolegauIaith/llais_festival

Gallwch ddod o hyd i’n hymgais i gael ein llais llefaru testun Cymraeg yn rhedeg ar Windows ynghyd â’n cyfraniad i wella Festival ar Microsoft Windows yn y fan hon: https://github.com/techiaith/Festival_Windows

Heb yr adnoddau hyn dim ond ychydig o ddewisiadau, os oes yna rai o gwbl, sydd i alluogi defnyddio Cymraeg nac unrhyw lais Festival ar Windows. Y gobaith yw fod y cyfraniadau hyn o gymorth mawr ac y gellir eu gwella gyda chymorth cymunedau ffynonellau agored rhyngwladol.

Gwersi codio robot Cymraeg

Fel rhan o’n hymgais i hybu caffaeliad sgiliau cyfrifiadura ymysg siaradwyr Cymraeg, mae’r Uned Technolegau Iaith wedi bod yn datblygu cyfres o wersi cyfrifiadura wedi eu targedu at blant ysgolion cynradd.

Sylfaen yr adnoddau yma yw gwersi Prawf Turing y sefydliad robotRaspberry Pi. Cynhyrchwyd yr adnoddau hyn yn Saesneg yn wreiddiol ac yna fe’u rhyddhawyd ar wefan y sefydliad dan drwydded agored. Mae’r cwrs, sydd wedi’i strwythuro fel set o dair gwers, yn dysgu plant i godio gan ddefnyddio cyfarpar Raspberry Pi a’r iaith gyfrifiadurol Python. Defnyddia’r gwersi ddamcaniaeth enwog y Prawf Turing fel fframwaith i egluro egwyddorion sylfaenol cyfrifiadura, ac mae digon o weithgareddau ymarferol i gadw pethau’n ddifyr.

Ein cyfraniad ni fu cyfieithu’r cyfan i’r Gymraeg, a’i osod ar GitHub, fel bod modd i’r cyhoedd ei ddefnyddio a’i addasu at eu hamcanion eu hunain. Rydym hefyd wedi creu gwers newydd sbon sydd yn benodol ar gyfer plant Cymraeg eu hiaith. Mae’r wers arbennig hon yn cyflwyno plant at rai o adnoddau’r Porth Technolegau Iaith, gan gynnwys y llais testun-i-leferydd, yr adnodd adnabod iaith, Cysill Ar-lein a’r tagiwr rhannau ymadrodd, mewn ffordd sydd yn hwyl ac yn hawdd i’w ddeall.

tyrbinau 006
Plant Garndolbenmaen yn mwynhau eu gwers codio gyda Dewi Bryn Jones, Patrick Robertson a Rapiro y Robot.

Cafodd y wers hon ei threialu gan Dewi Bryn Jones a Patrick Robertson yn Ysgol Gynradd Garndolbenmaen ym mis Mawrth eleni, a bu’n llwyddiant mawr. Gwelwch y cofnod blaenorol hwn i weld fideo a grëwyd gan y plant, er mwyn dysgu mwy am hwyl a helynt y diwrnod hwnnw.

Mae’r adnoddau i gyd ar gael ar GitHub dan drwydded agored yma. Mae’r rhain yn cynnwys y tair gwers gwreiddiol a gyfieithwyd, y wers arbennig ynglŷn â chymreigio’r robot a hefyd canllawiau paratoi ar gyfer athrawon a myfyrwyr.

 

Gweler strwythur y wers isod:

Gwersi

A gellir cyrraedd y wers Gymraeg arbennig yma:

Diweddariad Moses SMT

Pan gyhoeddwyd ein hadnoddau cyfieithu peirianyddol yn gynharach yn y mis, roeddem yn defnyddio’r fersiwn cyntaf o Moses, sef fersiwn 1.0. Bellach, rydym wedi diweddaru’r sgriptiau hwyluso er mwyn defnyddio’r fersiwn diweddaraf: Moses 3.0.

Mae’r cyfan ar gael un ai o GitHub ar http://github.com/PorthTechnolegauIaith/moses-smt neu o Docker.com https://registry.hub.docker.com/u/techiaith/moses-smt/.

Mae Moses 3.0 yn cynnig nifer o welliannau i gyfieithwyr. Yn ôl y datganiad cyhoeddi (y gellir ei weld yma) mae’r rhain yn cynnwys nodweddion sy’n cyflymu’r broses dadgodio, yn rhyddhau mwy o gof ac yn gwneud Moses yn fwy effeithiol yn y dasg o baru’r brawddegau perthnasol.

Byddwn yn cymryd mantais o’r diweddariad er mwyn gwella peiriant cyfieithu CofnodYCynulliad (sydd wedi ei drafod eisoes yma) gyda data ychwanegol y byddwn yn ei gasglu o’r Cynulliad.

Yn ogystal, rydym yn bwriadu creu peiriant cyfieithu parth benodol ar gyfer cyfieithu meddalwedd, diolch i ddata a gyfrannwyd gan Rhoslyn Prys o meddal.com.

Mae’r rhain yn esiamplau gwych o natur iterus peiriannau cyfieithu, lle mae’n bosib ychwanegu mwy o ddata i’w datblygu a’u gwella’n barhaus. Cadwch eich llygaid allan am fwy o ddatblygiadau gyda hyn.

 

 

Diolch!!!

Hoffem ddiolch i bawb a fynychodd y gynhadledd Trwy Ddulliau Technoleg, ac i bawb a gyflwynodd ac a gyfrannodd eu hamser a’u hegni i greu diwrnod gwerth chweil.

Ond hoffem ddiolch yn arbennig i blant Ysgol Garndolbenmaen.

Daethant i adrodd am eu profiad o ddefnyddio’r adnoddau llais synthetig mewn gwersi diweddar ar godio meddalwedd Cymraeg gyda’r Raspberry Pi. Roeddent wedi paratoi fideo arbennig ar gyfer y gynhadledd yn disgrifio eu profiadau, ond yn anffodus cafwyd problemau technegol pan geisiwyd ei chwarae. Felly (gydag ymddiheuriadau am hynny), dyma fideo llawn plant Ysgol Garndolbenmaen o’r diwedd:

Adroddodd y plant hanes y gwersi, lle dysgon nhw sgiliau craidd codio gan ddefnyddio cynllun gwers codio prawf Turing Cymraeg gan y Raspberry Pi Foundation yn wreiddiol, ond yna wedi ei gyfieithu i’r Gymraeg gan yr Uned Technolegau Iaith ac yna’i ehangu gydag adnoddau’r Porth Technolegau Iaith – gweler : https://github.com/PorthTechnolegauIaith/turing-test-lessons

Cafodd y plant hefyd gyfarfod gydag un gwestai hynod o arbennig – Is-ganghellor Prifysgol Bangor!

DSC_0010

Eglurodd y plant i’r Is-ganghellor, yr Athro John Hughes, eu bod wedi mwynhau yn arw cael gweithio ar y project, ac wedi dysgu amryw o sgiliau defnyddiol. Dywedodd rhai hyd yn oed yr hoffent ddod yn godwyr proffesiynol yn y dyfodol!

Cafodd y plant hefyd gyfle i sgwrsio gyda rhai o’r siaradwyr gwadd, oedd wedi teithio o bob rhan o’r byd er mwyn mynychu’r gynhadledd. Isod, o’r chwith i’r dde, gweler John Judge o Iwerddon, Kepa Sarasola o Wlad y Basg a Dwayne Bailey o Dde Affrica (ond sy’n byw yn Llundain ar hyn o bryd).

siaradwyr_NDF8994

Dyma’r plant yn cyfarfod y siaradwyr gwadd, yn ogystal a’r aelodau rheini o’r Uned Technolegau Iaith a weithiodd ar broject y Porth Technolegau Iaith, heb anghofio Rapiro, y robot bach sy’n siarad Cymraeg:

Grwp_NDF8993

Bu’r plant yn adrodd eu hanes hefyd i Radio Cymru

Post Cyntaf : http://www.bbc.co.uk/programmes/b053hsb6 – 1:16:25 i fewn

Ac i Newyddion BBC ar S4C :

http://www.bbc.co.uk/cymrufyw/31833000

Yn ogystal, bu lot o sylw ar Trydar :

Cyfieithu Peirianyddol ar Mac OS X

Gan ein bod ni wedi rhyddhau ein system cyfieithu peirianyddol o fewn Docker mae’n ddigon hawdd i’w rhedeg ar system OS X!

Yn gyntaf, rhaid gosod un neu ddau becyn meddalwedd ar eich cyfrifiadur. Mae’r tiwtorial yma yn defnyddio ‘Homebrew‘ er mwyn gosod y pecynnau.
(Gallwch edrych eto ar y tiwtorial gwreiddiol os hoffech chi.)

Gosod VirtualBox

  • Mae Docker angen VirtualBox ar OS X (a Windows) er mwyn rhedeg y rhith-beiriannu Linux. Llwythwch VirtualBox i lawr o’r wefan VirtualBox.

Gosod boot2docker a docker

Byddwn yn defnyddio homebrew er mwyn gosod rhain. Agorwch Terminal ac ysgrifennwch y gorchmynion canlynol:

  • ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)"

    Mae hyn yn gosod homebrew ar eich cyfrifiadur

  • Wedyn, gosodwch boot2docker a docker gyda’r gorchmynion canlynol:
    brew install boot2docker
    brew install docker
  • Cychwynnwch boot2docker (er mwyn llwytho ffeil rhith-beiriant i lawr) fel hyn:
    boot2docker init

     

Cynyddu maint disg VirtualBox

Bydd ffug-ddisg VirtualBox yn cael ei greu gyda therfyn maint o 20GB. Mae’r system cyfieithu peirianyddol (Moses SMT), gan gynnwys y ffeil model iaith, yn gofyn am faint disg mwy na hyn i weithredu, felly bydd yn amlwg bod angen cynyddu maint y disg. Yn anffodus mae hyn yn broses eithaf hir, ond y newyddion da yw bod Docker wedi ysgrifennu tiwtorial syml iawn ar sut i’w wneud!

Rydym yn awgrymu cynyddu maint y disg i 30GB (mewn gwirionedd, mae’r system cyfieithu peirianyddol angen disg o tua 21GB yn unig).

Llwytho i lawr a gosod y system cyfieithu

Ar ôl i chi gynyddu maint y disg o fewn VirtualBox, mae angen i chi gychwyn y peiriant boot2docker. Ewch yn ôl i Terminal, ac ysgrifennwch:

boot2docker up

Cymerwch nodyn o beth sydd yn cael ei brintio i’r sgrin ar ddiwedd y gorchymyn yma. Mae hyn yn bwysig er mwyn i chi allu cyfathrebu gyda Docker. Dylai edrych yn debyg i hyn:

Writing /Users/patrick/.boot2docker/certs/boot2docker-vm/ca.pem
Writing /Users/patrick/.boot2docker/certs/boot2docker-vm/cert.pem
Writing /Users/patrick/.boot2docker/certs/boot2docker-vm/key.pem
    export DOCKER_CERT_PATH=/Users/patrick/.boot2docker/certs/boot2docker-vm
    export DOCKER_TLS_VERIFY=1
    export DOCKER_HOST=tcp://192.168.59.103:2376

Mae’r tair linell olaf yn arbennig o bwysig. Copïwch nhw, ac yna ail-ludwch nhw i mewn i’ch ffenestr Terminal er mwyn rhedeg y gorchmynion allforio (export).

Docker yn barod

Yn awr, ar ôl hyn i gyd, mae Docker yn barod!
Llwythwch y ffeil cyfieithu peirianyddol i lawr gan ddefnyddio’r orchymyn canlynol:

docker pull techiaith/moses-smt

Ac yna cychwynnwch y peiriant gyda:

docker run --name moses-smt-cofnodycynulliad-en-cy -p 8008:8008 -p 8080:8080 techiaith/moses-smt start -e CofnodYCynulliad -s en -t cy

Sylwer: mae hyn yn llwytho model cyfieithu i lawr sydd wedi’i selio ar Gofnod y Cynulliad. Gallwch newid yr enw ‘CofnodYCynulliad’ ar ôl y gorchymyn ‘start’ i unrhyw un o’r 3 isod:

  • CofnodYCynulliad (en-cy a cy-en) – dau fodel mawr iawn sydd wedi eu seilio ar y cofnod. Mae un yn benodol ar gyfer cyfieithu Saesneg-Cymraeg (en-cy), a’r un arall ar gyfer cyfieithu Cymraeg-Saesneg (cy-en). Maint: ~3.7GB yr un
  • CofnodBachYCynulliad – model llawer llai sydd wedi’i seilio ar is-set o ddata’r cofnod (rydym yn awgrymu defnyddio hwn er mwyn arbrofi’n gynt). Maint: ~65MB
  • Deddfwriaeth – wedi’i hyfforddi o ddata’r Ddeddfwriaeth. Maint: ~900MB

Mae’r tri model iaith yma hefyd ar gael i’w llwytho i lawr o techiaith.org. Gweler http://techiaith.org/moses/

Mae’n bwysig hefyd nodi bod modd i chi defnyddio eich model iaith eich hun yn y cam yma (os ydych wedi hyfforddi un eisioes wrth gwrs)! Cofiwch fod y data yr ydym ni yn ei ddarparu megis man dechrau yn unig, ac mae’n weddol syml hyfforddi eich model iaith eich hun. Gwelwch y dogfennu ar ar sut i wneud hyn yma.

Gweld Moses yn gweithio

Mae’r gorchymyn ‘docker run’ diwethaf yn creu gweinydd ar eich cyfrifiadur lleol ar y porth 8008. Er mwyn gallu cysylltu at y porth yma, mae’n rhaid i chi agor y pyrth yn VirtualBox. Agorwch y rhaglen ‘VirtualBox.app’ (yn eich ffolder ‘Applications’, ac yna cliciwch ar ‘Settings’, ac yna’r tab ‘Network’. Mae yna fotwm ar waelod y sgrin o’r enw ‘port forwarding’. Ychwanegwch reolau fel y gwelir isod:

virtualbox

Dyna fo!

Ewch i http://127.0.0.1:8008 yn eich porwr a dechreuwch gyfieithu!

diolch

API llais synthetig Cymraeg

Defnyddir technolegau testun-i-leferydd yn gyffredin mewn apiau ffonau symudol, gwefannau a rhaglenni bwrdd gwaith er mwyn gwella profiadau a dealltwriaeth defnyddwyr. Heddiw rydym yn falch i lansio gwasanaeth API bydd yn ei wneud yn haws i unrhyw un osod technolegau testun-i-leferydd Cymraeg ar eu gwefannau ac yn eu meddalwedd.

Gan ddefnyddio’r rhaglen cod agored Festival Speech Synthesis System, a model o’r Gymraeg grewyd gennym ni yn y gorffenol, mae ein API gwe newydd yn ei wneud yn hawdd i drosi unrhyw destun Cymraeg yn sain mewn amser real.

Does dim angen unrhyw gysodi ar ochr y defnyddiwr wrth ddefnyddio’r gwasanaeth gwmwl hwn, sydd yn ei wneud yn llwyr gyrraeddadwy a hygyrch i bawb. Isod, gallwch ffeindio esiampl o sut gellir gosod y llais hwn i mewn i’r dudalen yma.

<!-Dechrau Testun i Leferydd / Start Text to Speech ------------------------------->

<textarea id='llais' placeholder="Ysgrifennwch rhywbeth i'w llefaru"></textarea>

<script type='text/javascript'>
function llefaru() {
    var testun = document.getElementById('llais').value.trim();
    var audioElement = document.createElement('audio');
    var url = "https://api.techiaith.org/festival/v1?api_key=<EICH ALLWEDD API>&text=" + encodeURI(testun);
    audioElement.setAttribute('src', url);
    audioElement.play();
}
</script>
<p>

<button onclick="llefaru()">Chwarae / Play</button>

<!-Diwedd Testun i Leferydd / End Text to Speech ---------------------------------->

Dyma enghraifft o’r llais:

Gallwch ddechrau gyda’r API heddiw drwy danysgrifio at ein Canolfan API a chreu ein allwedd API. I ddysgu mwy gwelwch ein tudalennau Speech Technologies.

Creu eich Peiriannau Cyfieithu parth-benodol eich hun

Mae nifer o gyfieithwyr yn credu mai dim ond un peiriant cyfieithu sydd yn bodoli o fewn eu hisadeiledd cyfieithu. Ond mae rhai cyfieithwyr yn defnyddio nifer o beiriannau – peiriannau cyfieithu parth-benodol.

Peiriant sydd wedi’i greu a’i gynllunio er mwyn cyfieithu testunau sy’n deillio o feysydd, arddulliau neu gyweiriau arbennig yw peiriant cyfieithu parth benodol. I nifer o gyfieithwyr mae peiriannau parth-benodol yn cynnig gwell cyfieithiadau na systemau cyfieithu peirianyddol cyffredinol.

Mae peiriannau parth-benodol yn cynnig manteision pendant mewn sefyllfaoedd lle defnyddir cofion cyfieithu arferol eisoes yn llwyddiannus i arbed amser a chostau. Os oes gennych fynediad at gofion cyfieithu parth benodol, gallai defnyddio peiriant cyfieithu parth-benodol, yn unol â threfn ôl-olygu, alluogi i chi fod yn llawer mwy cynhyrchiol ac effeithlon fel cyfieithydd nac y byddech gan ddefnyddio systemau cof cyfieithu arferol yn unig.

Heddiw rydym yn rhyddhau adnoddau yn y Porth Technolegau Iaith ac ar GitHub sydd yn eich caniatáu chi i greu, gan ddefnyddio Moses-SMT, eich peiriannau cyfieithu parth-benodol eich hun.

Rhybudd – bydd angen cyfrifiadur Linux arnoch (e.e. Ubuntu), sy’n meddu ar o leiaf 4Gb o gof RAM a maint sylweddol o destun Cymraeg-Saesneg cyfochrog. Mae ein dulliau yn cynhyrchu peiriannau parth-benodol nad ydynt angen lawer o gof i’w rhedeg, ond sy’n gofyn am lawer o ofod GB ar eich disg caled.

Cyn dechrau, bydd rhaid i chi osod Moses-SMT gan ddilyn y cyfarwyddiadau ar y dudalen canlynol : Gosod Moses-SMT ar Linux. Mae’r sgriptiau gosod yn cynnwys ychwanegiadau gennym ni sy’n hwyluso’r broses o hyfforddi Moses-SMT gyda’ch testun Cymraeg-Saesneg cyfochrog.

Mae’r dudalen Creu Peiriannau Moses-SMT yn cynnig cyfarwyddiadau llawn ar sut mae mynd ati, ond yn syml, dyweder bod gennych destun cyfochrog eisioes yn bodoli o ganlyniad i’ch gwaith cyfieithu ar ddogfenni marchnata, dylech ddilyn y camau canlynol.

I ddechrau, rhowch y testun Cymraeg o fewn ffeil o’r enw ‘Marchnata.cy’ a’r testun Saesneg o fewn ‘Saesneg.en’ ac yna cadwch y ffeiliau o fewn is-ffolder ‘corpus’ o fewn cynllun ffolderi eich peiriant ‘Marchnata’, fel hyn:

moses@ubuntu:~/moses-smt$ cd ~/moses-models/Marchnata/corpus
moses@ubuntu:~/moses-models/Marchnata/corpus$ ls
Marchnata.cy  Marchnata.en

Mae’r data yn nawr yn barod ar gyfer ei hyfforddi. Bydd angen dim ond un gorchymyn arnoch, gan nodi enw’r peiriant a’r cyfeiriad cyfieithu (e.e. Cymraeg i Saesneg, neu Saesneg i Gymraeg). Felly, os hoffwch chi greu peiriant sy’n arbenigo mewn marchnata, ac sy’n cyfieithu o Saesneg i Gymraeg, defnyddiwch y gorchymyn canlynol :

moses@ubuntu:~/moses-smt$ python moses.py train -e Marchnata -s en -t cy

Bydd hyn yn achosi i lwyth o destun ymddangos ar y sgrin. Bydd y gorchymyn, yn dibynnu ar maint eich set ddata gwreiddiol, yn cymryd oriau i’w gwblhau. Does dim angen dilyn adroddiadau cynnydd y broses hyfforddi yn drylwyr ond byddwch angen cadw llygaid allan am unrhyw negeseuon ‘gwall difrifol’ er mwyn gwirio os y bu’r hyfforddi yn llwyddianus.

Os oedd y broses hyfforddi yn llwyddianus, dilynwch unrhyw gais i olygu a newid ffeiliau y peiriant newydd.

Yn olaf, i gychwyn eich peiriant newydd, defnyddiwch y gorchymyn canlynol :

moses@ubuntu:~/moses-smt$ python moses.py start -e Marchnata -s en -t cy

Moses a’r Ddau Orchymyn

coin-tinyMae Moses-SMT yn system cyfieithu peirianyddol cod agored a ddatblygwyd yn bennaf ym Mhrifysgol Caeredin. Mae’r adnodd yma yn caniatáu i chi ddatblygu eich meddalwedd cyfieithu peirianyddol eich hunain o fewn eich projectau cyfieithu drwy ei hyfforddi gyda chorpora cyfochrog sy’n bodoli eisoes.

Rydym ni yn yr Uned Technolegau Iaith wedi defnyddio Moses-SMT er mwyn darparu nodweddion cyfieithu peirianyddol Cymraeg<>Saesneg o fewn ein cynnyrch masnachol: CyfieithuCymru, meddalwedd ar gyfer cynorthwyo a galluogi cyfieithu effeithiol o fewn sefydliadau.

Heddiw rydym yn rhyddhau’r systemau cyfieithu Moses-SMT hyn i chi, yn ogystal â’r data a gafodd ei ddefnyddio i’w hyfforddi.

Rydym yn bwriadu rhyddhau ein peiriannau yn rhydd ac am ddim oherwydd ein bod yn credu bod angen i gyfieithwyr y Gymraeg fod yn feistri ar eu is-adeiledd cyfieithu peirianyddol eu hunain, a meddu ar y ddealltwriaeth ofynnol i allu meistrioli’r technolegau newydd yma i’r eithaf. Darllenwch ein cofnod blog blaenorol i weld mwy am hyn.

Mae’r peiriannau yn hawdd iawn i’w llwytho i lawr, gosod a rhedeg. Rydym wedi datblygu trefn syml iawn sy’n gofyn am ddau orchymyn *yn unig* i’w gweithredu (cyn belled ag y bydd y system weithredu a’r cydrannau priodol wedi eu gosod yn barod)!

Cyn i chi fwrw ymlaen, hoffem bwysleisio unwaith eto bwysigrwydd materion ansawdd – eich cyfrifoldeb chi yw sicrhau y defnyddir y meddalwedd cyfieithu peirianyddol hwn yn y dull priodol, gan gynnwys ôl-gyfieithu priodol ac ystyrlon (gweler Materion Ansawdd).

Docker

docker-whale-home-logoMae Docker yn isadeiledd agored i ddatbygwyr a weinyddwyr systemau ar gyfer adeiladau, dosbarthu a rhedeg meddalwedd cymhleth. Gan ddefnyddio technoleg Docker bydd hi’n hawdd iawn i chi osod a rhedeg peiriannau cyfieithu Moses-SMT heb amharu dim ar weddill eich cyfrifiadur.

Rydym wedi llwytho ein system Moses-SMT i gofrestrfa ganolog docker.com.

Bydd angen fersiwn mwy diweddar na 1.0.1 o Docker ar eich system Linux. Rydym ni yn defnyddio Ubuntu fel arfer. Dyma fideo ar YouTube sy’n esbonio sut mae gosod docker 1.3 ar Ubuntu 14.04 yn hwylus. Os hoffech redeg eich peiriant cyfieithu ar gyfrifiadur Windows neu Mac OS X yna efallai y bydd modd defnyddio Boot2Docker.

O fewn Linux, y ddau orchymyn yw:

Gorchymyn 1 : Gosod Moses-SMT (gyda Docker)

$ docker pull techiaith/moses-smt

Bydd hyn yn llwytho ac yn gosod isadeiledd cyfieithu peirianyddol o fewn eich system Docker.

Ar ôl iddo orffen llwytho i lawr, teipiwch ‘docker images’ i gadarnhau ei fod wedi ei osod:

$ docker images
REPOSITORY                                        TAG                 IMAGE ID            CREATED             VIRTUAL SIZE
techiaith/moses-smt                               latest              3dbad7f9aabf        41 hours ago        3.333 GB
$

Gorchymyn 2 : Cychwyn Peiriant Cyfieithu o’ch Ddewis

Mae’r Uned Technolegau Iaith wedi creu peiriannau cyfieithu ar sail hyfforddi gyda data rydym wedi’i gasglu o ffynonellau agored a chyhoeddus, megis Cofnod y Cynulliad a’r Ddeddfwriaeth ar-lein.

Mae gan y peiriannau enwau a chyfeiriadau cyfieithu penodol. Yr enw ar y peiriant a hyfforddwyd gyda chofnodion y Cynulliad yw ‘CofnodYCynulliad’ a’r enw ar gyfer peiriant y corpws deddfwriaeth yw ‘Deddfwriaeth’.

Dyma’r ail orchymyn, gan ddewis peiriant ‘CofnodYCynulliad’ a’i osod i gyfieithu o’r Saesneg i’r Gymraeg :

$ docker run --name moses-smt-cofnodycynulliad-en-cy -p 8080:8080 -p 8008:8008 techiaith/moses-smt start -e CofnodYCynulliad -s en -t cy

Bydd y system yn llwytho ffeil i lawr (tua 3Gb mewn maint yn achos peiriant CofnodYCynulliad) cyn iddo gadarnhau ei fod yn barod i dderbyn ceisiadau i’w cyfieithu.

Os agorwch chi eich porwr a mynd at http://127.0.0.1:8008 , dylai ffurflen syml ymddangos er mwyn i chi wirio a yw’r peiriant yn gweithio ai peidio :

Screenshot from 2015-03-02 10:26:21

Data Hyfforddi

Mae’r data a gasglwyd gan yr Uned, ac a ddefnyddiwyd er mwyn hyfforddi ein peiriannau Moses-SMT, ar gael isod: