Strategaeth Cyfieithu Peirianyddol Newydd

Mae chwyldro ar droed yn y byd cyfieithu. Mae cyfieithwyr yn troi yn ôl-olygwyr wrth i’r peiriant gyfieithu’r drafft cyntaf, ac i olygydd dynol wedyn ei fireinio drwy ei ôl-olygu. Dim ond cyfieithu llenyddol a sensitif iawn fydd yn osgoi’r dynged hon. Mae hyn yn cael ei yrru gan yr angen i gyfieithu swmp aruthrol o waith, mewn amser byr ac am bris rhesymol.

Mae’r Uned Technolegau Iaith wedi bod yn paratoi am hyn drwy ddatblygu cyfarpar cyfieithu peirianyddol Cymraeg<>Saesneg. Bellach rydym yn ei ddarparu fel adnodd drwy’r Porth Technolegau Iaith. Gan ddefnyddio’r adnodd hwn bydd modd i unrhyw un wneud y canlynol:

  • cynnal a bod yn berchen ar eu system cyfieithu Cymraeg<>Saesneg nhw eu hunain
  • defnyddio eu corpora cyfochrog eu hunain i greu ac addasu peiriannau cyfieithu arbenigol

Er bod arfau cyfieithu peirianyddol ar gyfer y Gymraeg a’r Saesneg eisoes ar gael drwy wasanaethau cwmnïau mawr megis Google a Microsoft, mae anfanteision pendant o ran eu defnydd. Drwy rannu ein hadnoddau cyfieithu peirianyddol yn rhydd, yn hael ac yn rhwydd, rydym yn gobeithio bod o fudd i’r diwydiant cyfieithu yng Nghymru, egino a magu cymuned o ymarferwyr cyfieithu peirianyddol, ac osgoi ddibyniaeth ar sefydliadau rhyngwladol.

Buom yn esbonio’n syniadau yng nghynhadledd TILT ym Mangor ym mis Mehefin llynedd. Dyma’r sleidiau:

MATERION ANSAWDD

Hyd yn hyn nid yw cyfieithiadau sydd wedi’u cynhyrchu gan beiriant yn berffaith rhwng unrhyw bâr o ieithoedd. Yn y gorffennol, cafwyd penawdau yn y wasg oherwydd camgyfieithiadau chwerthinllyd neu rai sydd wedi peri embaras mawr, a gallant hefyd beri i gwrs cyfiawnder gael ei wyrdroi. Mae hyn yn rhoi enw drwg i gyrff sy’n ceisio arbed arian drwy ddefnyddio cyfieithu peirianyddol. Fodd bynnag, mae’n dderbyniol defnyddio cyfieithu peirianyddol law yn llaw gydag ôl-gyfieithu dynol, ac mae modd ymgorffori hyn o fewn y llif gwaith cof cyfieithu. Eich cyfrifoldeb chi yw sicrhau y defnyddir y meddalwedd cyfieithu peirianyddol hwn yn y dull priodol ddisgrifwyd yma, gan gynnwys ôl-gyfieithu priodol ac ystyrlon, sy’n osgoi llesteirio delwedd y diwydiant cyfieithu a’r Gymraeg.

Mae nodyn cyngor llawn yma:

http://techiaith.bangor.ac.uk/index.php/nodyn-cyngor/

Rhoi Cysill Ar-lein o fewn eich gwefan neu eich cod

logo_cysill_arlein_cy
http://www.cysgliad.com/cysill/arlein

Hoffech chi ychwanegu Cysill Ar-lein at eich tudalen we, blog neu ap? Gan ddefnyddio ein hategyn, neu we-ap, a’n gwasanaeth API Cysill Ar-lein newydd fe allwch chi gyflawni hyn nawr!

CySill Ar-lein yw gwefan fwyaf poblogaidd yr Uned Technolegau Iaith. Yn ystod 2014, bu cynnydd mawr yn nifer y testunau Cymraeg gafodd eu gwirio. Yn wir, gwelwyd cynnydd o 40%, a gwiriwyd dros filiwn o destunau.

Mae gan nodweddion gwirio sillafu a gramadeg Cysill Ar-lein allu profedig i gynnig hwb i hunan hyder defnyddwyr sy’n ansicr o’u Cymraeg, a thrwy roi’r cyfle i wirio’r Gymraeg ar nifer cynyddol o wefannau a/neu becynnau meddalwedd, gobeithiwn y bydd modd cynorthwyo a chodi hyder mwy fyth o ddefnyddwyr.

Yn unol ag amcanion mynediad agored yr Uned Technolegau Iaith, mae’r ategyn a’r gwasanaeth API yma yn rhad ac am ddim.

Cofrestru am allwedd API Cysill Ar-lein

Drwy gofrestru ar ein Canolfan Gwasanaethau APIs, gallwch dderbyn eich allwedd API Cysill Ar-lein eich hun, i’w defnyddio mewn unrhyw ffordd gyda’r ategyn neu’r API ar-lein. Ewch i ‘Cofrestru am allwedd API‘ ar gyfer y cyfarwyddiadau llawn.

Ategyn Gwe-Ap

Mae’r ategyn Cysill Ar-lein yn nodwedd allai fod yn ddefnyddiol iawn ar gyfer gwefannau sy’n caniatáu i ddefnyddwyr ysgrifennu testun fel sylwadau ac ati.

Mae’r ategyn yn gweithio dros y we, felly does dim angen gosod meddalwedd arbennig na llwytho ffeiliau i lawr i unrhyw weinydd na chyfrifiadur cyn cychwyn. Yr unig beth sydd ei angen yw ychwanegu nifer bach o linellau cod HTML i’ch gwefan :

<script>
        var CYSILL_API_KEY = "EICH_ALLWEDD_API";
</script>
<script type="text/javascript" language="javascript" 
        src="http://api.techiaith.org/cysill/ui/CysillArlein/CysillArlein.nocache.js">
</script>

D.S. rhaid gosod eich allwedd API bersonol chi yn lle “EICH_ALLWEDD_API”

Gellir lleoli’r ategyn wedyn unrhyw le o fewn tudalen gwe drwy ychwanegu :

<div id='CysillArleinApp'></div>

Mae modd cynnig yr ategyn mewn ffurf fach gyfochr â thestun, neu ar ei ben ei hun ar dudalen ar wahân. Mae’r system yn hyblyg, ac yn rhoi’r grym i chi ddefnyddio’r gwirydd sillafu yn y modd sy’n gweithio orau i chi. Dyma enghraifft o’r ategyn yn gweithredu ar wefan ‘Cymorth Cymraeg’ Prifysgol Bangor.

CaptureCysillArleinCymorthCymraeg
Cysill Ar-lein o fewn dudalennau CymorthCymraeg Prifysgol Bangor

Dyma enghraifft o dudalen we Cysill Ar-lein syml . De-gliciwch ar y dudalen a dewis: ‘Edrych ar God Gwreiddiol y Dudalen’ i weld mor syml yw’r cod mewn gwirionedd.

Mae’r dudalen ganlynol ar GitHub yn disgrifio’n llawn sut mae mynd ati.

 

Gwasanaeth API Cysill Ar-lein

Datblygiad pellach o Cysill Ar-lein rydym yn falch o’i gyhoeddi yw’r modd i chi allu ymgorffori nodweddion Cysill o fewn eich meddalwedd drwy ddefnyddio gwasanaeth API Cysill Ar-lein newydd. Dyma’r gwasanaeth API a ddefnyddir gan yr ategyn ac ar wefan swyddogol Cysill Ar-lein.

O heddiw ymlaen rydym yn agor y mynediad at wasanaeth API Cysill Ar-lein fel y bydd modd i unrhyw un ymgorffori’r nodweddion defnyddiol yma o fewn eu projectau codio a/neu systemau meddalwedd.

Rydym wedi darparu enghreifftiau ar GitHub o sut y gellir mynd ati i ddefnyddio API Cysill Ar-lein gyda ieithoedd rhaglennu fel Python.

Ewch i:

https://github.com/PorthTechnolegauIaith/cysill

 

Mae’r enghreifftiau yn cynnwys cod sy’n:

Tagiwr Rhannau Ymadrodd Cymraeg

Un o gydrannau pwysicaf y gwirydd sillafu a gramadeg Cysill yw’r tagiwr rhannau ymadrodd. Yn wir, mae tagiwr yn gydran sylfaenol mewn unrhyw sefyllfa ble mae disgwyl i gyfrifiadur ddadansoddi a deall testun.

Gall ein tagiwr ni adnabod geiriau Cymraeg – hyd yn oed pan fydd y gair hwnnw wedi ei dreiglo, neu pan fydd berf wedi ei rhedeg – gan nodi’r rhan ymadrodd. Mae’r wybodaeth hon yn amgyffred amrediad eang o nodweddion Cymraeg y gall y tagiwr eu hadnabod e.e. enwau ac ansoddeiriau, y math o dreiglad, ac yn y blaen.

Er enghraifft mae’r tagiwr yn trosi’r testun “Mae hen wlad fy nhadau” i :

mae/VBF/- hen/ADJP/- wlad/NF/TM fy/PRONOUN/- nhadau/NPL/TT

Y tagiwr ymadrodd yw’r gwasanaeth cyntaf sydd ar gael o’n canolfan APIs newydd ar-lein. Rydym yn falch fod y tagiwr nawr ar gael i bawb ei ddefnyddio, a hynny ar delerau hael, yn rhad ac am ddim.

Ewch i API Tagiwr Rhannau Ymadrodd am ragor o wybodaeth.

Corpora Gwefannau Cymdeithasol Newydd

Yma yn yr Uned Technolegau Iaith, rydym wedi bod yn casglu trydariadau Cymraeg o Twitter a chofnodion cyhoeddus a sylwadau Facebook ers chwe mis bellach.

Heddiw rydym yn falch i gyhoeddi y byddwn yn rhyddhau’r ddau gorpws enfawr yma at ddefnydd y cyhoedd!

twitterO heddiw ymlaen, byddwn yn rhyddhau casgliad o dros 2.6 miliwn trydariad Cymraeg, a 40,000 sylw a chofnod Facebook. Bydd y broses o gasglu negeseuon yn parhau a bydd maint y corpora yn dal i dyfu drwy’r amser hefyd.

Drwy ddefnyddio model adnabod-iaith a gynhyrchwyd yma ym Mhrifysgol Bangor (cadwch eich llygaid allan am hyn!) a’r project adnabod iaith cod agored, rydym wedi llwyddo i ddidoli miliynau o drydariadau a chofnodion Facebook er mwyn ffeindio’r testunau cyfrwng Cymraeg sy’n berthnasol i ni, gyda chyfradd cywirdeb o 99%.

fbMae hwn yn gyhoeddiad cyffrous ac arloesol, ac yn cynrychioli’r esiampl gyntaf o gorpora electronig ac anffurfiol cyfrwng Gymraeg ar gael unrhyw le.

Mae’r corpora yn nodedig gan eu bod nhw wedi’u creu yn gyfan gwbl ar-lein (drwy Twitter a Facebook) ac yn cynnwys cyfraniadau gan siaradwyr Cymraeg o bob rhan o’r byd.

Rydym yn rhagweld y bydd y corpora hyn yn cael eu defnyddio ar gyfer pob math o bethau – yn cynnwys hyfforddi systemau rhagweld testun ar gyfer ffonau, darganfod geiriau newydd yn y Gymraeg, ac ymchwil academaidd pellach.

Gallwch lwytho’r holl ffeiliau yma i lawr o’n tudalen we Corpora.

Cyn i chi lwytho’r ffeiliau yma i lawr, gofynnwn yn garedig eich bod yn darllen y ddogfennaeth a’r telerau ac amodau perthnasol.

Blog Porth Technolegau Iaith

Yn ystod yr wythnosau a’r misoedd nesaf (ac yn arwain at ein cynhadledd ‘Trwy Ddulliau Technoleg’) byddwn yn cyhoeddi llu o adnoddau technolegau iaith drwy Twitter (@techiaith) a’r blog hwn.

Rydym yn gobeithio rhannu hanesion datblygwyr a chodwyr eraill ynglŷn â’u defnydd o’r adnoddau newydd rhain, felly cysylltwch â ni os bu unrhyw un o’r adnoddau yn ddefnyddiol yn eich gweithgareddau neu brojectau chi.

Mae ‘na gasgliad cyffrous ar ei ffordd, fydd yn hwb sylweddol ar gyfer codwyr a datblygwyr meddalwedd Cymraeg newydd.

Hoffem ddiolch i Lywodraeth Cymru a’u cronfa Technoleg a Chyfryngau Digidol Cymraeg am noddi’r gwaith hwn sy’n rhan o’r Porth Technolegau iaith Cenedlaethol.

Dilynwch ein blog ar gyfer ein newyddion diweddaraf!