Yma yn yr Uned Technolegau Iaith, rydym wedi bod yn casglu trydariadau Cymraeg o Twitter a chofnodion cyhoeddus a sylwadau Facebook ers chwe mis bellach.
Heddiw rydym yn falch i gyhoeddi y byddwn yn rhyddhau’r ddau gorpws enfawr yma at ddefnydd y cyhoedd!
O heddiw ymlaen, byddwn yn rhyddhau casgliad o dros 2.6 miliwn trydariad Cymraeg, a 40,000 sylw a chofnod Facebook. Bydd y broses o gasglu negeseuon yn parhau a bydd maint y corpora yn dal i dyfu drwy’r amser hefyd.
Drwy ddefnyddio model adnabod-iaith a gynhyrchwyd yma ym Mhrifysgol Bangor (cadwch eich llygaid allan am hyn!) a’r project adnabod iaith cod agored, rydym wedi llwyddo i ddidoli miliynau o drydariadau a chofnodion Facebook er mwyn ffeindio’r testunau cyfrwng Cymraeg sy’n berthnasol i ni, gyda chyfradd cywirdeb o 99%.
Mae hwn yn gyhoeddiad cyffrous ac arloesol, ac yn cynrychioli’r esiampl gyntaf o gorpora electronig ac anffurfiol cyfrwng Gymraeg ar gael unrhyw le.
Mae’r corpora yn nodedig gan eu bod nhw wedi’u creu yn gyfan gwbl ar-lein (drwy Twitter a Facebook) ac yn cynnwys cyfraniadau gan siaradwyr Cymraeg o bob rhan o’r byd.
Rydym yn rhagweld y bydd y corpora hyn yn cael eu defnyddio ar gyfer pob math o bethau – yn cynnwys hyfforddi systemau rhagweld testun ar gyfer ffonau, darganfod geiriau newydd yn y Gymraeg, ac ymchwil academaidd pellach.
Gallwch lwytho’r holl ffeiliau yma i lawr o’n tudalen we Corpora.
Cyn i chi lwytho’r ffeiliau yma i lawr, gofynnwn yn garedig eich bod yn darllen y ddogfennaeth a’r telerau ac amodau perthnasol.