Mae nifer o gorpora cyfrwng Cymraeg (a dwyieithog) ar gael yn awr drwy Porth Corpora Cenedlaethol Cymru, gan gynnwys corpws CEG a Chofnod y Cynulliad. Yn y corpora hyn, mae modd chwilio cofnodion yn hawdd, a chanfod enghreifftiau defnydd termau o sawl maes.
Isod ceir mynediad at ddata o’r Porth Corpora y gellir eu llwytho i lawr a’u gosod ar eich cyfrifiadur, yn ogystal â phecynnau data nad oes modd i ni eu darparu o’r Porth Corpora Cenedlaethol.
Corpora Lleferydd
Dyma corpora ar ffurf ffeiliau sain â ddefnyddir i ddatblygu dechnolegau lleferydd Cymraeg:
Corpws Brawddegau CC0
Mae hwn yn gasgliad o frawddegau a chasglwyd gan aelodau’r Uned Technolegau Iaith yn unswydd i fod yn bromptiau ar gyfer adnabod lleferydd Cymraeg. Daw’r brawddegau o wahanol ffynonellau CC0.
Corpws Brawddegau Tagiedig CC0
Casgliad o frawddeg CC0 sydd wedi cael eu rhannau ymadrodd wedi’u eu tagio â llaw er mwyn galluogi hyfforddi tagwyr ystadegol ar eu sail.