Corpora

Mae nifer o gorpora cyfrwng Cymraeg (a dwyieithog) ar gael yn awr drwy Porth Corpora Cenedlaethol Cymru, gan gynnwys corpws CEG a Chofnod y Cynulliad. Yn y corpora hyn, mae modd chwilio cofnodion yn hawdd, a chanfod enghreifftiau defnydd termau o sawl maes.

Isod ceir mynediad at ddata o’r Porth Corpora y gellir eu llwytho i lawr a’u gosod ar eich cyfrifiadur, yn ogystal â phecynnau data nad oes modd i ni eu darparu o’r Porth Corpora Cenedlaethol.

 

Corpora Gwefannau Cymdeithasol

Dyma ddwy set o ddata Cymraeg rydym yn eu casglu’n gyson o wefannau Twitter a Facebook. Cliciwch ar y dolenni isod i ddarganfod mwy o fanylion penodol amdanynt:

 

Corpora Lleferydd

Dyma corpora ar ffurf ffeiliau sain â ddefnyddir i ddatblygu dechnolegau lleferydd Cymraeg:

 

Corpws Brawddegau CC0

Mae hwn yn gasgliad o frawddegau a chasglwyd gan aelodau’r Uned Technolegau Iaith yn unswydd i fod yn bromptiau ar gyfer adnabod lleferydd Cymraeg. Daw’r brawddegau o wahanol ffynonellau CC0.

Corpws Brawddegau Tagiedig CC0

Casgliad o frawddeg CC0 sydd wedi cael eu rhannau ymadrodd wedi’u eu tagio â llaw er mwyn galluogi hyfforddi tagwyr ystadegol ar eu sail.

Script Recordio ar gyfer Talentau Llais