Dyma gorpws o negeseuon trydar Cymraeg, sydd yn cynnwys o leiaf 7 miliwn a hanner bellach o drydariadau. Caiff y trydariadau eu ‘crafu’ yn barhaus oddi ar y we gan ein gweinyddion, felly mae’r corpws wastad yn cynyddu yn ei faint.
Mae galw mawr am gorpora mawr o Gymraeg naturiol y gall defnyddwyr eu cyrchu yn hwylus a heb gost. Rydym yn gobeithio y bydd y corpws yn llenwi sawl rôl gwahanol, gan gynnwys:
- Hyfforddi systemau rhagweld testun ar gyfer ffonau,
- Darganfod geiriau newydd yn y Gymraeg
- Deunydd ymchwil ar gyfer adrannau academaidd mewn prifysgolion, gan gynnwys ymchwil ieithyddiaeth, cymdeithasol neu feddygol
- Data addysgiadol ac arddangosiadol ar gyfer clybiau codio plant a phobl ifanc
- Gwybodaeth werthfawr ar gyfer y farchnad e.e. tracio a dadansoddi emosiynau defnyddwyr (‘sentiment analysis’)
Er mwyn cael mynediad at y ffeiliau angenrheidiol, dilynwch y ddolen isod fydd yn eich tywys chi at dudalen sy’n cynnwys casgliad o ffeiliau zip y gellir eu llwytho i lawr a’u harchwilio ar eich cyfrifiadur. Mae pob ffeil yn cynnwys bloc o 50,000 o drydariadau. Yn ôl amodau Twitter, cewch lwytho i lawr un ffeil pob dydd, fesul defnyddiwr yn unig.
Llwytho i Lawr
Mae’r corpws yma wedi’i dynnu i lawr dros dro. Os hoffech chi gael gwybod trwy e-bost pan fydd i fyny yn ei ôl, e-bostiwch Delyth ar d.prys@bangor.ac.uk.
Telerau ac amodau llwytho i lawr
Cyn llwytho unrhyw ffeiliau i lawr, rydym yn argymell eich bod chi’n ddarllen y Twitter Development Agreement, gan dalu sylw arbennig i Be a Good Partner to Twitter (Rhan b) sy’n egluro amodau llwytho’r ffeiliau yma i lawr.
Cynnwys y ffeiliau
Mae pob ffeil sydd ar gael i’w llwytho i lawr yn cynnwys y wybodaeth ganlynol mewn fformat CSV:
- 50,000 o drydariadau
- Am bob trydariad:
- neges y trydariad
- ID y defnyddiwr Twitter
- y dyddiad y cafodd y trydariad ei greu
- nifer yr ail-drydariadau
- nifer y ffefrynnau
- rhif (0 neu 1) sy’n nodi os mai ail-drydariad yw’r trydariad
Rydym wedi dewis cuddio manylion defnyddwyr y trydariadau y byddwn yn eu rhyddhau. Os ydych yn mynnu cael y wybodaeth yma neu unrhyw fanylion arall, gallwch gysylltu â’r Uned Technolegau Iaith yn uniongyrchol.
Cydnabyddiaeth
Dylai unrhyw erthyglau neu feddalwedd a seiliwyd ar ddefnydd y corpws hwn ddyfynnu:
Jones, D. B., Robertson, P., Taborda, A. (2015) Corpws Trydariadau Cymraeg [http://techiaith.cymru/corpora/twitter]
Adnabod Iaith
Drwy ddefnyddio llyfrgell adnabod iaith safonol language-detection a hyfforddwyd ym Mhrifysgol Bangor llwyddwyd i ddidoli miliynau o drydariadau a chofnodion Facebook er mwyn ffeindio’r testunau cyfrwng Cymraeg sy’n berthnasol i ni. Yn ôl ein profion, a redwyd ar rai o’r trydariadau a rennir ar y wefan hon, mae’r cywirdeb adnabod yn agosáu at 97% ar gyfer testunau Cymraeg sy’n hirach na 30 o nodau.
Ar gyfer trydariadau sy’n fyrrach na 30 o nodau, mae’r broses adnabod iaith yn amhenderfynadwy (h.y. gyda chywirdeb o tua 50%), felly rydym yn awgrymu eich bod chi’n dileu unrhyw drydariadau byr os yw eich nod o ran cywirdeb adnabod iaith yn arbennig o uchel.
Diolchiadau
Diolch i Arthur Taborda am ei gyfraniad i’r feddalwedd casglu testunau (gweler https://github.com/arthurtaborda/guaiamumcrawler) tra oedd ar leoliad gwaith yn yr Uned Technolegau Iaith.