Corpws Trydariadau Cymraeg

Dyma gorpws o negeseuon trydar Cymraeg, sydd yn cynnwys o leiaf 7 miliwn a hanner bellach o drydariadau. Caiff y  trydariadau eu ‘crafu’ yn barhaus oddi ar y we gan ein gweinyddion, felly mae’r corpws wastad yn cynyddu yn ei faint.

Mae galw mawr am gorpora mawr o Gymraeg naturiol y gall defnyddwyr eu cyrchu yn hwylus a heb gost. Rydym yn gobeithio y bydd y corpws yn llenwi sawl rôl gwahanol, gan gynnwys:

  • Hyfforddi systemau rhagweld testun ar gyfer ffonau,
  • Darganfod geiriau newydd yn y Gymraeg
  • Deunydd ymchwil ar gyfer adrannau academaidd mewn prifysgolion, gan gynnwys ymchwil ieithyddiaeth, cymdeithasol neu feddygol
  • Data addysgiadol ac arddangosiadol ar gyfer clybiau codio plant a phobl ifanc
  • Gwybodaeth werthfawr ar gyfer y farchnad e.e. tracio a dadansoddi emosiynau defnyddwyr (‘sentiment analysis’)

Er mwyn cael mynediad at y ffeiliau angenrheidiol, dilynwch y ddolen isod fydd yn eich tywys chi at dudalen sy’n cynnwys casgliad o ffeiliau zip y gellir eu llwytho i lawr a’u harchwilio ar eich cyfrifiadur. Mae pob ffeil yn cynnwys bloc o 50,000 o drydariadau. Yn ôl amodau Twitter, cewch lwytho i lawr un ffeil pob dydd, fesul defnyddiwr yn unig.

Llwytho i Lawr

http://techiaith.cymru/corpws/Twitter/

Telerau ac amodau llwytho i lawr

Cyn llwytho unrhyw ffeiliau i lawr, rydym yn argymell eich bod chi’n ddarllen y Twitter Development Agreement, gan dalu sylw arbennig i Be a Good Partner to Twitter (Rhan b) sy’n egluro amodau llwytho’r ffeiliau yma i lawr.

Cynnwys y ffeiliau

Mae pob ffeil sydd ar gael i’w llwytho i lawr yn cynnwys y wybodaeth ganlynol mewn fformat CSV:

  • 50,000 o drydariadau
  • Am bob trydariad:
    • neges y trydariad
    • ID y defnyddiwr Twitter
    • y dyddiad y cafodd y trydariad ei greu
    • nifer yr ail-drydariadau
    • nifer y ffefrynnau
    • rhif (0 neu 1) sy’n nodi os mai ail-drydariad yw’r trydariad

Rydym wedi dewis cuddio manylion defnyddwyr y trydariadau y byddwn yn eu rhyddhau. Os ydych yn mynnu cael y wybodaeth yma neu unrhyw fanylion arall, gallwch gysylltu â’r Uned Technolegau Iaith yn uniongyrchol.

Cydnabyddiaeth

Dylai unrhyw erthyglau neu feddalwedd a seiliwyd ar ddefnydd y corpws hwn ddyfynnu:

Jones, D. B., Robertson, P., Taborda, A. (2015) Corpws Trydariadau Cymraeg [http://techiaith.cymru/corpora/twitter]

 

Adnabod Iaith

Drwy ddefnyddio llyfrgell adnabod iaith safonol language-detection a hyfforddwyd ym Mhrifysgol Bangor llwyddwyd i ddidoli miliynau o drydariadau a chofnodion Facebook er mwyn ffeindio’r testunau cyfrwng Cymraeg sy’n berthnasol i ni. Yn ôl ein profion, a redwyd ar rai o’r trydariadau a rennir ar y wefan hon, mae’r cywirdeb adnabod yn agosáu at 97% ar gyfer testunau Cymraeg sy’n hirach na 30 o nodau.

Ar gyfer trydariadau sy’n fyrrach na 30 o nodau, mae’r broses adnabod iaith yn amhenderfynadwy (h.y. gyda chywirdeb o tua 50%), felly rydym yn awgrymu eich bod chi’n dileu unrhyw drydariadau byr os yw eich nod o ran  cywirdeb adnabod iaith yn arbennig o uchel.

Diolchiadau

Diolch i Arthur Taborda am ei gyfraniad i’r feddalwedd casglu testunau (gweler https://github.com/arthurtaborda/guaiamumcrawler) tra oedd ar leoliad gwaith yn yr Uned Technolegau Iaith.