An Fhoclóireacht Chorpasbhunaithe |Corpus Based Dictionaries
An Fhoclóireacht Chorpasbhunaithe
Is gné lárnach de thionscadal an Fhoclóra Nua Béarla-Gaeilge í forbairt Nua-Chorpas na hÉireann, corpas leictreonach teanga ina bhfuil bailiúcháin mhóra de théacsanna i nGaeilge (30 milliún focal) agus i mBéarla na hÉireann (25 milliún focal).
Cad is corpas ann?
Tugtar ‘corpas’ ar aon mhórchnuasach téacsanna i bhfoirm dhigiteach. Baineann foclóirithe, gramadóirí agus teangeolaithe i gcoitinne úsáid as corpais chun teacht ar fhianaise faoi úsáid teanga i raon leathan agus ilghnéitheach téacsanna, m.sh. ábhar idirlín, ábhar iriseoireachta, ábhar litríochta, téacsanna acadúla agus go leor cineálacha éagsúla téacs eile. Tá na corpais tagtha i dtreis go mór mar áis riachtanach i saothrú teangacha, idir mhion agus mhór, ar fud an domhain agus tá forbairt leanúnach á déanamh ar an teangeolaíocht chorpasbhunaithe céim ar chéim le forbairt na ríomhaireachta. Sa lá atá inniu ann, glactar leis gur de scothchleachtas na foclóireachta é gur dúshraith chorpasbhunaithe a bheadh faoi aon fhoclóir mór comhaimseartha.
Is thiar sna 1960í a cuireadh na chéad chorpais ar ríomhaire le chéile, ach le bláthú na ríomhaireachta sna 1980í agus sna 1990í cuireadh dlús i gceart le saothrú na gcorpas mar uirlis lárnach i gcúrsaí foclóireachta. De réir mar a mhéadaigh ar chumas próiseála na ríomhairí agus a laghdaigh costas stórála sonraí, bhíothas in ann corpais ina bhfuil na céadta milliún focal a chur le chéile.
Cuireann an cur chuige corpasbhunaithe, agus cíoradh agus scagadh ceart á dhéanamh ar fhianaise na gcorpas, ar chumas na bhfoclóirithe tabhairt faoina saothar ar bhonn oibiachtúil agus beacht d’fhonn léiriú cruinn tomhaiste a thabhairt ar úsáid na teanga comhaimseartha. Is cuid de thiomantas Fhoras na Gaeilge i leith shaothrú na foclóireachta sa Ghaeilge é go gcuirfí acmhainní teangeolaíochta úrscothacha ar fáil don Ghaeilge chun dúshraith mharthanach a chur faoi fhorbairt na foclóireachta san 21ú haois. Dá réir sin, tá leas á bhaint as ceann de na corpais Bhéarla is mó riamh, le 1.7 billiún focal Béarla, agus ábhar Béarla an Fhoclóra Nua Béarla-Gaeilge á thiomsú.
Conas a chabhraíonn corpas linn foclóirí a dhéanamh?
Is éard is foclóir ann ná tacar nó cnuasach de ráitis ghinearálta faoin chaoi a bhfeidhmíonn focail i dteanga ar leith. Conas is féidir brath ar na ráitis ghinearálta sin, áfach? Sula raibh teacht ar shonraí ó chorpais bhíodh lucht foclóireachta ag brath ar dheismireachtaí nó sleachta gairide as saothair fhoilsithe a léireodh focal i gcomhthéacs a úsáidte (féach, m.sh. deismireachtaí samplacha an tionscadail seo) agus ar a mbraistintí féin mar chainteoirí dúchais. Dá thábhachtaí an dá fhoinse sin san fhoclóireacht, tá siad teoranta chomh maith. An fhianaise a bhíonn bunaithe ar dheismireachtaí – a bhailíonn daoine ar bhealach sciorrúil – féadann sí bheith neamhiomlán agus treallach. Braistintí an duine aonair chomh maith, bíonn siad indibhidiúil agus claonta. Os a choinne sin tá corpas cuimsitheach ilghnéitheach in ann lear ollmhór de shonraí faoin teanga a sholáthar a léiríonn an úsáid nó an fheidhm choiteann a bhaineann daoine as focal nó frása nó nath cainte agus iad i mbun fíorchumarsáide. Is í an fhianaise chorpais seo, arna scagadh ag bogearraí sofaisticiúla ríomhaireachta, a thugann bonn cruinn agus iontaofa dúinn chun ráitis ghinearálta a dhéanamh faoi fhocail i bhfoclóirí.
Cén t-eolas a thugann corpas dúinn?
Soláthraíonn corpas an t-eolas a bhíonn ag teastáil chun cur síos údarásach a dhéanamh ar stór focal i dteanga ar bith. Is féidir teacht ar réimse mór eolais i dtaobh aon fhocail ar leith, m.sh.:
- séimeantaic
- fianaise ar bhríonna éagsúla focail agus ar na miondifríochtaí a bhaineann leo
- comhréir
- conas mar a fheidhmíonn an focal ó thaobh na gramadaí de i measc na bhfocal eile timpeall air
- comhthéacs
- na suímh is coitianta ina bhfaightear an focal agus na frásaí is coitianta ina mbíonn sé in úsáid
- stíl
- na cineálacha téacs inar dóichí go mbeadh an focal á úsáid, m.sh. téacs liteartha, filíocht, saothar acadúil nó ríomhphost srl.
- staitisticí
- fianaise ar mhinicíocht choibhneasta na bhfocal éagsúil nó ar a mbríonna difriúla nó ar na struchtúir ghramadaí a bhaineann le focal.
Conas a bhaineann foclóirithe leas as sonraí corpais?
Cuireann an ríomhaireacht ar ár gcumas anailís ar an toirt, geall leis, a dhéanamh ar mhéideanna ollmhóra téacs agus focal, i bhfad Éireann níos tapúla agus níos éifeachtaí ná a d’fhéadfadh foireann mhór daoine dá fheabhas iad a dhéanamh san achar ama céanna. Baintear feidhm as uirlis bhogearra ar a dtugtar ‘comhchordachtóir’ chun an anailís agus an scagadh seo a dhéanamh ar an téacs ar fad sa chorpas. Ríomhchlár is ea é a chíorann an corpas agus a aimsíonn gach sampla d’fhocal nó de fhrása ar leith agus a thaispeánann é i gcomhthéacs na habairte inar aimsíodh é. Seo thíos scáileán samplach de chomhchordacht a bhaineann leis an ainmfhocal ‘obair’:
Mar a fheictear sa radharc seo ó scáileán samplach, tá an ‘nódfhocal’, .i. an focal atá á chuardach, i ndath dearg agus lárnaithe chun gur fusa is féidir breathnú ar an fhianaise ábhartha; mar a fheictear, leis, aimsítear gach foirm agus tuiseal den fhocal. Ar chlé i gcló gorm tugtar cód sainiúil an téacs as ar tháinig an sampla, agus ní gá ach cliceáil air sin chun teideal, údar, dáta foilsithe srl. an téacs a fheiceáil mar aon le heolas faoin chineál téacs agus faoin chanúint lena mbaineann sé. Mar an gcéanna, más áil níos mó den abairt a fheiceáil, ní gá ach cliceáil ar an líne chuí agus faightear sliocht níos faide ar gach taobh den nódfhocal.
Feictear sa scáileán samplach thuas go bhfuil os cionn 35,000 amas ag an ainmfhocal ‘obair’ sa chorpas Gaeilge reatha, agus cé nach bhfuil ach 20 líne astu sin tugtha sa sampla randamach seo, feictear fianaise ar phatrúin shuntasacha a bhaineann leis an fhocal, m.sh. bheith ag obair, bheith i mbun oibre, tabhairt faoi obair, cur as obair, toradh ar obair, obair ar rud. Feictear, leis, roinnt comhlogaíochtaí suntasacha, .i. focail a bhíonn go minic in éineacht leis an nódfhocal, m.sh. an t-uafás oibre, obair thógála, obair phraiticiúil, obair bhreise.
Is comhchordachtaí mar seo a chuireann fianaise ghrinn ar fáil faoin tslí a bhfeidhmíonn focail agus faoin tslí a nascann siad le focail eile, agus tá athrú ó bhonn tagtha ar cheird na foclóireachta ó tháinig na háiseanna ríomhchuardaigh teanga chun cinn i dtús na 1980í. Obair dhuaisiúil is ea é, áfach, sonraí san fhormáid seo a scagadh agus is míbhuntáiste a bhaineann le hinúsáideacht an chomhchordachtóra mar uirlis é an líon ollmhór sonraí a chuirtear ar fáil. Fiú mura mbeadh ach cúpla céad líne chomhchordardachta mar iad sin thuas os do chomhair, rachadh sé an-dian ar inchinn an duine an fhaisnéis a phróiseáil go héifeachtach.
Le blianta beaga anuas tá dulta i ngleic leis an fhadhb seo ag an Dr Adam Kilgarriff ó Ollscoil Brighton, duine de stiúrthóirí an chomhlachta Lexical Masterclass a dhear Céim 1 de thionscadal an Fhoclóra Nua Béarla-Gaeilge agus atá i mbun Chéim 2a (soláthar an ábhair Bhéarla) faoi láthair. Tá an Dr Kilgarriff tar éis sraith nua de bhogearraí a bhaineann le próifíliú léacsach a fhorbairt a ghlacann aschur an chomhchordachtóra agus a chuireann leibhéal eile ríomhphróiseála i bhfeidhm air. Aithníonn an bogearra na teaglamaí gramadaí is tábhachtaí a bhaineann le focal, m.sh. ‘obair’, agus ansin aimsíonn sé na focail is minice a líonann na bearnaí sin. Cruthaíonn sé seo ‘sceitse’ den fhocal ina mbíonn achoimre ar fheidhmiú an fhocail, agus cuireann an achoimre sin ar chumas an fhoclóirí cinntí a dhéanamh i dtaobh cad ba ghá a chumhdach in iontráil an fhocail sin. Léiríonn na sleachta thíos as an sceitse focal don fhocal ‘obair’ cuid de na struchtúir is coitianta a bhaineann leis:
Sceitse focal 1: Na hainmfhocail is minice a cháilíonn ‘obair’
| ainmfhocal | líon amas |
|---|---|
| baile | 159 |
| tógáil | 120 |
| ealaín | 65 |
| grúpa | 62 |
| coiste | 57 |
| deisiúchán | 39 |
| rang | 37 |
| feabhsúchán | 31 |
| ullmhúchán | 21 |
| aistriúchán | 20 |
| riarachán | 20 |
| ógra | 14 |
| foirgníocht | 13 |
| paiste | 13 |
| tollán | 12 |
| carthanacht | 12 |
| allamuigh | 10 |
Sceitse focal 2: Na haidiachtaí is minice a cháilíonn ‘obair’
| aidiacht | líon amas |
|---|---|
| mór | 262 |
| crua | 160 |
| deonach | 76 |
| tábhachtach | 73 |
| sóisialta | 66 |
| scríofa | 49 |
| praiticiúil | 39 |
| leanúnach | 39 |
| trom | 37 |
| páirtaimseartha | 31 |
| dian | 28 |
| fiúntach | 25 |
| fónta | 22 |
| séasúrach | 16 |
| solúbtha | 16 |
| maslach | 15 |
| éachtach | 15 |
| déthoiseach | 10 |
Díríonn sceitse focal 1 thuas aird an fhoclóirí ar aonaid ainmfhoclacha shuntasacha ar nós ‘obair bhaile’, ‘obair thógála’, ‘obair ealaíne’ srl., agus aibhsíonn sceitse focal 2 na príomhaidiachtaí ba ghá a chur san áireamh in iontráil foclóra don ainmfhocal ‘obair’.
Níl anseo ach leagan giorraithe de dhá mhír as an sceitse focal do ‘obair’. Tugann an sceitse iomlán an-lear sonraí faoi conas a nascann an focal le focail eile, agus tugann sé naisc dhíreacha chuig na habairtí sa chorpas a léiríonn na gnéithe sin d’fheidhmiú an fhocail. Ní amháin go sábhálann sé an-chuid ama agus oibre ach tugann sé forléargas cruinn agus tapa ar na sonraí úsáide agus feidhme is tábhachtaí a bhaineann le focal ar bith, rud a fhágann gur féidir cuntas níos cuimsithí agus níos córasaí a thabhairt ar úsáid focal ná mar a rinneadh riamh cheana.
Tá breis eolais faoi chorpais an tionscadail seo le fáil ar leathanach Nua-Chorpas na hÉireann.

