Notkunarleiðbeiningar fyrir risamálheildina

(verk í vinnslu)

Val á undirmálheildum

Undirmálheildavalmynd

Til þess að velja hvaða undirmálheild leita á í getur þú smellt á slána efst á síðunni. Þá birtist fellivalmynd þar sem hægt er að haka (eða afhaka) við undirmálheildir. Aðeins er leitað í þeim undirmálheildum sem hakað er við.

Textunum í risamálheildinni er raðað í flokka og hægt er að velja bæði stök textasöfn og heila efnisflokka eftir hentisemi.

Tímalínan efst í fellivalmyndinni sýnir tímadreifingu textanna. Eins og sjá má er langmest af textunum frá því um og eftir aldamótin 2000, en þó eru einhverjar undirmálheildir sem ná lengra aftur í tímann, t.d. Alþingisræður, sem ná aftur til upphafs 20. aldar, og Lög, en fyrstu textarnir í því textasafni eru frá 13. öld. Á myndinni hér að ofan er aðeins textasafnið “Alþingisræður” valið, og sýnir bláa svæðið á tímalínunni dreifingu þeirra texta.

Ef músarbendlinum er haldið yfir nafni textasafns birtast nánari upplýsingar um það.

Einföld leit

Leitarvalmynd

Einfaldasta leiðin til að nota Risamálheildina er að skrifa einfaldlega leitarorðið og smella á "Leita"

Sjálfkrafa er hakað við "óháð há- og lágstöfum". Þetta er gert til að yfirsjást ekki orð sem koma fyrir í upphafi setninga.Einnig má haka við "upphaf" eða "endir" en þá fást orð sem annaðhvort byrja eða enda á textastrengnum sem leitað var eftir.

Þar fyrir utan má velja hvort maður leitar eftir orðmynd eða uppflettimynd:

Upphaf eða endir

Ef hakað er við upphaf eða endir fást niðurstöður sem annað hvort byrja eða enda á leitarstrengnum, en gætu innihaldið fleiri stafi.

Óháð há- og lágstöfum

Valmöguleikinn óháð há- og lágstöfum stýrir því hvort tekið er tillit til hvort fyrsti stafur í leitarstreng sé há- eða lágstafur.

Leita eftir orðmynd eða uppflettimynd

Ef merkt er við orðmynd í leitarvalmyndinni fást öll tilfelli af nákvæmlega þeirri orðmynd í völdum textasöfnum. Þetta skilar þó ekki öllum tilfellum af orðinu sjálfu, þar sem mögulegt er að sama orð komi fyrir í annari mynd.

Til þess að fá allar orðmyndir skal merkja við uppflettimynd:

Ef það er gert fást öll tilfelli af því orði sem leitað er eftir í textanum, óháð því hvaða birtingarmynd þau hafa.

Hafa ber þó í huga að ekki dugar að leita eftir hvaða orðmynd sem er ef seinni valkosturinn er valinn, því aðeins virkar að leita eftir uppflettimyndinni, líkt og ef flett væri upp í orðabók.

Fyrir flóknari fyrirspurnir verður að grípa til útvíkkaðrar leitar.

Útvíkkuð leit

Útvíkkuð leit
Upphafsstillt leitarspjald

Þegar útvíkkuð leit er valin mætir manni stakt spjald (sjá til hægri). Það spjald svarar til eins leitarorðs.

Neðst á spjaldinu má sjá tvo hnappa; Bæta við möguleika og Bæta við skilyrði.

Ef smellt er á Bæta við möguleika birtist annar reitur fyrir leitarskilyrði. Niðurstöðurnar verða þá öll orð sem uppfylla annað hvort þeirra skilyrða sem skilgreind eru.

Ef smellt er á Bæta við skilyrði birtist eins reitur fyrir leitarskilyrði. Niðurstöður leitarinnar verða öll orð sem uppfylla bæði skilyrðin sem skilgreind eru

Hver reitur í spjaldi er samsettur úr þremur hlutum.

Leitarþættir
Fyrsti hlutinn er leitarþáttur. Sjálfvalinn leitarþáttur er orðmynd, en ef smellt er á "Orðmynd" birtist fellivalmynd sem sýnir þá þætti sem hægt er að leita eftir. Meðal þeirra er t.d. "Lemma", sem er oft kallað uppflettimynd eða orðabókarmynd, og beygingarþættir svo sem kyn, tala, fall, háttur o.s.frv. Einnig er hægt að leita eftir þáttum sem eiga við um textann í heild. Þessir þættir eru kallaðir eigindi texta. Leita má eftir ritunartíma, höfundi, titli o.fl.
Paranir
Annar hlutinn segir til um hvernig á að para leitarþáttinn við leitarstreng. Sjálfvalið gildi er „er“ en það skilar aðeins niðurstöðum sem passa nákvæmlega við leitarstreng. Ef smellt er á „er“ birtist einnig fellivalmynd þar sem velja má milli ýmissa pörunaraðferða, meðal annars reglulegra segða (regular expression).
Leitarreitur
Leitarvalmynd
Þriðji hluti leitarreits er svo leitarstrengurinn sjálfur. Við hliðina á textareitnum er hnappur sem stillir hvort leit skuli vera stafnæm eða óstafnæm, þ.e.a.s. hvort taka eigi tillit til há- og lágstafa.

Dæmi um samsett leitarspjald

Með með því að setja saman marga reiti má útbúa flókin leitarspjöld. Tökum dæmi.

Í dæminu hér til vinstri var fyrst valinn leitarþátturinn "Lemma", sem er einnig kallaður uppflettimynd. Sambanburðaraðferðin var sett sem regexp, en notendur eru hvattir til að kynna sér mátt reglulegra segða.

Reglulega segðin sem er notuð í leitinni er ".*andi", en það táknar einhver stafaruna sem endar á -andi. Punktur stendur fyrir hvaða staf sem er í reglulegum segðum og stjarna stendur fyrir endurtekningu.

Eftir að reglulega segðin var skrifuð var smellt á "Bæta við skilyrði (og)". Þá bættist við annar reitur og hann var fylltur út með skipuninni "Orðflokkur er 'Nafnorð'"

Hér er semsagt verið að leita að svokölluðum gerund-nafnorðum eða sagnarnafnorðum, þ.e.a.s nafnorðum sem eru mynduð út frá lýsingarhætti sagnorða. Hér má svo sjá niðurstöður leitarinnar:

Dæmi um gerund-nafnorð

Bæta má við fleiri leitarspjöldum með því að smella á hnappinn hægra megin við leitarspjöld:

Dæmi um útvíkkaða leit

Með þessi tæki að vopni má framkvæma nákvæmar leitir. Til dæmis má leita að einni algengustu birtingarmynd nýju þolmyndarinnar; orðasamböndum á við „það var hrint mér“ og „það var hitt hann“.

Fyrri tvö orðin í orðasambandinu eru þá einfaldlega „það“ og „var“, þriðja orðið er sagnorð í lýsingarhætti þátíðar og hið fjórða er persónufornafn í aukafalli. (ath. að aðeins er um nýju þolmyndina að ræða ef „það“ er leppfrumlag, þ.e.a.s. vísar ekki í neinn nafnlið.)

Fyrsta spjaldið inniheldur þá leitarskilyrðið „Orðmynd er 'það'“.:

Nú bætum við öðru spjaldi við með því að smella á „Bæta við leitarorði“ og fyllum inn í það „Orðmynd er 'var'“:

Þá bætum við enn við öðru spjaldi. Við viljum fá sagnorð í lýsingarhætti þátíðar svo við veljum leitarþáttinn „Sagnháttur“. Þá breytist textareiturinn í fellivalmynd og við getum smellt á hana og valið „Lýsingarháttur þátíðar“:

Að lokum bætum við við fjórða spjaldinu. Það uppfyllir tvö skilyrði: Í fyrra lagi er orðið persónufornafn og í seinna lagi er það í aukafalli (þf. þgf. eða ef.). Byrjum á fyrra skilyrðinu. Við veljum leitarþáttinn „Flokkur fornafns“ og veljum svo „Persónufornafn“. Þá er smellt á „Bæta við skilyrði (og)“ (þar sem bæði skilyrðin þurfa að vera uppfyllt samtímis.) Þá birtist annar reitur að neðan. Í honum veljum við leitarþáttinn „Fall“. Við viljum að fallið sé aukafall, þ.e. ekki nefnifall svo við smellum á „er“ og breytum því í „er ekki“. Þá veljum við „Nefnifall“ úr valmyndinni. Þá ætti spjaldið að líta svona út:

Þá er leitin tilbúin og einfaldlega smellt á „Leita“ og beðið eftir niðurstöðunum.

Leitarfyrirspurnin í heild sinni

Sérstök textaeigindi

Sum eigindi eiga bara við ákveðin textasöfn. T.d. er hægt að takmarka leit í Alþingisræðum við ræður eftir ákveðna þingmenn.

Það er gert með því að velja Þingmaður undir eigindi texta í fellivalmyndinni á leitarspjaldinu og slá síðan inn fullt nafn þingmannsins.

Hér til hægri má einnig sjá dæmi um leitarspjald sem leitar eftir eftirfarandi skilyrði:

Þingmaður er 'Ólafur Ragnar Grímsson' OG Lemma er 'forseti'

Þessi leit skilar öllum tilfellum úr þingræðum þar sem Ólafur Ragnar Grímsson hefur sagt einhverja orðmynd orðsins forseti.

Einnig er hægt að takmarka leitir við ákveðið tímabil. Það er gert með því að velja textaeigindin „Á tímabili“ og stilla síðan neðra og efra mark dagsetningar.

CQP fyrirspurnamálið

CQP-flipinn

Leitarvélin byggir á bakenda sem nýtir sér fyrirspurnamálið CQP (e. corpus query processor) Query Language. Einföld og útvíkkuð leit bjóða upp á myndræna uppbyggingu á fyrirspurnum í því máli en hægt er að skrifa fyrirspurnir handvirkt ef flipinn CQP-fyrirspurn er valinn.

ATH að ekki er mælt með því að byrjendur skrifi sínar eigin CQP fyrirspurnir þar sem yfirleitt er hagkvæmara og einfaldara að byggja þær upp myndrænt í útvíkkaðri leit. Sú aðferð hefur þó takmarkanir og ef farið er út fyrir þær gæti þurft að grípa til handsmíðaðra fyrirspurna.

Ef leitir hafa þegar verið skrifaðar inn í hina tvo flipana má sjá hvernig þær skipanir birtast í CQP fyrirspurnamálinu og breyta þeim skipunum eða skrifa sína eigin fyrirspurn frá grunni. Hægt er að nálgast leiðbeiningar fyrir málið með þessum hlekk en best er að finna út úr þeim atriðum sem eru einstök innan Risamálheildarinnar með því að byggja upp fyrirspurnir í útvíkkaðri leit og skoða hvernig þær birtast í CQP flipanum.

Niðurstöður fyrirspurna

Niðurstöður leita í risamálheildinni eru á formi svokallaðra orðstöðulykla (e. KWIC, Keyword in Context).

Þannig birtast öll dæmi sem koma upp úr leitinni eins og þau komu fyrir í frumtextanum, með einhverju samhengi gefnu. Samhengið má stilla í verkfærastikunni fyrir ofan niðurstöðurnar, en sjálfgefið gildi er 7 orð sitt hvorum megin.

Í stikunni má einnig stilla fjölda niðurstaðna á síðu, en ef flóknar leitir sem taka langan tíma eru framkvæmdar er mælt með því að stillt sé á a.m.k. 100 niðurstöður á síðu, þar sem það getur tekið nokkurn tíma að fletta í niðurstöðum. Leitin tekur ekki lengri tíma þótt fleiri niðurstöður séu birtar á hverri síðu.

Í orðstöðulyklinum má smella á hvert orð, en þá birtist reitur hægra megin á síðunni. Reiturinn inniheldur bæði upplýsingar um textann sem dæmið kemur úr (eigindi texta) og greiningu á orðinu sjálfu (eigindi orðs). Einnig er hægt að færa sig á milli orða í niðurstöðunum með því að nota pílurnar á lyklaborðinu.

Tölfræði

Í verkfærastikunni má einnig sjá fellivalmynd fyrir tölfræði.

Leitarvél Risamálheildarinnar býður upp á að draga saman tíðniupplýsingar úr niðurstöðum leita. Þannig má fá upplýsingar um það hvaða orðmynd ákveðins orðs er algengust, hvaða þingmaður hefur sagt tiltekið orðasamband oftast, eða hvaða orðflokki orðmyndin „að“ tilheyrir oftast svo nokkur dæmi séu tekin.

Niðurstöðunum má raða eftir tíðni í hverri undirmálheild fyrir sig og ef smellt er á línu í töflunni opnast leitargluggi sem inniheldur orðstöðulykla fyrir einungis þær niðurstöður sem eiga við þá röð.

Hér að neðan má sjá dæmi um tölfræðiniðurstöður fyrir leitina [lemma = "leitarorð"], dregið saman fyrir orðmynd.

Graf

Hægt er að skoða þróun orðtíðni yfir tíma með því að smella á hnappinn í tölfræðiflipanum. Þá birtist nýr flipi þar sem inn hleðst línurit yfir orðtíðni sem fall af tíma. Mögulegt er að birta sömu upplýsingar sem súlurit eða sem töflu, en síðastnefndi kosturinn er gagnlegur ef skoða á gögnin nánar í töflureikni eða tölfræðiforriti (Sjá hér að neðan).

Stilla má tímabilið sem birtist á grafinu með því að draga til handföng á rekkanum fyrir neðan grafið. Ef tímabilið er stillt nógu smátt þá eykst nákvæmni töflunnar. Það getur þó tekið nokkrar sekúndur að hlaða uppfærðu grafi.

Úttak og skil leitarvélar

Úttak fyrir töflureikna (CSV & TSV)

Til þess að beita töflureiknum og tölfræðihugbúnaði á við Microsoft Excel og SPSS á útkomur leita í Risamálheildinni er mikilvægt að fá gögnin á nothæfu sniði fyrir þann hugbúnað. Leitarvélin býður upp á að hala niður bæði leitarniðurstöðum og tölfræðitöflum sem annað hvort CSV (Comma Separated Value) eða TSV (Tab Separated Value). Fyrir leitarniðurstöðurnar er smellt á hnappinn „Hala síðu niður sem...“ sem er staðsettur neðarlega til hægri á síðunni. Svo er sá möguleiki valinn sem hentar.

Fyrir tölfræðitöflur er aðferðin svipuð. Fyrst velur maður töfluflipann á niðurstöðusíðunni. Þá má sjá litla valmynd neðst til vinstri á síðunni. Þar velur maður hvort hala á niður hlutfallslegum tíðnum eða heildartíðnum, og jafnframt hvort CSV eða TSV gildi skulu notuð. Síðan er smellt á hnappinn sem á stendur „Keyra út“. Þá breytist texti hnappsins í „Hala niður“ og maður smellir aftur til þess að hala niður gögnunum.

JSON

Bakendi Korp skilar gögnum á JSON formi sem framendinn vinnur síðan úr. Hægt er að sækja hráu JSON gögnin með því að framkvæma leit og smella svo á JSON takkann sem er staðsettur neðarlega til hægri á síðunni. Slíkt snið hentar vel til meðhöndlunar með forritunarmálum á borð við JavaScript og Python. Áhugasömum forriturum viljum við einnig benda á að hægt er að sækja frumgögn Risamálheildarinnar ásamt fleiri mállegum gagnasöfnum á síðunni malfong.is