torstai 11. toukokuuta 2017

Digitaalista resurssointia

Toissapäivänä eli tiistaina kävin Helsingin yliopiston kirjaston ja SKS:n tilaisuudessa, jossa esiteltiin digitaalisia tutkimusmateriaaleja ja niiden käyttöä.

Kirsi Keravuori SKS:ltä aloitti selittäen, että OKM:n asettamat tavoitteet ovat tukeneet avoimen julkaisun kehitystä parin viime vuoden ajan. Kahvikeskustelussamme kävi ilmi, että aikanaan OKM:n linjausten mukaan Kansallisbiografiasta tehtiin maksullinen eikä verovaroin ylläpidettävä. Toivon, ettei uusi käänne tule kovin pian.

Keravuori esitteli lyhyesti SKS:n kolme tuoretta avoimuuden periaatteita noudattavaa verkkoalustaa. Muistikko, johon en ole vielä tutustunut, syntyi arkistopedagogian projektiin. Nyt se on auki kaikille muistojen tallentamiseen tekstinä, kuvina tai videona. Ei rajoituksia ja tallentuvan aineiston luonne on tavallaan yksi tulos, totesi Keravuori.
Codices Fennicin 149 käsikirjoitusta pyrittiin Keravuoren mukaan "fyysisisinä esineinä". Kuitenkaan parin avaamani käsikirjoituksen metatiedoissa ei ole niiden mittoja, eikä kuvissa mittakaavaa.

Paperien mittoja ei myöskään ole Elias Lönnrotin kirjeenvaihdossa, jonka tekeminen tulee jatkumaan "suhteellisen pitkään". Paikan päällä mietitytti ratkaisu, jossa tutkijoilla on mahdollisuus ladata kirjeen puhtaaksikirjoitettu teksti xml:nä ja tehdä siihen omat tägityksensä. Hienoa, mutta ei tarjoa mitään (ilmiselvää) tapaa jakaa ja uudelleenkäyttää tehtyä työtä. Ilo oli sitten kuulla, että puhtaaksikirjoitukset ovat menossa osaksi kielipankkia ja hyödynnettäväksi READ-hankkeessa.

SKS:ltä puhui myös Niklas Alén digitaalisessa muodossa olevista kirjoista. Olin tainnut jo kuullakin ja unohtaa, että SKS on yhdessä SHS:n kanssa digitoimassa ja jakamassa vapaasti (kunhan kaikilta tekijöitä hankittu luvat) tärkeät kirjasarjat kuten Historiallisia tutkimuksia tämän ja ensi vuoden aikana. Ne sijoitetaan Doriaan, jossa kokotekstihaku on mahdollista, mutta ei kovin hauskaa.

Ville Vaara puhui lyhyesti aatehistoriallisesta tutkimuksestaan 1700-luvun brittiaineistoilla. Julkaisuluetteloiden kanssa aikaa menee eniten metatietojen puhdistamiseen. Kuultu ennenkin, mutta aina hyvä sanoa ääneen.

Joona Kesäniemi Helsingin yliopiston kirjastosta puhui vielä lyhyemmin ATTx hankkeesta, jolla on tekemistä linkitetyn datan kanssa. Joku päivä pitäisi linkitettyyn dataan perehtyä...

Ja joku päivä pitäisi ihan oikeasti kokeilla digitaalisen humanismin tekstianalyysimenetelmiä eikä vain kuunnella esityksiä. Mila Oiva mainosti omassa esityksessään ohjelmistoa Mallet, johon on ohjeita tässä, ja Voyant-toolsia. Oiva kokee analyysimenetelmien käytön hyödylliseksi pienellekin tekstimäärälle, vaikka useimmin niitä sovelletaan isoihin massoihin.

Keskusteluosiossa kävi ilmi, että vaikka Voyantin käyttö näyttää yhtä helpolta kuin leikkaaminen ja liimaaminen, ei siihen kannata liimata tekstiä sellaisenaan vaan pyöräyttää se sellaisen ohjelman kautta, joka poistaa merkityksettömät sanat ja poistaa taivutukset.

Ei kommentteja: