Datorer lär sig läsa historiska dokument

På några minuter tar sig datorprogrammet igenom de 64 domböckerna som hade tagit år tidigare. Artificiell intelligens skapar nya möjligheter för forskare inom humaniora.

Tomas Wilkinson, doktor i informationsteknologi, har lärt datorer läsa handskrivna dokument.

De senaste åren har samhällets ”digitala minne” varit i fokus inom humanioraforskningen. Att vår gemensamma historia ska bevaras och tillgängliggöras via internet är en fråga som drivs av många museer, arkiv och bibliotek. År 2011 tog regeringen beslut om en nationell strategi på området.

Allt mer historia finns numera bara ett knapptryck bort.

Men att ha 64 volymer domböcker uppradade framför sig kan vara en frustration, även om de består av filer i en databas. Att läsa text på en skärm går ju knappast snabbare än bläddra i fysiska böcker i en forskningssal.

Kan man däremot köra filerna genom en dator som plockar ut vissa sökord eller begrepp kommer förstås saken i ett annat läge. Då kan man hitta specifika avsnitt eller sidor att djupdyka i.

Maskinanalys av handskrifter

I en nyligen framlagd avhandling vid Uppsala universitet presenterar Tomas Wilkinson, doktor i informationsteknologi, metoder för just maskinsökning och -analys av handskrivna manuskript. Modeller som öppnar för helt nya möjligheter för dagens historiker och andra forskare i humaniora.

– Man kan likna min metod vid ett sökverktyg i ett ordbehandlingsprogram, men skapat för handskriven text. Modellen bygger på maskininlärning, eller AI (artificiell intelligens) – alltså att man "lär" modellen att hitta vissa saker, eller ord, som forskaren frågar efter.

Ett ordmoln skapat ur dokumentsamlingen The George Washington Papers visar de vanligast förekommande orden.

Överblick med ordmoln

Under avhandlingsarbetet har Tomas Wilkinson samarbetat med historiker vid Uppsala universitet. De har testat Wilkinsons metod på en samling tidigare outforskade domböcker från Snevringe härad, nedtecknade på 1700- och 1800-talen. I fysisk form utgör de 64 volymer – totalt över 100.0000 sidor.

– Att manuellt gå igenom dem skulle ta flera år. Men för datorn tog det några minuter, säger Tomas Wilkinson.

I sin avhandling presenterar han även en metod som går ut på visualisering av manuskriptsamlingar via bildbaserade ordmoln. Datorn skapar en bild av de representativa orden ur en textsamling i form av ett moln, där storleken på ett ord är proportionellt mot ordets frekvens i samlingen.

– Det är bra om man vill få en snabb överblick över innehållet.

Datering av manuskripten

En tredje metod handlar om att kunna uppskatta när i tiden ett manuskript är författat, baserat på hur skriften ser ut.

Just nu arbetar Tomas Wilkinson tillsammans med historiker, arkivarier och bildanalytiker i det stora forsknings- och digitaliseringsprojektet Gender and work. Hans metoder för maskinläsning används för att analysera en digitaliserad samling suppliker (böneskrifter) författade av enskilda personer ställda till länsstyrelsen i Örebro län under 1700-talet. Genom att extrahera vissa ord – som xxx – kan man få kunskap om till exempel vad de som skrev supplikerna arbetade med.

Metoder för maskinläsning av text kan innebära stora fördelar för den forskare som vill fördjupa sig i omfångsrika handskrivna källor. Men de kan också upplevas som främmande och anonyma.

– Digitaliseringen innebär att historikerna står inför ett metodologiskt skifte, säger Tomas Wilkinson. De vänja sig vid nya sätt att hantera data och maskinläsning är en del av detta.