Dator lär sig läsa historiska dokument

Text —

18 oktober 2019

De senaste åren har samhällets ”digitala minne” varit i fokus inom humanioraforskningen. Att vår gemensamma historia ska bevaras och tillgängliggöras via internet är en fråga som drivs av många museer, arkiv och bibliotek. År 2011 tog regeringen beslut om en nationell strategi på området.

Allt mer historia finns numera bara ett knapptryck bort.

Men att ha 64 volymer domböcker uppradade framför sig kan vara en frustration, även om de består av filer i en databas. Att läsa text på en skärm går ju knappast snabbare än bläddra i fysiska böcker i en forskningssal.

Kan man däremot köra filerna genom en dator som plockar ut vissa sökord eller begrepp kommer förstås saken i ett annat läge. Då kan man hitta specifika avsnitt eller sidor att djupdyka i.

Maskinanalys av handskrifter

I en nyligen framlagd avhandling vid Uppsala universitet presenterar Tomas Wilkinson, doktor i informationsteknologi, metoder för just maskinsökning och -analys av handskrivna manuskript. Modeller som öppnar för helt nya möjligheter för dagens historiker och andra forskare i humaniora.

– Man kan likna min metod vid ett sökverktyg i ett ordbehandlingsprogram, men skapat för handskriven text. Modellen bygger på maskininlärning, eller AI (artificiell intelligens) – alltså att man "lär" modellen att hitta vissa saker, eller ord, som forskaren frågar efter.

Överblick med ordmoln

Under avhandlingsarbetet har Tomas Wilkinson samarbetat med historiker vid Uppsala universitet. De har testat Wilkinsons metod på en samling tidigare outforskade domböcker från Snevringe härad, nedtecknade på 1700- och 1800-talen. I fysisk form utgör de 64 volymer – totalt över 100.0000 sidor.

– Att manuellt gå igenom dem skulle ta flera år. Men för datorn tog det några minuter, säger Tomas Wilkinson.

I sin avhandling presenterar han även en metod som går ut på visualisering av manuskriptsamlingar via bildbaserade ordmoln. Datorn skapar en bild av de representativa orden ur en textsamling i form av ett moln, där storleken på ett ord är proportionellt mot ordets frekvens i samlingen.

– Det är bra om man vill få en snabb överblick över innehållet.

Datering av manuskripten

En tredje metod handlar om att kunna uppskatta när i tiden ett manuskript är författat, baserat på hur skriften ser ut.

Just nu arbetar Tomas Wilkinson tillsammans med historiker, arkivarier och bildanalytiker i det stora forsknings- och digitaliseringsprojektet Gender and work. Hans metoder för maskinläsning används för att analysera en digitaliserad samling suppliker (böneskrifter) författade av enskilda personer ställda till länsstyrelsen i Örebro län under 1700-talet. Genom att extrahera vissa ord – som xxx – kan man få kunskap om till exempel vad de som skrev supplikerna arbetade med.

Metoder för maskinläsning av text kan innebära stora fördelar för den forskare som vill fördjupa sig i omfångsrika handskrivna källor. Men de kan också upplevas som främmande och anonyma.

– Digitaliseringen innebär att historikerna står inför ett metodologiskt skifte, säger Tomas Wilkinson. De vänja sig vid nya sätt att hantera data och maskinläsning är en del av detta.

Läs hela artikeln

Teknik

Redan de gamla grekerna drömde om automatiska medhjälpare. Genom den snabba utvecklingen av datortekniken under 1900-talets andra hälft fick tankar om robotar försedda med artificiell intelligens allt fastare form.

Teknik

Stommen i USA:s kärnvapensystem under kalla kriget var långdistansroboten LGM 30 i olika versioner, oftast kallad Minuteman. Den började utvecklas på 1950-talet och är i tjänst än idag.

Uppfinningar

Världens första dator skapades för den amerikanska armén under andra världskriget. Kvinnliga programmerare spelade en avgörande roll i arbetet.

Datorer lär sig läsa historiska dokument

Maskinanalys av handskrifter

Överblick med ordmoln

Datering av manuskripten

Robotarnas historia – drömmar om mänskliga maskiner

Kalla krigets långdistansrobot

Pionjärdatorn ENIAC – kvinnorna i skuggan av succén