Importer från ISI Web of Science till DiVA

2015-01-07

Vid Stockholms universitetsbibliotek har vi under några år haft ett litet verktyg för att förenkla importerna från ISI Web Of Science till DiVA (Edit: och inte tvärt om). Systemet matchar posterna mellan DiVA och Web och Science för att visa på vilka poster som redan finns i DiVA och bara behöver kompletteras och vilka som kan importeras som de är. Dessutom utför vi en del massage av datat innan vi skickar in det till DiVA. Jag skulle nyligen beskriva hur systemet fungerar för en kollega och tänkte att jag ändå kunde passa på att skriva ett blogginlägg om det. Det är mycket som händer på den här fronten nu med gemensamma poster i DiVA och allt arbete med SwePub. Så det är intressant att se vad systemet får för roll framöver.

Det här projektet har jag levt med ända sedan jag började på SUB. Det startade som en liten Windowsapplikation och nu är det i formen av en MVC-lösning som körs på en intern server på biblioteket. När jag nu tittar på det så inser jag att det är så pass generellt att andra lärosäten egentligen också skulle kunna använda det. Så här kommer en liten beskrivning av hur det fungerar.

Applikationen har vuxit fram ryckigt. Med jämna mellanrum har vi haft förvaltningsmöten. Jag har lovat att ordna någon ny funktion till nästa möte och har oftast hunnit lösa den precis i tid. Lösningarna har ofta varit lite snabba. Men då och då har jag hunnit refaktorisera delar.

Sista tiden har utvecklingen legat lite stilla. Systemet har varit stabilt och vidareutvecklingen har inte varit lika akut i väntan på vad som kommer att hända med gemensamma poster i DiVA och SwePub-utvecklingen.

Nu kommer en kollega att sätta tänderna i systemet under min föräldraledighet, så det blir spännande att se vad som kommer att hända med det.

Vad är det då som saknas ?
Högst på önskelistan är att få in fler källor, som Scopus i arbetsflödet. På andra plats vill vi bli av med de manuella exporterna från Web of Science och istället ersätta dem med API-anrop precis som till DiVA. Sedan kan det minimalistiska gränssnittet behöva förbättras.

Funktion och användande

Idag går det till så här, steg för steg.

Innan användaren kan börja behöver denne ha sökt upp den datamängd som ska matchas mot DiVA ur Web of Science. Denna datamängd måste också exporteras i deras eget text-format. Det är också viktigt att man håller koll på vilka publikationstyper man söker fram eftersom det bör vara motsvarande typer i DiVA som man matchar mot.

Steg 1. Ladda upp fil från Web of Science

Här väljer användaren om denne vill använda en tidigare använd fil eller om du vill ladda upp en ny. Båda valen tar dig vidare till nästa steg.

Wosimport _step1

Steg 2. Välj tidsperiod i DiVA som du vill matcha emot

Här har användaren också två val. Antingen söker användaren fram DiVA-poster efter årtal ur DiVA automatiskt eller så utförs en utsökning i DiVA och resultatfilen och laddas upp i den här dialogen. Den automatiska sökningen har vissa avgränsningar vad gäller publikationstyp och så, men det kan man ändra via Inställningar-länken i sidhuvudet.

Wosimport _step2

Steg 3. Sammanställning över vad som kommer att matchas

Nästa steg är en enkel Splash Screen över vad som kommer att matchas. Har användaren laddat upp en fil i ett felaktigt format får denne om inte förr reda på det nu. Ser allt bra ut är det bara att klicka på Starta matchning.

Wosimport _step3

Steg 4. Resultat.

Wosimport _step4

Här presenteras resultatet. Allt sammanställt efter matchningsnivå och källa. Alla som matchats på lägre nivåer (högre siffra) bör kontrolleras i efterhand eftersom det finns saker som behöver kompletteras med. Till exempel saknar alla DiVA-poster under nivå 0 ISI-id och bör kompletteras med detta.

De poster som återfinns under rubriken Omatchade poster i WoS finns med största sannolikhet inte i DiVA och kan importeras dit.

Posterna under respektive matchningsnivå kan alla laddas ned. Man kan konfigurera hur stor varje nedladdad fil ska vara med avseende på antalet poster. Detta görs under Inställningar-länken.

Steg 5. Nedladdning

Nedladdningen är ett viktigt steg. När användaren klickar på nedladdningsknappen så kommer systemet att modifiera posterna på ett antal olika sätt:

Systemet kan till exempel ta bort författare som inte tillhör det egna lärosätet om det är publikationer med väldigt många författare. Det går att sätta tröskelvärden för detta i inställningsmenyn. Det går också att konfigurera vilket reguljärt uttryck som ska användas för att matcha det egna lärosätets författare.

Idag blir kommer utfilen i Web of Science eget textformat, men vi kommer under våren att lägga till en Mods-export.

Wosimport _step5

Så går det till. Sedan är det bara att ladda upp filerna i DiVA:s importrutin.

 

 

/Bibliotekarien - The Librarian