Hero Image

Dismax och stoppord

Ett av de mest grundläggande testen gick inte igenom när jag testade söket efter att jag bytte den enkla sökningen på nya webbplatsen till ExtendedDisMax. Det började med att jag började skruva på mm(Minimum 'Should' Match)-parametern. Den stod från början på

3<-1 5<-2 6<90%

vilket innebär att om man skriver tre eller färre sökord så måste inte alla sökorden förekomma i de returnerade dokumenten. Det räcker med alla termer utom en. Jag ändrade till

 5<100% 6<90%

eftersom användare av en bibliotekskatalog sannolikt förväntar sig att alla deras termer ska förekomma i de resultat de får tillbaka när de skriver kortare sökfrågor. Det här fick konsekvensen att en titel som "ISI Web of Science" inte dök upp längre. Varför är kanske inte omedelbart uppenbart. Men ledtråden fanns i resultaten: De var tomma när "of" var med, men tog man bort det fick man fina resultat. "of" är ett stoppord, och förklaringen är att matematiken arbetar emot oss när vi söker med ExtendedDisMax (och DisMax) mot fält som hanterar stoppord olika. Stopporden måste finnas där i alla fälten eller inget av dem. Se nedanstående källor. Det finns åtminstone fyra lösningar på det här problemet:

  • Ha en mer förlåtande mm-parameter.
  • Indexera stoppord på ett konsekvent sätt för de fält som ingår i qf-parametern
  • En tredje lösning som borde fungera är en variant på VU-finds avancerade sökning, där man smyger in en extra frågor parallellt.
  • Testa en annan variant av indexering såsom N-Grams

Jag väljer tills vidare nummer två,

Källor: