En halvdag om nyheterna i Solr under code4lib

2011-02-08

Det är mycket nytt och nyttigt ligger i loppet hos Solr/Lucene

Den hölls av Erik Hatcher från Lucid Imagination. Det var hela tiden svårt att förstå vad av det han tog upp som redan släppts, vad som ska komma i nästa version, och vad som finns i det han kallar för "Trunk". Sedan verkar det fortfarande vara saker som flyttas från trunk till 3.1. Så det är ett rörligt mål.

Det kan verka lite konstigt att man går från version 1.4.1 av solr till 3.1. Det som verkligen händer är att Solr och Lucene numera kommer att följa varandra mycket bättre. Så från nästa version kommer de att ha samma versionsnummer. Lucene befinner sig för närvarande på version 3.0

De här anteckningarna är väldigt kortfattade, men jag lägger ut dem som de är. Jag tänker att det kommer någon till nytta.

Here we go:

Gör en omindexering när du uppgraderar till nya versioner. Särskilt om du utgår från versioner direkt från trunken (4.x).

3.1 ska släppas under våren 2011: Solr 3.1(Lucene 3.1)

Per-segment field cahce. Tidigare fanns det cahar över hela indexstrukturen nere i Lucene. Utvecklingen går mer och mer mot per-segment. Det leder till att man inte behöver köra så många optimizes.

Unicode and analysis improvements. Fler språk, fler sätt att analysera

Payloads, möjlighet att slå på term vectors för specifika fält. Tokenizers för till exempel adresser som kan extrahera metadata och använda payloads för detta.

AutomatonQuery : regexpQuery, Wildcardquery. Kan hitta avancerade sammanhang i texter.

Reindex! och glöm inte att uppgradera klienprogramvaran!

Läs både Lucenes och Solrs Changes.txt

UAX/UAX29, using ICU. Det här verkar viktigt för oss som använder "internationella tecken". Värt att lära sig mer om.

CollationKey - För sortering av "international characters"

CharFilter / PatternReplaceCharFilter

Wordmarkerfilter (kan undanhålla vissa strängar från stemming.

Standard Tokenization
* classicTokenizer : old StandardTokenizer
* StandardTokenizer använder Unicode textsegmenterins enligt UAX#29
*UAXURLEmailTokenizer
* Max-längd på 255

PathHierarchTokenizer -för att extrahera hierarkier

CollationKeyFilter

ICUTransformFIlter - Kan translitterera olika strängar.

Highlighter
- ny konfiguration
- annan highlighter - FastVectorHiglighter

Spatial
Tre tyoer - Point, lat/ling, GeoHash
Filter: geofilt

Field Collapsing - Grouping

RAW queryparser om du ska göra en filterquery på exempelvis en facet.
- Gäller dock inte för vissa fält. Numeriska fält eller datumfält Testa term query parser fq={!term f=weight}1.5
- Så term query parser fungerar mycket bättre iställlet för raw

Dismax
-mmparamteren kan den lista ut själv.
- Man kan inte ha med icke analyserade fält i dismax... helst ska det vara text-fält.

Edismax - Trunk eller 3.1. Massor av trevligheter. När den dyker upp.

Med hjälp av shingles kan man förbättra frassökning.
Kolla upp shingles solr.ShingleFilterFactory
http://web.archiveorange.com/archive/v/AAfXfQ17f57FcRINsof7

Mycket prat om varför bibliotekarierna inte får de resultat de förväntar sig.

Kolla vad kolon har för funktion i Dismax

Facets
* Threads per segments

Pivot/grid/matrix/tree faceting 1.4.1


irectSolrSpellCheckr - Cool

spellcheck handler

Ny sugegster

Klustring (använder carrot2) - fungerar nu out of the box

Mer finmalen Debug=true: Debug=true|all|timing|query|results

SolrCloud - Shard/core Management

json update! - indexera material genom json

UIMA http://wiki.apache.org/solr/SolrUIMA - Kan identifiera vissa saker i ostrukturerade dokument och lägga till dem som metadata

Förenkling för utvecklare. Med ett ant-commado kan man få sin IDE konfigurerad (Eclipse)

Det finns en patch för distrubierad IDF över shards....

/Bibliotekarien - The Librarian