Archive for category Harvest Index

Probando Lucene 1.9 RC1

Hoy estoy probando el RC1 de Lucene v. 1.9. Las búsquedas con los índices de la v. 1.4 al parecer trabajan normalmente, la indización, SNEEF.

Dejar un comentario

Pruebas con Harvest Index

La indización durante la recolección de esta haciendo en memoria.

Dejar un comentario

¿Dónde esta el archivo?

Springer: Al presentar los resultados en algunos casos (buscando por “joint”) muestra sólo el identificador del registro; al parecer no esta construyendo bien el path para abrir el archivo de los metadatos.

Dejar un comentario

Pruebas para la indización

Pruebas usando índices en memoria para determinar si es posible usarlos.
Hay una diferencia a primera vista de 100ms. Es necesario probar con el arXiv (>300000) o CiteSeer (>570000).
Buscando los mejores valores para mergeFactor, minMergeDocs, maxMergeDocs encontre esta página de una respuesta de Doug Cutting y QueryFilter vs CachingWrapperFilter vs RangeQuery

Dejar un comentario

Ajustes: Harves-Index y CatIA

Se modificó la función para agregar los metadatos del registro. Se cambió la construcción del campo fulltext para que en lugar de construir una cadena grande, agregara cada campo separado y así mejorar la calificación en la búsqueda. También se simplificó el código, creando una sub-función para tener una sola para el encabezado y Dublin Core
Se modificó tambien CatIA para reflejar los cambios que se hicieron en el recolector.

Dejar un comentario

Reindización Ágil

Se modificó el sistema de reindización para agilizar el proceso y que las búsquedas no interfieran en este. Se crea un índice temporal para cada repositorio y al reindizarlo se borran los registros existentes del índice principal.

Dejar un comentario

Ajustes al Indizador y al Springer

Se cambió el directorio de candados (locks) del directorio default al directorio de OAI-PMH.
Hay 176 Nuevos repositorios.

Dejar un comentario

Harvest Index

Se modificó el ini para que no guarde nungún campo en el índice, ya que el Springer lee los metadatos del archivo recolectado. Tambien se modificó el procedimiento de indizado y el de recolección y con esto el tiempo se redujo, a primera vista, considerablemente.

Dejar un comentario

Seguir

Get every new post delivered to your Inbox.