Archivo para la categoría Harvest Index

Probando Lucene 1.9 RC1


Hoy estoy probando el RC1 de Lucene v. 1.9. Las búsquedas con los índices de la v. 1.4 al parecer trabajan normalmente, la indización, SNEEF.

Anuncios

Deja un comentario

Pruebas con Harvest Index


La indización durante la recolección de esta haciendo en memoria.

Deja un comentario

¿Dónde esta el archivo?


Springer: Al presentar los resultados en algunos casos (buscando por “joint”) muestra sólo el identificador del registro; al parecer no esta construyendo bien el path para abrir el archivo de los metadatos.

Deja un comentario

Pruebas para la indización


Pruebas usando índices en memoria para determinar si es posible usarlos.
Hay una diferencia a primera vista de 100ms. Es necesario probar con el arXiv (>300000) o CiteSeer (>570000).
Buscando los mejores valores para mergeFactor, minMergeDocs, maxMergeDocs encontre esta página de una respuesta de Doug Cutting y QueryFilter vs CachingWrapperFilter vs RangeQuery

Deja un comentario

Ajustes: Harves-Index y CatIA


Se modificó la función para agregar los metadatos del registro. Se cambió la construcción del campo fulltext para que en lugar de construir una cadena grande, agregara cada campo separado y así mejorar la calificación en la búsqueda. También se simplificó el código, creando una sub-función para tener una sola para el encabezado y Dublin Core
Se modificó tambien CatIA para reflejar los cambios que se hicieron en el recolector.

Deja un comentario

Reindización Ágil


Se modificó el sistema de reindización para agilizar el proceso y que las búsquedas no interfieran en este. Se crea un índice temporal para cada repositorio y al reindizarlo se borran los registros existentes del índice principal.

Deja un comentario

Ajustes al Indizador y al Springer


Se cambió el directorio de candados (locks) del directorio default al directorio de OAI-PMH.
Hay 176 Nuevos repositorios.

Deja un comentario