Archive for category Harvest Index
Probando Lucene 1.9 RC1
Publicado por Enrique Martínez en CatIA, Harvest Index, Springer el junio 6, 2005
Hoy estoy probando el RC1 de Lucene v. 1.9. Las búsquedas con los índices de la v. 1.4 al parecer trabajan normalmente, la indización, SNEEF.
Pruebas con Harvest Index
Publicado por Enrique Martínez en Harvest Index el febrero 8, 2005
La indización durante la recolección de esta haciendo en memoria.
¿Dónde esta el archivo?
Publicado por Enrique Martínez en Harvest Index, Springer el febrero 7, 2005
Springer: Al presentar los resultados en algunos casos (buscando por “joint”) muestra sólo el identificador del registro; al parecer no esta construyendo bien el path para abrir el archivo de los metadatos.
Pruebas para la indización
Publicado por Enrique Martínez en CatIA, Harvest Index el febrero 4, 2005
Pruebas usando índices en memoria para determinar si es posible usarlos.
Hay una diferencia a primera vista de 100ms. Es necesario probar con el arXiv (>300000) o CiteSeer (>570000).
Buscando los mejores valores para mergeFactor, minMergeDocs, maxMergeDocs encontre esta página de una respuesta de Doug Cutting y QueryFilter vs CachingWrapperFilter vs RangeQuery
Ajustes: Harves-Index y CatIA
Publicado por Enrique Martínez en CatIA, Harvest Index el febrero 2, 2005
Se modificó la función para agregar los metadatos del registro. Se cambió la construcción del campo fulltext para que en lugar de construir una cadena grande, agregara cada campo separado y así mejorar la calificación en la búsqueda. También se simplificó el código, creando una sub-función para tener una sola para el encabezado y Dublin Core
Se modificó tambien CatIA para reflejar los cambios que se hicieron en el recolector.
Reindización Ágil
Publicado por Enrique Martínez en Harvest Index el febrero 1, 2005
Se modificó el sistema de reindización para agilizar el proceso y que las búsquedas no interfieran en este. Se crea un índice temporal para cada repositorio y al reindizarlo se borran los registros existentes del índice principal.
Ajustes al Indizador y al Springer
Publicado por Enrique Martínez en Harvest Index, Springer el enero 31, 2005
Se cambió el directorio de candados (locks) del directorio default al directorio de OAI-PMH.
Hay 176 Nuevos repositorios.
Harvest Index
Publicado por Enrique Martínez en Harvest Index el enero 28, 2005
Se modificó el ini para que no guarde nungún campo en el índice, ya que el Springer lee los metadatos del archivo recolectado. Tambien se modificó el procedimiento de indizado y el de recolección y con esto el tiempo se redujo, a primera vista, considerablemente.