Tabla de definición de campos
La Tabla de Definición de Campos y los Formatos de Ingreso definen la estructura de los registros de la base de datos. Constan de los siguientes elementos:
Tipo de campo
Especifica el tipo de componente de la FDT que se está describiendo, según las siguientes posibilidades:
Campo
Sub-campo
Grupo (Campo repetible con sub-campos)
Leader del registro (formato MARC)
Campo fijo (formato MARC)
Fecha de creación del registro (formato MARC)
Encabezado
Línea
Los campos que se listan a continuación existían en la versión 1.1 y a partir de la versión 1.2 fueron cambiados para tipo F; el tipo que existía se colocó en la columna tipo de entrada la cual describe la forma de ingreso del campo en la hoja de entrada. ABCD realizará los cambios en forma automática al procesar la FDT y los formatos de ingreso y el cambio se almacenará en forma permanente cuando se actualize la FDT y las hojas de ingreso.
- Fecha ISO (no se usa más, utilizar F y seleccionar el tipo fecha en el tipo de entrada)
- Subir documento y establecer enlace (no se usa más, utilizar F y seleccionar el tipo de entrada)
- Fecha de creación del registro (no se usa más, utilizar F y seleccionar en el tipo de entrada)
- Operador que crea el registro Fecha, hora y operador que modifica el registro’ (no se usa más, utilizar F y seleccionar en el tipo de entrada)
- Identificador único del registro (número de control) (no se usa más, utilizar F y seleccionar en el tipo de entrada)
Loa Tipos de Campo son los siguientes:
Campo (F)
Indica que la entrada corresponde a un campo de la bases de datos
Sub-campo (S)
Esta entrada corresponde a la descripción de los sub-campos del campo.
Se debe describir cada uno de los subcampos que identifican el campo, con los atributos que le corresponden.
Con esta información dependiendo de la forma de ingreso (Texto/Area de texto o Tabla) se activa un editor de subcampos facilitando así el ingreso de los delimitadores que deben preceder a cada subcampo en las estructuras de datos CDS/Isis.
Adicionalmente, se permite el uso de sub-campos repetibles y lo subcampos pueden movilizarse dentro del formulario de ingreso para que el órden como se almacenan facilite luego la aplicación del lenguaje de formateo de campos.
Grupo (T)
Este tipo de entrada se recomienda para facilitar la edición de los campos repetibles con subcampos. Permite editar los subcampos en forma de tabla o presentar un plantilla para ingresar cada sub-campo separadamente. A continuación de una entrada del tipo Grupo deben definirse los subcampos que conforman el campo
Leader del registro - formato MARC (LDR)
Este campo contiene la información del Lider del formato Marc, según la siguiente especificación:
3005 Estado del registro
3006 Tipo de registro
3007 Nivel bibliográfico
3017 Nivel de codificación
3018 Descripción de la forma de catalogación
El valor del campo 3006 asigna el tipo de campo fijo asociado al registro.
La estructura del leader se almacena en un archivo denominado leader.fdt, contenido en la carpeta def de la base de datos.
Campo Fijo - formato Marc (M)
Este tipo de campo le indica al generador de hojas de ingreso que debe insertar un campo fijo, cuya estructura dependerá del tipo de registro seleccionado en el Leader.
La estructura de los campos fijos se construye como una Tabla de Definición de campos (FDT), a la cual se accede a partir de la opción Tipos de Registro (Marc) en el menú correspondiente a Actualizar Definiciones de Bases de Datos. La opción Tipos de Registro (Marc) se presenta en el menú de actualización cuando se detecta la inclusión del Líder (tipo de campo LDR en la FDT} de la base de datos.
Fecha (MARC) (M5)
Generada en forma automática por el sistema con el formato: YYYYMMDDHHMM.S (año, mes,dia,hora,minutos . segundos).
Ejm: 201010061536.48
Encabezado (H)
Use esta entrada para colocar separadores de grupos de campos en los formatos de entrada y salida y para facilitar la navegación al interior del formulario de ingreso
Línea (L)
Incluye una línea de separación en el formato de entrada. Puede incluso contener un URL para hacer referencia una página que requiera ser accedida al momento de presentación de los datos
Etiqueta
Valor numerico con el que se identifica el campo en el registro (tag). Su valor va desde 1 hasta 999, a excepción del tipo de campo Leader que acepta etiquetas de hasta 4 dígitos de longitug
Título
Título o descripción del campo tal como aparecerá en los formatos de entrada o salida.
I = Entrada principal
Marque esta entrada si el campo es la entrada principal del registro. Se desplegará en la lista asociada al botón para un rápida localización de los registros
Ver: Índice de la entrada principal
R = Repetible
Marque esta entrada si el campo es repetible
Subcampos
Coloque en esta entrada y en minúscula las letras que identifican los subcampos que conforman el campo. Puede omitir el primer subcampo, pero debe colocar el caracter - (guión) para indicar esta situación.
Pre-literales
Caracteres de edicion a usar como pre-lilterales en los subcampos en la FST y en los formatos de salida. Si el primer subcampo del campo no posee delimitador, debe colocar en esta posición el caracter - (guión).
Si este valor está presente, ABCD en el procedimiento de entrada de datos sustituirá los delimitadores de subcampos con los preliterales, al presentar el campo en el formulario de entrada. Cuando se almacena el registro los pre-literales serán sustituídos de nuevos por los delimitadores de subcampo. De esta forma se facilita el ingreso para el caso de campos con pocos subcampos, por ejemplo, el nombre de un especialista podría ingresarse como Apellido, Nombre y ser almacenado como Apellido^nNombre o ^aApellido^nNombre, dependiendo de la información suministrada en los parámetros Subcampos y Pre-literales
Entrada de datos
Este valor se usa para generar la hoja de ingreso y colocar el comando HTML adecuado para la captura del campo. Se aceptan las siguientes posibilildades:
Fecha (D)
Activa una rutina en javascript para seleccionar la fecha desde un calendario
Seleccionar varias Opciones (C)
<input type="checkbox">
Si se desea, se puede indicar en cuántas columnas se van a presentar las opciones, colocando el valor correspondiente bajo columnas. El campo debe estar definido como tipo repetible
Seleccionar una Opción (O)
<input type="radio">
Si se desea, se puede indicar en cuántas columnas se van a presentar las opciones, colocando el valor correspondiente bajo columnas
Selección simple (S)
Select (simple)
Usela cuando se requiera seleccionar una sola opción de la disponibles.
Selección múltiple (M)
Select (múltiple)
Use esta opción cuando se pueda seleccionar más de un valor de los disponibles. En este caso, el campo debe estar definido como Repetible
Html Área (A)
Inserta un editor HTML para permitir escribir un texto editado con las opciones que ofrece el lenguaje de marcación HTML
HTML Externo (E)
Inserta un editor HTML, pero la información no se almacena en la base de datos sino en un archivo externo el cual se vincula al registro (por implementar)
Texto/Área de texto (T)
text/textarea
Presenta un textbox o un textarea dependiendo de la información que se inserte bajo las columnas filas/columnas de la FDT:
- Si se inserta solo un valor bajo columnas se define un textbox cuya área de ingreso toma el número de caracteres expresado bajo columnas.
- Si se insertan valores bajo filas y columnas se inserta un textarea donde filas y columnas equivalen a los parámetros rows y cols del tag html Textarea
- Si se insertan valores bajo filas y columnas pero el valor columnas se expresa en la forma xxx/yyyy, se insertará un textarea donde xxx = ancho de la caja de texto yyy = número total de caracteres que puede recibir el campo. Este número total se controla a través de una función JavaScript y se despliega bajo la caja de texto el número de caracteres disponibles en el campo.
Texto de longitud fija (XF)
Presenta un Textbox donde se limita el número de caracteres que se pueden insertar en el campo. El número de caracteres que se pueden insertar debe aparecer bajo columnas
Tabla (TB)
Facilita la edición de los campos repetibles, presentandolos en forma de tabla. Adicionalmente, se puede limitar el número de occurrencias a ingresar, colocando el valor correspondiente bajo filas. Cuando se selecciona este tipo de entrada, cada fila de la tabla representa una ocurrencia del campo y se provee un enlace al final de la última fila para poder agregar filas adicionales.
Si se trata de un campo repetible con subcampos, cada fila de la tabla representa una ocurrencia y los subcampos representan las columnas de la tabla.
Si se tiene un campo repetible sin subcampos y se quiere limitar el número de ocurrencias del campo, coloque bajo la columna Filas de la FDT la expresion xx/yy, donde xx representa el número total de filas de la tabla y yy la cantidad de filas a colocar en la casilla de entrada del campo. Si este valor es 1, se presenta un textbox; otro valor, presenta un textarea con tantas filas como indique el valor yy
Password (P)
Rellena la casilla de ingreso con * para esconder el contenido del campo. Adicionalmente presenta en la hoja de entrada un campo para confirmación del password y activa una rutina en javascript para determinar si el password y la confirmación son iguales.
Si se activó la opción de encriptación del password (parámetro MD5 de config.php), el password se encripta de usando el algoritmo MD5. En este caso, si se edita un registro hay que suministar de nuevo el password ya que se guarda el valor encriptado.
Subir documento y establecer enlace (U)
Permite subir un documento al servidor y vincularlo al registro correspondiente. Por defecto, ABCD acepta puede definir una carpeta denominada bases en la raiz del ABCD, con una subcarpeta con el nombre de la base de datos donde se colocarán las imágenes. También se puede crear una carpeta en cualquier lugar del servidor tal como lo especifica la seccion Vincular Documentos Digitales, . (Véase además Consideraciones para almacenar Documentos Digitales)
Fecha, hora y operador que modifica el registro (OD)
En este campo se colocará en subcampos, la fecha, hora y login del operador que crea el registro. El primer subcampo almacenará la fecha y la hora y el segundo subcampo el operador. Se puede utilizar la columna “columnas” de la FDT para establecer el número de actualizaciones que se desean registrar. Alcanzado el número establecido se eliminará la primera ocurrencia a fin de agregar la nueva ocurrencia
Fecha de creación del registro (DC)
En este campo se colocará la fecha de creación del registro
Operador que crea el registro (OC)
En este campo se coloca la identificación del operador que crea el registro
Identificador único del registro o Número de control del objeto (AI)
Corresponde a un valor numérico secuencial que ABCD asignará al registro en forma automática al momento de creación (ver Asignación del número de control)
Combo box (COMBO/COMBORO)
- COMBO se utiliza cuando el campo de ingreso puede ser rellenado por operador desde el teclado si no se muestra el término correspondiente en la lista de selección asociada al campo
- COMBORO se utiliza para forzar el ingreso del campo solo a través de la lista de selección presentada; el campo de ingreso es de sólo lectura (read-only)
Este tipo de entrada presenta un menú desplegable de opciones precedido de una caja de texto que ayuda a localizar los términos en la lista de opciones. Puede usarse en el caso de que el número de opciones a presentar al usuario sea tan variada que se dificulte la localización de una en particular en el menú desplegable (ejemplo, más de 20 opciones y menos de 300).
Las opciones se cargan en el menú bien sea desde un archivo txt o desde el índice de una base de datos utilizando los criterios establecidos bajo las columnas Lista de selección que se describen más adelante.
Si las opciones se cargan desde una base de datos, se utilizan las columnas
Tipo de lista: Base de datos
Nombre: Nombre de la base de datos a utilizar para extraer los términos válidos
Prefijo: Prefijo de la FST bajo el cual se encuentran agrupados los términos a presentar
Extraer como: Nombre de la PFT o formato de extracción a aplicar sobre los registros para extraer los términos
Si las opciones se cargan desde un archivo txt se utilizan las columnas
Tipo de lista: Tabla
Nombre: Nombre del archivo txt a utilizar para presentar los términos válidos
La presentación de esta tipo de entrada en el formulario de ingreso variará depediendo de si el campo definido en la FDT es o no repetible:
(1) Lista de términos cargados desde una tabla o desde una base de datos
(2) Casilla de texto que permite localizar un término en la lista de términos
(3) En el caso de que el campo no sea repetible, casilla de texto donde se colocará el término seleccionado desde la lista
(4) En el caso de que el campo sea repetible, área de texto donde se colocarán los términos que se seleccionen
desde la lista
(5) Se puede utilizar para eliminar términos del área de entrada
En el caso de que el tipo de entrada sea read-only (COMBORO) 3 y 4 estarán protegidos de forma tal que el operador no pueda agregar términos nuevos, es decir, está forzado a seleccionar términos desde la lista de selección.
Los campos que se utilizen en este tipo de presentación no pueden tener subcampos ni puede usarse para ingresar información en un subcampo de un campo.
Nota importante
Tenga mucho cuidado cuando la lista de selección se llene desde una base de datos ya que el procedimiento para presentar la hoja
de entrada intentará leer desde el índicetodos los términos cuyo prefijo coincida con el prefijo utilizado para definir esta
entrada. Entonces, si hay demasiados términos, el formulario de ingreso se "congelará" hasta tanto no se hayan recuperado del índice
todos los términos indizados con ese prefijo. Por esta razón no se recomienda utilizar este tipo de entrada cuando existan más de
200 términos para el campo.
Filas
- Si el tipo de entrada es T (Grupo), especifica el máximo número de filas (ocurrencias) permitidas para el campo. Si no especifica este valor y el campo está vacío, se presenta una fila y al final de la misma se incluye un vínculo para agregar más filas; si el campo no está vacío se presentarán las ocurrencias existentes a razón de una por fila y al final de las mismas se incluye un vínculo para agregar más filas.
- Si el tipo de entrada es X (Text area) o A (Html area), especifica el máximo número de líneas a presentar en el Área de texto. Si el tipo de entrada es T,se presenta un TextBox. Si el tipo de entrada es T, pero e número de filas es mayor de 1 se presenta un textarea. Si el tipo de entrada es A (Html area), define el tamaño de la ventana donde se abrirá el editor e HTML.
- Si el tipo de entrada es M (Select multiple), especifica con cuantas opciones se abre la lista
Columnas
- Si el valor de Ingresar como es X (Textbox/Text area) o A (Html area), especifica el máximo número de columnas (caracteres) a presentar en las líneas del área de texto. Si se desea controlar el número de caracteres a ingresar en un control HTML del tipo TEXTAREA, coloque el valor de las columnas en la forma XX/YY donde,
XX = Número de columnas del TEXTAREAYY = Total de caracteres que puede aceptar el campo (ver Text/Textarea)
- Si el valor de Ingresar como es T (campos repetibles con subcampos), el número de columnas lo determina la cantidad de subcampos definidos
- Si el valor de Ingresar como es O (radio button) o C (checkbox) especifica el número de opciones a colocar en cada línea
Lista de selección
Bajo estas columnas se indica los mecanismos a adoptar para el control de la terminología del campo, según las siguientes posibilidades
Listas de Opciones (tablas asociadas a campos)
Las opciones se guardan en archivos de texto. Se requiere suministrar la siguiente información:
- Tipo: Tabla
- Nombre: Nombre de la tabla con la lista de opciones
Ver: Control de terminologia: Tablas asociadas a campos
Listas de autoridades
La terminología para ingreso del campo proviene de la misma base de datos o de una base de datos externa. Se requiere suministrar la siguiente información:
- Tipo: DB
- Nombre: Nombre de la base de datos que recoje la terminología del campo. Si esta columna se deja en blanco se asume que la terminología proviene de la misma base de datos que se encuentra activa
- Prefijo: Prefijo de la lista invertida con el cual se encuentra indizado el campo a utilizar como control de terminología
- Listar como: Formato a utilizar para la presentación del campo en la lista de selección
- Extraer como: Formato a utilizar para extraer el campo de la base de datos de control de terminología y pasarlo al registro en proceso de edición
En ambos casos la columna browse presenta un asistente para la selección/edición de las tablas de terminologia. Igualmente, el procedimiento de entrada de datos presenta un botón para poder editar estas tablas.
ver: Control de terminología: Listas de autoridades
Valor por defecto
Especifique aquí el contenido con el cual se debe rellenar el campo cuando se ingresan nuevos registros. Debe especificar los subcampos, si el campo tiene subcampos.
Ayuda
Marque esta casilla si se provee ayuda en línea para el campo. Estas ayudas se almacenan en la carpeta de la base de datos bajo la subcarpeta ayudas y se editan a través de la opción Archivos de ayuda para los camps de la base de datos del menú Actualizar definición de base de datos
Url de ayuda
Si la ayuda está en otro servidor o sitio web, coloque en esta columna el url a utilizar para localizar y presentar la ayuda del campo
Vincular con la FDT
Este campo se aplica en los(FDT). De esta forma los cambios realizados en la FDT se reflejaran también en la hoja de entrada. No aplica con la creación o eliminación de campos en la FDT.
Tabla de extracción de campos (FST)
La tabla de extracción de campos es el archivo utilizado en las estructuras CDS/Isis para actualización y mantenimiento de las índices de búsqueda (listas invertidas) así como en los procesos relacionados con el intercambio de información o la generación de claves para ordenar alfabéticamente los reportes de salida. Al construir la tabla de extracción de campos el diseńador de la base de datos ha de tener en mente los tipos de búsqueda que quiere habilitar para los usuarios de la información e intentar que las consultas recuperen información, siempre que sea posible. CDS/Isis proporciona un gran número de facilidades para garantizar el éxito de los procesos de recuperación de información, como son:
- 8 técnicas de indización diferentes, de tal forma que un mismo campo puede ser almacenado en los índices de diferentes manera
- La extracción de claves se formula a través del lenguaje de formatos, lo que permite analizar y realizar transformaciones sobre los datos antes de enviarlos a los índices
- Transparencia en el uso de mayúsculas, minúsculas o caracteres acentuados en los términos de búsqueda
- Identificación de las claves de búsqueda, lo cual facilita determinar el orígen (mfn, campo, ocurrencia y posición relativa dentro del campo) de cada uno de los términos contenidos en el diccionario
La tabla de extracción de campos es un archivo del tipo TXT el cual consta de tres columnas donde se identifican los siguientes elementos:ArID Identificación de la clave
Identifica la etiqueta (tag) del campo que se utilizará para identificar el término.
TI Técnica de indización
Especifica la técnica de indización a aplicar sobre las líneas obtenidas luego de la aplicación del formato de extracción sobre cada registro de la base de datos
Formato de extracción
Indica el formato de extracción a aplicar sobre el registro para obtener la clave
ID Identificación de la clave
Las claves del archivo de índices (listas invertidas) de las estructuras CDS/Isis constan de cinco elementos:
Término de búsqueda (clave)
ID
Mfn
Número de Ocurrencia
Número de Secuencia
El valor suministrado en la columna 1 de la FST genera el componente ID del archivo invertido, el cual le asigna una identificación a cada una de las claves generadas por el formato de extracción . Esta identificación es muy importante para ABCD cuando se usan listas de autoridades y generalmente deberá coincidir con el tag del campo.
Estructura de los archivos invertidos
Ver: Archivos de índices
Técnicas de indización
Hasta el momento existen 9 técnicas de indización:
0 | Pasa a la lista invertida cada línea generada por el formato de extracción |
1 | Pasa a la lista invertida cada sub-campo generado por el formato de extracción |
2 | Pasa a la lista invertida los elementos encerrados entre <…> |
3 | Pasa a la lista invertida los elementos encerrados entre /…/ |
4 | Pasa a la lista invertida cada palabra generada por el formato de extracción |
5 | Igual a la técnica 1, agregando un prefijo a cada clave generada |
6 | Igual a la técnica 2, agregando un prefijo a cada clave generada |
7 | Igual a la técnica 3, agregando un prefijo a cada clave generada |
8 | Igual a la técnica 4, agregando un prefijo a cada clave generada |
Las técnicas 2 y 3 tienen efectos similares en la generación de la clave; la diferencia proviene del tipo de delimitador utilizado para identificar los términos a extraer: si se usa el delimitador <…> para identificar los términos claves, posteriormente, al emitir reportes impresos o salidas por pantalla, el mismo puede eliminarse o sustituirse por signos de puntuación aplicando el comando de modo MHx o MDx. El delimitador /…/ no puede sustituirse por lo que siempre estará presente en la salidas impresas o por pantalla.
Cuando se aplica una fst sobre un registro para obtener una clave, el órden de la operación es el siguiente:
- Se utiliza el formato de extracción capturar los datos del registro
- A la información obtenida se le aplica la técnica de indización correspondiente
- A cada clave individual que resulte de este proceso se le asigna el Id especificado y se almacena en la lista invertida incluyendo el MFN del registro, el número de ocurrencia de la cual se extrajo la clave, y si la indización es por palabra (técnica 4 u 8), la posición relativa de la palabra respecto a la línea generadas por el formato de extracción.
Ejemplo: Supongamos que de el siguiente registro (en formato MARC):
<35> $9(DLC) 90049743l</35>
<10> ^a 90049743</10>
<20> ^a0387974490 (alk. paper)</20>
<40> ^aDLC^cDLC^dDLC</40>
<41>0 ^aeng^bfregerhebjapsparus</41>
<50>00^aGC89^b.E54 1991</50>
<82>00^a551.4/58$220</82>
<100>1 ^aEmery, K. O.^q(Kenneth Orris),^d1914-</100>
<245>10^aSea levels and tide gauges /^cK.O Emery, David G. Aubrey.</245>
<260> ^aNew York :^bSpringer-Verlag,^cc1991.</260>
<300> ^axiv, 237 p. :^bill., maps :^c29 cm.</300>
<500> ^aIn English, with summaries in French, German, Hebrew, Japanese, Spanish, and Russian.</500
<504> ^aIncludes bibliographical references (p. 207-226) and indexes.</504>
<650> 0^aSea level.</650>
<650> 0^aSubsidences (Earth movements)</650>
<650> 0^aTide-gages.</650>
<650> 0^aDatabase management^xCongresses.</650>
<650> 0^aArtificial intelligence^xCongresses.</650>
<700>1 ^aAubrey, David G.</700>
<5>20000113 35151</5>
<935>LA<935>
queremos obtener las siguientes claves:
Título (245) | para ser recuperado por cada una de las palabras |
Autores (100 y 700) | para ser recuperados en forma completa (apellido + nombre) e independientemente por apellido o nombre |
Materias (650) | que puedan recuperarse por frase completa o por cualquiera de laa palabras que las forman |
Idiomas (41) | todos los idiomas (nota: en el subcampo b del campo 41 los idiomas se incluyen en una cadena donde cada 3 caracteres representan el código de un idioma diferente |
Editorial (260) | tal como aparece en el documento |
Fecha de edición(260) | tal como aparece en el documento |
Clasificacion LC (50) | de forma tal que permita hacer una búsqueda general por el primer nivel de la clasificación y también por la clasificación completa |
nowrap | Fecha de ingreso a la base de datos (5) |
La Fst que necesitamos definir para estos efectos es la siguiente
Título (245) |
245 4 v245^a |
Autores (100 y 700) |
100 0 v100^a/ |
Materias (650) |
650 1 (v650*2/) |
Idiomas (41) |
41 0 v41^a/v41^b.3/ v41^b*3.3/ v41^b*6.3/ v41^b*9.3/ v41^b*12.3/ v41^b*15.3/ v41^b*18.3 |
Editorial (260) |
260 0 v260^b |
Fecha de edición(260) |
260 0 v260^c |
Clasificacion LC (50) |
50 0 v260^a/v260^a,v260^b |
nowrap|Fecha de ingreso a la base de datos (5) |
5 0 v5.4/v5.6/v5 |
Explicación:
Cuando elaboramos una FST es necesario tener claro el concepto de cómo se almacenan los términos en la lista invertida (ver Estructura de los archivos invertidos)
.
La lista invertida es un conjunto de 6 archivos, 5 de los cuales son índices hacia el diccionario de términos, el cual (con la extensión .ifp) alberga todas las claves extraídas de la base de datos a través de la aplicación de la tabla de extracción de campos (fst) sobre cada uno de los registros. El diccionario de términos es una lista alfabética de todos los puntos de acceso que hemos extraído de la base de datos (con el auxilio de la .fst) y cada clave tiene asociada una lista de apuntadores que definen el lugar de donde se extrajo el término. Esta lista de apuntadores se denomina “postings” y cada “posting” tiene 4 componentes:
**Mfn** del registro del cual se extrajo la clave
**Id** del campo, tal como fué indicado en la primera columna de la FST
**Número de la ocurrencia** del campo desde el cual se extrajo la clave
**Posición relativa de la palabra** dentro del campo desde el cual se extrajo la clave (cuando el campo se indizó por técnica 4)
Por ejemplo, si el término Educacion aparece en los registros 1 y 20 en el campo de materias (v76) y también se encuentra en el registro 35 en el campo de título (v16): Métodos de educación a distancia, al aplicar la siguiente Fst sobre el registro:
76 0 (v76/)
16 4 v16
el diccionario de términos referirá el término Educación de la siguiente manera:
EDUCACION
1 76 1 1
20 76 1 1
35 16 1 3
Se han generado tres “postings” para el término educación. El primero, 1 76 1 1</font> indica que la palabra clave proviene del MFN 1, primera ocurrencia del campo 76 y está localizada al inicio del campo. El segundo apuntador 20 76 1 1 especifica que también se encuentra en el Mfn 20, campo 76, primera ocurrencia y primera palabra y por último, 35 16 1 3 indica que el registro 35 contiene el término educación, extraído del campo 16, primera ocurrencia y además es la tercera palabra del campo.
La técnica de indización 0 siempre coloca el valor 1 como posición relativa de la clave dentro del campo. El resto de las técnicas de indización enumeran la posición de la clave dentro del campo. La posición relativa de un término dentro del campo que lo contiene es lo que permite definir las búsquedas por proximidad (operadores . y $ del lenguaje de búsquedas del CDS/Isis). La distancia entre dos términos se determina obteniendo la diferencia entre sus posiciones relativas.El valor del número de ocurrencia se utiliza al aplicar el operador (F) para el cual, la expresión de búsqueda es verdadera cuando todos los términos que se combinan proceden de la misma ocurrencia del campo repetible. También se utiliza en la generación de las Listas de autoridades que asisten el ingreso de los registros (ver: Control de terminología: Listas de autoridades).
Analicemos ahora la FST que mencionamos al inicio de esta página:
245 4 v245^a
Extrae el subcampo a del campo 245 y al resultado le aplica la técnica de indización 4. Cada palabra obtenida se envía a la lista invertida con el identificador 245
100 0 v100^a/
700 0 (v700^a/)
Extrae el subcampo a del campo 100 y el subcampo a del campo 700. Analiza el resultado obtenido tratando de identificar líneas (técnica 0) y cada línea obtenida se envía a la lista invertida con el identificador 100 o 700 según el caso. Note que el formato de extracción v100^a, v700^a no produciría los resultados requeridos por las siguientes
razones:
- La técnica de indización 0 busca líneas en el campo generado por el formato de extracción. Como no estamos generando cortes de línea (/) por ocurrencia, el formato de extracción producirá una sola cadena con todos los autores en forma contígua y de esa cadena se tomarán los primeros 60 caracteres los cuales se almacenarán en la lista invertida
- El campo 700 es repetible; por lo tanto, si no se edita como un grupo repetible el formato extraerá todas las ocurrencias del campo creando una sola frase, y entonces cada autor no sería enviado como clave independiente a la lista invertida
100 4 v100^a/
700 4 (v700^a/)
Extrae el subcampo a de los campos 100 y 700 del registro. Cada ocurrencia se coloca en una nueva línea. De la lista generada extrae cada una de las palabras (técnica 4) y las envía a la lista invertida con el identificador 100 o 700 según corresponda. Cada palabra arrastra el número de ocurrencia que ocupa el autor en el campo así como la posición relativa de la misma al interior de cada ocurrencia.
Si estamos indizando por palabras, por qué es necesario incluir saltos de línea para separar los campos y las ocurrencias?. Por la siguiente razón: si no se incluye una separación entre v100^a y v700^a, la última palabra de v100^a aparecería pegada a la primera palabra de la primera ocurrencia de v700^a, produciendo una entrada errónea en el índice. Del mismo modo, si no se separan las ocurrencias de v700 con un salto de línea, la primera palabra de la siguiente ocurrencia aparecería pegada con la última palabra de la ocurrencia anterior.
650 1 (v650*2/)
En este ejemplo estamos extrayendo cada subcampo del campo 650 y generando para cada uno, una entrada en la lista invertida con la identificación 650. Por qué v650*2?. El registro presentado en el ejemplo está catalogado según el formato Marc y se están incluyendo los dos indicadores antes del subcampo a:
00^aDatabase management^xCongresses.
00^aArtificial intelligence^xCongresses.
Si el formato de la fst lo expresamos como 650 1 (v650/) se intentará identificar todos los subcampos de cada una de las ocurrencias del campo 650; por lo tanto, la porción correspondiente a los indicadores será tomada como un subcampo y tendremos una serie de claves generadas solo con los indicadores del campo 650. Al expresar el formato de extracción en la forma (v650*2/) estamos indicando un desplazamiento de 2 posiciones respecto al inicio del campo y los indicadores no serán tomados en cuenta.
Cuando se aplica la técnica de indización 1 es necesario verificar que el formato de extracción contenga subcampos; esto es, si colocamos como formato de extracción de claves 650 1 mhu,(v650*2/) estaremos generando claves erradas ya que, por definición, el Modo MHU sustituye los subcampos por signos de puntuación causando que los subcampos desaparezcan al aplicar el formato sobre el registro y en este caso la clave se generará haciendo una sola frase con todos los subcampos y el índice contendría entonces solo los 60 primeros caracteres de la frase obtenida (por ejemplo: ARTIFICIAL INTELLIGENCE. C0NGR), con la consiguiente pérdida de puntos de acceso hacia el registro.
650 4 MHU(v650*2/)
Igual razonamiento que en el caso anterior, pero se extraen las palabras de las líneas obtenidas
41 0 v41^a/v41^b.3/ v41^b*3.3/ v41^b*6.3/ v41^b*9.3/ v41^b*12.3/ v41^b*15.3/ v41^b*18.3
Como el subcampo b del campo 41 tiene un patrón de ingreso que especifica que cada idioma ocupa 3 posiciones, utilizando las opciones de desplazamiento y la longitud podemos enviar cada idioma a la lista invertida
50 0 v50^a/v50^a,v50^b
En este ejemplo estamos generando dos claves para cada clasificación LC. La primera v50^a nos permitirá realizar búsquedas por grupos temáticos.
La segunda clave generada nos permitirá ubicar un número de clasificación en particular. Fijese de nuevo la presencia del caracter de salto de línea (/), el cual obliga a generar dos claves independientes
v5.4/v5.6/v5
Con la fecha de ingreso del documento estamos generando tres claves: la primera v5.4 nos permitirá ubicar rápidamente todos los materiales ingresados en un ańo; la segunda v5.6 recuperará los ingresos de un
mes; y la tercera v5 los ingresos correspondientes a un día.
Note que generar estas tres claves (por ańo, ańo-mes y ańo-mes-dia) hace más eficiente la recuperación de información que generando una sola clave a nivel de ańo,mes y día y aplicar el operador de truncación a la derecha para hacer búsquedas por ańo y por ańo y mes
Uso de prefijos en el proceso de generación de claves
Como el diccionario de términos es un único archivo con todas las claves ordenadas alfabéticamente, en el mismo se presentan mezclados los autores con los títulos, con las palabras claves y, en general, con todos los campos que hayan sido indizados en la FST .
Si queremos tener separadas las claves según el campo desde el cual fueron generadas tenemos dos soluciones:
- Utilizar prefijos al momento de generar las claves de indización con el objeto de crear subdiccionarios al interior del diccionario de términos
- Crear diccionarios por separado de acuerdo al contenido de cada uno de los campos.
De acuerdo con la primera opción, si la fst
Título (245) | 245 4 v245^a |
Autores (100 y 700) | 100 0 v100^a/,(v700^a/) 100 4 v100^a/(v700^a/) |
Materias (650) | 650 1 (v650*2/) 650 4 (v650*2/) |
Idiomas (41) | 41 0 v41^a/v41^b.3/ v41^b*3.3/ v41^b*6.3/ v41^b*9.3/ v41^b*12.3/ v41^b*15.3/ v41^b*18.3 |
Editorial (260) | 260 0 v260^b |
Fecha de edición(260) | 260 0 v260^c |
Clasificacion LC (50) | 50 0 v260^a/v260^a,v260^b |
Fecha de ingreso a la base de datos (5) | 5 0 v5.4/v5.6/v5 |
la cambiamos por
**Título (245)** | 245 8 '/T:/',v245^a | ||
**Autores (100 y 700)** | 100 0 "A:"v100^a/,(|A:|v700^a/) 100 8 '/A:/',v100^a/(|A:|v700^a/) | ||
**Materias (650)** | 650 5 '/M:/',(v650\*2/) 650 4 '/M:/',(v650\*2/) | ||
**Idiomas (41)** |
|
||
**Editorial (260)** | 260 0 "E:"v260^b | ||
**Fecha de edición(260)** | 260 0 "F:"v260^c | ||
**Clasificacion LC (50)** | 50 0 "C:"v260^a/"C:"v260^a,v260^b | ||
**Fecha de ingreso a la base de datos (5)** | 5 0 "F:"v5.4/"F:"v5.6/"F:"v5 |
Como puede observarse hemos hecho los siguientes cambios:
Técnica | Cambiada a |
1 | 5 |
4 | 8 |
A las claves que se estan indizando con técnica 0, basta agregarles un pre-literal con el prefijo que queremos utilizar para diferenciar los datos. Para el resto de las técnicas de indización (5, 6, 7 y 8) el prefijo se debe indicar antes del formato de extracción con siguiente sintaxis:
- el prefijo se encierra entre apóstrofes (literal no condicional)
- el literal correspondiente al prefijo se encierra entre dos caracteres especiales que no estén incluídos en el prefijo.
ejemplo:
'/A:/'
'\#A:\#'
Además de permitirnos ver el contenido de un campo en forma ordenada, sin mezclar los términos obtenidos de otros campos, la búsqueda a través de un prefijo es más rápida que la búsqueda cualificada; esto es:
Buscar M:Educación es más eficiente que Educación/(650) por cuanto la búsqueda cualificada requiere revisar cada uno de los apuntadores (postings) del término.
Sin embargo, dependiendo de la experiencia de nuestros usuarios finales y de la capacidad del equipo donde tenemos instalada nuestra base de datos, tal vez convenga indizar los datos de varias maneras diferentes, con prefijo y sin prefijo, a fin de proporcionar a nuestros usuarios mayor flexibilidad en las búsquedas. Más claves de búsqueda significa mayor espacio en disco y no necesariamente menor velocidad de recuperación, dada la estructura de la lista invertida (árbol B*) la cual se reorganiza constantemente para que la altura del árbol sea siempre la misma en todas sus ramas (la altura del árbol refleja el número de accesos requeridos para ubicar un término en la lista invertida).
Los productos de la familia CDS/Isis permiten definir más de un diccionario de términos para una base de datos. Esto es, podemos crear un diccionario para autores, otro para títulos, etc. Sin embargo, para que los términos de diferentes campos puedan combinarse entre sí, en una misma expresión de búsqueda, a través de los operadores booleanos siempre será necesario definir un diccionario general que los agrupe a todos ya que no es posible cruzar los términos de un diccionario con los términos de otro diccionario. La facilidad de diccionarios particulares sustituye el uso de prefijos para presentar al usuario los términos extraídos de un campo en particular y permite operar lógicamente los términos de un mismo diccionario.
Transparencia en el uso de mayúsculas, minúsculas y caracteres especiales
Una de las bondades del mecanismo de búsqueda del CDS/Isis radica en la transparencia que brinda en el uso de mayúsculas, minúsculas o caracteres especiales en los términos de búsqueda.Para lograr este objetivo, todas las claves se almacenan en la lista invertida en mayúsculas, y si así lo hemos previsto, los caracteres acentuados se transforman a su equivalente en mayúscula. Las expresiones de búsqueda que suministra el usuario son transformadas igualmente a mayúsculas lo que minimiza el error por errores de digitación del usuario.
La conversión de las claves y expresiones de búsqueda, se hace mediante el archivo ISISUC.TAB el cual debe estar en concordancia con el juego de caracteres adoptado para la base de datos (ver Tabla de conversión de mayúsculas a minúsculas).
Cuando indizamos los campos con la técnica 4 u 8 (por palabras) CDS/Isis utiliza la tabla ISISAC.TAB para establecer la composición del concepto “palabra”; esto es, la tabla ISISAC.TAB le indica a CDS/Isis qué caracteres debe considerar como alfabéticos para formar las palabras. Cualquier caracter no insertado en ISISAC.TAB será considerado un separador y dará por terminada la palabra.
Supongamos que en ISISUC.TAB hacemos equivalente la letra ñ a su expresión en mayúscula Ñ. Si en ISISAC.TAB no incluímos el código correspondiente a la Ñ (209 en Ansi)
las palabras: aparecerán en el índice como
niño NI O
cañería CA ERIA
cañaveral CA AVERAL
acuñación ACU ACION
esto es, cada palabra se divide en dos, generando dos entradas en el diccionario, ya que al no estar la Ñ incluída en ISISAC.TAB se considera un separador igual que un signo de puntuación.
Ver:
Juego de caracteres ANSI
Tabla de caracteres alfabéticos (ISISAC.TAB)
048 049 050 051 052 053 054 055 056 057 065 066 067 068 069 070 071 072 073 074 075 076 077 078 079 080 081 082 083 084 085 086 087 088 089 090 097 098 099 100 101 102 103 104 105 106 107 108 109 110
111 112 113 114 115 116 117 118 119 120 121 122 192 193 194 195 196 197 199 200 201 202 203 204 205 206 207 209 210 211 212 213 214 216 217 218 219 220 221 224 225 226 227 228 229 231 232 233 234 235 236 237 238 239 241 242 243 244 245 246 248 249 250 251 252 253 255
Cada linea debe tener 32 caracteres ansi. En esta tabla se han incluído los números como caracteres alfabéticos a fin de que las referencias numéricas puedan ser indizadas por técnica 4. Corresponde a los valores 048 049 050 051 052 053 054 055 056 057, correspondiente a los dígitos 0 1 2 3 5 6 7 8 9. También se ha incluído la Ñ (209) como caracter alfabético
Tabla de conversión de minúsculas a mayúsculas (ISISUC.TAB)
000 001 002 003 004 005 006 007 008 009 010 011 012 013 014 015 016 017 018 019 020 021 022 023 024 025 026 027 028 028 030 031 032 033 034 035 036 037 038 039 040 041 042 043 044 045 046 047 048 049 050 051 052 053 054 055 056 057 058 059 060 061 062 063 064 065 066 067 068 069 070 071 072 073 074 075 076 077 078 079 080 081 082 083 084 085 086 087 088 089 090 091 092 093 094 095 096 065 066 067 068 069 070 071 072 073 074 075 076 077 078 079 080 081 082 083 084 085 086 087 088 089 090 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 065 065 065 065 065 065 065 199 069 069 069 069 073 073 073 073 208 209 079 079 079 079 079 215 216 085 085 085 085 089 222 223 065 065 065 065 065 065 065 199 069 069 069 069 073 073 073 073 079 209 079 079 079 079 079 247 248 085 085 085 085 089 254 089
En esta tabla están representados los 256 caracteres ANSI y tiene que estar formada por 32 caracteres ansi por línea, para un total de 8 líneas.
Cada posición de 3 dígitos corresponde el valor original del caracter ANSI y ella se debe colocar el valor que se desee asignar al caracter en la conversión a mayúsculas cuando se genera la lista invertida o se usan los comandos del lenguaje de formatos mpu, mhu, mdu
Por ejemplo en el caso de la ñ y Ñ la tabla se interpreta de la siguiente manera:
ñ tiene como código ANSI el valor 241; por lo tanto si se desea obtener Ñ en los procesos de conversión a mayúscula, se debe colocar en a posición 241 de la tabla el valor 209 que corresponde al código ANSI del caracter Ñ.
Del mismo modo, si se desea que la Ñ mayúscula (código ANSI 209) mantenga su representación, en la posición 209 de la tabla se debe colocar el valor 209 que el código ANSI de la Ñ mayúscula
Por el contrario, si se desea que los caracteres ñ y Ñ sean convertidos ambos a la letra N debe alterar las posiciones 209 y 241 de la tabla y colocarles el valor 078.
La tabla isisuc.tab que se distribuye en ABCD los caracteres ñ y Ñ se transforman a Ñ. Si desea su conversión a N, busque en la tabla isisuc.tab y donde lea 209 coloque 078.
Formato de entrada
Los formatos de entrada tienen la misma estructura de la Tabla de definición de campos y determinan los campos que van a presentarse en el proceso de ingreso/edición de un registro. Generalmente están asociadas a Tipos de registro.
Esta división en tipos de registro es muy usada cuando hablamos de los formatos Marc y Cepal ya que la información a ser suministrada varía dependiendo del tipo de registro seleccionado por el usuario.
La estructura de un formato de entrada es la misma de la FDT. Adicionalmente, si a nivel de un campo se marca la columna Vincular con la FDT, los cambios que se realizen en la FDT serán automáticamente absorbidos por la hoja de entrada.
Cuando se define en una hoja de entrada un campo con subcampos y alguno de los subcampos no requieren ser editados, los mismos tienen que agregarse en la hoja de entrada como invisibles o solo lectura ya que de otra forma, al momento de actualizar el registro, se eliminará el contenido de los subcampos omitidos en el formulario de ingreso.
Tipos de registro
Si la información que se rellena en una base de datos no es la misma en todos los casos y depende de las características del material que se está ingresando, entonces podemos decir que la base de datos posee Tipos de Registro. Un ejemplo de este tipo de estructura se observa en la base de datos bibliográfica definida con el formato CEPAL en la cual la FDT posee todos los campos que se pueden registrar y luego los mismos están agrupados en diferentes hojas de ingreso que reflejan sólo aquellos que corresponden a un tipo de material.
Para definir una base de datos con diferentes tipos de registro siga las siguientes instrucciones a partir del menú Definición de bases de datos
Crear las hojas de entrada
- Defina la FDT general de la base de datos con todos los campos existentes
- Defina en la FDT uno o dos campos donde se registrará el tipo de registro de cada material (ejemplo 4 y 6 en la base de datos CEPAL incluída en la demostración
- Establezca los códigos de registro
Ejemplo:
Tipo de registro campo 4 campo 6
Monografía M m
Analítica de monografía M a
Publicación seriada S s
Analítica de seriada S a
Tesis T M
Colección C C
Monografía de colección M c
- Defina las Hojas de trabajo seleccionando los campos que corresponden a cada tipo de registro. Dele un nombre a cada hoja de trabajo y almacénela.
Nota: Si marca la opción Vincular todos los campos con la FDT los cambios que se realizen sobre
la FDT serán reflejados en la hoja de entrada, excepto cuando se trate de adiciones o eliminaciones
Repita este proceso tantas veces como tipos de registro haya definido.
Vincular las hojas de trabajo a los tipos de registro
Una vez que haya definido las hojas de trabajo debe proceder a vincularlas a los tipos de registro. Para ello seleccione la opción Tipos de registro del menú de definición de bases de datos y rellene la siguiente información:
Etiqueta 1 | Etiqueta del campo de la FDT donde se identifica el tipo de registro |
---|---|
Etiqueta 2 | Etiqueta de otro campo de la FDT que sirve como complemento para identificar el tipo de registro (opcional) |
A continuación se procede a solicitar la información que vincula el campo el tipo de registro con las hojas de entrada definidas. La información requerida es:
Hoja de entrada de datos (FMT) | Presenta un menu desplegable con las hojas de entrada definidas en el proceso anterior |
---|---|
Valor del campo Etiqueta 1 | Corresponde la valor que se almacenará en el campo definido como Etiqueta 1 para definir el tipo de registro |
Valor del campo Etiqueta 1 | Corresponde la valor que se almacenará en el campo definido como Etiqueta 2 para complementar la definicion del tipo de registro (opcional) |
Descripción del tipo de registro | Información que se mostrará en el procedimiento de creación de registros cuando se solicite la creación de un nuevo registro |
Esta estructura se almacena en la carpeta def/[lenguaje-activo] de la base de datos bajo el nombre tipom.tab
Aplicación de los tipos de registro en el proceso de creación/edición
Creación de registros
Cuando se solicita la creación de un registro, se presenta la lista de tipos de registros tal y como fue definida en el paso anterior. El operador debe seleccionar el tipo de corresponde para que ABCD pueda determinar la hoja de entrada asociada con el mismo. Se presenta la hoja de entrada y el operador puede proceder a ingresar la información.
Edición de registros
Cuando se activa una base de datos, ABCD almacena la estructura correspondiente a los tipos de registros definidos. Al solicitar la edición de los registros, ABCD analiza el contenido de los campos definidos en Etiqueta 1 y Etiqueta 2 para determinar la hoja de entrada a utilizar para la edición del registro. Sin embargo, si en el menú desplegable que se identifica como Hojas de entrada existe un formato de ingreso previamente seleccionado, ABCD utilizará ese formato para realizar la edición del registro.
Formatos de presentación de los registros
- Manual del lenguaje de formatos del CISIS
- Formatos de salida que integran la información de bases de datos relacionadas
- Agregar un javascript a la presentación de los registros en el módulo de catalogación
- Colocar un vínculo para envío de correo
Archivos dbn.par y syspar.par
dbn.par
Este archivo, donde dbn corresponde al nombre de una de las bases de datos gestionadas bajo ABCD, contiene el direccionamiento hacia los recursos de la base de datos en referencia. Se localiza bajo el directorio par de la carpeta de bases de datos
Por ejemplo, si hemos definido una base de datos con el nombre biblo el archivo biblo.par tenrá el siguiente contenido:
biblo.*=%path_database%biblo/data/biblo.*
prologoact.pft=%path_database%www/prologoact.pft
epilogoact.pft=%path_database%www/epilogoact.pft
autoridades.pft=%path_database%biblo/pfts/en/autoridades.pft
biblo.* es el parámetro que direcciona a los archivos de la base de datos:
biblo.mst
biblo.xrf
biblo.cnt
biblo.n01
biblo.n02
biblo.l01
biblo.l02
biblo.ifp
biblo.fst
En esa línea el parámetro %path_database% corresponde al valor del parámetro $db_path del config.php, o si trabaja con varias carpetas bases el camino de acceso hacia la carpeta bases activa.
prologoact.pft es el formato que se aplica para formar el encabezado del registro que se muestra en el área de edición. Contiene todos los javascripts y estilos que se utilizarán para opciones adicionales de presentación del registro (ver Formatos de presentación de los registros). Por defecto este formato se almacena en la sub-carpeta www de la carpeta de las bases de datos.
epilogoact.pft es el formato que se aplica para formar el pie de página en la ventana de presentación de un registro. Por defecto se almacena en la sub-carpeta www de la carpeta de bases de datos y tiene el siguiente contenido:
'<script>
if (top.frames.length>0){
if (top.Capturando=="" && top.ModuloActivo=="catalog"){
top.mfn='v1001'
top.maxmfn='v1002'
top.menu.forma1.ir_a.value="'v1001'/'v1002'"
}
}
</script>
</form>
</body>
</html>'
Este formato no debe alterarse ya que el javascript permite la navegación a través de las opciones para avanzar y retroceder entre los registros de la barra de navegación del módulo de catalogación.
autoridades.pft se utiliza para indicar la forma como se van a extraer los campos de la base de datos cuando se utilizan los archivos de índices para control de terminología. (Ver Control de terminología: Listas de autoridades)
syspar.par
El archivo syspar.par es un complemento al dbn.par y se utiliza a efectos de la localización de los recursos de otra base de datos cuando son accedidas desde la base de datos activa (ver Formatos de salida que integran la información de bases de datos relacionadas).
La mención a cualquier recurso de otra base de datos o formato de la misma desde la base de datos activa, debe estar referenciada en este archivo.
Ejemplo del syspar.par de una instalación de bases de datos con el uso de copias (copies) y objetos de préstamo (loanobjects)
biblo.*=%path_database%/biblo/data/biblo.*
marc.*=%path_database%marc/data/marc.*
users.*=%path_database%users/data/users.*
copies.*=%path_database%copies/data/copies.*
loanobjects.*=%path_database%loanobjects/data/loanobjects.*
suspml.*=%path_database%suspml/data/suspml.*
trans.*=%path_database%trans/data/trans.*
prologoact.pft=%path_database%www/prologoact.pft
epilogoact.pft=%path_database%www/epilogoact.pft
prologo.pft=%path_database%www/prologo.pft
epilogo.pft=%path_database%www/epilogo.pft
isisuc.tab=%path_database%isisuc.tab
isisac.tab=%path_database%isisac.tab
Esta configuración garantiza que desde una base de datos activa puede accederse cualquier otra base de datos utilizando el comando REF o del comando NPOST del lenguaje de formateo o la expresion
/'$$REF:Base_de_datos, Formato, Expresion de búsqueda'/
que provee ABCD para integrar la información de varias bases de datos en un formato de salida
Nótese los parámetros
isisuc.tab=%path_database%isisuc.tab
isisac.tab=%path_database%isisac.tab
utilizados para direccionar la Tabla de caracteres alfabéticos (isisac.tab) y la Tabla de conversión de minúsculas a mayúsculas (isisuc.tab) utilizadas en el proceso de actualización del Diccionario de términos (Índices)