La indizacion de documentos

A la hora de analizar el contenido de un documento disponemos de dos herramientas: la elaboración de resúmenes y la indización.

Ya en el post anterior vimos la creación de resumenes en los servicios de informacion, por lo que en este articulo abordaremos la indización de los documentos. Al final de este articulo encontrareis un resumen de este post en forma de infografia.

La indización tiene una doble finalidad. Por un lado, permite identificar y clasificar los documentos. Por otro lado, permite recuperar dichos documentos, utilizando los conceptos y materias sobre los que trata.

 

Indizacion de documentos - Dokutekana

 

¿QUE ES LA INDIZACION?

 

En el proceso de indización lo que hacemos es analizar el contenido del documento para extraer los conceptos o ideas esenciales que lo representan y posteriormente traducir estos conceptos a un lenguaje que permita localizarlos.

La indizacion se utiliza en la fase de entrada de los documentos en el sistema documental, ya que permite identificar y clasificar los documentos. Pero también se emplea en la fase de salida, cuando se formulan las preguntas que permitirán localizarlos. De hecho, lo que hace posible la recuperación de los documentos es que los términos usados en la clasificación sean los mismos que los empleados en la búsqueda.

La seleccion de los terminos de indizacion se basa en los principios de relevancia, pertinencia, profundidad y unidad de sentido o consistencia.

La indizacion puede estar basada en:

  • Palabras / Indización por uniterminos o palabras clave:  es un sistema postcoordinado, porque la coordinación se produce en el momento de la recuperación. Su uso es habitual en los motores de búsqueda y complementario en bases de datos y catálogos de bibliotecas, donde se recuperan los documentos a partir de unitérminos de titulo, resumen o descriptores y encabezamientos de materia.
  • Conceptos / Indización por descriptores: está controlada por tesauros y es un sistema postcoordinado. Evita la ambigüedad porque no se basa en palabras sino en conceptos y para evitar las falsas combinaciones precoordina los términos cuando es necesario. Es de uso general en bases de datos y centros de documentación.
  • Temas / Indización por materias: consiste es la correlación sucesiva de diferentes encabezamientos que expresan el tema o temas de un documento. Es una indización precoordinada, es decir, la coordinación se produce en el momento del almacenamiento. Su principal ventaja es que prácticamente no da cabida a falsas combinaciones entre los términos, ya que cada cual ocupa su posición. Se utiliza prioritariamente en los catálogos de las bibliotecas.

 

 

¿LENGUAJE NATURAL O LENGUAJE DOCUMENTAL?

 

La indizacion se puede realizar usando tanto el lenguaje natural como el lenguaje documental, todo dependerá de las necesidades y recursos del centro de documentación. De hecho muchas bases de datos combinan la utilización de ambos.

Actualmente el lenguaje natural esta muy vivo, debido a los ingentes depósitos documentales, redes, motores de búsqueda, etc.

Si bien es cierto que cada lenguaje tiene sus ventajas. Por ejemplo, el lenguaje natural permite el uso de un vocabulario ilimitado, por lo que mejora los resultados cuando la información que se busca es muy especifica.

Por su parte el lenguaje controlado ayuda a acotar los términos de búsqueda, reduciendo las ambigüedades semánticas, mejorando la consistencia en la representación de la materia y facilitando la búsquedas amplias.

En cuanto a los costes de usar un lenguaje u otro, el lenguaje controlado requiere de un mayor esfuerzo y coste en la fase de entrada del documento en el sistema. Mientras que los sistemas que usan el lenguaje libre exigen un mayor coste en la fase de salida, es decir, durante la búsqueda.

Si quereis saber algo mas sobre los lenguajes documentales podeis leer el post Lenguajes para la recuperación de información.

 

 

FASES EN EL PROCESO DE INDIZACION

 

Las etapas fundamentales del proceso de indización son:

  1. Examen y reconocimiento del documento.
  2. Identificación y selección de los conceptos principales.
  3. Selección de los términos que lo representan.
  4. Normalización de los términos extraídos.

Veamos brevemente cada una de ellas.

1. Reconocimiento del contenido documental.

Se trata de la lectura rápida, visionado o audición (dependiendo del soporte) del documento para saber de qué va.

En los documentos bibliográficos las partes que mayor información aportan para la indización son: titulo, sumario, indice de materias y conclusiones. También es importante la información contenida  en títulos, introducción y conclusiones de los capítulos, así como los enunciados de las tablas y figuras del documento. Sin olvidarnos de las frases o términos destacados por el autor de la obra.

 

2. Identificación de las nociones principales, a través de la segmentación del texto.

Se trata de obtener las ideas principales, obviando las informaciones superfluas, marginales o imprecisas.

Para ello interesa conocer cuál es el objeto del documento y para que puede servirle al usuario. Se trata de identificar los objetivos del análisis realizado por el autor del documento, la metodología que utiliza, los resultados y las conclusiones obtenidas.

Si el documento trata de varios temas diferente habrá que subdividirlo en varias partes.

 

3. Selección de los términos de indización.

Una vez identificadas las nociones principales sobre las que trata el documento, es necesario ordenarlas. Para ello nos basaremos en la observación de las relaciones entre las posibles palabras clave: de recurrencia, equivalencia, oposición, paralelismo, simetría, inversión, etc.

Con todo ello elegimos los términos que mejor representen estas nociones y los extraemos.

En esta fase es necesario tener en cuenta los objetivos del centro de documentación, las necesidades de los usuarios, los documentos ya incluidos en el sistema y los requisitos del sistema documental. Esto quiere decir, que un mismo documento puede ser indizado por términos distintos según las áreas de interés de los usuarios y del centro de documentación que la lleve a cabo.

 

4. Normalización de los términos extraídos.

En esta fase se trata de unificar criterios para que se sigan las mismas normas a la hora de realizar la indización.  Así se consigue, que independientemente del documentalista que lo haga, se elijan los mismos términos para indizar un mismo documento.

Por ejemplo, transformando las formas verbales y adjetivas en formas nominales y usando por defecto el masculino plural para los sustantivos.

 

 

AUTOMATIZACION DE LA INDIZACION

La evolucion de la tecnologia ha posiblitado la automatizacion o semiautomatizacion del proceso de indización.

Actualmente la indización realizada por humanos en la más precisa por su capacidad para leer en contexto, para improvisar y para adaptarse a lo nuevo. Aunque al ser menos rápida resulta mas costosa que la automática.

En un futuro se espera que las maquinas puedan ser capaces de seleccionar los términos, no por su presencia en el texto, sino por su valor contextual.

Los procesos de indización automáticos o semiautomáticos constan de las siguientes fases:

  • Extraccion de los terminos, analizando las cadenas independientes de caracteres con el fin de identificar palabras.
  • Eliminacion de palabras vacias o stopwords.
  • Identificacion de las raices de las palabras (lexemas) o stemming.
  • Seleccion de terminos para el indice, utilizando fundamentalmente tecnicas estadisticas. La frecuencia de aparicion suele ser muestra de mayor representatividad.
  • Agrupacion de documentos de contenido similar, mediante la creacion de clusters.
  • Compresion, para obtener ficheros de menor tamaño.

 

 

INFOGRAFIA

Infografia: Indizacion de documentos - Dokutekana

 

 

Buenos, pues hemos llegado al final. Espero que os haya resultado útil. Podéis dejar vuestros comentarios debajo del post.

 

 

Anuncios

Un comentario en “La indizacion de documentos

  1. Pingback: ¿Qué es el Análisis Documental? – DOKUTEKANA

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión /  Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión /  Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión /  Cambiar )

Conectando a %s