Nota: Se procura por outros significados de
indexação, veja
indexação.
A indexação, ou representação temática, é a ação de descrever e identificar um documento de acordo com o seu assunto.
Definição
Como atividade integrante do tratamento temático da informação documental, a indexação tem por finalidade conhecer o conteúdo de documentos, identificando termos que representem seu assunto, com o objetivo de referenciá-los para uma melhor recuperação da informação em catálogos e sistemas de recuperação da informação. Segundo F. W. Lancaster, a indexação de assuntos é normalmente feita visando a atender às necessidades de determinada clientela, ou seja, é preciso que se tome uma decisão não somente quanto ao que é tratado no documento, mas por que ele se reveste de provável interesse para determinado grupo de usuários.[1]
A indexação surge no contexto da chamada "explosão bibliográfica" após a II Guerra Mundial para o controle bibliográfico em centros de documentação especializados, o conceito surgiu da elaboração de índices, e está hoje vinculada ao conceito de análise de assunto.[2]
A determinação do assunto do documento ocorre por meio da análise conceitual do documento, realizada pela leitura documental. O bibliotecário é tido como um sujeito leitor[3], enquanto indexador, porque ele faz uma leitura técnica antes de indexar um documento. Para haver qualidade na produção dessa leitura, é viável que as operações documentais sejam feitas de maneira objetiva, visando o acesso a todas as fontes de informação de uma biblioteca ou centro de documentação.
Com o objetivo de encontrar facilidade em fazer uma indexação, é necessário que o bibliotecário estabeleça alguns parâmetros para a facilitação do seu trabalho, denominados de política de indexação que analisa as concepções existentes acerca da política de indexação e as percepções em torno de sua elaboração por parte de discentes do curso de graduação em Biblioteconomia. Metodologicamente tem-se um estudo de tipo exploratório-descritivo com abordagem quantitativa e coleta de dados via questionário online. Os resultados indicam que os graduandos entendem a política como um documento formalmente instituído, importante para todos os elos da cadeia – gestor da biblioteca, bibliotecário e usuário – porque permite aperfeiçoar o tratamento da informação. Os discentes consideram-se aptos a construir uma política com apoio dos colegas de trabalho, sendo que partiriam da compreensão do público da unidade para esse intento. Ainda enxergam como grande dificuldade na elaboração da política de indexação o estabelecimento de uma visão institucional forte e unificada sobre o tratamento temático e o delineamento do nível de exaustividade e da coordenação dos termos. Conclui-se que predomina a concepção de política como normativa de existência formal e a percepção de elaboração colaborativa centrada no usuário.
Como o bibliotecário indexa os documentos?
Os termos utilizados na indexação serão com frequência ATRIBUÍDOS de algum tipo de vocabulário controlado, como um tesauro (o vocabulário do sistema), mas, em vez disso, podem também ser termos livres (EXTRAÍDOS do próprio documento).
Inicialmente, o bibliotecário analisa o documento, suas seções, estrutura e tipologia textual, faz a leitura técnica de determinados elementos que lhe dá os termos mais utilizados. Além disso, é necessária a análise semântica do texto, decidindo sob que perspectiva o documento trata determinado assunto e quais as intenções do autor daquele texto.
Por exemplo, a abordagem de uma tese de doutorado sobre a crítica à política brasileira, será diferente um livro com um conjunto de colunas e anedotas jornalísticas que satiriza e critica a política brasileira, embora o termo política brasileira, e abordar isso de forma crítica, lhes seja comum. Se aquela tese e aquele livro são objetos tradicionais, ou seja, impressos, provavelmente serão classificados e o consulente poderia supor que o primeiro estar na estante da ciência política e o segundo na de comunicação, já lhe daria um indício breve dessa discrepância. Entretanto, se ambos são documentos digitais, e possivelmente, não classificados, é necessária uma abordagem de maior ênfase na especificidade do contexto semântico dos dois documentos. Assim, essa é a tarefa do bibliotecário diante da indexação.
Isso refletirá na Recuperação da Informação (RI), bem como no Processo de Busca e Recuperação da Informação (PBRI), que é a estratégia de busca que o bibliotecário aplica na base de dados, diante uma necessidade de informação do consulente.
Com a inserção dos dispositivos de reconhecimento óticos de caracteres (OCR) e da digitalização, bem como, dos documentos digitais, sejam eles natos ou digitalizados, começa a introduzir na Ciência da Informação um campo de pesquisa que se inicia denominando-se por sumarização. Esse campo de pesquisa, na verdade, era uma pré inteligência artificial que nada mais fazia do que contar as palavras e as palavras com mais repetições em um documento digital. Descartando-se conectivos e outras palavras sem carga semântica, observava-se certa repetição daquilo que se caracterizava como os conceitos que determinado texto carregava.
A sumarização, atualmente, é o processo de condensar informações de um texto, documento ou conjunto de dados para produzir uma versão mais curta e sucinta, que contenha apenas os pontos principais e relevantes. Esse processo pode ser feito de forma manual, por humanos, ou automaticamente, por algoritmos de sumarização, que utilizam técnicas de processamento de linguagem natural e aprendizado de máquina para identificar e extrair as informações mais importantes. A sumarização é útil em várias áreas, como pesquisa acadêmica, biblioteconomia, jornalismo, análise de dados e resumos de texto para economizar tempo.
Diversas técnicas e pesquisas aplicadas na Biblioteconomia e Ciência da Informação tem sido direcionadas à análise de assuntos de documentos, inclusive com o uso da tecnologia. Tudo isso começa com as leis bibliométricas, as de Zipf, a de Lotka e a de Bradford que se iniciaram nas incursões de Paul Otlet, em seu Tratado de Documentação (1934), daquilo que um dia iria se chamar Ciência da Informação. A contagem de palavras de algumas dessas leis, nortearam as pesquisas sobre ocorrência de termos e representação de assuntos em documentos. Após a Segunda Guerra Mundial, os primeiros Sistemas de Recuperação da Informação também iniciaram pesquisas no que a área denomina de Unitermo.
Ainda com sistemas computacionais incipientes, tais como eram na década de 1960, muita pesquisa foi feita nas técnicas de índices pré-coordenado e pós-coordenados[1]. A digitação dos termos com determinada configuração trazia resultados interessantes para a área. Esses resultados impactavam na acessibilidade aos documentos, na relação de design entre usuário e computador, mesmo que rudimentar, no reuso da informação e até refletiam apontamentos para a atual área de arquitetura da informação.
Nos anos 1970 até 1990, com a Internet, as pesquisas sobre o tema cerceiam metadados de objetos digitais. Pesquisas sobre a semântica dos metadados, dos esquemas RDF, XML e OWL, as premissas do Dublin Core para dados da Internet, entre outros, consubstanciaram a importância da indexação no que se refere à tratamento da informação. Assim, não há que se falar em gerência de dados e informação, atualmente, sem tratar de metadados e indexação. 3
Por isso, a indexação pode ser, ainda, intelectual, realizada por humanos, ou automática[4].
Muitas organizações empresariais afirmam realizar a taxonomia das informações, o que é relativamente semelhante, visto que é uma categorização (classificação), mas utilizando palavras (termos de indexação). Já a ontologia, é uma abordagem mais profunda e vai no cerne de determinado campo de conhecimento, pontuar e delimitar o que cada termo significa. Por exemplo: Melancia, na agricultura, é diferente de Melancia, em determinadas falas sobre a política brasileira e, também, é diferente de determinados movimentos na política externa.
A ontologia possui aplicações na Tecnologia da Informação e nasceu no contexto da filosofia. Assim, pelo fato da TI abordar a informação indiretamente, ela necessita aplicar uma técnica de análise semântica dos objetos da internet. Em alguns casos, é apenas um nome requintado para a necessidade de se construir hipervínculos entre objetos, fazendo assim, toda a delimitação do termo, e assim, analisando-se os aspectos do mesmo. Em outros, se relaciona a aprendizado de máquina. O aprendizado de máquina é tal como proposto por Aristóteles, se classifica, se faz uma glossologia e se categoriza, para poder entender um conceito. Entretanto, essas formas imateriais platônicas, objeto da metafísica e da ontologia, elas não são tão rígidas quanto parecia para aqueles gregos, elas mutacionam, e em um ritmo acelerado:
Fazendo um paralelo com a polissemia -- Ex.: banco (assento público) e banco (instituição financeira), observa-se que "banco" difere de "melancia", pois "banco" já, há determinado tempo, e consenso, possui espaço no vernáculo da língua, sendo um conceito de pouca complexidade. Mas "melancia" não possui esse espaço, pois é algo recente. A melancia (fruta), a melancia (termo perjorativo) e a melancia (representação de uma bandeira) somente a ontologia dá conta de abordá-la, pois delimita o que o termo significa no contexto semântico de uma disciplina, no caso, a política. Interessante observar que a inteligência artificial ainda não consegue dar conta desse tratamento. Em consulta à inteligência artificial pelo termo, ela apresentou um viés da primeira resposta da aplicação (sentido perjorativo na política brasileira) na segunda resposta da aplicação (representação das cores da melancia que são as mesmas da bandeira, pois a representação explícita da bandeira palestina é proibida), visto que a inteligência utilizada não analisa imagens e nem consegue captar certas nuances, no caso, a capacidade humana de representar criativamente uma fruta à uma bandeira.
Quais são as etapas?
O propósito principal da elaboração de índices e resu- mos é construir representações de documentos publicados numa forma que se preste a sua inclusão em algum tipo de base de dados[1]. A indexação é o processo de atribuir termos ou códigos de indexação a um registro ou documento, termos ou códigos esses que serão úteis posteriormente na recuperação do documento ou registro[4].
Duas são as etapas básicas da indexação[1]:
- Análise conceitual;
- Tradução.
Os documentalistas atribuem três operações básicas inerentes ao processo de indexação[5], dentro de um conjunto de atividades documentárias, sendo elas:
- Análise - leitura e segmentação do texto para a identificação e a seleção de conceitos;
- Síntese - construção do texto documentário com os conceitos selecionados;
- Representação - ou tradução, por meio de linguagens documentárias.
São estágios da indexação:
- Familiarização;
- Análise;
- Conversão de conceitos em descritores.
Portanto, tem-se: Etapas[1], processo em três etapas[5] e estágios de indexação[4].
Tipos de indexação
Conforme visto, a indexação pode ser automática ou intelectual (realizada por seres humanos). Mas ela também pode ser: [4]
- Indexação por atribuição. Os termos são atribuídos a partir de um vocabulário controlado, p.ex., tesauro, lista de assuntos.
- Indexação por extração (derivada). Os termos são livres, sem uso de linguagens, retirados do próprio documento.
Normalização
A primeira norma publicada a esse respeito é de responsabilidade da International Organization for Standardization (ISO), publicada em 1985 sob o título "Documentation - methods for examining documents, determining their subjects, and selecting indexing terms" de número 5963.
Em 1992 a Associação Brasileira de Normas Técnicas (ABNT) traduziu a norma ISO 5963, publicando a como NBR 12.676 "Métodos para análise de documentos - determinação de seus assuntos e seleção de termos de indexação"[6].
Indexação e catalogação
Existem várias teorias e metodologias concernentes a indexação e catalogação de assuntos, explorando a opinião de diversos autores, em épocas diferentes. Pode-se considerar a indexação na catalogação e discutir as divergências entre os termos indexação e catalogação de assunto, frisando que ambos os processos estão inseridos no tratamento documental.
Diferenciando-se o tratamento descritivo do temático, atribui-se ao primeiro o processo de catalogação, detendo-se no processo de descrição física do documento (autor, título, edição, casa publicadora, data, número de páginas e etc.). O tratamento temático, por sua vez, preocupa-se na apreciação do assunto no documento, em bibliotecas, que abrange atividades tais como: indexação, classificação, catalogação de assuntos e elaboração de resumos.
A catalogação está ligada a produção de cabeçalhos ou de catálogos para bibliotecas, ou afins. Alguns autores entendem, contudo que catalogação de assuntos e indexação são uma coisa só, outros discordam, esses entendimentos estão ligados a história e evolução de cada uma destas atividades. Não obstante, para aqueles que a diferenciam, podem defendê-las como processos intelectuais que representam o documento por meio de assuntos, para posteriormente serem recuperados.[7]
O profissional ao indexar deve ter cuidado para não provocar “ruídos” ou “silêncios”. Os “ruídos” são entendidos por documentos recuperados com descritores que não correspondem ao seu real conteúdo. E os “silêncios” estão relacionados às informações presentes no acervo, porém não são recuperados.
Referências
- ↑ a b c d e LANCASTER, F. W. Indexação e resumos: teoria e prática. 2. ed. Brasília: Briquet de Lemos, 2004.
- ↑ SILVA, M. dos R. da; FUJITA, M. S. L. A prática da indexação: análise da evolução de tendências teóricas e metodológicas. TransInformação, Campinas, v. 16, n. 2, p. 133-161, maio/ago. 2004.
- ↑ COLLISON, R. L. Índices e indexação: guia para indexação de livros e coleções de livros… São Paulo: Polígono, 1972. 225p.
- ↑ a b c d ROWLEY, Jennifer (2002). A biblioteca eletrônica. Brasília: Briquet de Lemos
- ↑ a b RUBI, M. P. Política de indexação para construção de catálogos coletivos em bibliotecas universitárias. 2008. 166. Tese (Doutorado em Ciência da Informação) – Faculdade de Filosofia e Ciências, Universidade Estadual Paulista, Marília, 2008.
- ↑ RUBI, M. P. Política de indexação para construção de catálogos coletivos em bibliotecas universitárias. 2008. 166. Tese (Doutorado em Ciência da Informação) – Faculdade de Filosofia e Ciências, Universidade Estadual Paulista, Marília, 2008.
- ↑ FUJITA, M. S. L.; RUBI, M. P.; BOCCATO, V. R. C. As diferentes perspectivas teóricas e metodológicas sobre indexação e catalogação de assuntos. A indexação de livros: a percepção de catalogadores e usuários de bibliotecas universitárias. São Paulo: Cultura Acadêmica, 2009, p. 19-42.