Metadados para principiantes – aproveitando os ensinamentos de um mestre

A minha viagem à Colômbia para participar da Feira de Livros de Bogotá (que termina hoje, 1 de maio) incluiu a participação em um seminário organizado pelo CERLALC – Centro Regional para o Livro na América Latina e Caribe, intitulado “Todo Comienza em um Libro”. A mesa-redonda da qual fiz parte foi antecedida por uma conferência de Richard Stark, intitulada “Libros, marketing y metadatos: estrategias de posicionamiento y aumento de ventas. Los nuevos entornos en la promoción y distribución de libros, en un mundo conectado”. Stark é diretor de “Product Data” – Dados sobre produtos – da cadeia Barnes & Noble, e também coordena o Comitê de Metadados do BISG – Book Industry Study Group. Nessa condição é um dos responsáveis pela manutenção do BISAC – Book Industry Standards and Communication que, como o nome indica, estabelece padrões para a indústria editorial americana, largamente seguidos também pelos ingleses. O BISG também é o responsável pelo ONIX – Online Information Exchange, sobre o qual falarei amplamente mais adiante, e pelo X12 e-commerce transactions.

Fundado em 1976 por editores e gráficos, o BISG atualmente se destaca em ações de formação e no estabelecimento de padrões de informação estatística para a indústria editorial, buscando unificar os resultados de várias fontes de informação que permitam uma análise compreensiva dos dados de produção e comércio de livros.

Acompanho as atividades do BISG desde os anos noventa, quando ainda trabalhava na CBL. Quando do lançamento do ONIX, em sua primeira versão, redigi um memorando sobre o assunto, alertando sobre sua importância para a indústria editorial e para o comércio de livros e sonhei com a possibilidade de algum tipo de acordo entre a CBL e aquela instituição. Tudo foi pro brejo a partir de 2003…

A conferência de Richard Stark, focada para uma plateia de editores e livreiros, foi um resumo muito interessante sobre metadados, desde sua definição, história, características até os padrões atuais. Gentilmente, ele me enviou o material resumo da conferência, do qual uso (e abuso) para fazer este post.

Definição de metadado. A palavra é nova. Só encontrei uma definição dicionarizada no Priberan Online, um site de Portugal: “informação descritiva sobre um dado ou um item = metainformação”. É uma definição melhor do que a proporcionada pelo Webster’s: “data that provides information about other data”. Para evitar a tautologia, é preciso explicar. No nosso caso, metadado é a informação sobre o “dado” livro. Sim, o livro aqui é tratado apenas e tão somente como um dado, uma quantidade específica de informação. Daí que todas as informações que identificam o livro constituem seus metadados: título, nome do autor, editora, número de páginas, ISBN, etc.

O que distingue os metadados da quantidade de informações que tínhamos antes, estabelecidas em fichas catalográficas, é o seu modo de armazenagem e de recuperação. Enquanto isso antes era guardado nas fichas bibliográficas, os metadados hoje são armazenados em arquivos eletrônicos e recuperados como tal.

Ampliação do conceito. Essa transformação da forma permitiu uma ampliação e aumento do conteúdo.

Para quê?

Essencialmente, para alcançar os seguintes objetivos: a) identificar o dado (livro) original de forma unívoca, o que o ISBN proporciona; b) permitir a classificação e ordenação das informações sobre o livro de modo mais amplo; c) estabelecer informações sobre as características físicas (ou virtuais) do livro; d) proporcionar informações úteis para a comercialização do livro; finalmente, e) facilita a busca do livro pelo leitor. É um modo de facilitar “o encontro feliz entre o autor e o leitor” a que faz menção Gabriel Zaid em “Livros Demais”.

Como diz Stark, os metadados do livro são: a) O “cartão de visita” do livro – lista as “credenciais” do livro; b) A posição do livro nas “Páginas Amarelas”: informa aos possíveis compradores como e onde achar o livro; c) Lista a posição de seu livro na “lista do Corretor”: demonstra os pontos de venda de um livro vs. outros livros.

Obviamente, se a informação sobre o livro não for precisa, os resultados podem ser assustadores. Stark reproduz a ficha de um livro, com o título original de “You two are my favorites” tal como publicado por uma livraria http://www.powells.com/biblio?isbn=0123456789 . Supostamente o título se refere a uma publicação que avalia os resultados da convenção da UNESCO sobre o Patrimônio da Humanidade. A confusão derivada de metadados errados oscila entre hilária e inútil, como se pode ver em um dos slides de Stark.

Stark sustenta, com base em uma pesquisa da Nielsen sobre os 100.000 livros mais vendidos na Grã-Bretanha em 2011, que o fornecimento adequado de metadados provoca a venda de mais exemplares. A pesquisa informa que:

– Livros sem dados básicos completos e sem qualquer imagem venderam em média 385 cópias em 2011;

– Livros que acrescentaram uma imagem da capa viram suas vendar subir para uma média de 1.416 (268% a mais);

– Livros com os dados básicos completos mas sem imagem tiveram vendas médias de 437 cópias;

– Livros com todos os dados necessários e imagens alcançaram uma venda média de 2.205 cópias.

[Obviamente, nem de longe, temos pesquisas semelhantes no Brasil]

A qualidade dos metadados é assegurada quando são seguidos os padrões e as melhores práticas internacionais (nem sempre presentes no Brasil). Esses padrões, segundo Stark, são:

– ISBN – International Standard Book Number, que é um dos padrões de informação mais bem sucedidos no mundo dos livros. Instituído em 1972, com um código de dez dígitos, em 2005 o código foi ampliado para treze dígitos para dar conta do aumento de entradas. O ISBN deve ser único para cada formato do livro (de fato a norma indica que deve haver um ISBN diferente para cada edição do livro físico. Nesse caso, edição não é reimpressão, e sim uma nova edição modificada do livro), inclusive para cada formato de e-book. A Agência Nacional para o ISBN no Brasil é a Biblioteca Nacional. Reconhecidamente, o banco de dados do ISBN no Brasil é falho (a FBN planeja fazer uma avaliação e tomar medidas para corrigir os problemas na outorga de números). Stark assinala que os mecanismos de busca adoram o ISBN.

De fato, se sabemos a sequência do ISBN, podemos achar com facilidade uma grande quantidades de informações sobre o livro, como resulta de colocar no Google o ISBN de Com Esse Ódio e com Esse Amor, de Maria José Silveira (grande romance!).

Mas o ISBN – fundamental para que editores, livreiros e autores possam eventualmente controlar a venda dos livros – não é um bom metadado para que se ache o livro que se busca, sem saber seu ISBN, como em geral é o caso do leitor. Para tal, são necessários outros padrões de informação:

Aí entra o ONIX – Online Information Exchange, que é um padrão de informação forte capaz de apresentar uma riqueza de dados sobre o livro. A primeira versão do ONIX foi lançada no ano 2000. Hoje está em sua versão 3.0.1, mas a versão mais amplamente usada é a 2.1. ONIX é um formato padrão que os editores podem usar para distribuir informação eletrônica sobre seus livros para toda a cadeia de vendas, outros editores e quem quer que se interesse pelo recolhimento e guarda de informações sobre livros. ONIX permite que a informação sobre livros seja comunicada entre diferentes organizações, mesmo que estas tenham diferentes infraestruturas técnicas e necessidades distintas. Não é uma base de dados, mas proporciona um gabarito padrão em formato XML para organizar seu armazenamento.

Os resultados podem mudar dramaticamente o modo como se descobrem os livros através da Internet. Consequentemente, como se vendem mais livros.

Stark nos dá um exemplo de como esse gabarito aparece em forma XML e como essas informações aparecem no site de uma livraria argentina:


Como enfatiza Stark, ONIX não irá, por si só, melhorar a qualidade dos metadados informados pela editora sobre seus livros. O padrão é simplesmente um “gabarito”, um depósito no qual se pode colocar os metadados dos livros. Portanto, é necessário melhorar o padrão dos dados em cada sistema. E isso é válido tanto para editores quanto para livreiros. Para tal, o uso das “melhores práticas” é fundamental. Para a indústria americana (e para os países nos quais já existem grupos de trabalho para implementação do ONIX – Reino Unidos, Austrália, Bélgica, Canadá, Finlândia, França, Alemanha, Itália, Holanda, Noruega, Rússia, Espanha e Coréia do Sul), existem documentos indicando quais são essas, tanto para os emissores de informação quanto para receptores (livreiros, etc.).

Como por estas plagas não existe tal grupo de trabalho conhecido, vale a pena destacar, dentre as “melhores práticas” para metadados do BISG, quais são os trinta “Elementos Centrais” de dados que deveriam constar da informação proporcionada por editores:

1 – Identificação padrão do produto (ISBN-13/GTIN-13 (Global Trade Item Number)/EAN 13). (Padrões de código de barras).
2 – Título/Nome do produto
3 – Autores/colaboradores
4 – Editor/ Selo/ Nome comercial
5 – Preço(s)
6 – Código de desconto proprietário do editor
7 – Código de status do editor
8 – Código de Disponibilidade do produto
9 – Forma do produto (formato/encadernação/apresentação)
10 – DRM (Digital Rights Management)/ restrições de uso
11 – Requerimentos de software ou hardware
12 – Data de publicação
13 – Data de início de vendas
14 – Assuntos (padrão BISAC ou BIC) – padrão não definido no Brasil
15 – Idiomas do conteúdo do produto
16 – Informação sobre séries ou coleção da qual o produto faz parte
17 – Informação sobre a edição
18 – Público para o qual é dirigido preferencialmente
19 – Quantidade por embalagem
20 – Produtos relacionados
21 – Direitos territoriais (pode ser vendido em Portugal ou não, por exemplo)
22 – Indicador do código de barras
23 – Peso e dimensões
24 – Código de devolução
25 – Extensão (número de páginas/ tempo de execução / tamanho do arquivo)
26 – Distribuidores ou vendedores autorizados
27 – Número de peças/exemplares
28 – Descrição textual do produto e outros textos (por exemplo, capítulo de amostra)
29 – Detalhes de ilustrações ou multimídia
30 – Imagem digitalizada do produto.

Como est post já está grande demais, termino com um aperitivo visual. Usando o programa Calibre de administração das bibliotecas particulares de livros eletrônicos, levantei o conteúdo de metadados ali apresentados para um livro de Michael Connely. No próximo post darei uma olhada sobre como livrarias e editoras brasileiras apresentam seus metadados.

Basta dar uma olhadinha na quantidade de “tags” no canto direito da imagem. São “assuntos”, “subjects” a partir dos quais os interessados em qualquer um desses assuntos podem achar o livro.

3 comentários em “Metadados para principiantes – aproveitando os ensinamentos de um mestre”

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Esse site utiliza o Akismet para reduzir spam. Aprenda como seus dados de comentários são processados.