O “DNA” dos livros pode servir de base para encontrá-los?

Semana passada Claudiney Ferreira, com quem trabalho no projeto Conexões Itaú CulturalMapeamento Internacional da Literatura Brasileira – e que vasculha a Internet quase obsessivamente atrás de sites sobre literatura, achou uma curiosidade: o BookLamp. Tratava-se de um site que se propunha a levantar o DNA dos livros para servir de motor de buscas para os leitores descobrirem livros “semelhantes” aos que gostaram, e de ferramenta para autores e editores.
Visitei o site e achei realmente fascinante. E já tinha planejado escrever um post sobre o assunto.
Esse trabalho me foi poupado pelo Ed Nawotka, do Publishing Perspectives, que no dia 24 publicou um artigo sobre o assunto. Ed Nawotka esteve aqui há pouco, no Congresso do Livro Digital, e sua palestra motivou que eu escrevesse um post sobre a questão dos metadados e sua importância para o mercado editorial.
Bem, quem quiser ler o original, o link está aqui. Com permissão do Ed Nawotka, traduzi o artigo que deixo aqui para vocês:

O “Projeto do Genoma do Livro” do BookLamp é o futuro da descoberta?

Por Edward Nawotka

Se você achava que metadados eram complicados, conheça Booklamp.org., um novo motor de descoberta de livros que pesquisa 32.160 diferentes pontos de dados por livro. “Fazemos isso processando o texto completo proporcionado pelo editor em formato digital e passando pelo nosso computador”, explica o CEO Aaron Stanton.

“Nosso programa separa o livro em 100 cenas e mede o “DNA” de cada cena, procurando 132 ingredientes temáticos distintos, e mais 2.000 variáveis”. Um leitor pode ir ao site da Booklamp.org., que foi lançado em formato beta na semana passada, e fazer busca por palavra-chave em títulos que correspondam a critérios semelhantes ao título que informam ao site. Alguns críticos o apelidaram de “Caixa de Pandora para livros”, mas Stanton prefere o termo “Projeto do Genoma do Livro”.
“Digamos que você esteja procurando um romance como o Código Da Vinci. Descobrimos que o romance contém 18,6% de Religião e Instituições Religiosas, 9,4% de Assassinato & Investigação de Assassinato, 8,2% de Arte e Galerias de Arte, e 6,7% de Sociedades Secretas & Comunidades, e outros elementos – e pescamos um livro com elementos similares – desde que esteja em nosso banco de dados”, diz Stanton.
Stanton começou o projeto do BookLamp em 2003, quando era estudante em Boise, Idaho, quando ele e colegas escanearam um exemplar de Thinner, de Richard Bachman (pseudônimo de Stephen King) – algo que então lhes tomou seis horas para fazer – antes de compreender que o que queriam estava provavelmente além do alcance de estudantes universitários. Em 2007, entretanto, ele achou que seria perfeito para o Google, e conseguiu marcar uma entrevista, que se tornou um meme viral na época).
Stanton apresentou então o projeto ao Dr. Matthew Jockers, professor de linguística computacional na Universidade de Stanford, que ajudou a desenvolver os protocolos para a “análise estilística contextual” para o BookLamp.
Atualmente, BookLamp tem aproximadamente 20.000 textos em seu banco de dados – basicamente das editoras Random House e Kensington – e já reuniu cerca de 650 milhões de “pontos de dados” no total. “Esperamos alcançar a cifra dos bilhões nos próximos meses”, diz Stanton.

Avaliação do BookLamp do livro do Stieg Larsson

Mas será que um computador pode realmente avaliar com precisão o conteúdo de um livro? Stanton acha que sim. “Nossos modelos originais foram baseados em grupos de foco”, diz ele. “Nós dávamos a eles uma cena de alta densidade e uma cena de baixa densidade, por exemplo, e pedíamos que as avaliassem, o que nos deu a base para experimentar os modelos. Depois pesquisamos livros que podiam ultrapassar os modelos e ajustamos as fórmulas. Dessa maneira, nossos algoritmos são treinados como um ser humano”.
O BookLamp qualifica elementos como densidade, ritmo, descrição, diálogo e movimento, além de numerosas e nuançadas microcategorias, tais como “pistolas/rifles/armas”, ou “descrições explícitas de intimidade” ou “ambientes de trabalho”.
“De muitas maneiras, usando e usando “ingredientes” temáticos como uma alternativa aos metadados tradicionais”, diz Stanton, que prevê o projeto servindo a leitores, escritores e editores.
A primeira iteração do BookLamp – que é a que atualmente se pode ver online – está claramente dedicada aos leitores. Escritores e editores, por outro lado, logo terão a oportunidade de fazer upload dos manuscritos e tê-los avaliados pelos mesmos critérios. Essas obras irão para um “banco de dados vivo de manuscritos com certas características”. “Por exemplo – diz Stanton – digamos que vampiros são o quente em um ano, então você rejeita todos os livros sobre extraterrestres, mas depois a tendência muda para extraterrestres – e pode-se pesquisar nosso banco de dados por originais que correspondam a essas tendências nascentes e tomar a dianteira na curva. Para os autores, um livro rejeitado nunca é simplesmente um livro rejeitado, já que sempre pode ser achado”.
Atualmente o maior obstáculo do BookLamp parece ser exatamente os editores e autores, que podem estar reticentes em ver seus livros convertidos em pontos de dados. O banco de dados limitado em 20.000 títulos “é de longe a maior crítica ao site”. Seu objetivo é alcançar 100.000 tíotulos até o final do ano.
Os curiosos podem se registrar e explorar o BookLamp agora no www.booklamp.org.

——–
Bem, eu escrevi para o Stanton (que ainda não respondeu), perguntando se ele não estava interessado em traduzir o programa para o português e começar a catar originais dos nossos livros. Escrevi como gozação (mas quero acompanhar de perto o projeto), pois sei perfeitamente o quanto o mercado editorial brasileiro está atrasado não apenas na formatação de versões digitais quanto na compreensão (e uso) de metadados.
O artigo do Ed Nawotka é mais um exemplo das amplas possibilidades que se abrem para que os livros (e não só os digitais) permaneçam no radar dos leitores, e também da quantidade de ferramentas de trabalho que se desenvolvem para editores e autores.

4 comentários em “O “DNA” dos livros pode servir de base para encontrá-los?”

  1. Eles acabaram respondendo meu e-mail. Educados e com esse tom levemente eufórico dos americanos, informaram que por enquanto estão focados em melhorar as ferramentas do site, mas que eu fique ligado. Em algum momento eles vão querer ter o programa em outros idiomas. Será que alguém se habilita?

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Esse site utiliza o Akismet para reduzir spam. Aprenda como seus dados de comentários são processados.