{"id":283,"date":"2011-08-24T23:25:13","date_gmt":"2011-08-25T02:25:13","guid":{"rendered":"http:\/\/oxisdoproblema.com.br\/blog\/?p=283"},"modified":"2011-08-24T23:25:13","modified_gmt":"2011-08-25T02:25:13","slug":"o-%e2%80%9cdna%e2%80%9d-dos-livros-pode-servir-de-base-para-encontra-los","status":"publish","type":"post","link":"http:\/\/oxisdoproblema.com.br\/?p=283","title":{"rendered":"O \u201cDNA\u201d dos livros pode servir de base para encontr\u00e1-los?"},"content":{"rendered":"<p>Semana passada Claudiney Ferreira, com quem trabalho no projeto <a onclick=\"javascript:pageTracker._trackPageview('\/outgoing\/www.conexoesitaucultural.org.br');\"  href=\"http:\/\/www.conexoesitaucultural.org.br\" onclick=\"return TrackClick('http%3A%2F%2Fwww.conexoesitaucultural.org.br','Conex%C3%B5es+Ita%C3%BA+Cultural')\" target=\"_blank\"><strong>Conex\u00f5es Ita\u00fa Cultural<\/strong><\/a> \u2013 <strong>Mapeamento Internacional da Literatura Brasileira<\/strong> \u2013 e que vasculha a Internet quase obsessivamente atr\u00e1s de sites sobre literatura, achou uma curiosidade: o <strong>BookLamp<\/strong>. Tratava-se de um site que se propunha a levantar o DNA dos livros para servir de motor de buscas para os leitores descobrirem livros \u201csemelhantes\u201d aos que gostaram, e de ferramenta para autores e editores.<br \/>\nVisitei o site e achei realmente fascinante. E j\u00e1 tinha planejado escrever um post sobre o assunto.<br \/>\nEsse trabalho me foi poupado pelo <strong>Ed Nawotka<\/strong>, do <strong>Publishing Perspectives<\/strong>, que no dia 24 publicou um artigo sobre o assunto. Ed Nawotka esteve aqui h\u00e1 pouco, no Congresso do Livro Digital, e sua palestra motivou que eu escrevesse um post sobre a quest\u00e3o dos metadados e sua import\u00e2ncia para o mercado editorial.<br \/>\nBem, quem quiser ler o original, o link est\u00e1 <a onclick=\"javascript:pageTracker._trackPageview('\/outgoing\/publishingperspectives.com\/2011\/08\/is-booklamps-book-genome-project-the-future-of-discovery\/');\"  href=\"http:\/\/publishingperspectives.com\/2011\/08\/is-booklamps-book-genome-project-the-future-of-discovery\/\" onclick=\"return TrackClick('http%3A%2F%2Fpublishingperspectives.com%2F2011%2F08%2Fis-booklamps-book-genome-project-the-future-of-discovery%2F','aqui')\" target=\"_blank\">aqui<\/a>. Com permiss\u00e3o do Ed Nawotka, traduzi o artigo que deixo aqui para voc\u00eas:<\/p>\n<p><em>O \u201cProjeto do Genoma do Livro\u201d do BookLamp \u00e9 o futuro da descoberta?<\/p>\n<p>Por Edward Nawotka<\/p>\n<p>Se voc\u00ea achava que metadados eram complicados, conhe\u00e7a Booklamp.org., um novo motor de descoberta de livros que pesquisa 32.160 diferentes pontos de dados por livro. \u201cFazemos isso processando o texto completo proporcionado pelo editor em formato digital e passando pelo nosso computador\u201d, explica o CEO Aaron Stanton.<\/em><br \/>\n<a href=\"http:\/\/oxisdoproblema.com.br\/blog\/?attachment_id=285\" onclick=\"return TrackClick('http%3A%2F%2Foxisdoproblema.com.br%2Fblog%2F%3Fattachment_id%3D285','Capturar')\" rel=\"attachment wp-att-285\"><img decoding=\"async\" loading=\"lazy\" src=\"http:\/\/oxisdoproblema.com.br\/blog\/wp-content\/uploads\/2011\/08\/Capturar6.jpg\" alt=\"\" title=\"Capturar\" width=\"218\" height=\"298\" class=\"alignleft size-full wp-image-285\" \/><\/a><br \/>\n<!--more--><\/p>\n<p><em>\u201cNosso programa separa o livro em 100 cenas e mede o \u201cDNA\u201d de cada cena, procurando 132 ingredientes tem\u00e1ticos distintos, e mais 2.000 vari\u00e1veis\u201d. Um leitor pode ir ao site da <a onclick=\"javascript:pageTracker._trackPageview('\/outgoing\/www.booklamp.org.\/');\"  href=\"http:\/\/www.booklamp.org.\/\" onclick=\"return TrackClick('http%3A%2F%2Fwww.booklamp.org.%2F','www.booklamp.org')\" onclick=\"return TrackClick('http%3A%2F%2Fwww.booklamp.org.%2F','Booklamp.org')\" target=\"_blank\">Booklamp.org<\/a>., que foi lan\u00e7ado em formato beta na semana passada, e fazer busca por palavra-chave em t\u00edtulos que correspondam a crit\u00e9rios semelhantes ao t\u00edtulo que informam ao site. Alguns cr\u00edticos o apelidaram de \u201cCaixa de Pandora para livros\u201d, mas Stanton prefere o termo \u201cProjeto do Genoma do Livro\u201d.<br \/>\n\u201cDigamos que voc\u00ea esteja procurando um romance como o C\u00f3digo Da Vinci. Descobrimos que o romance cont\u00e9m 18,6% de Religi\u00e3o e Institui\u00e7\u00f5es Religiosas, 9,4% de Assassinato &#038; Investiga\u00e7\u00e3o de Assassinato, 8,2% de Arte e Galerias de Arte, e 6,7% de Sociedades Secretas &#038; Comunidades, e outros elementos \u2013 e pescamos um livro com elementos similares \u2013 desde que esteja em nosso banco de dados\u201d, diz Stanton.<br \/>\nStanton come\u00e7ou o projeto do BookLamp em 2003, quando era estudante em Boise, Idaho, quando ele e colegas escanearam um exemplar de Thinner, de Richard Bachman (pseud\u00f4nimo de Stephen King) \u2013 algo que ent\u00e3o lhes tomou seis horas para fazer \u2013 antes de compreender que o que queriam estava provavelmente al\u00e9m do alcance de estudantes universit\u00e1rios. Em 2007, entretanto, ele achou que seria perfeito para o Google, e conseguiu marcar uma <a onclick=\"javascript:pageTracker._trackPageview('\/outgoing\/cangooglehearme.com\/');\"  href=\"http:\/\/cangooglehearme.com\/\" onclick=\"return TrackClick('http%3A%2F%2Fcangooglehearme.com%2F','entrevista')\" target=\"_blank\">entrevista<\/a>, que se tornou um meme viral na \u00e9poca).<br \/>\nStanton apresentou ent\u00e3o o projeto ao <a onclick=\"javascript:pageTracker._trackPageview('\/outgoing\/english.stanford.edu\/bio.php?name_id=66');\"  href=\"http:\/\/english.stanford.edu\/bio.php?name_id=66\" onclick=\"return TrackClick('http%3A%2F%2Fenglish.stanford.edu%2Fbio.php%3Fname_id%3D66','Dr.+Matthew+Jockers')\" target=\"_blank\">Dr. Matthew Jockers<\/a>, professor de lingu\u00edstica computacional na Universidade de Stanford, que ajudou a desenvolver os protocolos para a \u201can\u00e1lise estil\u00edstica contextual\u201d para o BookLamp.<br \/>\nAtualmente, BookLamp tem aproximadamente 20.000 textos em seu banco de dados \u2013 basicamente das editoras Random House e Kensington \u2013 e j\u00e1 reuniu cerca de 650 milh\u00f5es de \u201cpontos de dados\u201d no total. \u201cEsperamos alcan\u00e7ar a cifra dos bilh\u00f5es nos pr\u00f3ximos meses\u201d, diz Stanton.<br \/>\n<figure id=\"attachment_288\" aria-describedby=\"caption-attachment-288\" style=\"width: 210px\" class=\"wp-caption alignleft\"><a href=\"http:\/\/oxisdoproblema.com.br\/blog\/?attachment_id=288\" onclick=\"return TrackClick('http%3A%2F%2Foxisdoproblema.com.br%2Fblog%2F%3Fattachment_id%3D288','Capturar2')\" rel=\"attachment wp-att-288\"><img decoding=\"async\" loading=\"lazy\" src=\"http:\/\/oxisdoproblema.com.br\/blog\/wp-content\/uploads\/2011\/08\/Capturar22.jpg\" alt=\"\" title=\"Capturar2\" width=\"210\" height=\"282\" class=\"size-full wp-image-288\" \/><\/a><figcaption id=\"caption-attachment-288\" class=\"wp-caption-text\">Avalia\u00e7\u00e3o do BookLamp do livro do Stieg Larsson<\/figcaption><\/figure><br \/>\nMas ser\u00e1 que um computador pode realmente avaliar com precis\u00e3o o conte\u00fado de um livro? Stanton acha que sim. \u201cNossos modelos originais foram baseados em grupos de foco\u201d, diz ele. \u201cN\u00f3s d\u00e1vamos a eles uma cena de alta densidade e uma cena de baixa densidade, por exemplo, e ped\u00edamos que as avaliassem, o que nos deu a base para experimentar os modelos. Depois pesquisamos livros que podiam ultrapassar os modelos e ajustamos as f\u00f3rmulas. Dessa maneira, nossos algoritmos s\u00e3o treinados como um ser humano\u201d.<br \/>\nO BookLamp qualifica elementos como densidade, ritmo, descri\u00e7\u00e3o, di\u00e1logo e movimento, al\u00e9m de numerosas e nuan\u00e7adas microcategorias, tais como \u201cpistolas\/rifles\/armas\u201d, ou \u201cdescri\u00e7\u00f5es expl\u00edcitas de intimidade\u201d ou \u201cambientes de trabalho\u201d.<br \/>\n\u201cDe muitas maneiras, usando e usando \u201cingredientes\u201d tem\u00e1ticos como uma alternativa aos metadados tradicionais\u201d, diz Stanton, que prev\u00ea o projeto servindo a leitores, escritores e editores.<br \/>\nA primeira itera\u00e7\u00e3o do BookLamp \u2013 que \u00e9 a que atualmente se pode ver online \u2013 est\u00e1 claramente dedicada aos leitores. Escritores e editores, por outro lado, logo ter\u00e3o a oportunidade de fazer upload dos manuscritos e t\u00ea-los avaliados pelos mesmos crit\u00e9rios. Essas obras ir\u00e3o para um \u201cbanco de dados vivo de manuscritos com certas caracter\u00edsticas&#8221;. \u201cPor exemplo \u2013 diz Stanton \u2013 digamos que vampiros s\u00e3o o quente em um ano, ent\u00e3o voc\u00ea rejeita todos os livros sobre extraterrestres, mas depois a tend\u00eancia muda para extraterrestres \u2013 e pode-se pesquisar nosso banco de dados por originais que correspondam a essas tend\u00eancias nascentes e tomar a dianteira na curva. Para os autores, um livro rejeitado nunca \u00e9 simplesmente um livro rejeitado, j\u00e1 que sempre pode ser achado\u201d.<br \/>\nAtualmente o maior obst\u00e1culo do BookLamp parece ser exatamente os editores e autores, que podem estar reticentes em ver seus livros convertidos em pontos de dados. O banco de dados limitado em 20.000 t\u00edtulos \u201c\u00e9 de longe a maior cr\u00edtica ao site\u201d. Seu objetivo \u00e9 alcan\u00e7ar 100.000 t\u00edotulos at\u00e9 o final do ano.<br \/>\nOs curiosos podem se registrar e explorar o BookLamp agora no <a onclick=\"javascript:pageTracker._trackPageview('\/outgoing\/www.booklamp.org.\/');\"  href=\"http:\/\/www.booklamp.org.\/\" onclick=\"return TrackClick('http%3A%2F%2Fwww.booklamp.org.%2F','www.booklamp.org')\" onclick=\"return TrackClick('http%3A%2F%2Fwww.booklamp.org.%2F','Booklamp.org')\" target=\"_blank\">www.booklamp.org<\/a>.<\/em><\/p>\n<p>&#8212;&#8212;&#8211;<br \/>\nBem, eu escrevi para o Stanton (que ainda n\u00e3o respondeu), perguntando se ele n\u00e3o estava interessado em traduzir o programa para o portugu\u00eas e come\u00e7ar a catar originais dos nossos livros. Escrevi como goza\u00e7\u00e3o (mas quero acompanhar de perto o projeto), pois sei perfeitamente o quanto o mercado editorial brasileiro est\u00e1 atrasado n\u00e3o apenas na formata\u00e7\u00e3o de vers\u00f5es digitais quanto na compreens\u00e3o (e uso) de metadados.<br \/>\nO artigo do Ed Nawotka \u00e9 mais um exemplo das amplas possibilidades que se abrem para que os livros (e n\u00e3o s\u00f3 os digitais) permane\u00e7am no radar dos leitores, e tamb\u00e9m da quantidade de ferramentas de trabalho que se desenvolvem para editores e autores.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Semana passada Claudiney Ferreira, com quem trabalho no projeto Conex\u00f5es Ita\u00fa Cultural \u2013 Mapeamento Internacional da Literatura Brasileira \u2013 e que vasculha a Internet quase obsessivamente atr\u00e1s de sites sobre literatura, achou uma curiosidade: o BookLamp. Tratava-se de um site que se propunha a levantar o DNA dos livros para servir de motor de buscas &hellip; <a href=\"http:\/\/oxisdoproblema.com.br\/?p=283\" onclick=\"return TrackClick('http%3A%2F%2Foxisdoproblema.com.br%2F%3Fp%3D283','Continue+lendo+O+%E2%80%9CDNA%E2%80%9D+dos+livros+pode+servir+de+base+para+encontr%C3%A1-los%3F+%26rarr%3B')\" class=\"more-link\">Continue lendo <span class=\"screen-reader-text\">O \u201cDNA\u201d dos livros pode servir de base para encontr\u00e1-los?<\/span> <span class=\"meta-nav\">&rarr;<\/span><\/a><\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":[],"categories":[1],"tags":[116,37,70,101,71],"_links":{"self":[{"href":"http:\/\/oxisdoproblema.com.br\/index.php?rest_route=\/wp\/v2\/posts\/283"}],"collection":[{"href":"http:\/\/oxisdoproblema.com.br\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"http:\/\/oxisdoproblema.com.br\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"http:\/\/oxisdoproblema.com.br\/index.php?rest_route=\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"http:\/\/oxisdoproblema.com.br\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=283"}],"version-history":[{"count":9,"href":"http:\/\/oxisdoproblema.com.br\/index.php?rest_route=\/wp\/v2\/posts\/283\/revisions"}],"predecessor-version":[{"id":294,"href":"http:\/\/oxisdoproblema.com.br\/index.php?rest_route=\/wp\/v2\/posts\/283\/revisions\/294"}],"wp:attachment":[{"href":"http:\/\/oxisdoproblema.com.br\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=283"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"http:\/\/oxisdoproblema.com.br\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=283"},{"taxonomy":"post_tag","embeddable":true,"href":"http:\/\/oxisdoproblema.com.br\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=283"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}