Por dentro da Brasiliana USP: como funciona a digitalização de uma biblioteca de raridades
Dentro da Universidade de São Paulo, a Biblioteca Brasiliana Guita e José Mindlin foi criada em 2005. O prédio construído especialmente para receber o acervo do Dr. José Mindlin, que tem mais de 40 mil volumes, só ficou pronto no começo de 2013, mas a digitalização de seu acervo começou bem antes: em 2008, foi formada a equipe que seria responsável pelo projeto da Brasiliana USP, a versão digital da Mindlin, que foi ao ar em julho de 2009. A empreitada incluía também a criação de uma plataforma de software para disponibilizar o conteúdo, além de providenciar a parte de hardware, como scanners, servidores e storage. Fomos conhecer de perto o processo de digitalização de tantos volumes raros e históricos.
A Plataforma Corisco, nome do software open source da biblioteca, foi criada a partir do DSpace, projeto também de código aberto do Instituto de Tecnologia de Massachusetts, o conhecido MIT, com recursos da HP para custear o projeto. “É um software extremamente bem sucedido, com talvez centenas de instituições ao redor do mundo utilizando-o. Ele é escrito em Java, portanto tem uma tecnologia moderna voltada para a Web”, diz Edson Satoshi Gomi, coordenador de tecnologia da informação da Biblioteca Brasiliana.
Gomi, que também é professor do Departamento de Engenharia da Computação da Escola Politécnica da USP, explica o que a Plataforma Corisco tem a mais em relação ao DSpace puro. “O que nós fizemos adicionalmente foi colocar algumas camadas que não existem no original. A primeira camada que colocamos foi uma interface web, que permite uma customização da cara, e o segundo componente que agregamos foi o que chamamos de visualizador de itens do acervo, sejam eles livros, imagens ou mapas.”
Outras duas camadas ainda serão implementadas: uma ferramenta para gerir todo o processo de digitalização e registrar metadados e outra para a preservação digital das imagens em alta resolução. “O volume de imagens que estamos produzindo é relativamente grande e o que é mais caro nesse processo todo é este trabalho de digitalização. Portanto, julgamos importante manter este conjunto de imagens de uma forma íntegra que não se perca isso ao longo dos anos.”
Maria Bonita e suas irmãs
E este volume de imagens é realmente enorme: a Maria Bonita e suas irmãs, apelido dado pela equipe da biblioteca às máquinas fabricadas pela canadense Kirtas, são equipadas com câmeras Canon de 21 megapixels – os modelos da linha Kabis têm duas câmeras em x, cada uma virada para uma página do livro; já o modelo Skyview, voltado para a digitalização de mapas, cartazes e jornais, tem apenas uma, que se desloca em dois eixos para varrer toda a extensão do material. Cada câmera é ligada num computador que, por sua vez, é ligado a um servidor. As imagens aparecem em tempo real no monitor do scanner.
Cada página “bruta”, por assim dizer, é uma fotografia com definição considerável (ainda que a imagem antes do recorte inclua também uma parte considerável do suporte em que o livro é colocado). “As imagens que nossos scanners produzem”, explica Gomi, “são imagens de altíssima resolução. Tipicamente, cada imagem pode ocupar uma dezena de megabytes de tamanho. Se multiplicarmos isso pela quantidade de páginas, não é incomum um livro ter vários gigabytes de tamanho.”
O livro é posto aberto numa mesa e o scanner vira as páginas através de uma espécie de aspirador de pó, que gruda as folhas por sucção e as vira. O processo é automático, mas tem que ser acompanhado por um funcionário, que ajusta a posição do livro vez ou outra, para as imagens não ficarem tortas. A velocidade máxima é de 2.500 páginas por hora.
20 terabytes de raridades
Engana-se quem pensa que é arriscado colocar um livro raro numa máquina dessas. “Existe uma preocupação nossa com a integridade dos livros”, diz Gomi. “Mas é importante chamar a atenção de que o fato de termos um livro raro não significa que ele está em mal estado ou fragilizado, muito pelo contrário. Muitas vezes, livros antigos estão em estado tão bom que são relativamente robustos.”
A digitalização é só o começo de todo o processo. O que se segue é bem trabalhoso: o processo de recorte e tratamento da imagem. Segundo Gomi, já foram digitalizados 20 terabytes de material, mas nem tudo está disponível para acesso justamente porque falta esta etapa, que é um gargalo no fluxo de trabalho.
O objetivo é reduzir ao máximo o tamanho do arquivo e, ao mesmo tempo, garantir a legibilidade. Por isso, os arquivos em .pdf, cada um deles com cerca de 10MB, podem não ter exatamente a mesma cor das páginas do livro original, além de o contraste ser muito mais marcante.
A última etapa é o reconhecimento dos caracteres. Se você já sofreu com um programa de OCR, sabe o quanto é difícil. Aqui o problema é ainda maior, como explica Gomi. “O OCR é ainda, digamos, um problema em aberto. Para textos impressos com caracteres modernos, ele reconhece com uma certa precisão, mas nós estamos aqui tratando de textos antigos, além de muitos manuscritos.”
Paralelamente, são cadastrados os metadados de cada material, padronizados segundo o esquema Dublin Core, o mesmo do DSpace.
Quando está tudo pronto, o livro fica disponível no site da Brasiliana Digital. Ele pode ser visualizado na própria página sem a necessidade de plug-ins, para facilitar o uso escolar, ou baixado – é um arquivo .pdf, então talvez não fique muito bom no seu e-reader.
Aberto para todos
Mas a disponibilização do acervo para o público não é o único produto do projeto: o código-fonte da Plataforma Corisco está aberto para quem quiser usar. O Instituto Paulo Freire, por exemplo, já adotou o sistema. Mas open source não quer dizer de graça: já foram gastos mais de R$ 3 milhões no projeto, com recursos de entidades como o BNDES e a Fapesp.
Uma parte considerável desse valor foi para bolsas de iniciação científica, mestrado e doutorado. A Plataforma Corisco, além de tudo, é um projeto de pesquisa: para chegar onde está hoje, foram precisos erros e acertos. A primeira versão da edição original do livro de Hans Staden, por exemplo, foi disponibilizada com 1 gigabyte de tamanho (!) e isso só foi percebido porque um professor do grupo de desenvolvedores não conseguia baixá-lo.
A postura de ir resolvendo cada um dos problemas encontrados parece ser intrínseca à formação de bibliotecas digitais, como explica Gomi. “Não faz muito sentido se criar um padrão de como se constrói uma biblioteca digital. Certamente, há a necessidade de se ter uma liberdade nesse sentido, porque os tipos de acervo que podem ser construídos são muito variados. Podemos ter bibliotecas digitais de livros, de músicas, até de arquitetura, porque hoje é possível fazer digitalização 3D.”
Outro ponto a ser notado é o respeito aos direitos autorais: os mais de 3 mil itens disponíveis que estão em domínio público. Segundo Gomi, são mais de 1500 acessos únicos por dia e visitantes de vários países, inclusive daqueles que não falam português. Definitivamente, a Brasiliana USP leva o acervo do Dr. José Mindlin para muito mais longe do que uma biblioteca física.
Abaixo, mais imagens das máquinas utilizadas na Brasiliana USP.
Fotos e vídeo por Pedro Hassan