Michael Stanton

WirelessBrasil

Ano 2005       Página Inicial (Índice)    


04/01/2005
Google in 2004

Com o crescimento do espaço Web - as bilhões de páginas em milhões de sítios, que constituem uma parte do atual acervo de conhecimento humano - tornou-se imprescindível o uso de ferramentas de busca para permitir localizar as informações que precisamos. Alguns sítios de dedicam a fornecer estas ferramentas e entre eles o do Google (www.google.com) é o líder deste setor. Antes do Google, eu usava Altavista (www.altavista.com), mas aprendi rapidamente que não eram iguais todos os sítios de buscas, e mudei.

O que distinguia Google da concorrência era seu método de ordenar os resultados das suas pesquisas: os resultados apresentados primeiro seriam as páginas que contêm os maiores números de referências de outras páginas. Além disto valem mais as referências feitas a partir de páginas que também sejam muito referenciadas. Evidentemente, para poder calcular este indicador de relevância de cada página, como também para indexar todas as palavras encontradas em cada página, um sítio de buscas precisa manter um enorme acervo de informação, constantemente atualizado.

Regularmente, Google "visita" as páginas disponíveis nos sítios Web, geralmente trazendo uma cópia para seu próprio acervo (ou "cache"). Aqui é analisada, cada palavra é indexada para permitir ser localizada nas buscas, e são anotadas as referências para outras páginas, para permitir computar a relevância destes. Em novembro de 2004, estavam indexadas mais de oito bilhões de páginas, além de quase 900 milhões de imagens, e quase 850 milhões de mensagens enviadas para as listas de discussão da USENET. Evidentemente, para sustentar suas operações, que também incluem realizar as próprias buscas dentro dos índices, Google requer uma grande infra-estrutura computacional. Embora não foram revelados oficialmente detalhes desta, em abril de 2004 seu tamanho foi estimado por especialistas externos como sendo composto por 126.000 processadores, e mais de 5 petabytes (milhões de gigabytes) de espaço em disco. Esta coleção de servidores, que compõem na realidade uma grade computacional, teria a capacidade computacional mais potente da planeta dedicada a um único propósito.

A empresa Google foi criada por Larry Page e Sergey Brin, que haviam realizado um projeto de pesquisa em buscas na Web na Universidade Stanford a partir de 1996, e resolveram comercializar o acesso dos métodos desenvolvidos, a ser sustentado pela venda de propaganda, onde os produtos e serviços anunciados poderiam ter relação com os objetos sendo pesquisados pelo usuário-consumidor. Nos últimos anos vem aumentando seu leque de serviços, com a abertura de novas frentes onde poderia ser colocada em serviço sua poderosa tecnologia de busca. Isto incluiu diferentes acervos de informação, tal como a USENET, já mencionada, e meios de comunicação como G-mail (serviço de correio eletrônico) e Orkut (comunidades eletrônicas). Em 2004, a empresa conseguiu levantar US$ 1,66 bilhões de capital de investidores através de venda de ações, numa das operações mais badaladas do mercado de alta tecnologia desde a implosão da "bolha" de telecomunicações em 2000.

As últimas novidades de Google foram o lançamento de uma versão particular de seu software de indexação, para buscar a informação mantida no sistema de arquivos de um computador pessoal (v. www.estadao.com.br/rss/tecnologia/2004/out/14/100.htm), e o acordo anunciado para digitalizar o conteúdo de várias bibliotecas, inclusive das universidades Harvard, Stanford, de Michigan e de Oxford (v. www.estadao.com.br/rss/tecnologia/2004/dez/14/27.htm).

O Google Desktop é um software de indexação de arquivos pessoais, e se integra à interface de buscas do Google na Internet e USENET. Ele permite localizar informações em arquivos guardados na máquina do próprio usuário, e é uma de várias ferramentas deste tipo que apareceram nos últimos tempos. Atualmente em versão "beta" (pré-produção), o Google Desktop possui limitações, por exemplo, de somente indexar mensagens de correio eletrônico mantidas por Outlook Express. Isto o torna menos valioso para os usuários de correio, como eu, que preferem evitar este software problemático da Microsoft, usando alternativas como Thunderbird ou o tradicional Eudora. Imagina-se que futuras versões do Google Desktop deverão passar a estender as funcionalidades atuais, para atrair estes usuários.

Como se fosse presente de Natal, a empresa Google anunciou em dezembro que havia chegado a um acordo com as universidades mencionadas acima, bem como a Biblioteca Pública de Nova Iorque, para gerar dos seus acervos de livros e documentos versões digitais que pudessem ser pesquisadas livremente através da Internet. Segundo estimado por peritos que acompanham esta iniciativa, seria US$ 10 o custo de digitalização de cada livro incluído, dos quais haveria 15 milhões, principalmente das universidades Stanford e de Michigan. Isto representa um custo total de US$ 150 milhões, despesa viabilizada pela recente venda bilionária de ações acima mencionada. Estima-se em dez anos o prazo para levar a cabo este projeto.

Deve-se notar que esta iniciativa não é a primeira deste tipo: outras bibliotecas, inclusive a Biblioteca Nacional (www.bn.br), já começaram a criar versões digitais de algumas das suas obras, e foi divulgado no mesmo dia do anúncio da iniciativa da Google que a Biblioteca do Congresso dos EUA havia chegado a um acordo com várias bibliotecas no Canadá, Egito, China e Holanda para juntos montar uma biblioteca digital de um milhão de volumes, dos quais 71 mil estariam disponíveis até abril próximo. Entretanto, a escala da iniciativa da Google claramente excede as outras já conhecidas, além de permitir a fácil pesquisa das mesmas, o que não sempre é possível com as outras, freqüentemente reduzidas a apenas imagens digitais das páginas.

De modo geral, a recepção dada à iniciativa da Google foi a melhor possível, principalmente porque é um passo muito importante para trazer para o espaço virtual da Internet um grande corpo de conhecimento hoje acessível às poucas pessoas que dispõem do tempo e do custo de se deslocar fisicamente às bibliotecas em questão para consultar os livros ali guardados. Nos últimos anos, a Internet vem mudando a forma de acesso à informação, dando destaque aos acervos digitais acessíveis remotamente e pesquisáveis com ferramentas como o Google. Entretanto, a informação assim disponível é de qualidade pouco uniforme, e até o momento, com exceções meritórias como o Projeto Gutenberg (v. www.gutenberg.org), ignora quase por completo o acervo de conhecimento gerado antes da chegada da Internet. Este acervo se encontra nas grandes bibliotecas tradicionais e, especialmente, nas bibliotecas de pesquisa encontradas nas universidades ou mantidas por entidades públicas. O que começa a ocorrer agora é a fusão destes dois mundos, através da digitalização destes acervos históricos, colocando-os disponíveis à grande população que hoje tem acesso à Internet. Isto deve trazer uma democratização sem precedentes no acesso ao conhecimento humano.

Ainda restam algumas questões espinhosas a resolver. Provavelmente as principais se relacionam ao futuro das bibliotecas tradicionais e às relações entre estas e a as editoras de livros. Se os acervos da bibliotecas estiverem digitalizados, qual seria a função destas mesmas bibliotecas neste mundo novo? Não se pode esperar que todas elas continuem a funcionar nas mesmas bases que hoje, com suas coleções de livros impressos, se o conteúdo destes estiver à disposição de todos via a Internet. Como seria mantido seu funcionamento e especialmente a aquisição de novos livros?

É forçoso reconhecer que já existe legislação sobre direito do autor que restringe o que poderá ser feito com o conteúdo de um livro adquirido por uma biblioteca. Em particular, esta legislação atual somente permite copiar pequenos trechos do texto do livro, o que certamente irá dificultar sua disponibilidade pela Internet. A idéia, evidentemente é dar à editora um monopólio da venda de livros inteiros, que dura por longo tempo, tipicamente até setenta anos depois da morte do seu autor. Pensando nisto, os acordos celebrados pela empresa Google com as bibliotecas prevêem que somente serão colocados à disposição pública os conteúdos dos livros para os quais esteja extinto o direito do autor.

A outra questão fundamental seria sobre o impacto da publicação eletrônica sobre a industria de produção e publicação de livros impressos. Evidentemente não todos os livros publicados hoje são considerados de conteúdo meritório o suficiente para justificar sua aquisição por bibliotecas de pesquisa. Entretanto, aqueles assim considerados devem boa parte das suas vendas justamente a estas bibliotecas. Em caso de haver publicação eletrônica destes livros, com acesso fácil pela Internet, como seria a venda destes livros às bibliotecas? Não cairiam as vendas, colocando em dúvida a viabilidade da manutenção da edição impressa pelas editoras?

De certa forma, já se enfrenta esta situação com os periódicos científicos, os quais também vêm sendo adquiridos por bibliotecas de pesquisa a um custo crescente, devido à explosão no número de periódicos e pelo aumento dos preços. Nos últimos anos, boa parte destes periódicos vêm sendo publicados também em forma digital, mas não de acesso gratuito. É interessante lembrar que muitas bibliotecas estão substituindo a manutenção das suas coleções de periódicos científicos impressos por contratos de acesso a versões digitais, via Internet. O caso mais destacado no país é a portal de periódicos da Capes, órgão do MEC que cuida de cursos de pós-graduação nas universidades. Este portal (www.periodicos.capes.gov.br), acessível por alunos, professores e pesquisadores das universidades e institutos de pesquisa com cursos de pós-graduação, hoje dá acesso a mais de 8000 títulos de periódicos em todas as áreas, dando acesso amplo à comunidade acadêmica nacional de recursos bibliográficos geralmente muito mais extensos do que aqueles disponíveis antes em quase qualquer biblioteca universitária individual, com uma ou outra honrosa exceção. Este acesso é gratuito para o usuário final, porém custeado pelo governo federal que paga os custos de acesso via Internet às coleções das editoras. A grande vantagem da compra centralizada é economia de escala, pois nesta área a Capes representa dezenas de universidades.

Talvez possa ser negociada pelas bibliotecas uma forma de substituir as vendas de livros impressos por compra das editoras dos livros o direito de acesso digital durante os primeiros anos de publicação, o que se tornaria gratuito depois. Uma outra saída seria a publicação de livros apenas em formato digital, algo semelhante ao PLoS (Public Library of Science), introduzida nos últimos anos para prover maneira de tornar disponível o conteúdo de periódicos científicos sem as amarras comerciais das editoras (v. coluna de 29 de maio de 2001).

Finalmente, convém recordar que qualquer plano de substituição de textos e figuras manuscritos ou impressos por meios digitais deveria ser cercado de preocupação com a longevidade do novo meio. É só pensar que os livros e documentos tradicionais em muitos casos já demonstraram cabalmente sua capacidade de sobrevivência secular ou até milenar, enquanto as constantes mudanças tecnológicas tornam logo inacessíveis arquivos digitais "preservados" em meios físicos obsoletos. A preservação digital requer a constante atualização da forma de manter armazenados os bits desejados. Vamos ser otimistas e supor que este problema será adequadamente resolvido durante os próximos séculos?

De qualquer maneira, parece claro que estamos caminhando para uma grande enriquecimento da qualidade e quantidade do conhecimento colocado à disposição da humanidade através da Internet, e mediado por ferramentas de busca sofisticadas como é o caso do Google. Isto por si só dá motivos para ficarmos alegre neste início de 2005.