quarta-feira, 13 de agosto de 2008

Sabíamos que a Web era grande!

Do blog do Google
Publicado por: Jesse Alpert & Nissan Hajaj, Engenheiros de Software,
Equipe de Infra-estrutura de Busca na Web

Há muito tempo que sabemos que a Web é grande! O primeiro índice do Google em 1998 já tinha 26 milhões de páginas, em 2002 o índice do Google atingiu a marca de um bilhão.

Nos últimos oito anos temos visto números bastante grandes em relação ao conteúdo real por aí afora. Recentemente, até mesmo os nossos engenheiros de busca se espantaram ao ver o quão grande é a Web hoje em dia - quando os nossos sistemas, encarregados de processar os vínculos na Web para descobrir qualquer novo conteúdo, chegaram à surpreendente marca de: 1 trilhão (1.000.000.000.000) de URLs na Web ao mesmo tempo!

Então, quantas páginas tem a web realmente? Nós não sabemos; não temos tempo para ver todas elas! Falando estritamente, o número de páginas lá fora é infinito - por exemplo, os calendários web podem ter um link "dia seguinte", e nós poderíamos seguir esse link eternamente, encontrando uma nova página a cada vez que o fizermos. Não estamos fazendo isso, obviamente, pois não haveria nenhum benefício para os usuários nisso. Mas este exemplo demonstra que o tamanho da web depende realmente da sua definição do que é uma página útil, e para isso não existe uma resposta exata.Nós não indexamos cada uma desse trilhão de páginas – muitas delas são similares umas às outras, ou representam um conteúdo similar ao do exemplo do calendário, que não trazem muitos benefícios para os usuários de busca. Mas nós estamos orgulhosos de ter o índice mais completo de todos as ferramentas de busca, e nosso objetivo sempre foi relacionar toda a informação do mundo.Para estar em dia com este volume de informação nossos sistemas passaram por um longo progresso desde o primeiro conjunto de dados da web que a Google processou para dar resultaods às buscas. Naquela época fazíamos tudo rodadas: uma estação de trabalho podia computar o diagrama de 26 milhões de páginas em um espaço de poucas horas, e aquele conjunto de páginas seria utilizado como o índice da Google por um determinado periodo de tempo.

Hoje em dia, Google download da web constantemente, colhendo informação atualizada das páginas e processando novamente um diagrama inteiro de links da Web várias vezes por dia. Esse diagrama de um trilhão de URLs é semelhante a um mapa composto por um trilhão de cruzamentos. Assim, fazemos múltiplas vezes por dia o equivalente computacional de explorar totalmente cada cruzamento de cada estrada nos Estados Unidos. Com a diferença de que esse mapa seria mais ou menos 50.000 vezes maior que o dos Estados Unidos, com 50.000 vezes mais estradas e cruzamentos.Como você pode ver, a nossa infra-estrutura distribuída permite que as aplicações atravessem eficientemente um diagrama de links com vários trilhões de conexões, ou rapidamente classifica petabytes de dados, simplesmente para nos preparar para responder a pergunta mais importante: sua próxima busca no Google.

Nenhum comentário: