google






 1996年、スタンフォード大学の大学院生だったラリー ペイジとサーゲイ ブリンが開発した検索エンジン「BackRub(バックラブ)」は、1 つ 1 つのウェブページの重要度をリンクに基づいて判断するというものでした。その成果を事業化して 1998 年に創業した企業が、現在の Google のルーツです。
 設立以来、Googleは急速な成長を遂げてきました。最初は 1つの言語の検索だけを手がけていましたが今では、各種の広告やウェブアプリケーションを含む多数のサービスを、膨大な数の言語で提供するまでになりました。コンピュータサイエンス専攻の学生 2人が大学の寮の1部屋で始めた取り組みが、膨大な数の社員が世界各地のオフィスで展開する事業へと拡大したのです。
 共同創設者のラリー ペイジとサーゲイ ブリンは、自分たちが開発した検索エンジンに「Google」という名前を付けました。1 の後にゼロが 100個並んだ値を表す「googol(ゴーゴル)」という数学用語をもじったものです。この名前は、世の中に存在する膨大な情報を表すとともに、「世界中の情報を整理し、世界中の人々がアクセスできて使えるようにする」という Google の使命の大きさも表しています。
 Googleは、検索した文字列を含むウェブページの中で、適切と考えられるページを示すために、ページランクと呼ばれるアルゴリズムを用いている。ページランクアルゴリズムは、ウェブページの価値の指標(ページランク)を、そのページにリンクしているページのページランクを加重した値に基づいて、再帰的に計算するものである。つまり、ページランクアルゴリズム自体がウェブページの内容の有用性を評価しなくても、人間の作ったリンクの関係を利用することにより、人間の考えるウェブページの有用性とよく関連したランクを付けることができるのである。このアルゴリズムにより、利用者が有用と感じる検索結果を提供でき、高シェアの検索エンジンとなっていった。また、Googleは、検索結果として表示する順番を決めるのに、ページランクに加えて、およそ百程度といわれる公開されていない基準も用いている。この多くの基準により、露骨な検索エンジン最適化が施されているサイトが検索結果からほぼ一掃され、検索結果の品質を一定のレベルに保っている。公開されていない基準に関しては、コンピューターによる自動的な判定によるものではなく、人手により個別の判断がなされていると見られており、完全に人間の判断を排除したアルゴリズムではなくなっているという指摘もある。
 ページランクを調べる方法としては、Internet ExplorerやMozilla Firefox対応のGoogleツールバーをパソコンにインストールして表示する方法がある。ページランクは0-10までの11段階評価式となっており日本以外ではアップルのトップページのランク10、日本のランク10のページとしては慶應義塾大学などがある(2006年11月時点)。
 Googleは高品質の検索結果を提供するため、また、WWWのインデックス化のために、1万台以上のLinux コンピュータを使用している。なお、使用している ディストリビューションは、コストパフォーマンス の追求のため、Red Hat Linuxを独自にカスタマイズしたものである。インデックス化にはGooglebotというクローラが用いられている。クローラは様々なページへのリンクを調査して、データベースに追加する新たなページを見つける。また、インデックス化されているページの更新も定期的に確認している。
 このインデックスデータベースとウェブページのキャッシュのサイズは数テラバイトにも及ぶ。初期のクローラやWeb サーバは、ともにPythonで書かれていた。現在では検索のメイン部分はC++ によって書かれており、Web サーバにはGWS という専用のサーバソフトウェアが使われている。なお、Googleのサーバに使われているコンピュータは当初、非常に安価(一般に市販されているコンピュータと同レベルかそれ以下)なものであった。近年では、より快適なレスポンスを実現するために、高価なRAM ディスクを使用したサーバを使用しており、必ずしも安価なサーバのみを使用しているわけではない。また、信頼性を高めるために徹底した多重化が図られている。Googleでは、非常に多くのサーバを使用している為に、毎日故障した何十台ものコンピュータを交換・追加していたが、RAM ディスクを使用するようになってからはハードディスクに起因する故障が激減した。なお、当初使用していたハードディスクを積んだサーバはGmail サービスに流用されていると見られている
 Googleウェブサイトのトップページは、広告が掲載されていないなど、検索に不必要な情報が極力省かれたシンプルさが特徴である。Googleの人気が決定的なものになるに連れて、このトップページのシンプルさに対する評価も高まり、AlltheWeb など、これにならうようになった検索エンジンも現れた。
 ハロウィン、クリスマス、Google設立記念日、オリンピック開催中など、何か特別な日には、トップページの「Google」のロゴが、その日に関係したものを使ってデザインされた「Google」のロゴ(通称:ホリデーロゴ)に替えられることがある。国限定だったりすることもある。また、ポップアップボックスも変化する。ただし現在では、後述のiGoogle によって、シンプルなデザインとガジェットつきホームを選択できるようになっている。
 Googlebot 等のクローラを拒否する場合はrobots.txtや<meta>タグ等で制御は出来ます。強制的なもので無いので総ての検索エンジンに対応していません。クローラとは、ウェブページにアクセスして、そのコンテンツをコピーし、別のページへのリンクをたどる、という処理を延々と繰り返しているソフトウェアです。ウェブ上にある膨大な数のページの解析を日夜続けています。
肥大化するアクセスログのファイルの処理に注意しましょう。                   
























            2009−08−24−432−01−01−OSAKA  



                     HOME
                  −−戻る 次へ++