【SEO基礎】検索エンジンの歴史や仕組み、アルゴリズムについて

SEOに限った話ではありませんが、歴史を知ることは重要です。なぜかと言うと、『SEOを行う上でやったほうがいいことと、やってはいけないこと』があるからです。
また、検索エンジンがどのようなしくみで動いているかを理解することは、SEO対策を行ううえで非常に重要です。まずは検索エンジンの歴史と基本的な動きを理解し、SEO対策に活用できるようにしてください。

  • ロボット型検索エンジンが主流である
  • リンクはロボット型検索エンジンの通り道
  • まずクロールされ、インデックスされないことには検索結果に表示されない
  • リンクが多いほど高評価に繋がる
  • 検索エンジンスパムはアルゴリズムに排除される

検索エンジンの歴史を知ることによって検索の今を理解しよう

これまでの検索エンジンの進化の歴史上では常に、『便利な検索エンジン』にしたい検索エンジンの運営と、『たくさんの集客をしたい』サイトオーナーのせめぎ合いがあります。
中には、検索エンジンの仕組みを逆手にとったSEO対策があり、それらに対して検索エンジンは常に厳しい対応をとってきたと言う歴史があります。

やってはいけないことと言うのは、厳しい対応を取られたSEO施策のことで、『SEOスパム』や『ブラックハットSEO』と呼ばれています。
もしも、ブラックハットSEOを行ってしまった場合、検索エンジンに嫌われるサイトとなり、最悪の場合、検索結果に表示されなくなってしまう可能性もあるのです。

また、検索エンジンが目指す方向性を理解していると、これから先の検索エンジンの進化を創象し、それに対応したWebサイト作りができるようになります。

それらを理解するためには、検索エンジンの歴史を理解することが有効で、検索エンジン最適化の第一歩と言えると思います。

検索エンジンの種類

検索エンジンには大きく4つの種類があります。

  • ロボット型検索エンジン
  • ディレクトリ型検索エンジン
  • メタ検索エンジン
  • 分散型検索エンジン

最もメジャーなのは、『ロボット型検索エンジン』と言われるもので、代表的なのは「Google」や「bing」などです。

次に、『ディレクトリ型検索エンジン』です。
よく知られているのは、2014年まで運営されていた「Yahoo!ディレクトリ」や、「DMOZ」などがあります。

メタ検索エンジンと、分散型検索エンジンはあまり聞かない検索エンジンですね。

今は検索エンジンといえば、ほとんどGoogleと言うイメージかもしれませんが、実は検索エンジンは過去にたくさんありました。
軽く説明しますが、不要な方は、ここは読み飛ばしていただいても大丈夫です。

Archie
史上初の検索エンジン。1990年に誕生。FTPサーバに接続してファイルの一覧を取得し、UNIXのgrepコマンドで検索すると言う仕組みだった。
The World Wide Web Virtual Librar
HTMLの生みの親、ティム・バーナーズ=リーとCERNによって、1991年に作られた。ワールドワイドウェブ上の最初のコンテンツインデックス。
Veronica・Jughead
Veronicaは、1992年11月に誕生。Gopherプロトコルの検索エンジンシステムで、ネバダ大学リノ校の Steven FosterとFred Barrieによって開発された。同じくGopherプロトコル用の検索エンジンシステムであるJugheadは。一度に1つのサーバーを検索するという点でVeronicaと違う。
W3Catalog
1993年誕生、ジュネーブ大学のオスカー・ニアーズトラスツが開発。W3Catalogはページをミラーリングし、再フォーマットしたコンテンツを、Perlベースの画面で検索を可能にした。
Aliweb
ALIWEBとは、Archie Like Indexing for the Webの略からきた名前で、1993年発表。ユーザーがページを登録するときに、キーワードや、説明文を登録できるようになっていた。
WebCrawler
WebCrawlerは、全文検索ができる最初のWeb検索エンジンで、1994年にBrian Pinkertonによって誕生。現存する検索エンジンでは最も古い。他の検索サービス複数をまとめて利用できるメタ検索エンジン。
Infoseek
Infoseekは、人気の高いインターネット検索エンジンで、1994年にSteve Kirschによって設立された。また、CPMベースで広告を販売した最初の検索エンジンの1つだった。
Lycos
Lycosは1994年に設立されたWeb検索エンジンおよびWebポータルのことであり電子メールのネットワーク、Webホスティング、ソーシャルネットワーキング、およびエンターテイメントWebサイトも含まれる。
Altavista
AltaVistaは、1995年に設立されたWeb検索エンジンであり最もよく使用された初期の検索エンジンの一つだった。高速マルチスレッドクローラー(Scooter)と効率的なバックエンド検索の2つが特徴。
Excite
Exciteは、ニュースや天気、Webベースの電子メール、インスタントメッセージング、株価情報、およびカスタマイズ可能なユーザーのホームページを含むさまざまなコンテンツを提供する1995年に立ち上げられたWebポータルである。
Daum
Daumは韓国で有名なwebポータルであり、無料の電子メール、メッセージングサービス、フォーラム、ショッピング、ニュース、Webtoonサービスなど、多くのインターネットサービスを提供している。
Yahoo!
1994年、スタンフォード大学の楊致遠とデビッド・ファイロによって開発されたディレクトリ方の検索エンジン。2000年代後半にはグーグルやフェイスブックとの競争に敗れ、検索エンジンやポータルサイトなどの主力事業の競争力が低下することに。
Looksmart
1996年に設立されたjavaをベースにした検索エンジンで設立当初、85,000以上のサイトが登録されていた。1999年にはアクセス数が1000万人を越えた。
Hotbot・Inktomi
1996年にHotBotにより立ち上げられた検索エンジンであり入力した単語やフレーズ全体で検索できる点が称賛され人気を集めたよう。また、週間で1000万ものWebページをクロールできた。
Yandex
1997年にロシアで発表された検索エンジンであり今ではGoogleに次いで世界で5番目に大きい検索エンジンとなっている。
Ask
インターネットの黎明期から存在する検索サービスでありアメリカでは5社中4位のデスクトップ検索サイトである
Google
1996年ラリーペイジとセルゲイブリンによって設立された検索エンジンであり「PageRank」と呼ばれるアルゴリズムが搭載されている。今では世界中の何十億ものwebページがインデックスされており市場シェアは60%を越えている。
MSN
MSNは、Microsoftによって提供され、Windows 95と同じリリース日である1995年8月24日に発売された、Webポータルサイトである。当時、Internet Explorerの既定のホームページとして機能していた。
DMOZ
DMOZはOpen Directory Projectとも呼ばれ、非営利で運営されているWebディレクトリであり1998年に公開された。。誰でもディレクトリの編集に参加でき、また再配布などを無償で行うことができる点が特徴である。
AllTheWeb
1999年に登場した検索エンジンで今ではもう閉鎖されているが高度な検索機能を有しておりGoogleより優れている点もあったようだ。
Vivismo
2000年に三人のコンピュータサイエンス研究者によって開発された、統合検索とドキュメントクラスタリングに特化した検索エンジンである。
Exalead
2000年に設立された検索エンジンで従来の機能に加え、音声検索や切り捨て検索、近接検索機能を有していたことで有名であった。
百度
中国の百度公司が運営する中国最大の検索エンジンでありそのシェアはGoogle、Yahooに次いで何と世界3位である。中国のインターネットユーザーの約70%が、百度を利用している。
Info.com
Infoは、GoogleやYahoo!などの検索エンジンやディレクトリからの結果を提供するメタ検索エンジンである。2004年にローンチし2016年の推定月間訪問者数は1,350万人にもおよぶ。
Overture
もともと「GoTo.com」という名称で運営していたアメリカ発の検索連動型広告の有料検索エンジンのことを指す。周期的にクローラーが回って情報を収集することからレスポンスの早い検索エンジンとしてかなり注目を受けた。
SearchMe
ランディアダムスとジョンホランドによって2005年に設立された検索エンジンでありスナップ方の検索エンジンとして注目を集めいていたが2009年に閉鎖される。
Snap
2004年に開発された検索エンジン。従来のものとは異なり検索結果の表示順をユーザーがコントロールできるようにしたことで、ユーザーのフィードバックによって検索結果を改善していく検索エンジンであった。
ChaCha
2006年にアメリカで開発された検索エンジン。本物の人間がチャットにて情報検索を援助してくれるという珍しい種類の検索エンジンであった。
Sproose
Bob Packが2007年8月に立ち上げた消費者向け検索エンジン。ユーザーがWebサイトに投票し、悪い結果やスパムの結果を削除することで、検索結果のランキング順序に影響を与えることができたため、アルゴリズム検索エンジンよりも高品質の結果を提供していたとされる。
Wikiseek
英語のWikipediaページとWikipediaの記事からリンクされているページにインデックスを付けるウィキペディアに特化した検索エンジンである。2007年にローンチ。
Picollator
2006年に開発された画像タイプの検索エンジンである。送信された画像の他の画像や類似画像、類似の写真を含むWebサイトをインターネットで検索できる。
Powerset
2006年に開発された検索エンジンでありユーザーの質問に対する的確な回答を見つけることができる自然言語型の検索エンジンであった。
Viewzi
2008年に開発されたビジュアルタイプの検索エンジンである。画像だけでなくアルバム、mp3データなど多岐にわたる検索結果が表示できる。
Cuil
2008年に回衣鉢された検索エンジンで役1,200億ものwebページがインデックスされていたとされているが2010年にサービスが終了している。

ふぅ。。。

こんなにたくさんの検索エンジンがあったんですね。笑

様々な検索エンジンが生まれては消えてきたわけですが、冒頭でお話しした4つの検索エンジンの種類について見てみましょう。

ロボット型検索エンジン

それに対してロボット型検索エンジンは、人による登録審査を行いません。
世界中のウェブサイトを「クローラー」と呼ばれるロボットが自動的に巡回し、ウェブサイトを自動的に登録するわけです。
ですので、ロボット型検索エンジンは、ディレクトリ型検索エンジンに比べて圧倒的に登録サイト数が多いのが特徴です。

ディレクトリ型検索エンジン

ディレクトリ型検索エンジンは、人がウェブサイトを審査して登録するため、表示されるウェブサイトの質が高いというメリットがあります。
しかし一方で、登録申請されていないウェブサイトが検索結果に表示されることはないため、ユーザーが検索できる情報が限られるというデメリットがあります。

昔は、カテゴリ(ディレクトリ)ごとに登録されたウェブサイトの中から検索するディレクトリ型検索エンジンが一般的でした。
このディレクトリ型検索エンジンにウェブサイトを登録するには、検索エンジンにウェブサイトの登録申請を行って、審査に合格しなければなりませんでした。

メタ検索エンジン

メタ検索エンジンとは、他の検索サービス複数をまとめて利用できる検索エンジンのことで、GoogleやYahoo!検索といった主要な検索エンジンやブログ、動画、音声などの検索結果をまとめて表示するものです。

分散型検索エンジン

最後に、分散型検索エンジンとは、P2P通信によってWebコンテンツのインデックスを多数のピアに分散させ、P2Pネットワーク全体で各ピアの持つインデックスを共有する検索システムのこと。だそうです。

最もメジャーな検索エンジン

今では、Googleを中心としたロボット型検索エンジンが一般的となり、わざわざディレクトリ型の検索エンジンにウェブサイトを登録するサイトオーナーもほとんどいなくなりました。
そのため、ロボット型検索エンジンの仕組みや挙動を理解しておくことが、SEOのためには重要ということです。
では、ロボット型検索エンジンは、どのようにしてウェブサイトを発見し、登録していくのでしょうか。

検索結果に表示されるまでの流れ。アルゴリズムの動きについて

クロールとインデックス

前述のとおり、ロボット型の検索エンジンでは、世界中のウェブサイトをクローラーというロボットが自動的に巡回し、ウェブサイトを自動的に検索エンジンに登録します。
この巡回のことを「クロール」と呼び、クロールされたウェブサイトが検索エンジンに登録されることを「インデックス」と呼びます。

検索エンジンの検索結果ページにはインデックスされたウェブサイトが表示されるわけですが、裏を返せば、検索エンジンにインデックスされなければ、検索結果にウェブサイトが表示されることはないということになります。

ということは、そもそもクロールされることがなければ、検索エンジンの検索結果ページにウェブサイトが表示されることはないということになるので、クローラーがどのようにウェブサイトをクロールするかをおさえておくことが重要なポイントになりますね。

リンクの重要性

自動的にクロールとインデックスを行うロボット型検索エンジンとはいえ、まったく知らないURLをクロールすることはできません。
そのため、検索エンジンは、より多くのURLを見つけるための手段として、既知のウェブサイトに掲載されている「リンク」を利用します。

このリンクをたどってクロールしていくことにより、世界中にある未知のウェブサイトを一つ一つ発見し、インデックスしていくというしくみなのです。
つまり、インターネット上に立ち上げたばかりで、どのウェブサイトからもリンクでつながっていないウェブサイトのURLを発見することは、ロボット型検索エンジンでも不可能なのです。

そこでウェブサイトのオーナー(ウェブマスター)は、ウェブサイトを立ち上げると同時に、外部からのリンクを確保しておく必要があります。
また、インデックスの促進のみの方法であれば、直接検索エンジンにウェブサイトのURLの申請を行ったり、検索エンジン向けのサイトマップなどを申請したりすることもできます。
この作業を行うことで、ウェブサイトがクロール、インデックスの促進を行うことも可能です。

Googleのアルゴリズムについて。検索エンジンの仕組みを理解しよう

リンクとページランク

SEO対策におけるリンクの役割は、ウェブサイトをクロールしてもらうという役割だけではありません。
実際、検索エンジンは、リンクをウェブサイトの人気度・重要度を計る指標としても利用しています。
つまり、多くのウェブサイトからリンクされているウェブサイトであれば、人気のあるウェブサイトだと言えるのではないか。ということです。

リンクによってウェブサイトの人気度・重要度を計る仕組みとしては、Googleの特許が有名で、「PageRank(ページランク)」といいます。
GoogleはこのPageRankの技術を用いて、世界中のウェブサイト・ウェブページの一つ一つの評価指標としてリンクを利用しています。
このページランクの詳細については後述しますが、Googleをはじめとする検索エンジンは、リンクをウェブサイトへの人気投票のように捉えているとえます。

たとえば、あるユーザーが、ブログやSNSなどにリンクを貼り付け、あるウェブサイトのコンテンツを紹介したとします。
このときのリンクを貼ったユーザーの心理についてよく考えてみてください。
なぜユーザーは、ブログやSNSなどにリンクを貼り付けて、他者のウェブサイトのコンテンツをわざわざ紹介したのでしょうか。
おそらくは、多くの場合「お得」「美味しい」「面白い」「共感できる」など、コンテンツに対して何かしらのポジティブな印象を持ったことによって、紹介するという行動に至ったのではないでしょうか。

一般的には、何かに対してポジティブな印象や感想を持った場合、人は他者にそれを共有したり、共感したりしたくなり、紹介という行為に及ぶものです。
検索エンジンは、こうした人の行動や習性を、ウェブサイトの評価の1つとして応用していたわけです。
そのためウェブサイトへの外部からのリンクが多ければ多いほど、より多くの人気投票がなされているものとみなされ、ページランクが上昇するという仕組みになっているのです。
リンクをたくさん受けて、ページランクが高くなればなるほど、検索エンジンの検索結果ページの上位にウェブサイトが表示されやすくなるため、SEO対策では非常に重要なポイントとなります。

検索エンジンから見たウェブサイト

検索エンジンは、外部からのリンクをもとにウェブサイトの人気度・重要度を判断していると解説しましたが、もちろんそれだけでウェブサイトの評価がすべて決められているわけではありません。
検索エンジンはリンクに代表されるウェブサイトの外部の状況だけでなく、ウェブサイトの中身そのものをも解析して、評価の基準としています。

そのウェブサイト・ウェブページに、どのような内容がどのように書かれているのかを極力正しく理解し、評価に反映させようとしています。
そのためSEO対策では、検索エンジンがいかにしてウェブサイトを認識して評価しているのかを把握しておくことが重要となります。

ここでおさえておきたい前提は、検索エンジンがウェブサイトを認識する方法と、人間がウェブサイトを認識する方法が異なるということです。

人がウェブサイトを認識する場合は、Internet ExplorerやSafari、Google Chromeなどといったウェブブラウザに表示されるレイアウトの組まれた視覚的なコンテンツを対象としますが、検索エンジンも同じようにウェブブラウザ上のコンテンツを読んでいるというわけではありません。
どういうことかというと、ウェブサイトの構築に使われるHTML(ハイパーテキストマークアップランゲージ)というマークアップ言語を読んでいます。
検索エンジンは、このHTMLで定義されたコンテンツを読み、理解した上で評価をするという仕組みになっています。

HTML文法やルールの重要性

ウェブサイトは、ウェブサイトの基本を形成するHTMLや、ウェブサイトのみためをつかさどるCSS(カスケーディングスタイルシート)、あるいは動的表現を可能にするJavaScript(ジャヴァスクリプト)などといった言語で記述されています。
検索エンジンは、このHTMLやCSS、JavaScriptなどの言語を直接読むことで、そのウェブサイトがどのような構造であり、そこにどのようなことが書いてあるのかを理解します。
ここで重要になるのは、このHTMLやCSS、JavaScriptにも文法やルールが存在するということです。

ウェブブラウザ上の表示が人間には同じように見えても、一方のウェブサイトでは文法やルールが守られ、一方のウェブサイトでは文法やルールが守られていない場合、前者よりも後者のほうが低く評価されることになってしまう可能性があります。
なぜかというと、HTMLには、ある文字列に対して、その文字列がどのような役割を果たすものなのかを指定する役割があり、その役割を読みとって、コンテンツの文書構造を理解しようとするためです。

例えば、titleタグの場合は、文字通りこのページのタイトルを意味する文字列である。ということや、hタグの場合は、その文字列が見出しであるというように、文字列がなす役割を伝えています。
言語の文法やルールをしっかりと理解して、正しくウェブサイトを記述することが、検索エンジンに評価されるウェブサイトを作ることにつながるのわけです。

検索エンジンスパム・ブラックハットSEOとホワイトハットSEO

実はここが今回一番お伝えしたい点です。

ここまでで説明したように、様々な仕組みでウェブサイトを評価付けしようとする検索エンジンですが、これらの仕組みを逆手にとって、上位表示を強行しようとするウェブマスターが現れました。
先に説明した通り、この「ブラックハットSEO」といい、対して検索エンジンの理念に則り、良質なコンテンツを作成することでSEOを行うことを「ホワイトハットSEO」といいます。

『SEO対策とは?超初心者向けSEO対策の基本と仕組み』の記事でも軽く紹介した通り、ブラックハットSEOを行うウェブマスター達は、検索エンジンの仕組みを利用し、様々な手法で検索上位を獲得しようとしてきました。
もしこの記事を読んでいなければ、SEOの基本的な知識を掲載しているので、是非読んでもらいたいです。

SEOとは?超初心者向けSEO対策の基礎と仕組み | 株式会社ココログラフ
皆さんは、SEO対策をご存知でしょうか。SEO対策というのは、検索エンジンを活用したWeb集客の方法なんですが、僕たちは、検索エンジンを使った集客支援をサービスとして提供しています。 今回は、『SEOとは?』を、超分かりやすく簡単に解説して…

例えば、リンクを多く受けていると、上位表示されるという仕組みを逆手にとって、「自作自演の外部リンクを制作する」ということを行うウェブマスターが現れました。
これに対し、検索エンジン側は、不自然なリンクが多数貼られているサイトに対して、リンクの効果を無効化したり、悪質なものにはペナルティを与えたりすることで対応しています。

コンテンツに、検索キーワードが多数含まれているサイトが上位表示されているという話になれば、「不必要にキーワードを詰め込む」「人の目には見えない隠しテキストを仕込む」というSEOスパムが流行りました。
当時は、キーワードの出現頻度というものが重要視されている時代でしたが、これに対しては検索エンジンも、隠しテキストの手法を見つけてはペナルティを与えたり、文脈を理解したり、共起語がどれだけ含まれているかなどを判断できるようにアルゴリズムを更新して対応してきました。

ブラックハットなSEOは、検索エンジンによって淘汰されてきましたが、このような検索エンジンがブラックハットSEOに対応するために行ったアルゴリズムの更新や、検索体験を向上させるための更新などの中でも、特に影響の大きかったものを紹介します。

ペンギン・アップデート

ペンギン・アップデートとは、2012年4月に適用された、スパム行為や、ウェブマスター向けガイドラインに著しく違反しているWebページに対して検索結果の順位を下げる為のものです。
例えば、他のサイトのコンテンツを改変、加工したコンテンツ品質が低いサイトや、検索ユーザーにとって意味のないリンク集、PageRankの受け渡しのみを目的とした意味のないリンクネットワークのようなものの順位を下げるという為のアルゴリズムアップデートです。

パンダ・アップデート

パンダ・アップデートとは、2012年7月に日本にも導入された、低品質なコンテンツが検索結果上位に表示されにくくするためのアルゴリズム・アップデートのことです。
例えば、独自性や専門性が低いサイトや、広告の占める割合が多いサイト、薄っぺらいコンテンツや、コピーサイトなどの順位を下げるという為のアルゴリズムアップデートです。

ペンギン・アップデートもパンダ・アップデートも、低品質なサイトの順位を落とすことによって、検索ユーザーの目に触れないようにすることを目的としています。
低品質なサイトが検索上位にあると、検索ユーザーは検索結果に不満を持つようになるでしょう。
そうならないためにもGoogleは検索エンジンスパムや、ブラックハットSEOと常に戦っているんですね。

RankBrain (ランクブレイン)

RankBrain (ランクブレイン)とは、人工知能が機械学習によって、検索クエリとコンテンツの関連性を判断するAIベースのアルゴリズムのことで、2015年頃に導入されました。

この人工知能がどのように検索結果に影響を与えるかというと、例えば、コンテンツにキーワードが入っていなくても、キーワードに対して有益なコンテンツであれば検索結果に表示させることができたり、ユーザーが本来求めているコンテンツが何であるのかを理解し、最適な検索結果を表示させることができるように日々自動的に改善を繰り返すことができるようになりました。

まとめ

かなりざっくりと書いたつもりで、細かな点まで解説すれば、まだまだ深く掘り下げることができますが、それはもう少し知識が深まってから覚えてもいいでしょう。

と、いうことで、検索エンジンは、様々な仕組みで検索ユーザーが求めるコンテンツを適切に届けるために日々改善を行ってい流ことがわかったと思いますが、たとえ検索エンジンの仕組みを逆手にとって、テクニカルな方法で上位表示に成功したとしても、本質的にそのコンテンツが検索ユーザーに求められていないものであれば、それはいつか必ず上位から蹴落とされます。
SEO対策で重要なのは、上位化したいキーワードを検索するユーザーのニーズをしっかりと理解し、求められているコンテンツを提供することなのです。

簡単なことではないかもしれませんが、その努力の繰り返しが、ウェブサイトをSEO対策以外の面でも成長させてくれることと思います。

中村 一浩
中村 一浩
株式会社ココログラフ代表。SEO歴12年、対策実績900サイト以上。検索エンジンだけでなく検索ユーザーにまで最適化する、SEOの上位互換サービスSUOを提供。SEO / SUOの独自レポートツール、サチコレポート開発者。著書『現場のプロが教えるSEOの最新常識』
中村 一浩
中村 一浩
株式会社ココログラフ代表。SEO歴12年、対策実績900サイト以上。検索エンジンだけでなく検索ユーザーにまで最適化する、SEOの上位互換サービスSUOを提供。SEO / SUOの独自レポートツール、サチコレポート開発者。著書『現場のプロが教えるSEOの最新常識』