検索エンジンの種類
検索エンジンは、全文検索(ロボット)型(WEB上の情報全文をデータベースに保存し、キーワードにより検索する方式)と
ディレクトリ型(Webサイトを属性(カテゴリー)ごとに分類、階層化したリンク集方式)の2種類に分けられます。
国内においては、全文検索型ではGoogleやgooがディレクトリ型ではYahooが代表されます。
ただし、近年においては相互の機能を合わせ持つ検索サイトが増えてきています。
検索エンジンのプロセス
検索エンジンの基本的な流れは、クロール(WEBの巡回)→インデクシング(データベースへ保存)→クエリプロセシング(検索結果の出力)を繰り返します。
クロール
検索エンジンのスパイダー(プログラム)がWEB上のリンクされたサイトを巡回し、サイトの情報を全文取得していきます。
リンクはa要素のhref属性で指定されたURIを辿るため、FlashのgetURLアクションやスクリプトによる
href属性の指定ではリンク先情報を取得できない場合があります。
そのため、必ず別のリンクを記述しておくことが無難です。またサイトマップやパンくずを設置することでスパイダーがリンクを
漏れなく辿るだけでなく、ユーザーにとってもアクセシビリティを考えた見やすいサイトにできます。
インデクシング
スパイダーが取得したサイトの情報を、インデクサ(プログラム)が分析・処理しデータベースとして保存する作業となります。
分析・処理内容は、単語分け・ストップワード削除・HTMLタグ解析等を行い情報をインデックスしやすい形態にします。
サイト制作の際の注意点は、不要なタグを削除とCSS・Javascriptを外部ファイル化するなどしたシンプルなHTML文章で記述することです。
クエリプロセシング
検索されたキーワードとデータベースのWEBサイトの適合性を計算し、適合数値(スコア)の高いサイトから検索結果として
表示します。スコアリング(適合値算出)はいくつかのアルゴリズム(数値測定法)により算出されます。
アルゴリズムは常に変更・改善されており、また検索エンジンそれぞれで重み付けの基準が変わるため数値も変動します。
しかし、基本となるアルゴリズムはどれも同様のものであるので、基本に沿ったサイト構成が重要です。
テキストの重要性
検索エンジンのスパイダーは、WEBサイト内のテキスト情報のみを取得するため検索キーワードとして使う単語は
テキスト形式で記述されていなければなりません。テキスト情報とは、タグ内に記述された文章だけでなく
画像のAlt属性でしたものや最近ではFlashのテキストエリアも含まれます。
検索エンジンは、それらの文章を形態素解析により単語に分けて検索キーワードとのテキストマッチを行います。
※形態素解析とは・・・文章から名詞を取出す辞書機能を備えたプログラムの技術で、完全一致しない単語でも一部の単語を含む検索結果を表示します。