読者です 読者をやめる 読者になる 読者になる

セマンティック検索のPowersetを、MS が1億ドルで買収

ちょっと前に、会話型の検索エンジンの話をしましたが、しっかり成長していたようです。

PowersetはGoogle Killerになるのか。MSが買収。

 噂通り、マイクロソフトがセマンティック検索のPowersetを、噂では1億ドルで買収し、Live Searchに統合される。自然言語をより正しく理解するセマンティック検索は、Googleの現在の検索の次に来るものとして期待されている。

セマンティック検索。
覚えておきたい言葉ですね。

日本語だと、何が適切な表現なのか・・・。

おそらく、『自然言語型検索』や『対話型検索』になるのかな?

従来の検索エンジンが、単語をwebから探すだけに対し、セマンティック検索の場合は人間の感覚に近く、言葉や文章の意味を理解して、検索結果を表示します。

簡単な解説を探してみたので、下記を見てみてください。

大事なことは、データを『意味』として捕らえる点です。

セマンティックWeb

セマンティックWebとは、Webサイトが持つ意味をコンピュータに理解させ、コンピュータどうしで処理を行なわせるための技術のことである。情報の意味(Semantics)をコンピュータ自身に理解させることで、人を仲立ちさせることなく情報のやりとりを行なわせることができる。WWW関連技術の創始者であるティム・バーナーズ・リーによって提唱された。

現況では、コンピュータはWebサイトへのアクセス手段、あるいは表示媒体として機能している。表示された情報は、人間が直に読んで操作を行なうことによって処理される。今はまだ、「コンピュータ自身がWebサイトの情報を解釈して自ら処理を行なう」といった構造はもっていない。セマンティックWebでは、コンピュータの力によってデータの意味やデータ間の関連を定義することが可能となる。情報を自動的に収集したり、有益な情報を選定したりを、コンピュータによって行なわせることができるようになる。

セマンティックWebにおいては、コンピュータにWebサイトの情報を理解させるために、XMLをベースとしたメタデータが用いられる。このメタデータを記述するためのフレームワークが「RDF」(Resource Description Framework)と呼ばれる。RDFによってタグ付けされたメタデータがコンピュータの解釈を可能にし、情報の自動的に整理・処理することを可能にする。

セマンティックWebは、認証技術などの問題で、現在はWebのような開け放たれたネットワークで利用することは困難な状況にある。セマンティックWebがインターネットにおいて完全に実現すれば、Web上に散在する情報を統合して一個のデータベースとして活用できたり、コンピュータ関連技術に弱い人にも効率的な情報処理ができるようになったりと、画期的なネットワーク社会が実現するだろうと期待されている。

IT用語辞典 / cybozu.net

Powerset

Powerset(パワーセット)とは、アメリカ合衆国シリコンバレーにあるIT企業であり、または会社が開発している検索エンジンのことである。

検索エンジンはまだ公開されていないが、現在では日本語版も開発中である。また、Powerset Labsというサービスがクローズドベータ版で公開された。

Powerset社が自然言語処理に基づいて開発中の検索エンジン「Powerset NATURAL LANGUAGE SEARCH」は、単語による検索だけではなく文章による質問形式で検索でき、文章の内容を人工知能が理解して、知りたい事柄だけが検索できる仕組みになっている。また一部の専門家の間では、この仕組みによる検索エンジンが未来のインターネットの世界の主流になるであろうと考えられている。このため将来は、世界で一番のシェアを誇るGoogleをもしのぐ存在になりうるとも言われている。

wikipedia

むずかしい・・・。

セマンティックWeb:エンタープライズ・セマンティックWebに従来Web検索との違いの例が載っていました。

例えば、丸の内近辺の歯医者を探したい利用者が、“丸の内”と“歯医者”というキーワードで検索したとする。
従来のWeb検索では、Webページ(情報リソース)上に記載されている文字列を検索するため、那覇空港近くの丸の内歯科が検索されてしまったり、丸の内で近くに勤務している人の歯医者での出来事が検索されてしまったりする。それに対し、セマンティックWeb検索では、各Webページに意味(例えば、タイプ:HP、職種:歯医者、場所:丸の内)が付与され、その意味に対して検索キーワード(“丸の内”と“歯医者”)がマッチングされるため、Webページ上の文字列が検索キーワード(“丸の内”と“歯医者”)と異なっていても、利用者が求める情報を的確に検索することが可能となる。


より人間的な検索が可能になりそうです。

google を抜けるかどうかは分かりませんが、この検索方法は世界のスタンダードになっていくと思います。