信息檢索是什么?它和搜索引擎的關(guān)系是什么?以及,如何更好地使用搜索引擎?

信息檢索(Information Retrieval)起源于圖書(shū)館的資料查詢(xún)和文摘索引。計算機誕生后,信息檢索的內容已經(jīng)從文本檢索,擴大到圖片、音頻、視頻等各種信息的檢索。

通常信息檢索會(huì )包含一個(gè) Query,即表述需求的查詢(xún)字段,和一份由系統回復的、包含所需要信息的文檔列表。

搜索引擎是最常見(jiàn)、規模最大的信息檢索系統。

通過(guò)爬蟲(chóng)不斷抓取、存儲、更新互聯(lián)網(wǎng)中的網(wǎng)頁(yè)內容,再為它們建立與字典類(lèi)似的索引目錄,用戶(hù)在鍵入關(guān)鍵詞時(shí),
就會(huì )通過(guò)關(guān)鍵詞在這些網(wǎng)頁(yè)中出現次數和位置,來(lái)判斷頁(yè)面與 Query 的相關(guān)性,并將它們由高到低排列起來(lái)。

說(shuō)起來(lái)簡(jiǎn)單,理解用戶(hù)的 Query,清除重復或低質(zhì)量的頁(yè)面,建立高效的索引,每一項都不簡(jiǎn)單。建立一個(gè)好用的搜索引擎,
往往需要分詞、信息抽取、文本分類(lèi)等各種各樣的 NLP 技術(shù)作為支撐,小小的一個(gè)搜索框背后,凝聚著(zhù)人類(lèi)最頂尖的智慧。

找不到自己想要的信息?我們也可以學(xué)習使用一些高效的搜索語(yǔ)句,讓搜索引擎更好地理解我們,有機會(huì )不妨試試它們吧!



