一搜索引擎原理和用戶使用習慣

發布時間：2019-03-18 09:29:56

【導讀】搜索引擎是指根據一定的策略、運用特定的計算機程序從互聯上搜集信息，在對信息進行組織和處理后，為用戶提供檢索服務，將用戶檢索相關的信息展示給用戶的系統。當用戶在搜索框輸入一個關鍵字后，我們應該給用戶返回什么內容呢？

一、搜索引擎原理和用戶使用習慣

1.1 搜索引擎是一個可供所有人檢索的數據庫

別拿人不當人；在人之下圖1：搜索引擎簡單的人機交互過程

其中：

1）被檢索的數據庫即搜索引擎所抓取的頁數據。

通過蜘蛛爬取到原始數據后，搜索引擎會對其進行處理后才入庫。即搜索引擎的搜索算法，比如大家熟知名字（當然是名字啦，內容原理是最高機密）的Google的PageRank。

2）搜索引擎是高度簡化后的產品。

用戶需要做的即是輸入想要檢索的關鍵詞，確定，查看結果。這里有個需要說明的是，用戶連搜索條件都不需要輸入。而對搜索引擎來講，不僅要在海量數據中快速找到相關結果，還要揣測用戶的期望并提取正確的內容給用戶，內部的機制已經不能用繁瑣來形容了。

這個難度就好比在大量圖書中快速準確找出某一個未知問題的答案一樣。

圖2：剛拍攝的國家圖書館，使用了濾鏡。

1.2 搜索引擎數據處理過程

搜索引擎是一個超級復雜的系統，內部具體的處理規則和技術原理不可能是簡單的闡述清楚。我們通過產品的思維來理解一下這個過程即可。拿寫論文的例子分析即可，論文在成文之前材料的整理過程大致如下：

1)從絡、圖書館、書籍雜志、講座等等收集大量原始資料

2)排除相關重復內容

3)排除跟主題關聯性不大的內容

4)根據主題、邏輯順序、優先級等進行人為的計算、分析、排版、處理等。這個過程是最為繁瑣和耗時的，使用的武器便是史上最牛逼的工具：人腦!!!

5)成文輸入結果

忍不住再重申一下：所有的產品其實都是在模仿人類的實際社會活動。。。明白這個對于產品經理很重要哦。

搜索引擎數據處理流程基本類似(想要了解的可以自行搜索相關資料)，唯一的也是搜索引擎想消除的區別：

一個是有感情有邏輯的人腦在分析，一個是機器按照一定規則來分析。

所以，想要搜索結果更精準，那就讓它像人腦一樣分析輸入數據并輸入結果。

恩，我也覺得不怎么現實，但是可以想辦法讓他比較精準。

二、獲取信息的方式

我們還是先從日常行為的來入手然后再推導產品的操作方式。

2.1 通常，我們從周圍環境如下獲取信息：

1、已知獲取途徑和方法

如想獲知今天美元對人民幣的匯率抑或北京飛青島的機票價格和時刻表，因為途徑已知，此類信息只要按圖索驥即可。差別在于不同途徑的成本。匯率可通過絡查詢、咨詢、銀行點詢問等，顯然第一種方法更便捷。(的確是廢話)。

這些信息都是規則化，概念明確的。

2、了解核心關鍵需要整理的

如剛才提到的論文寫作，假設題目為弱關系社區設計，我們就需要去詢問什么弱關系，和強關系有什么區別，已有的設計案例是什么。

這些信息的獲取建立在人為分析的前提下。

2.2 提問方式

還是舉兩個例子。

1、在形成完整的序言邏輯前，小孩子提問的方式是最簡單的關鍵要學會調整心態詞，大人們要做的便是通過他的咿呀來理解孩子的需求。一般大人都能準確預測，原因在于其非常了解孩子的習慣、行為、方式、特征等。

2、有了完整的語言邏輯后，我們一般選擇直接提問：今天的匯率是什么?北京飛青島的票價多少，都是幾點的?人腦也完全可以處理這些問題。當然，人是復雜的感情動物，好多東西還不能完全通過字面意思去理解。說一個不是很恰當的例子：約會中，女孩提問你覺得現在的房價如何。字面意思是房價，潛在意思是你的購房能力如何。

2.3 搜索引擎該這么處理

假設搜索引擎具有跟我們一樣的大腦的話，那他處理問題的方式應該是這樣的：

1、分析所查詢的問題是檢索關鍵詞還是提問

2、結果分為三種，

答案已知直接輸出結果；

途徑已知，輸入解決途徑；

提供最符合用戶預期的排序結果共用戶挑選

3、不同的情況下會出現相互組合。當搜索引擎對關鍵詞理解越充分時，結果越準確。

三、改進方法和策略

再總結一下用戶的操作行為：

3.1 當用戶輸入的為關鍵詞時：

1)已知用戶的特征，根據其特征對搜索結果進行符合其本身的排序

2)未知用戶特征，則視為普通的查詢。提供結構話的搜索結果，即具有相關性的提示，相關性越高，結果越靠前。

3.2 當用戶進行提問時：

1)分析提問的語義，簡單的語義輸出結果或途徑

2) 無法分析確切人的語義，

提供多個結果給用戶，同時根據用戶的反饋不斷調整結果。這也是用戶特征的一部分。

3.3 搜索結果出現交叉時，痛癢還是需要參考用戶的行為特征來對結果排序。

有幾個名詞，感興趣的可再去搜索一下：Baidu-框計算；Google-知識圖譜；Facebook-社交圖譜搜索；Siri-語義搜索；概率-馬爾可夫模型。

說白了，就是

搜索引擎對用戶的搜索意圖越理解，資料庫越完備，輸出的結果越精準。

還是舉個例子來佐證一下：同樣一個問題，好朋友的解答一般比陌生人要好，因為好朋友更了解你提問的動機，背景甚至期望得到的答案。

問題來了，計算機畢竟不是生物，他執行的僅僅是規則。能做的便是收集你的一些行為和特征來推斷你的喜好：

1、個人信息：姓名、性別、籍貫、職業、行業、興趣愛好、使用偏好等。

2、個人行為：搜索記錄、瀏覽記錄、社交行為等

3、處理方法：聚類、分類、數據挖掘

恩，其實是一個推薦引擎。更多知識和操作方法可以看一下Ibm Developer的文章：探索推薦引擎的秘密。

減重多少才會有平臺期
三諾血糖儀準嗎
為什么來月經有血塊

猜你會喜歡的