Typical objective functions in clustering formalize the goal of attaining high intra-cluster similarity (documents within a cluster are similar) and low inter-cluster similarity (documents from different clusters are dissimilar). This is an internal criterion for the quality of a clustering. But good scores on an internal criterion do not necessarily translate into good effectiveness in an application. An alternative to internal criteria is direct evaluation in the application of interest. For search result clustering, we may want to measure the time it takes users to find an answer with different clustering algorithms. This is the most direct evaluation, but it is expensive, especially if large user studies are necessary.
常用內部(Sil,CH,DBI,KL)、外部評價指標(Rand等4個)
1. 蘭德指數
蘭德指數(Rand index)需要給定實際類別資訊C,假設K是聚類結果,a表示在C與K中都是同類別的元素對數,b表示在C與K中都是不同類別的元素對數,則蘭德指數為:
蘭德指數(Rand index)
RI取值範圍為[0,1],值越大意味著聚類結果與真實情況越吻合。
- 為了實現“在聚類結果隨機產生的情況下,指標應該接近零”,調整蘭德係數(Adjusted rand index)被提出,它具有更高的區分度:
ARI(Adjusted rand index)
ARI取值範圍為[−1,1],值越大意味著聚類結果與真實情況越吻合。從廣義的角度來講,ARI衡量的是兩個資料分佈的吻合程度。
2. 互信息
- 互資訊(Mutual Information)是用來衡量兩個資料分佈的吻合程度。也是一有用的資訊度量,它是指兩個事件集合之間的相關性。
- 用互資訊的方法,在某個類別C中的出現概率高,而在其它類別中的出現概率低的詞條T,將獲得較高的詞條和類別互資訊,也就可能被選取為類別C的特徵。
- 互資訊是term的存在與否能給類別c的正確判斷帶來的信息量。
- 詞條和類別的互資訊體現了詞條和類別的相關程度,互資訊越大,詞條和類別的相關程度也越大。得到詞條和類別之間的相關程度後,選取一定比例的,排名靠前的詞條作為最能代表此種類別的特徵。
互信息(Mutual Information)
3. 輪廓係數
輪廓係數(Silhouette coefficient)適用於實際類別資訊未知的情況。對於單個樣本,設a是與它同類別中其他樣本的平均距離,b是與它距離最近不同類別中樣本的平均距離,輪廓係數為:
輪廓係數(Silhouette coefficient)
對於一個樣本集合,它的輪廓係數是所有樣本輪廓係數的平均值。
輪廓係數取值範圍是[−1,1],同類別樣本越距離相近且不同類別樣本距離越遠,分數越高。
連結:https://www.jianshu.com/p/b5996bf06bd6
https://nlp.stanford.edu/IR-book/html/htmledition/evaluation-of-clustering-1.html