真实国产乱子伦沙发,欧美日韩一级黄色电影

針對文本挖掘和信息檢索中的文本或文獻聚類與分類等問題，學術(shù)界基于VSM（向量空間模型）主要有兩方面的研究，一者是文獻表示模型的改進，二者是算法的改進。然而傳統(tǒng)的算法對高維稀疏的向量聚類存在不足，一些新的算法也不盡完美，更主要的是聚類算法的效果與數(shù)據(jù)本身的特征以及信息提取和表示密切相關(guān)，特別是在信息有限的情況下，聚類算法的優(yōu)勢也不能得到完美發(fā)揮，相比之下，信息的挖掘、提取和文獻向量表示就尤為重要。在本文僅限于元數(shù)據(jù)甚至只有關(guān)鍵詞的前提下，文獻的表示向量相比一般文本表示就表現(xiàn)得非常稀疏，面對這種情形聚類算法即使是“巧婦”也“難為無米之炊”，因此，本書的重點突破是文獻主題語義信息的提取、度量和文獻高維向量的新表示方法�；谝陨蠁栴}和現(xiàn)象，本書以數(shù)字文獻資源為對象，本著在信息資源聚合中減少對背景知識的依賴，便于推廣應用的宗旨，提出了基于文獻集本身或者相關(guān)領(lǐng)域的共現(xiàn)信息而實現(xiàn)文獻聚合的共現(xiàn)潛在語義向量空間模型(CLSVSM）。而且通過實驗證實基于CLSVSM的文獻聚類表現(xiàn)比基于VSM和GVSM（廣義向量空間模型）顯著地好。

你還可能感興趣

我要評論