拨开荷叶行,寻梦已然成。仙女莲花里,翩翩白鹭情。
IMG-LOGO
主页 文章列表 TF-IDF/余弦相似度-相似度直方图

TF-IDF/余弦相似度-相似度直方图

白鹭 - 2022-02-16 2126 0 0

语料库中所有档案的相似度得分创建了一个直方图分数是用 TF-IDF/余弦相似度计算的。请参阅包含的影像。我不是 100% 确定如何阅读图表。分数的紧凑性是否表明语料库以好的方式密切相关或以不好的方式密切相关?还是我完全看错了?

tf = TfidfVectorizer(analyzer='word', ngram_range=(1, 2), min_df=5)
tfidf_matrix = tf.fit_transform(ds['clean_text'])
cosine_similarities = linear_kernel(tfidf_matrix, tfidf_matrix)

uj5u.com热心网友回复:

查看直方图,似乎档案相似度不是那么集中(余弦相似度有界 [0,1],您的直方图范围约为 0.2-1)。这是好是坏取决于你对资料的期望,以及你以后想用 TF-IDF 矩阵做什么。如果你有一个多样化的语料库(例如维基百科),那么你会期望范围很广,如果你的余弦相似度分数范围很窄,你就会怀疑。但是,如果您的语料库源自一组高度相似的档案(例如,来自某班学生的读书报告)。

一般来说,您的相似性分数的分布更象是一个仅供参考,而不是资料集质量的衡量标准。

标签:

0 评论

发表评论

您的电子邮件地址不会被公开。 必填的字段已做标记 *