我用语料库中所有档案的相似度得分创建了一个直方图。分数是用 TF-IDF/余弦相似度计算的。请参阅包含的影像。我不是 100% 确定如何阅读图表。分数的紧凑性是否表明语料库以好的方式密切相关或以不好的方式密切相关?还是我完全看错了?
tf = TfidfVectorizer(analyzer='word', ngram_range=(1, 2), min_df=5)
tfidf_matrix = tf.fit_transform(ds['clean_text'])
cosine_similarities = linear_kernel(tfidf_matrix, tfidf_matrix)
uj5u.com热心网友回复:
查看直方图,似乎档案相似度不是那么集中(余弦相似度有界 [0,1],您的直方图范围约为 0.2-1)。这是好是坏取决于你对资料的期望,以及你以后想用 TF-IDF 矩阵做什么。如果你有一个多样化的语料库(例如维基百科),那么你会期望范围很广,如果你的余弦相似度分数范围很窄,你就会怀疑。但是,如果您的语料库源自一组高度相似的档案(例如,来自某班学生的读书报告)。
一般来说,您的相似性分数的分布更象是一个仅供参考,而不是资料集质量的衡量标准。
0 评论