【算法】局部敏感哈希 LSH 的 Python 实现

文章正文

发布时间：2024-12-14 02:17

关于局部敏感哈希算法，之前用R语言实现过，但是由于在R中效能太低，于是放弃用LSH来做相似性检索。学了Python发现很多模块都能实现，而且通过随机投影森林让查询数据更快，觉得可以试试大规模应用在数据相似性检索+去重的场景。私认为，文本的相似性可以分为两类：一类是机械相似性；一类是语义相似性。机械相似性代表着，两个文本内容上的相关程度，比如“你好吗”和“你好”的相似性，纯粹代表着内容

标签