文章浏览阅读5.8k次,点赞11次,收藏63次。本文介绍了局部敏感哈希(LSH)的概念,如何通过哈希函数创造碰撞冲突来加速高维数据的最近邻查找。Python代码实例展示了如何使用`EuclideanLSH`和`datasketch`库来构建LSH索引并进行查询。同时,对比了LSH与传统方法的效率提升...
智能合约 · 2024-12-14 02:17
这篇文章介绍了局部敏感哈希算法,局部敏感哈希是非监督的哈希算法。 算法的输入是实数域的特征向量,输出为一个binary vector。 利用哈希函数将数据点映射到不同的桶中是一种保形映射,使得数据点 i 和数据点...
智能合约 · 2024-12-14 02:13
局部敏感哈希算法(Locality Sensitive Hashing,LSH) LSH是一种利用hash的方法,对向量进行快速近邻检索的方法,能高效处理海量高维数据的最近邻问题。LSH也是一种降维技术。 一般的hash算法我们知道当两个内容比较接近但不完全相同时hash值可能有比较大的差别,比如m...
智能合约 · 2024-12-14 02:06
文章浏览阅读4.9k次。局部敏感哈希算法主要用于海量高维数据的相似性查询,通过选取特定的哈希函数,将相邻数据映射到相近的哈希桶,简化相似数据的检索。算法包括构建索引集、确定L和K的数量以及实际查询过程。常见的相似度计算方法有欧式距离、Jaccard距离、余弦距离、汉明距离和曼哈顿距离。通过调整L和K...
智能合约 · 2024-12-14 02:02
文章浏览阅读85次。 局部敏感哈希(Locality Sensitive Hashing,LSH)算法是我在前一段时间找工作时接触到的一种衡量文本相似度的算法。局部敏感哈希是近似最近邻搜索算法中最流行的一种,它有坚实的理论依据并且在高维数据空间中表现优异。它的主要作用就是从海量的数据中挖掘出相似的...
智能合约 · 2024-12-14 01:58
2019年的翟天临论文造假事件,让高校纷纷开始重视论文重复率。时至今日,他的微博底下依然绕不过这个话题。 “搞个抽奖吧,帮付查重费。” 网友Epochigo_在...
智能合约 · 2024-12-13 20:53
文章浏览阅读4.5k次,点赞14次,收藏20次。这里为了方便字符串类型转换为整数类型我们是直接通过对象中的hashCode方法获取的,但是对象中的hashCode方法有时也是不能直接使用的,例如负数整数类型的hashCode方法获取到的哈希值是负数,这样当我们进行相加操作的时候有可能算出来的哈希值是...
智能合约 · 2024-12-10 01:43