PostgreSQL文本相似度估计 | jianingy.com
来源:百度文库 编辑:神马文学网 时间:2024/05/04 08:04:36
PostgreSQL文本相似度估计
代码位置
Checkout
- git clone git://gitorious.org/postgrework-jianingy/mainline.git postgrework
- cd postgrework/pg_trgm_sml
Source Browser
http://gitorious.org/projects/postgrework-jianingy/repos/mainline/trees/master
算法
描述
相似度比较基于空间向量模型(Vector Space Model)。将两段文本用向量A、B表示,计算AB夹角的余弦值用以表示相似度。
具体步骤如下:
- 提取两段文本中所有词(事先需用空格分割好)。
- 计算每个词在两段文本中分别出现的次数(用BSD tree.h里的RBTREE保存)
- 用词频做为A、B的分量。
- 使用余弦公式计算AB夹角的余弦值。
举例
> T1 = 我 爱 北京 天安门
> T2 = 我 爱 北京 立交桥
提取所有的词
> W = 我 爱 北京 天安门 立交桥
计算每个词分别出现的次数
> CA = 我:1 爱:1 北京:1 天安门:1 立交桥:0
> CB = 我:1 爱:1 北京:1 天安门:0 立交桥:1
分别计算向量AB
设S为总词数即T1,T2中总共出现词的数量
> S = 4 + 4 = 8
> A = (1/8, 1/8, 1/8, 1/8, 0/8)
> B = (1/8, 1/8, 1/8, 0/8, 1/8)
应用余弦定理计算向量夹角
PostgreSQL文本相似度估计 | jianingy.com
2009股权抵押书文本-B2B99.Com
2009股权抵押书文本-B2B99.Com
关于豆瓣的口味相似度算法
字符串相似度算法介绍 zz
如何确定中文字符串的相似度
环境估计
Builder.com.cn - Web技术 - 如何利用CSS控制文本属性
How to: installers, Jetty, postgresql with maven2
PostgreSQL,MySQL,商业数据库,谁更好
PostgreSQL中的二进制转换程序(补充)
PostgreSQL的配置文件及用户权限 | LinuxSir.Org
PostgreSQL数据库用户认证 | LinuxSir.Org
PostgreSQL中的二进制转换程序(补充)
相似度高达80% 欧美版“小燕子”出炉
相似度高达99.9%的巨雷照片!暴强
相似度高达99.9%的巨雷照片!暴强
相似度高达99.9%的暴强照片!
降低网站页面相似度的方法,增加SEO优化
网络惊现男版“周迅”相似度高达99%(图)
网络惊现男版“周迅”相似度高达99%(图)
与李嘉欣相似度极高的广告美女田静怡
相似度高达99.9%的暴强照片!
她不是范冰冰?民间范冰冰相似度高达99%(组图)