百度是一个商业机构 他们的算法是不会公布的 但是我们可以通过测试来了解它,把它当做一个黑匣子。
百度分词算法的原理以及实战测试解读如下:
1.基于理解
2.基于专有词库
3.基于统计
课程 学习
4.基于字符串
度娘有自己的专有词库 不可分割词库 有最大匹配与最小匹配 正向与反向匹配或双向匹配
那么我们可以测试百度是属于哪个匹配。测试方法
东京城市民国 分成了 东京城
巴黎市长子孙 分成了 巴黎市 长子 孙 (最大匹配)
注意巴黎市长就是成语了,不是词了,巴黎市 为最大词
湖南大学唐屋顶 分成了 湖南大学 堂屋顶
若反向应该是 湖南 大学堂 屋顶
于是测试出百度是正向最大匹配?错错错
追逐鹿中原 分成了 追 逐鹿中原 是为反向
追逐鹿中原子弹 分成了 追 逐鹿中 原子弹
胡锦涛声依旧
长江泽民意
江泽民 胡锦涛为 不可分割词 权重非常高 所以不可分割
而长江权重也很高,但还可以分割
专长江水 分成了 专长 与江水 说明了 长江可以分割
湖南大学堂口腔 分成了 湖南 大学堂 口腔
先提取不可分割词,然后按分词原理分开
可以选择高权重的词来做SEO 长尾词
谷歌对于长于六个的词倾向于不分
因为分不好 这也是谷歌的弱点 谷歌的专业工程师对汉字的理解有限
对于汉字的分词技术 百度比谷歌好
本文地址:https://www.shendukeji.com/1659.html
关注我们:请关注一下我们的微信公众号:扫描二维码 号名称暂无
版权声明:本文为原创文章,版权归 明月SEO 所有,欢迎分享本文,转载请保留出处!
关注我们:请关注一下我们的微信公众号:扫描二维码 号名称暂无
版权声明:本文为原创文章,版权归 明月SEO 所有,欢迎分享本文,转载请保留出处!