SEO高端操作手法之建立词库

  • 关键词来源
    • 通过词根托词(定向)
      • 5118长尾词:https://ci.5118.com/1b49a5d8/
      • 爱站长尾词:https://ci.aizhan.com/8d5a94b1/
      • 相关搜索(包含词根的)轮循
      • 下拉框(包含词根的)轮循
      • 凤巢关键词

        afca9d5f8045f65

      • 5118树状规划图:https://plan.5118.com/
    • 通过网站托词(非定向)
      • 5118网站词库:https://www.5118.com/seo/baidupc/www.1688.com
      • 爱站网站词库:https://baidurank.aizhan.com/baidu/1688.com/
      • 遍历竞争对手网站地图:
        • tag页、专题页…sitemap
        • /tag/1/ /tag/2/ /tag/3/
        • 跟领域相关,但有没有明确的词根

  • 分类
    • 通过词根拓展的
      • 找出

        d6bd25a0d8b347b

        筛选条件,可以作为网站栏目或筛选项

      • 找出

        afbb84aaf310ca3

        有找交流群的,有找新产品的,有问某个产品靠不靠谱的…

      • 根据筛选条件和搜索需求,批量生成大量词
    • 通过网站拓展的
      • 过滤出垃圾词
        • 与本站内容完全不相关的
        • 不符合社会主义核心价值观的
        • 重复的
      • 过滤方法
        • 与本站内容完全不相关的

          最简单的办法,通过搜索解决。每个词,搜索整站内容,如果没有搜索结果,则与本站内容不相关

        • 不符合社会主义核心价值观的

          命中黑名单

        • 重复的

          删掉停止词后,再分词后,词项完全一致的,保留一个

          
          
      • 分类
        • 词向量

          http://ai.baidu.com/tech/nlp/word_embedding

          859add36c44efaf

          机器学习:tensorflow

        • 通过搜索
          • 网站每个栏目下,随机抽取几千篇文章标题
          • 依次给每个栏目的文章标题,创建索引
          • 用拓展词依次去搜索,每个栏目标题的索引,并记录搜索结果数量
          • 将该关键词,归类到搜索结果数最大的栏目下
        • 打标签

          文章标签:http://ai.baidu.com/tech/nlp_apply/topictagger

          文章分类:http://ai.baidu.com/tech/nlp_apply/doctagger

2.1)TF-IDF计算

TF = 某个词在文档中出现的次数 / 文档的长度


IDF = log( 搜索引擎文档总数 / 出现某个词的文档总数 )

PS:log以2为底


2.2)TF-IDF的意义

  • 网页不见得内容越多越好。若布局不当,内容越多反而会稀释TF(keyword)的分值,从而降低这个词与这个网页的相关性
  • IDF本质是一个词项的权重,降低文档中高频关键词的权重。所以网页中,玩命塞完整的关键词不见得好,但要多塞这个关键词中IDF最高的词项
    
    

2.3)BM25计算

  • 常量K:用来限制TF值的增长极限,TF值永远在 [0 ~ K+1] 之间
  • 参数L:文档长度与平均长度的比值,如果文档长度是平均长度的2倍,则L=2
  • 常数b:用来规定L对评分的影响有多大

Elasticsearch里,K默认1.2,b默认0.75

$text{公式} = 权重(IDF)×相关性 = sum_{i=1}^ntext{IDF}(keyword)cdotleft[frac{TF(keyword)cdotleft(k+1right)}{TF(keyword) + kcdotleft(1-b+bcdotfrac{当前文档的字数}{整个文档库的平均字数}right)}right]$

2.4)BM25的意义

  • 增加了文档长度对相关性的影响。文档越短,相关性会比用TF计算的值更低,减少通过 [缩减页面内容量] 对相关性计算的干扰
  • 增加了对TF极限值的限制,减少通过 [堆砌IDF高的词项] 对相关性计算的影响
  • 只是影响而已,[缩减页面内容量] 和 [堆砌IDF高的词项] 还是有用的,注意尺度
  • ?BM25同样作用于title

本文内容来源于公开网络,出于传递信息之目的整理发布。原文版权归原作者所有,若涉及侵权请先提供版权后联系我们删除

(0)
WP之家WP之家
上一篇 2025年3月29日
下一篇 2025年3月29日

相关推荐

  • 《抖音》直播通知关闭方法

    《抖音》直播通知关闭方法,有的小伙伴在抖音关注了比较多的主播,所以经常会收到直播通知。那么抖音直播通知怎么关闭呢?下面小编就为大家带来了抖音直播通知的关闭方法介绍,不知道怎么弄的小伙伴可以来一起了解…

    6天前
  • 夸克怎么设置成漫画下滑模式

    夸克怎么设置成漫画下滑模式,喜欢使用夸克的小伙伴不妨一起来了解一下吧。 1、打开浏览器,点击右下角的设置。 2、选择设置中的工具箱。 3、点击【滑屏方式】。 4、选择关闭即可。 以上就是wp之家小编整理的夸克怎…

    6天前
  • 夸克怎么退出登录 夸克退出登录方法介绍

    夸克怎么退出登录 夸克退出登录方法介绍,有朋友们想要退出夸克登录不知道怎么操作,那么就赶紧来看小编提供的方法吧。 1、进入夸克APP主页,点击右下角的三横线按钮。 2、展开个人中心菜单。 3、点击右上角的账号…

    6天前
  • 夸克浏览器夸克网盘如何取消自动续费

    夸克浏览器夸克网盘如何取消自动续费,今天小编已经为大家准备好了详细的教程,希望对各位小伙伴们有所帮助。 夸克浏览器夸克网盘取消自动续费方法 1、打开手机支付宝,在我的页面点击【设置】。 2、点击【支付设置…

    6天前
  • 《抖音》热搜排名最新分享2月21日

    抖音的热搜榜会实时显示热门新鲜事,也是大家讨论度高的话题,那么抖音2月21日热搜榜是什么呢?下面一起来看看吧! 【今日热搜】 1. 张典带格格游动物园 1087.0万 2. 师生恋为什么不被允许 951.1万 3. C919高原型签…

    6天前
  • rar压缩包怎么解压?

    RAR文件是一种压缩文件,可以用WinRAR软件解压,解压过程请参照以下步骤。 1、首先在网上下载好WinRAR软件的安装包,安装到电脑上。 2、然后在电脑中找到要进行解压的RAR文件,用鼠标选中。 3、然后点击鼠标右键,…

    2025年3月29日
  • 《钉钉》群直播美颜怎么开启

    《钉钉》群直播美颜怎么开启,钉钉直播是有美颜功能的,我们在开启群直播的时候,可以设置打开美颜功能,这样直播视频中就会出现美颜效果了。那么钉钉群直播怎么开美颜呢,wp之家小编整理了相关的内容,希望能帮助…

    6天前
  • 代号鸢如何进入臆障状态 代号鸢臆障通关攻略

    代号鸢如何进入臆障状态 代号鸢臆障通关攻略,接下来小编就带着大家一起来游戏中看看那些不为玩家所知道的通关技巧。 想要通过臆障状态下的桃源村,首先玩家们就得先了解这个状态是怎么出现的。一般来说当玩家的心…

    6天前