• 注册
    • 查看作者
    • 今日头条“站长平台”开放了

      今日头条“站长平台”开放了

      今日头条站长平台 https://om.toutiao.com/

      今日头条开放了站长平台,搜索引擎又要分一杯羹了,搜狗,360,神马,百度,今日头条 。

      百度(QNMLGB,百度你还能干点啥 使用率高。),

      360(有问题客服会根据情况给你解答,算是比较良心的,以及目录展示也不错,使用了ot标签功能。就是使用率少)

      搜狗(微信文章可以搜索到(腾讯系的),LOGO申请取消了,没有360良心,还是使用率低)

      神马(UC搜索,使用率低,没怎么用过)

      今日头条(超级APP不用说了,使用率比百度高是100%得了  特别看今日好头条搜索,)

      今日头条站长平台现在只有sitemap提交和死链提交,索引量,抓取频次

      今日头条(收录索引量查询帮助)

      功能说明

      1.头条对网站的收录量为头条爬虫对网站内页面的总成功抓取量。索引量为被收录的页面经过索引流程进入线上后的总网页数量。

      2.使用网站收录索引量查询工具可以查看网站近30天内的收录和索引的情况,数据更新时间对各个站点可能有所不同,数据每天更新一次。

      3.查询的收录、索引量是所选择的域名下的所有收录索引量,如需查询子域名的量,需要验证子域名

      工具使用方法

      一、点击索引量查询功能

      今日头条“站长平台”开放了

      二、选择需要查询的站点域名

      今日头条“站长平台”开放了

      二、查看收录索引量

      今日头条“站长平台”开放了
      • 对网站分析工具有其他问题,可以向zhanzhang@bytedance.com提交反馈,我们会在及时处理。

      今日头条(死链提交流程)

      功能说明

      1.当网站死链数据累积过多时,并且被展示到搜索结果页中,对网站本身的访问体验和用户转化都起到了负面影响。另一方面,检查死链的流程也会为网站带来额外负担,影响网站其他正常页面的抓取和索引,因此您需要提交死链。

      2.使用死链提交工具,可以提交希望从搜索结果中删除的链接列表或规则下链接。

      3.如果您提交的数据中存在有非死链内容,我们将酌情考虑忽略您提交的死链数据

      工具使用说明

      1、制作死链文件

      1.1处理网站已存在的死链,制作死链文件筛查网站内部存在的死链,并将这些死链页面设置成为404页面。

      1.2将需提交的死链列表制作成一个死链文件并放置在根目录下,制作方法参考sitemap提交制作数据。

      2、提交的死链内容需要和验证的站点一一对应

      3、提交制作好的文件,进行提交

      注意事项

      • 如果最初提交的文件为http://www.toutiao.com/xml,需要确定是否在验证的站点域名下,提交时需要设置好抓取频次,我们会定期按照抓取频次更新死链内容。
      • 提交死链数据前,请确保提交的链接页面已设置为404,否则可能不会从搜索结果中删除。
      • 死链提交支持xml方式:文件提交形式与Sitemap文件一致,仅支持xml格式;
      • 文件提交中每个文件最多可包含50,000个网址,并且应小于10MB。如果网站所包含的网址超过 50,000个,可将列表分割成多个xml,然后分别添加每个文件,建议文件个数不超过100个。
      • 如果您对死链提交工具有其他问题,可以向“zhanzhang@bytedance.com”提交反馈,我们会及时处理。

      今日头条(sitemap提交帮助)

      功能说明

      1.提交sitemap工具可以向头条搜索提交网站的sitemap文件,帮助头条spider更好的抓取您的网站。您可以在此工具下选择已经验证的站点,进行验证站点的sitemap文件提交。

      2.sitemap提交后,头条搜索会根据sitemap了解网站中数据情况。

      sitemap要求

      1.sitemapindex文件要求

      sitemapindex文件根节点必须是<sitemapindex>。
      sitemapindex文件编码必须为UTF-8,第一行为: <?xml version="1.0" encoding="utf-8" ?>。
      sitemapindex文件禁止使用命名空间,禁止使用规定之外的属性。
      sitemapindex文件大小不得超过5M,sitemap节点数量不超过5W。
      必须保证sitemap中所有URL可访问,且内容符合XML数据文件规范。

      2.XML数据文件规范

      数据XML文件的根节点必须为<DOCUMENT>。
      数据XML文件编码必须为UTF-8,第一行为: <?xml version="1.0" encoding="utf-8" ?>
      数据XML文件禁止使用命名空间,禁止使用规定之外的属性。
      数据XML单个文件大小不得超过10M(必须满足),item数目不得超过1W。
      除根节点之外的其它节点,标签名建议采用英文小写字母及下划线‘_’。
      数据节点中包含转义字符,请使用CDATA。
      对于数组型的节点,请在只有一个子节点时保证和多个节点时的结构相同。

      注意事项

      1.提交的sitemap有作弊嫌疑的url,头条将进行严厉的处罚措施并取消相关权限

      2.头条spider有自身的爬取规则,sitemap只是帮助头条spider更好的收录您的网站,提交sitemap并不会决定网站收录或者排名。

      工具使用方法

      1.sitemap索引格式

      <?xml version="1.0" encoding="utf-8" ?>

      <sitemapindex>

      <sitemap>

      <loc>数据xml地址1</loc>

      <lastmod>对应的最后修改时间</lastmod>

      </sitemap>

      <sitemap>

      <loc>数据xml地址2</loc>

      <lastmod>对应的最后修改时间</lastmod>

      </sitemap>

      </sitemapindex>

      2.xml格式

      <!-- xml 编码必须是utf-8 -->
      <DOCUMENT>
      <!-- 需要大写,标记整个xml文件的开始和结束 -->
      <item>
      <display>
      <url>
      <![CDATA[http://www.toutiao.com]]>
      </url>
      <!-- url为标题点击的目标地址 -->
      </display>
      </item>

      3.提交sitemap

      完成sitemap制作后可以使用sitemap提交工具进行提交

      今日头条“站长平台”开放了

      页面截图

      (1)提交成功

      等待:代表您的sitemap文件已经解析完毕,等待抓取

      正常:代表您的sitemap文件在抓取中

      异常:代表您的sitemap文件存在问题,不能抓取

      2)提交失败

      若在Sitemap提交工具使用中发生错误,请确认是否为以下原因:

      • Sitemap文件地址无法访问,请确认提交的地址可正常访问。
      • Sitemap文件地址与提交站点不是包含关系,请确认提交的地址属于已验证的站点
      • 相同的Sitemap文件地址已经添加过,请勿重新添加。
      • 提交的Sitemap格式不规范,请检查该数据格式,修改后重新提交。
      • 对Sitemap提交有其他问题?可以向“zhanzhang@bytedance.com”提交反馈,我们会及时处理。

      今日头条(网站验证说明)

      功能说明

      1.提交网站并验证网站归属后即可使用站长工具。

      2.建议您验证所有需要进行分析的子域名,以便更充分地使用站长工具。

      验证方法

      一、文件验证

      1、下载验证文件

      今日头条“站长平台”开放了

      2、添加到进行验证的网站域名(如:www.toutiao.com)根目录下。

      3、验证成功后的站点,请不要删除删除HTML文件。

      二、验证校验

      添加完成后可以点击这里进行验证是否添加成功,如果添加成功能够正常打开,不能打开需要重新确定。

      今日头条“站长平台”开放了

      三、观察状态

      1、验证通过

      验证成功的站点会在后台正常展示

      2、验证失败

      若网站验证失败,请检查是否为以下原因:

      • 未正确配置验证文件;
      • 爬虫无法访问网站,请确认网站状态已经是否封禁爬虫。
      • 已有相同域名的网站通过验证。
      • 对网站验证有其他问题?可以向zhanzhang@bytedance.com提交反馈,我们会及时处理。

      今日头条(头条搜索spider介绍)

      头条搜索UA介绍

      头条搜索的爬虫UA为“Bytespider”首写字母为大写。

      例如:

      Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36
      (KHTML,like Gecko)Chrome/41.0.6633.1032 Mobile Safari/537.36;Bytespider;bytespider@bytedance.com

      头条搜索ip字段介绍

      头条搜索的ip字段总共涉及6个,具体字段如下:

      110.249.201.0/24
      110.249.202.0/24
      111.225.148.0/24
      111.225.149.0/24
      220.243.135.0/24
      220.243.136.0/24

      基本流程

      1.抓取网页。每个独立的搜索引擎都有自己的网页抓取程序爬虫(Spider)。爬虫顺着网页中的超链接,从这个网站爬到另一个网站,通过超链接分析连续访问抓取更多网页。被抓取的网页被称之为网页快照。由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。

      2.处理网页。搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最重要的就是提取关键词,建立索引库和索引。其他还包括去除重复网页、分词(中文)、判断网页类型、分析超链接、计算网页的重要度/丰富度等。

      3.提供检索服务。用户输入关键词进行检索,搜索引擎从索引数据库中找到匹配该关键词的网页;为了用户便于判断,除了网页标题和URL外,还会提供一段来自网页的摘要以及其他信息。

      问题反馈

      1.如果您的网站发现有头条spider的UA“Bytespider”抓取存在抓取量过大,导致您的网站出现缓慢、挂掉等问题,您可以通过“抓取频次”功能,对网站进行设置抓取要求,我们会在1天内时间内生效。

      2.关于spider有其他问题,可以向zhanzhang@bytedance.com提交反馈,我们会在及时处理。

    • 0
    • 0
    • 0
    • 150
    • 请登录之后再进行评论

      登录
    • 实时动态
    • 返回顶部