青岛迅优网络专注互联网行业十年,是专业的青岛网站建设、青岛网站优化、青岛微信开发公司!
4000-757-277

服务电话:

青岛网站建设|青岛网站优化|青岛微信开发|青岛网站制作

青岛网站优化之利用爬虫技术检测网页

时间:2016-07-07 13:01 来源:http://www.gnnic.net 作者:青岛网站优化 点击:

在SEO工作过程中,由于项目过多,难免会有些遗漏或错误,可能这个页面忘了填写标题,那个页面没设置关键字或描述。但是逐个翻看每个页面来检查费工又费时,有什么办法能够提高效率和正确率呢?

像爱站、站长工具等都只能针对单个页面来提取网页的信息,不能整站进行抓取验证。

其实我们可以使用非常成熟的爬虫技术来辅助我们的工作。

下面介绍一款叫做神箭手的网络爬虫工具,只需要编写简单的脚本就能抓取所需要监控的信息。所使用到的脚本如下所示:

var configs = {

    domains: [""],

    scanUrls: [""],

    contentUrlRegexes: [],

    helperUrlRegexes: [], //可留空

    enableProxy: true,

    interval: 1000,

    fields: [

        {

            // 其他抽取项

            name: "title",

            selector: "//head/title/text()"

        },{

            // 其他抽取项

            name: "keywords",

            selector: "//head/meta[contains(@name,'keywords')]/@content"

        },{

            // 其他抽取项

            name: "description",

            selector: "//head/meta[contains(@name,'description')]/@content"

        }

    ]

};

var crawler = new Crawler(configs);

crawler.start();

上述脚本能抓取从""页面作为入口能扫描到的所有链接页面的标题、关键字和描述信息。

除此之外,您还可以增加更多自动化的检测。因为神箭手网络爬虫支持网页信息抓取之后的回调处理,所以可以增加数据处理的函数,针对抓取回来的数据做进一步的处理。


(责任编辑:迅优网络)
专业网络公司,顶尖设计师 99.999%网站数据可靠性 主机BGP多线,高速访问 免费ICP快速备案
青岛迅优网络专注于青岛网站建设青岛网站优化、青岛网站设计、青岛网站制作、青岛微信开发,是专业的青岛网站建设公司