网站数据采集实践及建议

本文主要介绍网页数据采集的一些基础东西,供大家参考。

首先是内容的选择

    做站如同做文章,不可能把所有的东西都收罗进来,要懂得取舍,再好的内容与你的网站主题也要符合,即使垃圾站(即无原创内容大部分是采集他人内容的站)初期阶段可能不予计较,但时间长了,垃圾站的目标仍是把垃圾做成精品,否则就没得玩了。

如何选择好的内容,建议主要从以下几个方面着手:

1、选择内容主题要符合要你的站

    比如做轴承站的可以采集轴承新闻、轴承技术什么的,也可以大一点采集机械制造方面的,但不要太偏离了,就不要选择美女图片这样的内容,虽然这类内容吸引人,但一方面给人造成的感觉不专业,另一方面也容易被百度K。 如果你觉得非采这个不可。可以做个二级域名的方式专门建个相对独立的站,和主站相对脱节。

2、采集的内容的格式尽量统一

    尽量选择些精品网站进行采集,采集内容的风格和格式要尽量统一,否则会显得不专业,显得太散乱,影响客户的访问情绪。

3、不要一次性采集太多

    在建站初期各个栏目适当采集几百条垫底就行了然后每天都采集一些,否则初期太多的流量对一个新站来说也无太大裨益,而且很危险,容易被百度K站。

4、采集内容要选好关键字

    做好网站的标签,不要见内容就收,否则真成垃圾了。查关键字在百度中的排位情况,是不是有可能冲击前几位,有一二个关键字就够了,这个是流量的保证。

5、为避免百度K站,选择不同编码的站或在正文中间插入其它相关内容

    比如可以采集big5的繁体站转化成自己的gbk的,有能力的甚至可以通过机器翻译把英文的变成中文站,这样都是原创性的了,被百度K的可能性就是0。 我有一个客户把百度知识的东西通过翻译引擎直接做了个英文知识站。 招数千变,唯一的目标是有安全的流量。

    另外,还可以在正文中间插入其它相关内容,但要保证不影响用户阅读。简数平台已提供该功能。在结果数据列表-》数据批量处理及SEO-》同义词替换及SEO

6、要采集的源站要有持续更新的能力,尽量不要采死站

     一方面能经常采集,另一方面这样的站的信息有时效性,可保证你采集的内容新鲜。

原文:http://blog.chinaunix.net/uid-17035657-id-2837132.html