
在网址前辍里输入:http://bbs.dvbbs.net/index.asp?boardid=18&page=
把最后的页数ID去掉
起始值和终止值就是从哪页采到哪页的,请按实际填写。
然后点确定。
下面是网站登陆:
一般要采集一个论坛我们需要先注册一个账号,以防有些贴子需要会员登陆才可以查看而我们没有权限采集。。
点击网站登陆按钮会出现一个类似浏览器的窗口,直接在上面输入你要采集的地址,看是否已经登陆了,如果没有就在这里登陆一下,然后关闭窗口就可以了,软件会自动记下登陆的COOKIES信息。
全部设置完的页面如下图所示
好了,“任务”标签里的选项做完了,我们按着进行“访问规则”的设置。
这一步只需进行两个设置,在采集时接受页面的网址标识和采集对象所在页面标识里输入
TopicOther (只对打印页进行采集),然后点加入标识就可以。

然后进入"信息采集标签"
先随便打开一个贴子,然后点到它的打印页面,如:http://bbs.dvbbs.net/TopicOther.asp?t=5&BoardID=18&id=1167872
查看它的网页源代码。
按如下图所示进行标题和内容的设置。


接着进行定义特殊链接,获得贴子的ID,和采集的页面地址

如下图所示设置
OK,设置完了,现在可以开始采集了,采集后打开数据库结果如下:
采集事项:
1、请先在要采论坛注册账号,并且进行登陆
2、采集前请先查询该论坛是否在搜索里已有大量收录
3、由于一个站只采2-3万页面即可,ACCESS数据库完全可以胜任
4、此软件还可以进行图片保存到本地等功能,请自行熟悉
采集思路为:
1、先获取采集贴子的ID
2、根据ID得出它的打印页面,然后进行采集
DISCUZ等论坛,采集模式大略相同,