Google
      
发新话题
打印

[其它] 动网论坛采集实例

动网论坛采集实例

本采集方法针对动网最新Version 7.1.0 Sp1 ,如采其它版本可能略有不同,请按实际进行调整更改。
由于时间有限,本人不做详细说明了,直接将每个步骤抓图为示。

以动网官方论坛 电脑爱好者版为例,采集如下页面:
http://bbs.dvbbs.net/index.asp?boardid=18&action=&topicmode=0&page=4
为了方便,我进行了简化地址,先将多余的参数去掉改成:
http://bbs.dvbbs.net/index.asp?boardid=18&page=4

打开采集专家。
首先,新建一个任务。
先填写任务名称和线程数,然后点批量添加按钮, 这时会出批量添加窗口

在网址前辍里输入:http://bbs.dvbbs.net/index.asp?boardid=18&page=
把最后的页数ID去掉
起始值和终止值就是从哪页采到哪页的,请按实际填写。

然后点确定。

下面是网站登陆:
一般要采集一个论坛我们需要先注册一个账号,以防有些贴子需要会员登陆才可以查看而我们没有权限采集。。
点击网站登陆按钮会出现一个类似浏览器的窗口,直接在上面输入你要采集的地址,看是否已经登陆了,如果没有就在这里登陆一下,然后关闭窗口就可以了,软件会自动记下登陆的COOKIES信息。

全部设置完的页面如下图所示


好了,“任务”标签里的选项做完了,我们按着进行“访问规则”的设置。
这一步只需进行两个设置,在采集时接受页面的网址标识和采集对象所在页面标识里输入
TopicOther (只对打印页进行采集),然后点加入标识就可以。


然后进入"信息采集标签"
先随便打开一个贴子,然后点到它的打印页面,如:http://bbs.dvbbs.net/TopicOther.asp?t=5&BoardID=18&id=1167872
查看它的网页源代码。

按如下图所示进行标题和内容的设置。




接着进行定义特殊链接,获得贴子的ID,和采集的页面地址


如下图所示设置

OK,设置完了,现在可以开始采集了,采集后打开数据库结果如下:



采集事项:
1、请先在要采论坛注册账号,并且进行登陆
2、采集前请先查询该论坛是否在搜索里已有大量收录
3、由于一个站只采2-3万页面即可,ACCESS数据库完全可以胜任
4、此软件还可以进行图片保存到本地等功能,请自行熟悉

采集思路为:
1、先获取采集贴子的ID
2、根据ID得出它的打印页面,然后进行采集

DISCUZ等论坛,采集模式大略相同,




中级会员可以在这里用文字签名,高级会员可以在这里用图片签名.

TOP

发新话题