DTcms文章采集插件使用说明文档

2016/12/11 13:24:55 人评论 次浏览 分类:dtcms帮助文档


DTcms文章采集插件使用说明文档http://www.luyixian.cn/news_show_2383.aspx

DTcms文章采集插件安装说明文档http://www.luyixian.cn/news_show_2382.aspx

dtcms采集插件mssql版下载地址http://www.luyixian.cn/down_show_2381.aspx

dtcms采集插件access版下载地址http://www.luyixian.cn/down_show_2380.aspx

使用帮助

1、 导入示例数据:

路径~/plugins/Collection/data/collitem201407121112420805.xml

 

 

2、 标签过虑

这里是常见的要过滤的html标签。

广告过滤:如果没有选择,那么采集过滤中的过滤将不起作用,下一版中将去掉。

IFRAME:如--<IFRAME SRC="广告地址">,比较常见的广告代码。

OBJECT:如--<Object 代码>代码</Object>,注意--有些正文中有Flash动画、又有这个广告代码,此时推荐使用过滤功能。

SCRIPT :如--<SCRIPT LANGUAGE="JavaScript1.1" SRC="广告地址"></SCRIPT>,常见的广告代码。

FONT    :如--<font style="font-size:12px;line-height:150%;">,常用于去掉文字的大小、颜色等属性。

A          :如--<a href="http://pic.scuta.net">查看更多图片</a>,常用于去掉文字、图片上的链接,但不会去掉“查看更多图片”。

 

3、 采集选项

保存文件:选中的话,如正文中有图片则会将图片保存到服务器上。

倒序采集:从最下面一条新闻开始向上采集,新闻一般都是最早发布的在下面,最新发布的在上面。

 

4、 添加项目

1)基本设置

        项目名称:起个看一眼就明白的名称,如:IT世界-业界新闻(来自IT世界的业界新闻)。

       所属栏目:采集的新闻属于哪个栏目。          

        所属专题:采集的新闻属于哪个专题。

        网站名称:要采集的新闻是哪个网站的。

        网站网址:该网站的网址。

        项目备注:该项目的其它要记录的信息,比如--IT世界的新闻好好哦,以后每天都要采它 ~

2)列表设置

        列表:

               书一般都有目录吧?列表就像一本书的目录,目录可以有一页,也可以有很多页,列表也一样。

        列表索引页面:

               你要开始采集的列表页。

        列表开始/结束后标记:

               平面上的两点确定一条直线,学过几何吧?用在这里是一样的道理,开始/结束后标记可以确定你要采集的新闻,有的这里没有设置好结果采集到其它新闻去了。
               比如这是某一列表页面的主要部分代码:
                <table width="98%" border="0" cellspacing="0" cellpadding="3">
                  <tr> 
                       <td align="left" valign="top"><br>
                           <a href="News.asp?id=1" target=_blank>新闻标题</a><br> 
                           <a href="News.asp?id=2" target=_blank>新闻标题</a><br>
                           ....省略
                           <a href="News.asp?id=50" target=_blank>新闻标题</a>
                       </td>
                 </tr>
              </table>
  红色部分就是我们要的列表开始前标记和结束后标记,是不是把你想要的新闻夹在中间了?按照这样的取法可以选择好多对开始前标记和结束后标记,也就是说它们并不是唯一的。但是它们又是相对唯一的,这里的唯一是指,开始前标记在第一条新闻以上的代码中唯一,结束后标记在开始前标记到结束后标记之间的是唯一的。

3)链接设置

链接开始结束后标记:

这里没设置好采集过程中可能会路途停止

部分代码

                <table width="98%" border="0" cellspacing="0" cellpadding="3">
                  <tr> 
                       <td align="left" valign="top"><br>
                           <a href="List.asp?type=IT新闻">[IT新闻]</a><a href="New.asp?id=1" target=_blank>新闻标题</a> 
                           <a href="List.asp?type=Pc新闻">[Pc新闻]</a><a href="New.asp?id=2" target=_blank>新闻标题</a>
                           ....省略
                           <a href="List.asp?type=IT新闻">[IT新闻]</a><a href="New.asp?id=50" target=_blank>新闻标题</a>
                       </td>
                 </tr>
              </table>
红色部分为链接开始 /结束后标记,注意:如果新闻标题的前面有栏目链接(包括其它的链接,就像上面这个有IT新闻、Pc新闻一样)的,开始前标记必须往前延伸,我以前做的3.62版的录像中开始前标记是href= ,这个只能用于新闻标题前面没有栏目链接的情况。

链接的重新定位:

如果新闻的链接特殊,可使用本功能对新闻网址重新定位,比如有些代码可能是这样:

          <a href="Javascript:window.open('1')" target=_blank>新闻标题</a><br> 
          <a href="Javascript:window.open('5')" target=_blank>新闻标题</a><br>
          ....省略
          <a href="Javascript:window.open('50')" target=_blank>新闻标题 </a>

把开始/结束后标记设置为红色部分,点击一条新闻看它的真实网页地址,比如第一条新闻的地址是这样,http://www.luyixian.cn.com/plus/news.aspx?id=1,那么绝对链接就设置为http://www.luyixian.cn/plus/news.aspx?id={$ID}就成了 

4)正文设置

标题、正文、作者、来源、标签及正文分页设置同上,不想重复,这里就不说了。

 

5、 其它

1) 文章标题已经html过虑代码

2) 做这个采集插件初衷,我们经常遇到这样的客户这个网站上的新闻全部要,那个网站的也要。这些如果工的话,工作量特别大。所以就萌生了做一个DTcms3.0文章采集器。还有很多不之处,如果您有建议欢迎与我们联系:809451989@qq.com

 

相关资讯

    暂无相关的资讯...
-->