领先的互联网解决 方案提供商!

深圳 : 0755-2101 0201 广州 : 020-8092 8113 东莞 : 0769-3326 0066 <<<全国分公司
  • 网站建设
  • SEO推广
  • 客户案例
  • 联系我们
  • 扫描添加微信

    30秒获取报价 :

    提交您的电话,免 费赠送一年维护及关键词排名

  • 联系人*
  • 手机号*
  • 【重庆seo服务】开始建立新 任务

    您现在的位置: 首页 > 新闻中心 > 网站建设
    作者:http://www.网站建设SEO 发布于:2019-4-16 15:01:08 点击量:

    文章概要:

    任务是采集器采集 数据时的基本工作单元,它一定是建立在站点中的。采集器通过运行任务来采集发布数据。任务工作的步骤总体可以分为三步:采网址,采内容,发内容。一个任务的运行可以任意选择哪几步。而采集器又可以


    详细内容:

    任务是采集器采集 数据时的基本工作单元,它一定是建立在站点中的。采集器通过运行任务来采集发布数据。任务工作的步骤总体可以分为三步:采网址,采内容,发内容。一个任务的运行可以任意选择哪几步。而采集器又可以同时运行多个任务 (默认设置是同时最多运行3个任务)。任务的 编辑界面如图:

    采集器的使用最主 要的就是对任务的设置。而采集数据可以分为两步,第一步是:采网址,第二步:采内容。

    1. 采网址

    采网址,就是从列 表页中提取出内容页的地址。
    从页面自动分析得 到地址连接:
    以http://roll.news.sina.com.cn/news/gjxw/hqqw/index_1.shtml 页面为例。我们来 采集这个网址上的新闻,这个页面中有很多 新闻的链接,要采集每个链接中 新闻内容.首先需要将每个新 闻的链接地址抓取到也就是抓取内容页的地址。
    先将该列表页地址 添加到采集器里。点击“<<向导添加”后弹出 “添加开始采集地址”对话框。我们选择“单条网址”并将要采集的网址添加进去。如图:

    然后点击“添加” 按钮,并点击“完成”按钮,即可添加一条采集地址。如图:

    点击“完成”按钮 后即可添加了一条采集网址。内容页的地址就从这条地址中提取出来。先不作任何过滤提取,在软件里测试下可以从该地址中得到哪些地址。如图:

    点击“开始测试网 址采集”按钮后会得到
    http://roll.news.sina.com.cn/news/gjxw/hqqw/index_1.shtml页面中的所有连接 地址。如图:

    其中有很多链接地 址不是我们想要的,观察下得到得的地址发现我们想要的地址都包含有“/w/”。如图:

    点击“返回修改设 置”按钮回到添加采集地址界面。在“文章内容页面的地址必要包含”处填写上“/w/”(指定内容页的 地址必须包含“/w/”),然后再点“ 开始测试网址采集”如图:

    当再次测试得到内 容页地址时,就已经过滤了很多地址剩下的地址都是包含“/w/”的,如图:

    在采集http://roll.news.sina.com.cn/news/gjxw/hqqw/index_1.shtml页面中的地址时, 由原先的81条地址过滤后只剩 下了40条地址。和页面比 较发现这40条地址就是我们想 要的新闻地址。如果在已经得到的地址中,还想排除一些地址可以通过“不得包含”来过滤。假如我们要排除2010-03-17日的新闻,可以如 图设置:

    测试地址后如图:

    如果既想过滤掉含 有2010-03-17的地址也想过滤掉 含有2010-03-18的地址可以通过这 样的设置,如果:

    中间的竖线“ |”代表“或”的意 思,上述写法就代表了:抓取的地址不得包含2010-03-17或2010-03-18测试地址后会发现 抓取到的地址不会含有2010-03-17或2010-03-18。

    手动填写链接地址 规则:
    以百度知道的这个 页面为例
    http://zhidao.baidu.com/q?ct=17&tn=ikaslist&rn=10&word=%CE%EF%C1%F7&lm=0&pn=00,打开这个页面发 现一种有76页。其中网址如:
    第一页:http://zhidao.baidu.com/q?ct=17&tn=ikaslist&rn=10&word=%CE%EF%C1%F7&lm=0&pn=00
    第二页:http://zhidao.baidu.com/q?ct=17&tn=ikaslist&rn=10&word=%CE%EF%C1%F7&lm=0&pn=10
    第三页:http://zhidao.baidu.com/q?ct=17&tn=ikaslist&rn=10&word=%CE%EF%C1%F7&lm=0&pn=20
    第四页:http://zhidao.baidu.com/q?ct=17&tn=ikaslist&rn=10&word=%CE%EF%C1%F7&lm=0&pn=30
    …….
    观察后发现每页网 址都是按规律递增的。可以按上面所述方法添加网址但需要添加76个单独网址比较繁 琐。这种情况的网站可以使用“批量/多页”来添加网址 。在任务中点击“向导添加”按钮后添加网址如图:

    图中添加的网址 pn=00 部分改为了 pn=(*)n。 “(*)”是通配符,数字 变化从0到75表示“(*)”可以代表 0,1,2,3…..75,这样拼起的网址 就会从pn=00到pn=750正好和要采集的页 面及其所有分页。同时也可以如下图所示设置:

    将“间隔倍数”设 为10,pn=(*),得到的地址也会 是从pn=00到pn=75。添加完地址后测 试网址得到0级网址76个,如图:

    添加了好网址,接 下来提取需要的内容页地址。观察下测试得到的1级网址发现要通过 “文章内容页面的地址必须包含\不得包含”提取出 想要的地址比较困难。这样的情况用“手工填写连接地址规则”比较方便。如图:

    点击后,会弹出如 下界面:

    接下来分析下网页 的源代码(html代码),在页面上 右击鼠标选择“查看源文件”,如图:

    打开源文件可以发 现要抓取的内容页连接地址都在里面,如图:

    由网页源代码可见 要抓取的每个连接地址都包含在统一的一段HTML代码中。如:

    这段代码就是提取 网址的脚本规则。选中“启用自定义链接格式得到地址”和“禁用系统自动识别链接”,并如下图设置

    这样采集器在采集 的时候,会从网页源文件中去匹配上图脚本规则里的HTML代码,匹配到一段 这样的代码后会将“[参数]”提取出来(网页 的地址)传递给实际连接。实际连接得到参数后可以做任意的组合。如实际连接处可以填写:http://zhidao.baidu.com[参数1] 这样拼接起来得到 的地址正好是要抓取的地址。可以简化填写[参数1],采集器会自动补 上http://zhidao.baidu.com。当采集器会匹配 完所有的和脚本规则中相同的HTML代码,并不是匹配 完一次就不再匹配的。测试网址后如图:

    2,采内容
    当所有网址抓取完 后就可以开始抓取内容。抓取内容就是采集器请求到内容页后分析内容页的HTML源代码并依据在采 集器中的标签规则设置匹配出相应的数据。

    在测试到的地址中 ,任意选择一个子地址,双击选中的地址或者点击“测试该页”按钮。如图:

    将会跳转到任务中 的“第二步:采集内容规则”如图:

    在典型页面中会出 现刚才选中的网址,这里就是测试采集内容。左边的标签名下面有:出处、时间、作者、内容、标题,一共五个标签,可以对标签进行添加、删除和编辑等操作。每个标签就是采集后得到的一段内容,可以是从页面中截取的内容 ,也可以是设置的一个固定的值或其他方式得到的值。点测试按钮后在文本框中会得到典型页面(http://zhidao.baidu.com/question/50942867.html?si=1&wtp=wk)测试的效果,如 图:

    由图可见,测试页 面后得到的内容没经过任何处理所有的网页HTML代码都在。通过在 标签中设置就可以提取出所需的内容。假设现在要提取问题,问题补充和最佳答案。首先添加这个三个标签,可以重新添加标签,也可以在上图中标签里编辑。我们重新添加一下。先将原来的标签删除再点击“添加标签”按钮后 在“内容页标签编辑框”中填写上标签名:问题。
    如图:

    再打开http://zhidao.baidu.com/question/50942867.html?si=1&wtp=wk 页面并查看该页的 HTML源代码。在源代码 中可以找到页面中的问题部分。如图:

    在“内容页标签编 辑框”中进行相应的设置句可以从网页HTML源代码里得到需要 的内容(啥么是物流)。
    复制页面HTML中“

    ”后在文本中向上 查找发现查找不到与该段相同的代码,说明此处是该段代码第一次出现的地方。如图:

    复制这段代码到“ 内容有标签编辑框”的“开始字符串处”。 “
    ”是“

    ”后面第一次出现 的地方。复制“”到“结束字符串 ”处。如图:

    点击“确定”按钮 后点“测试”按钮得到页面中的数据。如图:

    采集器首先从网页 源代码(HTML代码)中从头开始 往下查找“开始字符串”中的内容第一次出现的位置(例上面:

    ),当找到与“开 始字符串”处相同的内容时,再从找到的位置开始往后查找“结束字符串”处中的内容的(例上面:)第一次出现的位 置(后面再次出现时不再理会)。当找到了“开始字符串”和“结束字符串后”就会提取出它们之间的内容作为采集到的内容。
    再如我们我们来提 取最佳答案。新建“答案”标签,分析网页源代码。“

    ”是答案得内容前 面的一段代码,把它作为“开始字符串”处。通过txt文本中的查找发现 这段代码是第一次出现的地方所以可以用做“开始字符串”处的内容。不难发现“

    ”后第一次出现的 “

    ”正好是在答案内 容的结束的地方所以可以将“

    ”当做“结束字符 串处的内容”。如图设置。


    保存标签测试后得 到的效果如图:

    这样就采集到了最 佳答案内容,发现内容中含有“

    <\pre><\ca>”这样的HTML代码,内容开头和
    结尾处也有很多的空格,可以在标签设置里将这些没用的代码排除。设置如图:
    [object Object]
    其中HTML标签排除中的“所
    有标签<”是指排除掉采集
    的内容中的所有“<”括起来的
    html标签。“


    上一篇: 【桂林seo】自定义Web发布数据到网站
    下一篇: 【河南seo】操作 相关文章:
    2019-04-17 【万词霸屏】  -中国万词霸屏网络 科技有限公司
    2019-04-17 万词霸屏软件总部 公司-
    2019-04-17 【千城千站】  seo优化系统源码有  jsp的吗?免费吗 
    2019-04-16 天蝎做网站建网站 信宜网,石狮seo,宝山网站建设  ,南安百度推广  ,伊春网站建设  ,延安百度推广  ,沧州百度代理  ,
    2019-04-16 【六安做网站】  SEO全揭秘,这里独一 份,适合各阶段人群
    2019-04-16 【楼恒伟】  SEO优化需要积累那些 资源?
    2019-04-16 【梧州网站优化】 如何让seo优化的“伪原创” 出神入化!
    2019-04-16 【诸城做网站】从  0开始,SEO优化算法的点点滴 滴
    2019-04-16 【下拉关键词负面 】 这几类人适合学网 站优化做seo工作
    2019-04-16 【itme图片收录网】做  SEO优化应该如何分析 竞争对手的网站?
    2019-04-16 【南安seo】网站如何将  seo结合营销做推广  ?
    2019-04-16 【医院网站优化】 火车采集器中文分词效果测试
    2019-04-16 【莱芜seo】火车采集器中英 文翻译测试
    2019-04-16 【免费网站设计】 外部编程插件管理
    2019-04-16 【郴州seo】火车采集器工具 箱
    2019-04-16 【岳阳seo】数据库发布配置 管理
    2019-04-16 【肇庆seo】数据库发布模块 编辑器特性及窗体预览
    2019-04-16 【怎样优化网站】  Web在线发布配置管理 特性及窗体预览
    2019-04-16 【河北网站  seo】Web在线发布模块编辑 器特性及窗体预览
    2019-04-16 【咸阳seo】获取查看网页源 代码,HTTP模拟提交工具特性 及窗体预览
    相关分类:
  • 公司新闻
  • 常见问题
  • 行业新闻
  • 网站推广
  • 网站推广
  • 网站建设
  • 推广常识
  • IT教程
  • SEO优化
  • 网站开发
  • 客户案例
  • 解决方案
  • CMS
  • 其他城市分类:

    天河seo网站推广公司

    龙华做建网站百度 推广优化公司

    宝安网站建设 -宝安网站推广 SEO优化公司-宝安做建网站公司

    南山网站建设 -南山网站推广百度 优化公司-南山做建网站的公 司

    【钟祥地区】钟祥 网站建设-钟祥SEO网站推广-钟祥做建网站网络 公司

    龙岗SEO-龙岗网站推广公司  -龙岗关键词 seo优化排名公司

    广州白云花都网站 建设SEO优化推广

    万词霸屏-万词霸屏招商代理 加盟

    北京seo-北京网站推广优化 公司

    上海网站推广优化 seo公司-上海关键词百度排 名公司

    天津seo-天津百度关键词优 化排名-天津网站推广公司 

    重庆网站推广优化 公司-重庆seo优化排名

    合肥seo-安徽合肥芜湖蚌埠 阜阳淮南网站推广seo公司

    福州SEO-厦门网站推广 -泉州百度优化公司

    莆田seo-漳州网站推广公司  -宁德三明南平龙岩 seo优化

    佛山seo-中山网站推广 -珠海网络推广公司 -佛山网站优化

    惠州江门汕头湛江 seo网站推广优化公司

    广东肇庆茂名揭阳 梅州清远网站seo推广公司-赠送企业网站!

    阳江韶关河源 seo公司-云浮汕尾潮州网站 推广优化公司

    台山阳春顺德网站 推广公司 -惠东博罗海丰开平 陆丰seo优化公司

    南宁seo-南宁网站推广公司 

    柳州桂林玉林梧州 seo公司-专业网站推广优化

    贵州seo-贵阳网站推广 -西部seo优化公司

    甘肃网站推广公司  - 兰州seo优化

    海南seo-海口网站推广 -三亚seo公司

    黑龙江网站推广公 司 -哈尔滨seo

    河南网站seo公司优化推广服务 地区:许昌平顶山安阳焦作商丘开封濮阳周口信阳驻马店漯河!

    宁夏银川SEO-吴忠石嘴山中卫固原网站推广优化公司 !

    内蒙古 呼和浩特包头赤峰 鄂尔多斯-专业seo优化网站推广公司 !

    青海seo-西宁网站推广优化 公司

    青岛网络推广 -青岛seo-青岛网站优化服务 企业!

    烟台网站推广优化 -潍坊seo公司-临沂淄博济宁 seo-待客户如家人!

    山东泰安聊城威海 枣庄德州seo公司

    齐鲁网站seo推广优化服务城市 :日照东营菏泽滨州莱芜章丘垦利诸城寿光龙口

    山西seo-太原SEO-太原网站推广公司 

    临汾大同seo-运城晋中seo公司-长治网络推广公司

    西安seo-西安网络推广 -西安seo优化公司

    渭南汉中SEO-榆林延安安康 SEO优化公司

    四川地区网站 seo优化推广排名城市 :宜宾自贡乐山泸州达州内江遂宁攀枝花眉山广安

    新疆SEO-乌鲁木齐seo-新疆网站推广优化 公司

    曲靖大理网络推广 -红河玉溪seo公司-丽江文山网站优化

    杭州seo-杭州网络推广公司 -杭州百度优化 -杭州网站关键词优 化排名

    宁波seo-宁波seo优化公司

    温州seo-温州网站推广 -温州百度优化公司

    提交您的电话,免 费赠送一年维护及关键词排名

  • 联系人*
  • 手机号*
    1. 首页
    2. 网站建设
    3. 网站推广
    4. 软件开发
    5. 案例展示
    6. 关于我们
    7. 联系我们

      扫码添加微信咨询

    Copyright 2008-2018 深圳市信科网络科 技有限公司 Shenzhen Sinco Network Co., Ltd 严禁抄袭模仿本站 违者依法追究责任 !

  • 深圳公司
    电话 : 0755-2101 0201
    手机 : 136 3165 7619
    地址 : 深圳市龙华新区东 环一路旭日大厦ll08室
  • 广州分公司
    电话 : 020-8092 8113
    手机 : 135 3988 3715
    地址 : 广州市海珠区宝岗 大道268号中新大厦 1912
  • 东莞分公司
    电话 : 0769-3331 9353
    手机 : 137 1719 8162
    地址 : 东莞市南城区鸿福 路83号曼哈顿广场 2409
  • 武汉分公司
    电话 : 027-8355 8661
    手机 : 182 4491 9118
    地址 : 武汉市东西湖区金 银湖路18号财富大厦 30E
  • 上海分公司
    电话 : 021-3113 7661
    手机 : 132 6719 9217
    地址 : 上海市闸北区江场 西路299弄中铁广场堡尼大 厦2131
  • 添加微信
  • 友情链接:    彩乐乐代理   123彩票登陆   彩票51开户   多赢彩票官方网站   西南彩票网址