坏哥分类信息网-互联网信息网 主要是网站安全(黑客技术)  编程 c#  网赚 网络采集-网络爬虫 等等方面

 找回密码
 立即注册
搜索
查看: 3755|回复: 0

又一个网站采集器 –– 坏哥域名采集器

[复制链接]

1万

主题

1万

帖子

2万

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
20126
发表于 2018-10-24 18:53:00 | 显示全部楼层 |阅读模式
<strong>下载地址</strong>  http://www.huaige.com/wp-content/uploads/2018/09/坏哥域名采集器.zip
  
<strong>坏哥域名采集器</strong>,是坏哥系统中的一个小工具,用来采集一些指定的域名

其中包括 采集全国指定行业或者指定类别的网站用来进行商业分析。

采集的过程中 可以指定采集词进行网站的采集 也可以用字典的方式采集

其中用字典的方式进行采集 可以选择两个字典 也可以选择两个字典

如果选择两个字典
则两个字典中的词语会相乘进行采集 可以设置组合词的 前缀 后缀 中间相加的字符

因为我的项目中需要采集全国的教育行业的网站,因此开发出这样一个小工具
文件1中我选择的是全国的地级市和省份 包括北京 河北 河南 石家庄 邢台 邯郸 广州等

文件2中我选择的是我需要采集的行业 包括 家教 教育 培训 一对一 辅导 等我需要的关键词

这样他会自动组合 全国城市 * 需要的行业 这些关键词 并自动去搜索引擎搜索
得到所有7万个搜索出来的网站的域名 并进行去重

这个小工具利用电脑资源非常低,可以全网速对需要的信息进行采集

可以方便的设置线程数 从1-500  推荐线程  100以内

设置相关分类层 是根据输入关键词得到几层相关分类或者相关搜索
如果选择0则只采集输入的关键词 这个越大采集的越多。

搜索页数 这个是搜索一个关键词 将搜索几页的搜索结果。

目前只公开 bing搜索和百度搜索

相关分类 是搜索一个词后 在搜索结果页的右侧 相关人物或者相关事件等也会采集来
相关搜索 是搜索结果页下面的相关搜索也会搜索。

导出当前url 会在当前文件夹下生成当前时间命名的文件 里面是搜索出来的url
导出当前关键词 会在当前文件夹下生成当前时间明明的文件 里面是采集到的相关关键词

坏哥QQ 微信 1828384869

坏哥博客 http://www.huaige.com





进程利用率非常小




<strong>下载地址</strong>  http://www.huaige.com/wp-content/uploads/2018/09/坏哥域名采集器.zip



也在造轮子的同行有几点需要注意

从搜索引擎中采集域名很简单,只需要从搜索页面找到需要的相关关键词和网址就可以了  调控好多线程中的一些线程安全就可以了。

难的是子域名,还会有大量的寄生虫或者菠菜网址和清*色网址。

我是用  .net  c#  winform 开发的

1 搜索页 都能得到50个返回结果  例如  rn=50  NRSLT=50 等

2 需要判断是否联网。 防止突然断网 的情况下。

3 种子关键词需要优化下。

4 我的方案   关键词 和 url  各有一个总存储的队列  也可以存库 或者存到文本等。各有一个可以快速判断重复的,我的是布隆。   关键词需要有一个先进先出队列,供多线程调用进行新的关键词和url 的采集,

包括不限于 下面的

ConcurrentQueue
ConcurrentBag
HashSet

5 由于搜索页中包含同一个url的会很多 ,所以可以先初步去重,再与所有的去重,效率会提高。

6 需要区分出   http   和https        和 是不是端口   :8080     :7001     :81

由于我这代码的限制,只能采集20000000个url  和20000000个关键词。

这个工具是最终版


有兴趣做一个搜索引擎的可以联系我  互相交流哦
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|坏哥信息网旗下分类信息网

GMT+8, 2019-9-22 19:54 , Processed in 0.146619 second(s), 21 queries .

Powered by Discuz! X3.4

© 2001-2017 Comsenz Inc.

快速回复 返回顶部 返回列表