声明,本贴只是探讨学习,本人也看不上个人家宽转发的源。
使用闭源Docker,默认端口响应都是作者设定好的,如果响应是固定的,那么很容易有测绘特征。
以下以360测绘找某一锅端常用端口的为例:
第一步,搜索35455端口
https://quake.360.net/quake/#/searchResult?searchVal=port%3A%2235455%22
搜索结果肯定包含了一些其它的干扰项,没关系,多试几个总会出来。
比如……
第一项就是可以用来分析的。点跳转,再拼接列表地址,也就是加上/tv.m3u,确实弹出了下载m3u列表,打开列表是部署了某一锅端docker的源。
虽然没有服务器特征、路径特征,但响应特征很明显,多观察几项可以发现都有清一色的相同3行
HTTP/1.1 200 OK
Content-Length: 15
Content-Type: text/plain; charset=utf-8
当然第一行没什么特别的
第二步,加条件
比如我加条件 response:"Content-Type: text/plain; charset=utf-8",点击搜索它提示 你所检索的语法 type, 需升级会员使用。那么换成 response:"text/plain; charset=utf-8",一下就可以筛选出需要的结果,且几乎不含干扰项,因为一般的网页响应都含有html字符。再比如我加条件 response:"Content-Length: 15",是不是也是差不多的效果?
我再换成 body:"请求成功" 呢?
第三步,去端口,拼条件
第二步我们可以得出类似 port:"35455" AND response:"text/plain; charset=utf-8" 这样的测绘特征,但是端口往往不是唯一的,所以拼条件才能达到或基本达到“一锅端”的效果。第二步我们已经得到差不多的特征了,一般只需拼合即可
如
response:"text/plain; charset=utf-8" AND body:"请求成功"
response:"Content-Length: 15" AND body:"请求成功"
基本大差不差。
你以为我要分享某一锅端的IP或源?那你就大错特错了,前面我就说了,我也看不上。你们该分享分享,该偷偷,该卖卖,我也阻止不了。
接下来换个角度,我谈谈个人的一些看法
作为个人,如何尽可能避免站点被测绘空间收录?
本人接触docker站点比较少,暂不清楚
如果是普通站点,上CDN同时只允许域名访问显然是比较有效的,CDN可以很方便地屏蔽某一类爬虫。如果没有CDN呢?那设置屏蔽含有某一类关键字的UA也是可行的(返回403或者404)。
作为开发者,如非必须,可以不设置默认页面,或采用随机默认页面,页面内容可以伪造某一大众站点,我想这或许都有一点作用。
你们觉得呢?
评论0