采集成人网站内容，诱导付费，这样的网站才该被封！

心如止水 · 发表于 2019-12-22 16:34:51

昨天我们聊了，某些因为版权问题被封的网站。看完评论，大部分人的看法是：要不是你正版平台吃吃相太难看，我也不会想方设法去找资源。

登录/注册后可看大图

作为普通用户从而开始怀念甚至原谅盗版网站，这肯定是不对的！假如我们都看盗版，那么像《庆余年》这样高质量的影视作品将会越来越少。
支持正版杜绝盗版，这个是我们每一个普通用户该有的认知，但视频网站也别把用户当韭菜！

登录/注册后可看大图

但，今天我们要聊的是下面这样的网站，要坚决打击！
事情的经过是这样的，某天下午我正在努力工（mo）作（yu）中，某个qq 群里有人分享的聊天记录迅速引起了我的兴趣：

登录/注册后可看大图

这让我想起了之前的“原谅宝”事件，可能还有些吃瓜群众不知道“原谅宝事件”的始末。
PS：这个项目并没有真正的命名为原谅宝，只是被很多媒体宣传成原谅宝。
2018 年 8 月，一位定居德国的程序员 @将记忆深埋发布了一条消息，他表示准备将各大成人网站的视频及图片打 tags（标记）后去做匹配，为码农朋友们做一个过滤。

登录/注册后可看大图

今年 5 月 27 日，该博主在微博公布的项目的最新进展，不仅采集了成人网站内容，还采集了社交媒体的内容，在全球范围内成功识别了 10 多万从事不可描述行业的小姐姐，总共 100TB 的数据。

登录/注册后可看大图

此消息一出，又有一堆营销号大肆宣传，该号的粉丝数暴涨，但是随之而来的有两种声音。
一种是支持博主开发的，另外一种则是责备和谩骂。
而后者的声音明显更大。
最后，在 5 月 31 日，开发者取消了直播采访的计划，并表示自己会删除整个项目和数据库，同时也表示道歉。

登录/注册后可看大图

当然，这都是过去式了，再回到咱们这次的话题。
它大概长成这样（下图）：网站介绍“利用人工智能和大数据进行全网人脸搜索 (尤其是成人网站) ……。”
这不就是“原谅宝”吗？而且它还有一个几乎一模一样的英文网站。

登录/注册后可看大图

我抱着试一试的心态上传了一张图片，然后发现 …… 要付费！！价格还不便宜！

登录/注册后可看大图

普通查询 28.88 元，但效果较差，而要看到成人网站查询结果，需要 58.88 元一次的高级查询。但是，你只需要一次性充值 198.88 元就可以获得永久高级查询。
198，你去不了新加坡，到不了加拿大，198，你买不到三星，换不了苹果。但是，现在只要 198 你就可以深入了解身边那个 ta 的全部黑历史。心动不如行动 ……
咳咳 …… 就在我差点付费的时候，还好我及时发现，我根本没有女朋友。

登录/注册后可看大图

在我冷静下来以后发现这个套路好像有点问题。
提前给你一个模糊搜索的结果，然后就诱导你去付费，在好奇心的驱使下付费查询。而且由于查询问题的敏感，很多人发现被骗了之后也不好意思声张。这跟之前查开房记录查询的 APP 很像。当然，这些软件都是骗人的 …

登录/注册后可看大图

为了进一步验证，我借助该网站的 ICP 备案号顺利的查到了运营公司。

登录/注册后可看大图

没想到竟然就在湖南 ……
随后再利用天眼查看一下这个公司：该公司注册资本 500w，成立时间 8 月 21 日，但是经营状态已经是注销（注销表示这个公司没了）。然后在股权穿透之后发现，该公司的股东只有一个。

登录/注册后可看大图

就在我准备进一步了解的时候，得到了天眼查的善意提醒：

登录/注册后可看大图

算了，算了 …… 因为事情已经基本搞清楚了。
8 月份到现在，一年三个月时间，这家注册资本 500w 的公司就直接注销了？ 难不成是开着玩的？
有钱人的生活难道就是这么朴实无华，且枯燥 ……

登录/注册后可看大图

至此我们基本可以确定，这个公司是有问题的。当然，后面我会技术据的方面来分析一下。
虽然该事件的开发者已经“删库跑路”了，但是对于这个事的讨论却并没有终结。对于这件事，或者类似的事件，我们可以从两方面来看。
第一，从技术的角度来看，这个项目靠谱吗？
第二，从道德的角度来看，这个软件合适吗？
首先，从技术的角度来看，这个软件就不靠谱。
why？

登录/注册后可看大图

首先我们要知道这个项目的原理，就是利用机器学习来对比，上传的“人”和视频中的“人‘是不是同一个？那具体的过程是怎么学习呢？
举个简单的例子，给机器 2 张猫咪的图片，让机器来对比是不是同一只？
等机器输出结果后，再告诉机器是否正确，而机器也会依照这次结果与正确答案的误差，来调整下一次对比的逻辑。这就是机器学习的本质。

登录/注册后可看大图

而这里最重要的一点是，训练者（开发人员）必须知道正确答案，才能把正确答案告诉机器。
目前比较常规的做法是什么呢？
一般都是雇佣很多外包人员，让真正的人来给图片、视频打上 tags（标记），然后把答案输出给机器对比，这个过程的成本很高。但是效果比较好，因此是目前的主流做法。
而这个“原谅宝”，他背后既没有大公司，也不是大土豪。那么哪来的资源做大量的样本训练？仅仅通过个人的技术？

登录/注册后可看大图

其次，开发者最后提到自己删除了 100TB 的数据，这个 100TB 也很有问题。（1TB = 1024GB，1PB = 1024TB）
第一，100TB 的数据处理和筛选对于个人来说是比较大的了，不是一个程序员能够处理的，而且存储的费用也不便宜呀！
第二，这几个成人网站和社交网站，哪一家的数据不是用 PB 做单位！？无论是 P 站，还是 Facebook 。开发者爬取了这么多网站的数据居然才 100TB，这有点太魔幻现实了。

登录/注册后可看大图

所以，这个项目的起点就有问题。不仅没有足够的样本的来训练，而且训练的内容，他也没有答案。机器学习根本无从谈起。
更何况，这些网站的视频/图片质量层次不齐，素材的精准度完全没有保障。
比如拍照的时候，哪怕是光线有一点变化，照片区别都很大。所以同一个人，拍出来的照片也是千姿百态。而这个误差从图片到视频，会成百上千的增大。
所以说，从技术的角度来看，“原谅宝”根本就没办法正常的操作，更不要说什么精确的搜索结果了。
其次，从道德角度来看”原谅宝“的问题，网上的讨论基本围绕两个方面：
1、侵犯他人隐私权；
2、对当事人的二次伤害。
开发者在当时也表示，该系统需要通过 eID（公民网络电子身份标识）实名认证后注册登录，不经过本人同意是无法查询的。尽管开发者一再强调，自愿和实名制。不过在我看来，这就是赤果果的网络暴力。

登录/注册后可看大图

这里最大的一个问题就是，我们无法通过一段视频或者一张图片，来还原整个事情的来龙去脉。
或许你通过这个程序，看到某个女生/男生的一段视频，但是你无法知道这段视频上传的背景，也就是说，你不知道这段视频是怎么来？
这个视频可能是自愿拍摄，也可以是被偷拍的（某一方或者不正规酒店），甚至是有些不法分子窃取的。
有时候，哪怕这个视频是真的，也无法判断视频的主角就是坏人，因为拍摄的背景和上传的原因我们都是未知的。
在这种背景下，什么实名制、自愿与否真的有意义吗？
这些视频本身就是对一些人的伤害，就是对他们的隐私侵犯。

登录/注册后可看大图

最后，我想说科技在不断的进步，但是有人用它做好事，有人却总想着用它干坏事。
今天，每一次使用手机刷微博、淘宝、点外卖、叫车，都会在互联网上留下一个记录，而这些记录又会被其他的技术引用。
有的人以此来给我们提供更好的服务，有的人利用他们来诱导消费，甚至是用来诈骗。
这时候我们还能相信科技吗？
久而久之，必然会造成大家对科技的恐慌。而最可怕，某些大厂也利用这套规则，悄咪咪的把手伸进你的口袋。
现在，我们比以往任何时间的都需要“科技向善”。
科技本身是中立的，但是那些使用他的人呢？也许，技术的发展能够解决一些问题，但是技术永远也解决不了背后的现实问题。世界是复杂的，世界上的人更复杂。
我想用一句老梗来结尾，请少一些套路，多一些真诚。

工作时间

discuz插件微信登录免费版,对接创意电子聚

discuz插件QQ登录免费版,对接创意电子聚合

苹果CMSV10,快猫视频二开苹果cms视频网站源

麻豆源码MDYS14,苹果CMS V10_油条视频_二开

扑克牌技术教程woocommerce独立站整站

采集成人网站内容，诱导付费，这样的网站才该被封！

相关帖子

it618视频直播网校视频加密VIP卡密拼课认证

修改各种模板，需要模板的老板可以看这里

it618联盟商家直播带货社区拼团线上线下会

it618钱包充值提现多功能生态版 v9.1.6

智能云采集任何内容众大云采集 9.6.4(去版

关于我们

积分管理

热门资源

快捷入口

在线客服邮箱

官方在线客服

TG群:@wxcydzcc

手机扫码查看手机版

扫一扫关注官方博客