国产AI：拿你的数据，抢你的流量

王成 · 发表于 6 天前

最近一位朋友说，用某某国产的AI，里面的内容居然出自我们网站；

其实，这并不好奇，一些所谓的AI很多就是通过爬虫来获得内容；这两年AI的崛起带来了爬虫的横行。最高人民检察院曾经发布了对于网络爬虫的相关处罚条例，然而还是有很多恶意爬虫逍遥法外。

一般来说，在网站根目录下放一个 robots.txt 文件，可以用于告知爬虫哪些链接可以爬，哪些链接不能爬，然而 90% 的爬虫都不会遵守 robots 协议。

一些国产AI的回答看似很好，但答案大部分也来于各种技术论坛和网站；一些AI还能小小的显示出处，一些纯粹的正大光明的剽取；还有一些是通过自己的网站或软件里面寻找总结，比如：Wind的AI；

所以，大多数的处理爬虫方式无非是以下几类
1：直接禁止各大爬虫；如，检查 Refere，User-Agent ，Cookie，JS 动态渲染，限制访问频率；但是诸如此类方法其实有很多破解方案，可以轻易逃过检测；
2：打乱 HTML 结构，算力验证，交互识别，识别无头浏览器，识别行为，请求签名，混淆 JS 代码等等；

但都属于“攻”和“防”的过程，如果没有很好的监管“攻”，最终还是会“防不胜防”；

想说这件事是，我在想随着AI的崛起，那么这方面的监管必须也要跟得上节奏，但现实是关于互联网方面的产物，法律远远跟不上互联网时代的发展；

[杂谈] 国产AI：拿你的数据，抢你的流量

回复

发贴达人

回帖达人

本站牛人

实盘认证

实名认证

专题

专区

社区

管理

qhxn004@foxmail.com