[杂谈] 国产AI:拿你的数据,抢你的流量

32
发表于 6 天前 | 查看全部
最近一位朋友说,用某某国产的AI,里面的内容居然出自我们网站;

其实,这并不好奇,一些所谓的AI很多就是通过爬虫来获得内容;这两年AI的崛起带来了爬虫的横行。最高人民检察院曾经发布了对于网络爬虫的相关处罚条例,然而还是有很多恶意爬虫逍遥法外。

一般来说,在网站根目录下放一个 robots.txt 文件,可以用于告知爬虫哪些链接可以爬,哪些链接不能爬,然而 90% 的爬虫都不会遵守 robots 协议。

一些国产AI的回答看似很好,但答案大部分也来于各种技术论坛和网站;一些AI还能小小的显示出处,一些纯粹的正大光明的剽取;还有一些是通过自己的网站或软件里面寻找总结,比如:Wind的AI;

所以,大多数的处理爬虫方式无非是以下几类
1:直接禁止各大爬虫;如,检查 Refere,User-Agent ,Cookie,JS 动态渲染,限制访问频率;但是诸如此类方法其实有很多破解方案,可以轻易逃过检测;
2:打乱 HTML 结构,算力验证,交互识别,识别无头浏览器,识别行为,请求签名,混淆 JS 代码等等;

但都属于“攻”和“防”的过程,如果没有很好的监管“攻”,最终还是会“防不胜防”;

想说这件事是,我在想随着AI的崛起,那么这方面的监管必须也要跟得上节奏,但现实是关于互联网方面的产物,法律远远跟不上互联网时代的发展;

回复

您需要登录后才可以回帖 登录 | 注册

本版积分规则

温馨提示
自2025年起:根据用户的交流积分数来确定入群规定; 知道啦
投诉/建议联系

qhxn004@foxmail.com

站内内容仅供参考,不构成投资建议。
禁止复制和建立镜像,违者追究法律责任
  • 微信视频号
  • 关注公众号
Copyright © 2012-2025 24KRMB 版权所有 All Rights Reserved. 隐私设置净网黑名单鄂ICP备19016902号
关灯 在本版发帖
添加创始人微信
QQ客服返回顶部