跳转到内容
彼岸论坛
欢迎抵达彼岸 彼岸花开 此处谁在 -彼岸论坛

[问与答] 假如我扒光了 XXX 网站的内容……会怎么样?


已推荐帖子

发表于
文中的 XXX ,可以替换为任何一家网站。

首先假设:
1. XXX 是由一家中国大陆地区的商业公司建设和运营。——注意这里有两个重点,运营方是追求利润的公司,而且是中国大陆地区的公司(比如世纪佳缘那种)
2. 根据 XXX 的服务条款,XXX 用户发表的内容的版权均归 XXX 所有
3. XXX 有 robots.txt ,禁止爬虫
4. XXX 有反爬虫机制,比如限制单个 IP 的访问频率、验证码、滑块

然后假设,我扒光 XXX 的手段包括且不限于:
1. 伪造浏览器标识,或者直接使用无窗口浏览器模拟人类真实操作
2. 变换 IP 地址
3. 通过技术手段模拟人类真实操作去突破验证码、滑块等反爬虫机制

最后假设,我拿到 XXX 的全部内容后,用于下面的目的:
1. 训练深度学习语言模型,模型可能开源或闭源,训练目的可能是技术研究或者商业应用
2. 语言模型推理的外挂知识库,XXX 的内容可能直接原文插入到知识库,也可能经过清洗、分割、增强、重新合成后插入到知识库。——注意这里两个使用方式是有区别的,一个用原文,一个非原文

那么,会怎么样?
  • 游客注册

    游客注册

  • 会员

    没有会员可显示

  • 最新的状态更新

    没有最新的状态更新
  • 最近查看

    • 没有会员查看此页面.
×
×
  • 创建新的...