并且您必须在相同的许可下发布您的模型

pappu636 · Post by **pappu636** » Mon Jan 20, 2025 8:26 am

我曾经非常热衷于 CC，但近年来除了偶尔参加几次会议外，我根本没有与他们合作过，所以我没有参与内部讨论，但我倾向于同意大多数讨论和当前的成果。我坚信人工智能训练符合 CC 许可证中的一般理想，也符合这项运动的精神。知识共享作为一种合法手段存在，以确保尽可能广泛地共享和重复使用作品以用于各种目的，这通常包括商业重复使用，尽管有些人认为这与许可证不相容。

那么合法性呢？为什么有些人怀疑 AI 训练与 CC 兼容？我认为这既源于对许可证的误解，也源于没有从技术角度考虑模型训练时究竟发生了什么。让我详细说明一下。

CC 许可证有 6 种类型，分别由 4 个要素组合而成：署名 (BY)、非商业性使用 (NC)、相同方式共享 (SA) 和禁止演绎 (ND)。这 6 种许可证分别是BY、BY-NC、BY-SA、BY-ND、BY-NC-SA和BY-NC-ND。这些许可证允许用户在无需征得许可人同意的情况下行使作者受版权保护的专有权利之一，只要他们遵守条款和条件即可，这些条款和条件就是上面描述的四个要素中的每一个。让我们用我使用的许可证 ( BY-NC-SA ) 来解释这一点。如果你想重新发布我的博客，只要你遵守三个主要要素就可以，即你必须署名，不能用于商业目的，并且必须相同方式共享，即任何衍生作品都必须在同一许可证下发布，在本例中为 BY-NC-SA。这被称为copyleft 条款。反对使用 CC 进行训练的论点大致如下：如果您想使用我的博客来训练人工智能，那么您必须遵守相同的要求，因此您必须注明我的来源，您不能将其用于商业用途，。

简单，现在让我们看看我的博客是否在模型的训练数据中，然后我就可以因违反许可条款而起诉他们侵犯版权，对吗？

别急。第一个障碍是并非所有用途都受到许可限制。粗略地说，CC 许可包含两种类型的用途：作品共享和作品改编。共享被定义为“通过复制、公开展示、公开表演、分发、传播、交流或进口等方式向公众分享作品的任何行为”。改编被定义为受版权保护的作品，该作品“衍生自或基于许可材料，并且其中许可材料被翻译、更改、编排、转换或以其他方式修改，需要根据许可方持有的版权和类似权利获得许可。”共享和改编作品用于商业目的受到限制，而版权条款仅适用于改编，因此，如果您将我的博客改编成一部戏剧，则必须根据 BY-NC-SA 发布该戏剧。

到目前为止一切顺利，我仍然可以起诉那些未经我法国手机数据许可训练人工智能的人，对吧？同样，不一定。第二个绊脚石在于训练的本质。假设一家公司在他们的训练数据中使用了我的博客，他们制作了一份副本，即复制品，但他们并没有分享它，他们只是从我的文字中提取统计数据，因此共享部分的要求没有得到满足。此外，从作品中提取信息不是作者的专有权利，使用合法副本训练模型本身并不侵犯版权。最后，训练模型并不是创造作品的衍生品，这在一些正在进行的案件中开始出现，长话短说，有人认为人工智能产生的所有输出都是所有输入的衍生品，但这种论点站不住脚，当你让巴德或克劳德写一首诗时，那些文字并不是这个博客的衍生品，也不是训练中使用的任何其他输入的衍生品。因此不需要版权要求，因为这仅适用于作品的衍生或改编。

最后，也许是最重要的一点，所有知识共享许可都明确规定，如果使用受到版权现有例外和限制（如合理使用或公平交易）的保护，则许可中包含的任何要求均不适用。在美国，法院目前正在处理复制以训练模型是否属于合理使用的问题，因此这个问题仍悬而未决。在欧洲和其他国家，文本和数据挖掘已经有例外，它们可能属于这种对重复使用的全面批准。此外，在许多国家/地区，创建作品的私人副本也属于合理交易，这可能适用于制作一些用于训练的私人副本。如上所述，从作品中提取信息并不侵犯版权。