AI帮你创建的代码归你所有吗?
以下文章来源于悦智网 ,作者Rina
GitHub Copilot自诩为软件开发人员的“人工智能(AI)配对程序员”,能够实时提出代码建议。它由OpenAI建造,拥有生成型AI模型,由“公开可用资源的文本和源代码”训练。
然而,一项集体诉讼声称GitHub Copilot及其母公司微软,以及OpenAI存在开源软件侵权和其他违反开源许可的行为。具体地说,该诉讼指控Copilot生成的代码的版权声明或副本许可中,不包括原代码作者的任何归属。
这起诉讼开创性地挑战了生成型AI,同时也引发了对开源方法的质疑。
Sonatype的开源开发者、机器学习工程师、开源贡献者和维护者萨尔•基米希(Sal Kimmich)说:“开源精神不仅仅是希望保持开放的空间。为了确保开源安全,我们开发了相关流程,需要实现可追踪性、可观察性和可验证性。Copilot模糊了这些(代码)片段的最初起源。”
为了解决开源许可的问题,GitHub计划推出一项新的Copilot功能,该功能将“在GitHub上,为类似公共代码构想提供参考意见,帮助你就能否使用相关代码以及如何使用该代码作出更合理的决定”。GitHub表示,该功能包括“在适当的时候提供归属说明”。此外,GitHub还有一个可配置的过滤器,阻止匹配公共代码的构想。
不过,相关责任还是落在了开发人员身上,正如GitHub在Copilot的条款和条件中所述:“GitHub不主张对构想的任何权利,你保留对代码的所有权和责任,包括你在代码中的构想。”
另一个问题是,使用公开可用的代码进行训练是否合法,用这种方式生成的代码是否会侵犯版权。基米希提到了谷歌与甲骨文的案件,其中“采用了方法的名称而非实现的功能,这是可以的。这是在替换功能内容,仅保留了一些模板。”在Copilot案中,应该逐字生成代码的版权。
电子前沿基金会的高级法务专员吉特•沃尔什(Kit Walsh)认为,Copilot在公共库进行训练是合理使用。“合理使用保护了对版权作品的分析用途。Copilot是在消化代码,并在自己的神经网络中创建关联,包括代码遵循的内容以及出现的环境,这是对原作品真实分析的合理使用。这类案例涉及视频游戏机、搜索平台和API。”
沃尔什说,这要看“(Copilot)从训练数据的给定元素中复制了多少内容”,以及它是否包含受版权保护的创造性表达。“如果包含,那么就可能会发生侵权问题。”她说。
沃尔什说,这起诉讼“正在开创法律先例,将对未来的其他生成型工具产生影响。对于这种作品,创作了(它)的人有资格获得版权保护,而且它可以像代码片段一样嵌入其他人受版权保护的作品。”
博思艾伦咨询公司和EleutherAI的AI研究员史黛拉•彼得曼(Stella Biderman)表示,她希望这起诉讼能够定义什么“是合法的,这对开源AI研究人员是一个重大问题。我非常希望未来可以依据这场诉讼的结果来选择训练模型。”
针对诉讼和GitHub Copilot,开源社区似乎存在着分歧。例如,自由软件管理委员会对Copilot表示担忧,甚至呼吁抵制GitHub,但对加入集体诉讼持谨慎态度。基米希说,他们和其他开源拥护者都知道开源开发人员出于道德立场选择不使用Copilot,但也有喜欢Copilot的人。“他们一边学习,一边开发和执行代码。”
基米希等人也在用Copilot,并且认识到了它给开发人员带来的益处。他们说:“支持它的神经网络不仅用代码帮助你,还能提供更多的场景关联信息。这意味着,开发人员现在具有了扩展智能,可提供关于上下文的建议。我认为这很棒。这是我们迄今为止应用的最强大的生成型智能。”
不过,基米希认为,如果不解决开源许可问题,GitHub Copilot将只能用于爱好者项目和新软件包开发。“作为一名工程师,我如果想要使用Copilot,就要限定它所提供的是许可范围内的代码,或者声明许可共同开发。如果找不到原始许可或原始知识产权的证明,那么我需要知道能否避免使用它。”
GitHub Copilot可能会选择修改其AI模型,使其可追踪归属并添加代码原作者的署名,在此过程中还将添加相关的版权声明和许可条件,彼得曼表示这在技术上是可行的。“OpenAI和微软采取的立场似乎是,过滤许可对他们来说过于繁重, 而其他模型则可以成功地进行过滤。”她以InCoder等学术模型为例,该模型使用了有许可的代码进行训练,“还有其他选择和其他模型,不仅更加符合道德规范,可能也更加符合法律。”彼得曼说。
作者:Rina Diane Caballar