近年来,随着新一轮科技革命和产业变革的持续深入,人工智能技术迎来迅猛发展,以ChatGPT为代表的AI大模型已具备复杂分析、预测算法、人机交互等能力,成为释放数字化叠加倍增效应、加快战略性新兴产业发展、构筑综合竞争优势的重要助推力。
为提升人工智能大模型生成结果的准确性,海量数据被用于模型的训练、调式和改进,其中也包括大量的开放数据,如ImageNet、Open Image等,这些开放数据为研究者提供了共享和比较不同算法性能的基准,同时也有利于提升训练数据的准确性和一致性,从而加速人工智能大模型的研究效率和发展速度。然而数据权属复杂,数据收集、使用、处分等行为引发的纠纷频发,开放数据亦无法豁免,因此了解开放数据应用合规风险,确立规范应用原则确有必要。
一、开放数据的定义
目前,针对开放数据尚无统一定义,结合英国开放知识基金会(OPEN KNOWLEDGE FOUNDATION)对于开放的定义,开放数据指已进入公共领域或通过授权条款允许任何领域的使用者免费访问、获取、使用、处理、修改和分发的数据或其集合。
二、开放数据许可协议
常用的开放数据协议大致可分为三类:知识共享许可协议(Creative Commons license)、开放数据共享许可协议(Open Data Commons)、社区数据许可协议 (Community Data License Agreement)。
1. 知识共享许可协议(Creative Commons license)
2002年12月,美国非盈利性组织知识共享(Creative Commons)首次发布了知识共享许可协议(Creative Commons license,以下简称CC协议),旨在增加作品的流通性及可及性。CC协议存在多种授权条款组合,可供创作者自由选择,包括:
(1) CC0
CC0从本质上而言是权利人放弃其许可作品著作权的单方面声明,即使用者可自由使用CC0许可协议下的著作权作品,无需履行任何义务。
(2)CC BY
该类许可协议明确创作者及贡献者授权使用者自由复制、使用、修改、分发该协议下的著作权作品,但使用者需在分发时注明出处,保留原作者署名。
(3)CC BY-SA
该类许可协议的授权义务包括保留原作者署名及采用相同许可协议进行分发。
(4)CC BY-ND
该类许可协议要求使用者在分发时保留原作者署名并且不可分发演绎作品。
(5)CC BY-NC
该类许可协议不允许商用,并且要求使用者在分发时保留原作者署名。
(6)CC BY-NC-SA
该类许可协议不允许商用,且要求使用者保留原作者署名并采用相同许可协议进行分发。
(7)CC BY-NC-ND
该类许可协议不允许商用,也不允许分发演绎作品,同时要求使用者在分发时保留原作者署名。
2. 开放数据共享许可协议(Open Data Commons)
2008年3月,英国开放知识基金会公布了首个开放数据许可,区分数据库及数据库内容进行授权。目前开放数据共享许可协议(Open Data Commons,以下简称ODC)拥有三类变体,包括:ODC-PDDL、ODC-BY、ODC-ODbL。
(1) ODC-PDDL
ODC-PDDL类似CC0,该协议的许可方无条件放弃其对于数据库内容的版权、数据库版权和数据库权利,允许使用者自由使用。
(2) ODC-BY
该许可协议仅针对权利人所拥有的数据库版权和数据库权利,不包含数据库内容的授权,协议允许使用者复制、使用、修改、分发数据库,前提是声明数据库的许可方式并保留原权利人署名。
(3) ODC-ODbL
该许可协议同样也只针对权利人所拥有的数据库版权和数据库权利,协议允许使用者复制、使用、修改、分发数据库,前提是使用者需采用相同许可协议进行分发,并保留原权利人署名,若分发DRM版本,还需分发无加密或无其他版权保护措施的版本,以保障下游用户的正常使用。
3. 社区数据许可协议 (Community Data License Agreement)
2017年,Linux基金会发布社区数据许可协议 (Community Data License Agreement ,以下简称CDLA),该协议目前包含互惠版和宽松版两类变体。
(1) CDLA-Sharing-1.0
数据提供者根据本许可授权数据接收方进行数据的使用、修改和分发,但数据接收方需在分发时采用相同许可协议、保留原始权利声明并进行修改声明。
(2)CDLA-Permissive-2.0
数据提供者通过此许可协议授权数据接受方进行数据的使用、修改和分发,前提是数据接收方在分发该数据时提供本协议文本。
三、开放数据使用合规风险
不同于软件、硬件或其他作品,数据的多重属性和复杂权利义务关系使得难以笼统地对数据作出权属上的单一安排,一般而言只有数据内容具备独创性构成作品或多数据内容经编排、加工构成汇编作品的才可受到著作权法保护,因此类似知识共享许可协议(Creative Commons license)等版权许可协议并非在所有数据许可的场景下皆可适用。
其次,由于数据内容权利以及数据库权利可能分属不同权利人,同时部分数据库权利人在分发时,可能并未取得数据库内容权利人的相关授权,因此数据接收方未经许可使用相关数据库内容便存在侵权风险。同理,经汇编、加工的数据集合对外分发时也可能存在未得相关数据内容权利人授权的状况,不加辨别的盲目使用也可能构成侵权行为。
最后,数据保护近年来已成为各国关注焦点,在进行开放数据的使用、加工和分发时,不仅需遵循对应许可协议的要求,还应满足数据安全相关法律法规及强制性标准的规定。
四、中国信通院开源相关服务
中国信通院集合自身在开源领域多年的实战经验,推出源起无垠|城市/园区/企业三层开源建设赋能服务,创建符合监管要求并推动开源创新战略的综合管理框架。其中企业开源合规赋能包内容如下所示,更多详细内容请通过联系人获取《中国信通院城市、园区、企业三层开源建设赋能服务清单》。
中国信通院在开源合规方面可以帮助企业:
● 培训赋能:依托完善的开源合规课程体系为企业认清当前开源合规风险态势和治理能力提供一幅清晰图景,帮助企业迅速上手实战。
● 诊断赋能:
1. 企业级:通过调研、访谈、问卷等形式深入分析企业开源合规管理现状,梳理企业开源合规管理过程中的痛点问题,并提供针对性的提升建议,形成企业开源合规管理差距分析报告;
2. 产品级:识别其使用的开源许可协议信息,包括许可协议名称、许可协议分类统计、许可协议传染性分级统计与许可协议兼容性分析等,结合系统使用场景,帮助用户规避开源许可协议法律风险。
● 咨询赋能:聚焦于企业开源合规管理痛点问题,在开源合规使用指引、开源许可协议解读指南、软件产品开源代码发行验证规范等方面为企业提供针对性能力提升的管家式服务。
● 订阅赋能:根据企业的个性化需求,为企业提供开源合规问题托底支持、开源许可协议白名单、开源许可协议解读等订阅服务。
● 评估赋能:以评估验成效,以分析促提升,通过开源合规标准评估服务帮助企业查漏补缺,不断完善自身开源合规管理能力,并树立行业开源合规治理标杆,有效推动产业开源应用水平提升。
企业开源赋能计划服务客户(部分)