齐鲁晚报·齐鲁壹点 夏侯凤超 摄影 张中短线配资网
随着生成式人工智能的快速发展,高质量数据集作为训练和优化AI大模型的“养料”,已成为人工智能技术突破的核心竞争力。
8月25日,山东数字文化集团(以下简称山东数文集团)与人民网共建语料库合作签约暨项目推进会在济南举行,山东数文集团与人民网正式签约,共建全国首个主流文化语料库。什么是主流文化语料库?它的建设对数字文化产业发展有哪些意义?
必要性:
政策指引+竞争核心力
语料库建设成为行业必然选择
语料库作为人工智能模型训练的核心资源备受瞩目。
人工智能大模型有“三驾马车”:数据、算法和算力。而随着大模型技术的迅猛发展,在算法趋同、算力普惠的背景下,高质量数据集就成为了构建与训练大模型的基础性关键资源。
高质量数据集是指用于训练、验证和优化大模型而收集、整理、标注形成的覆盖行业核心专业知识和生产经营活动的数据资源集合。如果没有一个语料库来训练 AI大模型,大模型就无法学习;语料库越丰富,AI大模型就会变得越熟练、越智能。因此,规模庞大、内容准确的语料库,是大模型能力涌现的基础。
高质量数据集作为人工智能核心资源的地位不断凸显。2025年2月,高质量数据集建设工作启动会在京召开短线配资网,27个国家部委代表参加,会议落实“人工智能+”行动,推动高质量数据集建设,高效赋能行业发展。2025年3月24日,国家数据局局长刘烈宏在中国发展高层论坛2025年年会上表示,“国家数据局将充分调动社会各方力量,积极推动高质量数据集建设,持续增加数据供给。”“‘人工智能+’行动到哪里,高质量数据集的建设和推广就要到哪里。”
富灯网提示:文章来自网络,不代表本站观点。