新华社电 国家数据局局长刘烈宏24日在国新办举行的新闻发布会上表示,到今年3月,我国日均词元(Token)调用量已超过140万亿,相比2024年初的1000亿增长了1000多倍,相比2025年底的100万亿,三个月时间又增长了40%多。
“日均词元调用量的大量增加,充分表明中国的人工智能发展进入了快速增长阶段。”刘烈宏表示,人工智能应用场景在不断深化,从能对话到能决策执行的智能体,中国人工智能产业的竞争力在显著增强,现在备受关注的Token出海,就是产业竞争力增强的一个标志。
据刘烈宏介绍,在各方共同努力下,我国高质量数据集的建设工作取得了阶段性成效,截止到2025年底,全国已建成的高质量数据集超过10万个,总体量超过890PB,这相当于中国国家图书馆数字资源总量的310倍左右。
下一步,国家数据局将持续推进数据赋能人工智能创新发展,协同各方深入实施新一轮的高质量数据集建设行动计划,以场景需求为牵引,加快推进先行先试的工作,打造技术可行、实用便捷、质量保障的AI-Ready(AI就绪度)高质量数据集,实现高质量数据集供给的量质提升。
词元是人工智能领域的概念,定义为处理文本的最小数据单元,是拆分后的最小信息载体,可理解为字/词片段/符号等。用户输入的每一个字,模型生成的每一段话、识别的每一幅图像,都在消耗词元,对应真实场景交互如智能客服、语音指令,使其成为衡量人工智能产业景气度的重要晴雨表。