推进数据标注产业与人工智能协同发展

内容摘要    【培育新质生产力在行动】    ◎本报记者 洪敬谱    数据标注是对数据进行添加标记、说明、解释、分类和编码的过程。这一过程是提升人工智能算法与模型核心能力的关键环节。近日,我国首个数据标注产业专项规划——《合肥数据标注产业发展规

    【培育新质生产力在行动】

    ◎本报记者 洪敬谱

    数据标注是对数据进行添加标记、说明、解释、分类和编码的过程。这一过程是提升人工智能算法与模型核心能力的关键环节。近日,我国首个数据标注产业专项规划——《合肥数据标注产业发展规划(2025—2027年)》(以下简称《规划》)发布。

    “《规划》立足安徽合肥产业基础,以打造国际领先的数据标注创新基地为目标,为推进城市数字化转型提供核心支撑。”合肥市数据资源管理局党组成员、总工程师彭辉在接受科技日报记者采访时表示,预计到2027年底,合肥标注数据规模将达到3000TB,产业规模突破30亿元,支撑相关产业规模迈上千亿元台阶。

    产业优势与多元需求融合

    位于合肥高新区的飞友科技有限公司,是一家深耕民航大数据的科技企业。3月30日,该公司首席技术官朱睿向记者介绍:“以安全事件监管为例,传统的人工巡检和视频回放方式效率低下,实时性欠佳。然而,通过对航空器保障视频画面进行采集标注,我们可实现运行节点的自动提取和安全事件的实时监测,工作效率大大提高。”

    “在合肥,还有许多类似的大数据企业,为相关行业政策的制定提供了‘源头活水’。”彭辉说,早在2017年,合肥就在全国率先启动大数据企业认定工作。目前,合肥市大数据企业存量达2246家,涌现出一大批行业领先者。

    “合肥数据标注产业优势明显,相关企业也有迫切发展需求。”彭辉介绍,合肥依托人工智能、智能网联汽车等战略性新兴产业集聚优势,数据标注应用场景丰富。如科大讯飞等企业在人工智能数据标注方面,比亚迪、蔚来等智能网联汽车企业在自动驾驶数据标注等方面,为数据标注产业提供了多样化的业务场景。

    此外,合肥地处人工智能产业集中的长三角区域,如上海、杭州等地的自动驾驶、金融科技产业对高质量标注数据需求旺盛。

    截至目前,合肥的数据标注总规模已达933.3TB,相关企业总数突破35家,数据标注总产值累计达8.63亿元,初步形成了覆盖数据采集、清洗、标注、应用的全链条产业生态。

    为人工智能行业提供支撑

    “如果把人工智能模型比作学生,那么数据标注员就是老师。”安徽飞数信息科技有限公司常务副总经理、合肥市数据产业协会秘书长谭昶形象地比喻道,标注员通过详细地标注数据,为模型提供准确的指导和示范,帮助模型认识不同的模式和特征。

    “比如,我们为讯飞星火大模型标注了大量科普知识问答和评价数据。在这些‘老师’的指引下,模型逐渐学会了如何准确回答不同问题。”谭昶举例说。

    去年4月,全国数据工作会议提出,探索建设国家级数据标注基地,充分发挥地方配套支撑作用,在数据标注产业的生态构建、能力提升和场景应用等方面先行先试,集聚龙头企业,促进区域人工智能产业生态发展。次月,国家数据局发布承担数据标注基地建设任务的首批城市名单,合肥位列其中。

    “合肥的数据标注产业,已为人工智能产业发展提供了有力支撑。”彭辉介绍。2024年5月,合肥启动建设“人机协同多模态众智标注平台”。目前,该平台开发进度达90%,功能完备性实现100%,技术指标处于行业前列。

    另外,合肥围绕工业制造、医疗、教育、城市治理、地理信息等八大重点领域,构建了多模态数据标注服务体系,已为安徽省政务服务大模型、豆包大模型等18个大模型提供数据支撑。

    “下一步,合肥将充分发挥区域优势,实现以合肥为总部基地,覆盖全省、服务长三角,推动形成数据标注产业与国家人工智能重大生产力协同发展的格局。”彭辉表示。

 
举报 收藏 打赏 评论 0
24小时热闻
今日推荐
浙ICP备19001410号-1