蚂蚁数科李哲：高质量数据将成为AI产业化的重要基础

2024-11-06 12:40

10月30日，在“AI紫竹数智赋能”2024发展论坛上，蚂蚁数科AI科技技术负责人、蚂蚁天玑实验室主任李哲发表了主题演讲，分享了蚂蚁数科在人工智能（AI）数据服务方面的实践经验，并阐述了高质量数据在推动AI产业化中的关键作用。

李哲指出，当前AI行业快速发展，数据的重要性愈发突出。与算力和算法相比，AI在应用落地中愈加依赖高质量、特定行业的垂类数据，特别是在解决细分场景的实际问题时，更需依靠具有行业针对性和高精度的数据支撑。因此，李哲强调，高质量的数据服务将成为未来AI产业化的基础。

李哲将AI数据服务的发展分为三个阶段。在2014至2022年间的弱人工智能时代，数据服务的关键词是“数据闭环”，即通过数据反馈和模型迭代来提升算法性能，如图像识别中的人脸识别技术。李哲指出，蚂蚁数科在这个阶段致力于提升人脸识别的安全性，通过自动化数据闭环系统不断优化算法，以应对包括深度伪造视频在内的多种风险，形成了一套高效的安全性测试流程。目前，这一系统已广泛应用于安卓手机的人脸识别安全测评，为行业安全标准树立了标杆。

进入2022至2023年，以大语言模型为代表的生成式AI带来了第二阶段的变革。此时的数据服务重点在于高效的数据标注，以确保AI能够通过大规模数据训练具备人类知识和理解能力。李哲介绍，蚂蚁数科AI基础数据服务标注业务，涵盖医疗、出行、社交、金融等多个场景，结合自动化标注能力形成覆盖多领域的高效专业标注体系。

随着AI技术迈向AGI（通用人工智能）时代，数据服务迎来了第三个阶段，即多模态数据合成。李哲指出，未来的AI应用需要大量稀缺且难以获取的长尾数据，如自动驾驶中的极端天气数据和具身智能的数据。在此背景下，数据合成成为关键，蚂蚁数科通过仿真技术和强化学习等方法，将生成的高质量数据应用于多模态模型的训练，进一步提升AI的泛化能力和适应性。

在具体的实践中，蚂蚁数科通过多个创新项目推动AI数据服务的发展。在数据管理和流通方面，蚂蚁数科推出了“DataFab”数据处理解决方案，实现了数据的可信、可控流通。李哲介绍，这一系统将蚂蚁数科内部各类数据资源整合，通过安全的流转机制，使数据高效服务于不同业务场景。目前，DataFab已在蚂蚁内多个业务主体中应用，支持千PB级数据处理，有效提升了大模型训练效率。

此外，李哲还展示了蚂蚁数科在AI安全方面的探索。针对人脸识别安全，蚂蚁天玑实验室联合多个机构推出国内首个金融场景“AI 换脸”检测标准；针对大模型安全性测评与伦理道德问题，蚂蚁数科推出了“蚁鉴”“天鉴”服务，为大模型在行业应用提供了全方位的安全保障。

李哲表示，蚂蚁数科将继续在AI数据服务和技术创新上深耕，与更多产业伙伴合作，共同推进AI技术在多行业的应用落地。

李仕静/文

版权与免责：以上作品（包括文、图、音视频）版权归发布者【紫竹院街道】所有。本App为发布者提供信息发布平台服务，不代表经观的观点和构成投资等建议