大数跨境
0
0

成员风采丨整数智能信息技术(杭州)有限责任公司

成员风采丨整数智能信息技术(杭州)有限责任公司 数智安全行动计划
2022-03-31
2
导读:成员风采丨整数智能信息技术(杭州)有限责任公司


近日,整数智能信息技术(杭州)有限责任公司通过严格审核,获批成为DSI参与单位。作为一家人工智能领域数据管理服务提供商,整数智能自成立以来始终将数据安全放在企业的战略高度得以强调,将数据安全理念融入公司发展各阶段。


01

整数智能公司简介




整数智能成立于西子湖畔,愿景是「成为AI企业的数据合伙人」,为人工智能领域的企业及科研院所提供一站式的数据服务,包括数据标注管理平台部署(本地部署/混合云部署/SaaS)、数据采集、数据标注等。公司目前是AIIA中国人工智能产业发展联盟、AIITA浙江省人工智能技术产业技术联盟成员,负责参与多项人工智能领域的标准与白皮书制定。


整数智能自研了数据标注管理平台,申请知识产权数十项,涵盖数据采集、数据标注、流程管理、众包管理、AI辅助标注等多项功能,可以完成对图像、文本、音频、视频、3D点云数据的高效处理,服务领域包括无人驾驶、安防、医疗、金融保险、智慧城市、智能客服、智慧工厂等多种场景。


目前已经服务了腾讯、百度、阿里、科大讯飞、美团、字节跳动等TOP科技企业,以及包括清华大学、北京大学、浙江大学、香港中文大学、之江实验室、Stanford、UIUC等国内外顶级的AI科研机构。


公司也曾受CCTV中央电视台财经频道、浙江卫视、苏州卫视等媒体报道。

02

产品与服务



数据集产品


整数智能根据人工智能数据需求趋势而自制的数据集,适应语音识别、人脸识别等商业化人工智能应用领域,能做到开箱即用,目前包括:


· 自动驾驶类数据集:如舱内驾驶行为、舱内乘客行为、交通设施图像、工程车辆图像、红外点云数据、激光点云数据、多天气道路图像、厂区场景视频、城市街景视频。


· NLP数据集:如多角色日常对话文本、中英平行语料、新冠疫情评论、社会投诉建议、商业咨询评论、金融市场文本、社会热点时评等。


数据定制服务


整数智能针对企业的特定场景需求,调动整数智能数据平台的资源进行定制,提供高质的数据采集和数据标注服务。


整数智能数据标注服务通过自研的30余个AI辅助工具、整合数据效率及质量保障流程及预处理技术于一体,可以让标注员0基础快速上手,实现对自动驾驶、医学影像、智慧城市等领域对图像数据、音频数据、文本数据、视频数据及3D点云数据的标注需求。


注:整数智能3D点云数据标注


在数据采集方面,整数智能结合网络爬取及线下采集两种方式满足不同客户需求。整数智能有一批信息聚合开发者团队,能够将非结构化数据从网页中抽取出来,以结构化的方式存储,可以低成本地采集网络信息数据。


在线下实采方面,整数智能拥有丰富的渠道以及成熟的数据采集团队,专业负责现实数据采集,能够在第一时间完成高质量的「普通」任务如道路行车摄像、停车场摄像等,和「特殊采集』任务如车祸场景、红外摄像等。


数据管理平台


针对部分企业数据涉及企业机密或隐私不能放入云端数据工厂处理的情况,整数智能提供SaaS服务、混合云部署或本地部署服务,帮助企业更加迅速、安全地将数据托管至云端,不仅能缩短企业级AI应用落地周期,减少开发流程,还能让客户在统一的平台上完成机器学习的全流程任务, 并快速部署、自动迭代,真正做到让AI赋能业务。


03

产品技术亮点




1、团队自研的30余个AI辅助提效工具 ,大幅增加了标注过程中的效率和准确度,包括:

o 光流跟踪算法:研发光流跟踪算法进行逐帧辅助标注,节约80%以上的人力标注时间

o OCR预标注系统:基于CTPN算法构建OCR预标注系统,算法完成初步文字检测,节约50%以上人力

o ASR辅助音频采集:通过ASR算法对采集到的音频进行自动检验,能够节约60%左右的人力复核成本


2、全链路数据安全解决方案:可以做到数据来源可控、数据产权清晰、加密数据隔离。


3、多终端协同数据生产 :整数智能标注平台可以通过多终端无缝连接,全场景满足用户需求,可对质量进行灵活抽查、动态分阶段验收,帮助AI企业随时把控数据标注质量及进度,保证信息的同步性,让数据真正可靠可控


数据安全保障


整数智能打造稳定、安全、高效的基础数据平台和完善的数字生态体系,为数据从诞生到被算法模型调用的全生命周期赋能,做到数据来源可控,数据产权清晰,加密数据隔离,持续为客户提供优秀的平台体验。

具体包括以下几个部分:


· 顶级数据安全保障:统一的数据管理、资源管理、权限体系、数据审计,隔绝数据泄露风险,保护敏感数据


· 异构数据整合:满足海量、多来源、多样性数据的存储、管理要求,自动对敏感数据进行脱敏


· 海量数据的储存管理:平台能够打通数据采集、清洗、标注、审核等各个环节,优化数据生产方式,提高数据质量


04

影响力




参与行业标准及白皮书的制定与撰写

整数智能依托专业的技术能力和行业积淀,成为了人工智能产业联盟的产业数据组专家,共同参与制定AI行业的数据标准和白皮书工作。参与制定的TC260《AI数据采集及标注安全规范》,聚焦AI数据采集及标注过程及过程中可能出现的安全隐患,提炼、梳理相关安全技术。


为学术界搭建高质量的公开数据集提供可能性

发展至今,整数智服务过许多顶级高校院所与科研机构,在与西湖大学张岳老师文本智能实验室合作的项目中,不同于传统NLP任务中往往只有最终结果的标签,整数为实验室提供了更为细致的标注,例如在情感分析任务中,实验室不只关注于样本的情感极性,还关注人类作出判断的依据所在,而利用整数智能提供的个性化标注服务,实现了针对样本的细粒度标注工作。所以在小样本学习的测试环境下,实验室利用自研算法,以50个样本的细粒度标签,设计了一套Human-in-the-loop的算法,利用仅50个样本训练就可以超过原始利用1700多个数据进行的训练。


张岳老师表示:“除去Human-in-the-loop的算法实现,整数智能的标注平台还为学术界搭建高质量的公开数据集提供了可能性。借助高质量的数据集,广大科研人员可以尽情探索,促进AI领域算法落地并提供合理的评价指标。”


通过数据,助力AI企业提高核心竞争力

此外,整数智能也服务于各个垂直应用场景的AI企业,以自动驾驶应用场景为例,自动驾驶的格局大约在2024到2025年基本形成,感知算法是这些企业发展的核心环节之一。算法的核心基础是数据,AI数据服务公司在为这类公司提供结构化数据以及提升算法精确度的过程中,扮演了至关重要的角色。


“目前自动驾驶企业在数据处理环节较多依赖数据供应商,他们通过自建数据标注基地,自研数据标注、采集系统,开发数据生产流程,为智能驾驶领域的企业提供定制化的数据采集、数据标注服务,加速自动驾驶产业化落地进程。”林群书表示,“我们团队目前可以提供包括数据采集、数据标注、成品数据集以及数据生产管理平台部署在内的多项服务,每一块服务都能为包括自动驾驶场景在内的各个AI垂直应用场景提供高质量的数据服务。”


05
创业故事



创始人林群书在私募基金做量化投资+AI的经历,给他提供了启发。当时他接触的一个项目,是通过对全网金融舆情进行获取,并做舆情情感统计分析,为投资模型提供决策因子。其中在文本分析的NLP算法研发环节,需要使用大量优质文本数据来提升算法的准确性,而这个过程需要消耗大量的人力和时间成本。


 图:因研究量化投资+AI,林群书发现了数据市场的需求


“当时我的想法是去市场上找相关的数据公司,但是看了一圈,发现没有满足需求的数据供应商,我感觉这可能是一个痛点,所以约聊了许多在企业或科研机构里做AI算法的朋友,发现在他们的算法研发过程中,也面临着需要处理的数据量极大且流程繁琐等问题。比如一个做自动驾驶场景的研发团队,需要处理几十万张特定场景的图像数据,研发团队如果想自己去完成这部分工作,一方面要建立专业的数据管理平台用于数据处理、管理,另外一方面还需要专业的项目团队对数据生产进行流程、质量控制。”创始人林群书如是说,“意识到这是一个高频且刚需的市场需求以后,我想,如果能打造一个协同高效的数据管理平台,成为这些AI领域企业的数据专家,为他们赋能,帮助更多AI应用的落地,这会是一件很有价值的事情。”



【声明】内容源于网络
0
0
数智安全行动计划
围绕数据安全与人工智能安全相关工作,从政策解读、标准建设、评估测试、咨询服务、人才培训等方面搭建数智安全交流平台,构建数智安全专业社群。
内容 342
粉丝 0
数智安全行动计划 围绕数据安全与人工智能安全相关工作,从政策解读、标准建设、评估测试、咨询服务、人才培训等方面搭建数智安全交流平台,构建数智安全专业社群。
总阅读1.2k
粉丝0
内容342