
特别感谢本期特邀嘉宾:CCF大数据专家委员会的陈娟女士!
CCF大数据专家委员会介绍
CCF大数据专家委员会(以下简称“大专委”)由李国杰院士等9人发起,于2012年9月在北京香山会议上成立。以推动大数据产学研生态融合、发展及创新为主要目标和宗旨。
历经三年已发展为正式委员161名,通讯委员100名。目前,CCFTFBB由李国杰院士(中科院计算所)担任名誉主任,梅宏院士(上海交通大学)任主任。程学旗(中科院计算所)任秘书长。车品觉(红杉资本)、陈恩红(中国科学技术大学)、胡 斌(兰州大学)、 张晓东(俄亥俄州立大学)任副主任。大专委下设技术交流、学术交流、竞赛、发展战略与生态等工作组。60%委员来自学术界,主要为985和211等著名高校和一流科研院所的院长、副院长与资深教授;30%来自工业界与政府部门,主要为阿里巴巴、百度、腾讯、华为、中兴、中国移动、中国联通等信息与通信领域领头企业的高管与资深技术专家,10%的境外委员,主要为美国俄亥俄州立大学、英国伦敦帝国理工学院、加拿大西安大略大学、澳大利亚悉尼科技大学、香港科技大学、新加坡国立大学等境外著名高校的教授。顾问委员及特邀委员21名,分别来自数学、物理、管理、金融、生物等领域学科带头人,如怀进鹏院士、高文院士、林惠民院士、潘云鹤院士、邬贺铨院士、张尧学院士、李德毅院士、方滨兴院士等。
大专委是CCF成立最早的一个专家委员会,也是规模最大,活动最丰富,影响力最大的专委会的,已连续三年获得优秀专委的称号。大专委每年主要工作包括“两会”、“两报”、“一赛”,分别是中国大数据技术大会、CCF大数据学术会议、《中国大数据技术与产业发展报告》、《大数据发展趋势预测报告》及CCF全国大数据与计算思维大赛。同时还组织大数据走进企业、大数据走进高校、国际交流等系列活动。
各位晚上好!很高兴向各位业界朋友介绍中国计算机学会大数据专家委员会(CCF TFBD)的发展与近期工作。非常感谢联盟的平台。
(1)中国大数据技术大会(Big Data Technology Conference,BDTC)是目前国内最具影响、规模最大的大数据领域的技术盛会。大会的前身是Hadoop中国云计算大会(Hadoop in China,HiC)。从2007年仅60人参加的技术沙龙到当下数千人技术盛宴,作为极具实战价值的专业交流平台,已经成功举办9届的中国大数据技术大会见证了中国大数据生态系统的建立、发展和演变,成为行业精英、技术专家及意见领袖分享最新技术与实践的洞察与经验大数据盛会。
(2)大数据学术会议已成功举办三届,主要关注大数据面临的新的挑战问题和研究方向、大数据的技术应用与学术交流、探讨国内外最前沿的大数据技术和最新研究进展。每年,会议均邀请多位院士和国内外大数据领域的顶级专家学者作大会特邀报告,举办专题论坛、青年论坛和分会场口头报告等多种形式的学术交流,特别设立了最佳学术论文奖、最佳应用论文奖和最佳学生论文奖等诸多奖项。
(3)《中国大数据技术与产业发展报告》的编写集中了100多位来自高校、科研院所、企业和政府部门的专家,从事的专业涵盖计算机系统、通信、数据库和数据挖掘、大数据应用等各个不同的领域的知识和智慧,重点介绍了大数据技术谱系及发展现状;互联网、金融、电信等10多个重要行业的大数据应用现状的和发展趋势;大数据IT产业链与生态环境;世界开源组织及国内大数据产业园;国内外大数据技术现状及壁垒。致力于为业界梳理大数据应用现状及发展趋势,为政府制定推动大数据产业发展的政策提供建议;同时,探讨大数据研究面临的科学问题和技术挑战,为科研机构和科研人员提供参考指南。
(4)《大数据发展趋势预测报告》是大专家专委每年一次的大数据技术发展趋势的年度预测,通过投票方式将最受关注的科学、技术、产业、应用、政策等相关变化趋势。
(5)CCF中国大数据与计算思维大赛(原CCF大数据创新大赛/创新创业大赛)
2015年“中国好创意”CCF全国青年大数据创新大赛取得圆满成功。通过连续三年的组织,本项赛事从第一届的600多支队伍,到了本届的1400多支队伍,提交作品高达5647个,参赛人数近6000人。
2015年大赛共收到企业提供的赛题23道。经大赛专家委员会的评审,共有13道赛题被正式采纳。下面简要介绍下去年的企业赛题:
(一) 创新方案类
1、P2P网络借贷平台的经营风险量化分析-拓尔思
本题基于50家P2P网络借贷平台运营数据,结合金融等行业知识,建立P2P网络借贷平台风险量化模型,给出平台经营风险的量化结果,在区间[0.00,1.00]内取值(保留小数点后两位),数值越高表示平台经营风险越高。
2、 中文句式的句法精准分析-海量科技
精确的语义分析是大数据必备技术,在分析句子时,不同句式即使用类似的关键词,表达的含义和有很大差别,特别是在情感判断中,更需要精准判断关键词的作用。本题要求参赛者能够准确地推断出一个句子的句式。
3、判决文书中的金额项提取-国双科技
本题基于法律判决文书中包含的大量的涉案金额细项,要求参赛者提取文书中的费用类型以及具体的金额。 判决书,法律术语,是指法院根据判决写成的文书,是法律界常用的一种应用写作文体。
4、垃圾短信基于文本内容识别-中国移动
本题要求参赛者基于短信文本内容,结合机器学习算法、大数据分,析准确地、完整地识别出垃圾短信、正常短信。解决传统的基于策略、关键词等过滤手段,很多垃圾短信“逃脱”过滤到达手机终端的问题。
5、广告点击行为预测-明略数据
本题提供了100万名随机用户在六个月内的广告曝光和点击日志,包括广告监测点数据。参赛者需要预测每个用户在下一周的时间内是否会在各监测点上发生点击行为。以提供指导广告主进行定向广告投放和优化的方向。
6、中文地址魔方-华院数据
本题要求参赛者对提供的各级地址文本完整、准确地识别。通过对地址进行标准化的处理,使基于地址的多维度量化挖掘分析成为可能,为不同场景模式下的电子商务应用挖掘提供了更加丰富的方法和手段。
7、商品图片分类-京东
本题基于京东服装品类的50万商品主图以及对应的三级分类,要求参赛者根据商品图片,对图像进行计算处理,预测商品所属的三级分类。以达到通过提取京东商品图像特征,提供给推荐、广告等系统,提高推荐/广告的效果。
(二) 创意应用类
1、基于大数据的未知病原检测方法构建-华大基因
本题可抽象为字符串的匹配、查找问题。人的基因序列和细菌的序列可看做一组长的字符串(A),而待检测个体的数据是一个短字符串的集合(B)。需要确定字符串集合B中的字符串能够同字符串集合A中哪些字符串匹配。
2、基于运营商数据的互联网金融创新-中国联通
本题要求参赛者利用运营商用户数据,构建算法模型,测试验证,形成可行的完整的互联网金融领域内的创意数据产品技术方案,可以是一个新的创意,也可以是现有问题(如个人征信评估,可贷额度估算)新的解决方法。
(三) 互联网情绪指标和生猪价格的关联-海量数据
本赛题希望参赛者可以挖掘出互联网情绪指标与生猪价格之间的关联关系,从而预测生猪价格的变动、专家和媒体对于生猪市场前景的判断、疫情的报道,是否会对养殖户和消费者的情绪有所影响。
(四) 电影票房预测系统-中科曙光
本题依据历史票房数据、影评数据、舆情数据等互联网公众数据,从题材、内容、导演、演员、编辑、发行方等等影响电影票房的因素入手,借助大数据对电影市场进行分析,设计电影票房预测系统,指导电影制作。
(五) 能说会道-亚信
本题基于当前语音交互方式这种更大、更灵活、方便的体验,要求参赛者针对听报告、语音对话、交互查询等这些语音直接沟通的语言表述进行分析、转换、查询获得最终结果反馈给使用者。
(六) 基于位置的应用及商业模式创新-亚信
本题根据行业诉求,要求参赛者以移动运营商记录的用户位置信息,以及相关的用户标签信息(性别、年龄、偏好等)数据为基础,基于用户位置信息,设想其应用场景,或分析利用位置信息如何创新现有的商业模式。
今年大赛将于9月中旬正式启动,为了响应政府“双创”号召,将数据价值转化为品牌价值、商业价值、社会价值、作为大专委今年的主要品牌活动之大赛,目前已经提到最首要的战略位置。
大赛今年分为“算法挑战赛”和“创新创业大赛”两类赛事。
(1)算法挑战赛:根据出题方数据或业务情况,可针对提升算法效率、匹配精度、识别准确度、预测准确度等问题进行赛题设置,制定在线评价程序。参赛团队通过大赛官方平台直接提交结果文件或提交程序代码,系统自动打分,在线排名。
(2)创新创业大赛:根据出题方的数据及业务需求,可针对公司业务征求解决方案、针对公司技术问题征集解决方案、征集创新数据产品原型、征集场景问题产品原型、对公司业务及产品的发展态势提出前沿性分析报告等。参赛团队根据数据集和问题领域,自由设计创意应用,提供完整解决方案、BP或Demo等。
希望通过汇集行业数据、行业需求,形成大数据科学发现、人工智能、商业智能、情报挖掘、大数据分析和大数据管理等挑战问题集合,以“众包”“众创”模式吸引全国最大规模的数据创新创业人才和最优秀的数据科学家共同解决复杂的大问题;通过创意大赛挖掘有价值的大数据应用及商业模式。
大专委将联合CCF数据库专委、高性能专委、中文信息专委四大专委联合举办,调动近200名左右专家院士提供咨询、辅导支持。通过向海内外科研院所、高校、IT产业界发出邀请,一起通过数据和人才,解决算法问题、打造价值应用、创新商业模式。目前已邀请到网信办、教育部两大部委指导工作,大赛筹备工作正在如火如荼进行。
2016年作为大数据纵深发展的元年,各行业需求发展与突破,作为行业学会,我们立足于产业生态,希望携手产业界一起共建生态繁荣。
查询更多合作机会,请登录DataHub:
如有任何疑问及咨询“如何加入联盟和专委会”的企业,欢迎与我们联系:
电话:010-66156811


