bitpie钱包下载官网|大数据
大数据(IT行业术语)_百度百科
IT行业术语)_百度百科 网页新闻贴吧知道网盘图片视频地图文库资讯采购百科百度首页登录注册进入词条全站搜索帮助首页秒懂百科特色百科知识专题加入百科百科团队权威合作下载百科APP个人中心大数据是一个多义词,请在下列义项上选择浏览(共10个义项)展开添加义项大数据播报讨论上传视频IT行业术语收藏查看我的收藏0有用+10本词条由TE智库 提供内容,经科普中国·科学百科认证 。大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。 [17]在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》 [1]中大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。 [2]“大数据”一词列出了商务印书馆推出的《汉语新词语词典(2000—2020)》中国这20年生命活力指数最高的十大“时代新词”。 [18]中文名大数据外文名big data,mega data提出者维克托·迈尔-舍恩伯格及肯尼斯·库克耶提出时间2008年8月中旬适用领域BI,工业4.0,云计算,物联网,互联网+应用学科计算机,信息科学,统计学5V特点大量、高速、多样、价值、真实性目录1定义2特征3结构4数据要素▪概念▪数据产品5国内大数据产业链分布结构▪数据采集与处理▪数据存储与管理▪数据挖掘/分析▪数据可视化/呈现▪数据治理/应用(解决方案)▪数据安全与合规6意义7趋势8IT分析工具9促进发展定义播报编辑大数据与云计算的关系 [1]对于“大数据”(Big data)研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。 [3]大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换而言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。 [4]从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。 [1]随着云时代的来临,大数据(Big data)也吸引了越来越多的关注。分析师团队认为,大数据(Big data)通常用来形容一个公司创造的大量非结构化数据和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。最小的基本单位是bit,按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。它们按照进率1024(2的十次方)来计算:1 Byte =8 bit1 KB = 1,024 Bytes = 8192 bit1 MB = 1,024 KB = 1,048,576 Bytes1 GB = 1,024 MB = 1,048,576 KB1 TB = 1,024 GB = 1,048,576 MB1 PB = 1,024 TB = 1,048,576 GB1 EB = 1,024 PB = 1,048,576 TB1 ZB = 1,024 EB = 1,048,576 PB1 YB = 1,024 ZB = 1,048,576 EB1 BB = 1,024 YB = 1,048,576 ZB1 NB = 1,024 BB = 1,048,576 YB1 DB = 1,024 NB = 1,048,576 BB特征播报编辑特征介绍容量(Volume)数据的大小决定所考虑的数据的价值和潜在的信息;种类(Variety)数据类型的多样性;速度(Velocity)指获得数据的速度;可变性(Variability)妨碍了处理和有效地管理数据的过程。真实性(Veracity)数据的质量。复杂性(Complexity)数据量巨大,来源多渠道。价值(value)合理运用大数据,以低成本创造高价值。参考资料 [5]结构播报编辑大数据包括结构化、半结构化和非结构化数据,非结构化数据越来越成为数据的主要部分。据IDC的调查报告显示:企业中80%的数据都是非结构化数据,这些数据每年都按指数增长60%。 [6]大数据就是互联网发展到现今阶段的一种表象或特征而已,没有必要神话它或对它保持敬畏之心,在以云计算为代表的技术创新大幕的衬托下,这些原本看起来很难收集和使用的数据开始容易被利用起来了,通过各行各业的不断创新,大数据会逐步为人类创造更多的价值。 [7]其次,想要系统的认知大数据,必须要全面而细致的分解它,着手从三个层面来展开:第一层面是理论,理论是认知的必经途径,也是被广泛认同和传播的基线。在这里从大数据的特征定义理解行业对大数据的整体描绘和定性;从对大数据价值的探讨来深入解析大数据的珍贵所在;洞悉大数据的发展趋势;从大数据隐私这个特别而重要的视角审视人和数据之间的长久博弈。第二层面是技术,技术是大数据价值体现的手段和前进的基石。在这里分别从云计算、分布式处理技术、存储技术和感知技术的发展来说明大数据从采集、处理、存储到形成结果的整个过程。第三层面是实践,实践是大数据的最终价值体现。在这里分别从互联网的大数据,政府的大数据,企业的大数据和个人的大数据四个方面来描绘大数据已经展现的美好景象及即将实现的蓝图。 [7]数据要素播报编辑概念数据技术的发展伴随着数据应用需求的演变,影响着数据投入生产的方式和规模,数据在相应技术和产业背景的演变中逐渐成为促进生产的关键要素。因此,“数据要素”一词是面向数字经济,在讨论生产力和生产关系的语境中对“数据”的指代,是对数据促进生产价值的强调。即数据要素指的是根据特定生产需求汇聚、整理、加工而成的计算机数据及其衍生形态,投入于生产的原始数据集、标准化数据集、各类数据产品及以数据为基础产生的系统、信息和知识均可纳入数据要素讨论的范畴。 [24]数据产品1.数据库商品(1)概念/定义数据库是结构化信息或数据的有序集合,一般以电子形式存储在计算机系统中。通常由数据库管理系统 (DBMS) 来控制。在现实中,数据、DBMS 及关联应用一起被称为数据库系统,通常简称为数据库。 [25](2)数据库分类关系数据库:关系数据库在 20 世纪 80 年代成为了主流。在关系数据库中,项被组织为一组具有列和行的表。这为访问结构化信息提供了一种有效、灵活的方法。面向对象数据库:面向对象数据库中的信息以对象的形式表示,这与面向对象的编程相类似。分布式数据库:分布式数据库由位于不同站点的两个或多个文件组成。数据库可以存储在多台计算机上,位于同一个物理位置,或分散在不同的网络上。数据仓库:数据仓库是数据的中央存储库,是专为快速查询和分析而设计的数据库。NoSQL 数据库:NoSQL 或非关系数据库,支持存储和操作非结构化及半结构化数据(与关系数据库相反,关系数据库定义了应如何组合插入数据库的数据)。随着 Web 应用的日益普及和复杂化,NoSQL 数据库得到了越来越广泛的应用。图形数据库:图形数据库根据实体和实体之间的关系来存储数据。OLTP 数据库:OLTP 数据库是一种高速分析数据库,专为多个用户执行大量事务而设计。云数据库:云数据库指基于私有云、公有云或混合云计算平台的结构化或非结构化数据集合,可分为传统云数据库和数据库即服务 (DBaaS) 两种类型。在 DBaaS 中,管理和维护工作均由服务提供商负责。多模型数据库:多模型数据库指的是将不同类型的数据库模型整合到一个集成的后端中,以此来满足各种不同的数据类型的需求。文档/JSON 数据库:文档数据库专为存储、检索和管理面向文档的信息而设计,它是一种以 JSON 格式(而不是采用行和列)存储数据的现代方法。自治驾驶数据库:基于云的自治驾驶数据库(也称作自治数据库)是一种全新的极具革新性的数据库,它利用机器学习技术自动执行数据库调优、保护、备份、更新,以及传统上由数据库管理员 (DBA) 执行的其他常规管理任务。 [25]向量数据库(Vector Database):向量数据库是专门用来存储和查询向量的数据库。这些向量通常来自于对文本、语音、图像、视频等的向量化。与传统数据库相比,向量数据库可以处理更多非结构化数据。在机器学习和深度学习中,数据通常以向量形式表示,因此向量数据库在这些领域中非常有用。2.核验接口(1)概念/定义核验接口是指通过网络或其他方式,将需要核验的信息传输到指定的接口,进行核验并返回核验结果的一种接口。在实名认证、身份验证、数据安全等方面,核验接口都有着广泛的应用。(2)常见的核验接口身份信息核验接口:用于核验身份证号码和姓名是否一致,可以包括身份证二要素核验(核验姓名、身份证号是否一致)和身份证四要素核验(核验姓名、身份证号、有效期始、有效期止是否一致)。个人实名认证接口:用于进行个人实名认证,验证个人身份信息的真实性和合法性。企业四要素核验接口:用于核验企业的组织机构代码、营业执照号码、纳税人识别号码等信息是否一致。银行卡信息核验接口:用于银行卡类型查询、银行卡真伪核验,校验银行卡四要素(姓名、手机号码、身份证号码和银行卡号)信息是否一致。3.查询接口(1)概念/定义查询接口是指通过网络或其他方式,将查询请求传输到指定的接口,进行查询并返回查询结果的一种接口。在数据库中,查询接口可以用于查询数据表中的数据。(2)常见的查询接口公共信息查询接口:天气查询、国内油价查询、交通违章代码查询和空气质量查询等数据查询接口。常识类信息查询接口:如星座查询、垃圾分类识别查询、节假日信息查询和邮编查询等数据查询接口。企业信息查询接口:包括企业简介信息查询、企业工商信息变更查询、企业LOGO、企业专利信息等数据查询接口。4.数据模型结果(1)概念/定义数据模型结果是指数据建模过程的输出结果,它是对数据对象及其之间关系的结构化表示。在数据产品中,数据模型结果可以包括表格、图表、图形等可视化形式,帮助用户理解数据及其关联关系。(2)常见的数据模型结果应用在金融业中,数据模型结果可以用于分析市场趋势和客户需求,从而实现精准营销和风险管理。在零售业中,数据模型结果可以用于分析商品销售情况、顾客行为和偏好,进行优化库存管理、改善定价策略并提供个性化推荐服务等应用。在电信行业中,数据模型结果可以用于分析网络流量分析从而提升网络质量和网络利用率、用于用户行为和偏好分析管理客户关系以及精准营销等应用。在医疗行业中,数据模型结果可以分析患者病历数据,实现疾病预测,以及发展个性化治疗,考虑个人的遗传变异因素,改善医疗保健效果,减少副作用,降低医疗成本。 国内大数据产业链分布结构播报编辑数据采集与处理(1)概念/定义数据采集与处理是大数据的关键技术之一,它从互联网、传感器和信息系统等来源获取的大量带有噪声的数据进行预处理,包括数据清洗、填补和规范化等流程,使无序的数据更加有序,便于处理,以达到快速分析处理的目的。(2)常见应用场景金融行业:大数据采集与处理在金融行业中的应用非常广泛。例如,银行可以通过采集和处理大量的交易数据来进行风险评估和欺诈检测。零售业:大数据采集与处理是零售商了解消费者的购买行为和偏好,从而进行精准的市场定位和个性化营销的重要支撑。通过采集和分析大量的销售数据和顾客反馈,零售商可以优化库存管理、供应链和销售策略。医疗行业:大数据采集与处理在健康医疗领域中有着重要的应用。医疗机构可以通过采集和分析患者的医疗记录、生物传感器数据和基因组数据来进行疾病预测、诊断和治疗。此外,大数据还可以用于监测公共卫生事件和流行病爆发。物联网:物联网设备产生的海量数据需要进行采集和处理。大数据采集与处理可以帮助物联网应用实现实时监测、远程控制和智能决策。例如,智能家居可以通过采集和分析家庭设备的数据来实现自动化控制和能源管理。社交媒体:社交媒体平台产生了大量的用户生成内容和社交数据。通过采集和处理这些数据,社交媒体平台可以提供个性化的推荐、广告定向和舆情分析等功能。城市管理:大数据采集与处理可以帮助城市管理者实现智慧城市的建设。通过采集和分析城市交通、环境、能源等方面的数据,城市管理者可以优化交通流量、改善环境质量和提高能源利用效率。数据存储与管理(1)概念/定义数据存储与管理是指将处理前或处理后的数据以特定格式记录在计算机内部或外部存储介质上,并对数据进行管理和调用的过程。此过程有助于减少数据孤岛现象,并确保数据的可靠性、安全性、可用性和可扩展性。(2)常见的应用场景金融行业:金融机构需要存储和管理大量的交易数据、客户数据和市场数据。数据存储和管理可以帮助金融机构进行风险管理、反欺诈分析、客户关系管理等。零售业:零售商需要存储和管理大量的销售数据、库存数据和顾客数据。数据存储和管理可以辅助零售商进行销售分析、库存管理、个性化营销等工作。健康医疗:医疗机构需要存储和管理患者的医疗记录、病历数据和医学影像数据。数据存储和管理可以帮助医疗机构进行疾病诊断、治疗计划制定、医学研究等。物联网:物联网设备产生的数据需要进行存储和管理。例如对采集的农田土壤、气象、水质等数据进行数据存储和管理,为实现智能农业的精准灌溉和农作物生长监测提供支持。社交媒体:社交媒体平台需要存储和管理用户生成的内容、社交关系数据和用户行为数据。数据存储和管理可以帮助社交媒体平台进行用户推荐、内容分发、广告定向等。城市管理:城市管理部门需要存储和管理城市交通数据、环境监测数据和公共服务数据。数据存储和管理可以帮助城市管理部门进行交通优化、环境保护、智慧城市建设等。电信行业:电信运营商需要存储和管理大量的通信数据、用户数据和网络数据。数据存储和管理可以帮助电信运营商进行网络优化、用户分析、故障排查等。数据挖掘/分析(1)概念/定义数据挖掘:数据挖掘是一种计算机辅助技术,用于分析以处理和探索大型数据集。借助数据挖掘工具和方法,组织可以发现其数据中隐藏的模式和关系。数据挖掘将原始数据转化为实用的知识。其目标不是提取或挖掘数据本身,而是对已有的大量数据,提取有意义或有价值的知识。 [19]数据分析:数据分析是指根据分析目的,用适当的统计分析方法及工具,对收集来的数据进行处理与分析,提取有价值的信息,发挥数据的作用。因此,狭义上的数据分析与数据挖掘的本质一样,都是从数据里面发现关于业务的知识(有价值的信息),从而帮助业务运营、改进产品以及帮助企业做更好的决策,所以侠义的数据分析与数据挖掘构成广义的数据分析。(2)常见应用场景金融行业:在金融服务中利用数据挖掘应用程序来解决复杂的欺诈、合规、风险管理和客户流失问题,同时,大数据分析可以帮助金融机构进行市场趋势分析、投资组合优化和个性化推荐。医疗行业:医疗机构可以利用大数据分析患者的病历数据、医学影像和基因组数据,以辅助疾病诊断、药物研发和个性化治疗。例如在疾病诊断上,通过对大量的医疗数据进行挖掘和分析,可以发现潜在的疾病模式和风险因素,实现疾病的早期预测。零售业:大数据挖掘和分析可以帮助零售商了解消费者的购买行为和偏好,从而进行精准的市场定位和个性化营销。通过分析大量的销售数据和顾客反馈,零售商可以优化库存管理、供应链和销售策略。物联网:物联网设备产生的海量数据需要进行数据挖掘和分析。大数据分析可以帮助物联网应用实现实时监测、远程控制和智能决策。例如,智能家居可以通过分析家庭设备的数据来实现自动化控制和能源管理。电信行业:例如通过对网络数据进行挖掘和分析,公司可以根据带宽使用模式并提供定制的服务升级或建议,通过对用户通话数据的挖掘分析,可以帮助电信运营商发现异常行为和欺诈行为。数据可视化/呈现(1)概念/定义数据可视化是使用图表、图形或地图等可视元素来表示数据的过程。该过程将难以理解和运用的数据转化为更易于处理的可视化表示。数据可视化工具可自动提高视觉交流过程的准确性并提供详细信息,以便决策者可以确定数据之间的关系并发现隐藏的模式或趋势。 [20](2)常见应用场景商业决策:通过数据可视化,企业可以更直观地了解业务数据和市场趋势,从而做出更准确的商业决策。例如,通过数据可视化展示销售数据和客户反馈,企业可以了解产品的销售情况和客户需求,从而优化产品设计和市场推广。智慧城市:通过数据可视化,城市管理部门可以更直观地了解城市的交通、环境、能源等方面的数据,从而实现智慧城市的建设。例如,通过数据可视化展示交通流量和路况,城市管理部门可以实现交通优化和拥堵缓解。医疗健康:通过数据可视化,医疗机构可以更直观地了解患者的病历数据和医学影像,从而实现疾病的诊断和治疗。例如,通过数据可视化展示医学影像和基因组数据,医生可以更准确地诊断疾病和制定治疗方案。金融服务:通过数据可视化,金融机构可以更直观地了解市场趋势和客户需求,从而实现精准营销和风险管理。例如,通过数据可视化展示市场数据和客户反馈,金融机构可以了解客户需求和市场趋势,从而制定个性化的产品和服务。物联网:通过数据可视化,物联网应用可以更直观地了解设备的运行状态和数据流量,从而实现实时监测和远程控制。例如,通过数据可视化展示设备的运行数据和传感器数据,物联网应用可以实现设备的远程控制和智能决策,如图。车间可视化数据治理/应用(解决方案)1.大数据在金融行业的应用交易欺诈识别:通过大数据分析,可以识别出交易欺诈行为,帮助金融机构减少损失,如中国交通银行信用卡中心电子渠道实时反欺诈监控交易系统。精准营销:通过分析客户的消费行为和偏好,可以实现精准营销,提高营销效果,如京东金融基于大数据的行为分析系统、恒丰银行基于大数据的客户关系管理系统。信贷风险评估:通过分析客户的信用记录、收入和支出等信息,可以评估客户的信贷风险,帮助金融机构做出更好的决策,如恒丰银行全面风险预警系统、人人贷风控体系。智能投顾:通过大数据分析客户的投资偏好和风险承受能力,可以为客户提供个性化的投资建议,如通联浙商大数据智选消费基金,通联支付通过对自有的消费类支付相关数据,可以实时了解行业(尤其是消费行业)销售需求的情况,按行业汇总各商户的刷卡支付情况,获得行业最新的景气边际变化,进而将资金更多的配置在景气向好的行业上,然后利用经典量化模型,精选相应行业内的上市公司,并基于此发行了一支名为“浙商大数据智选消费”的偏股混合型基金。 [21]2.大数据在医疗行业的应用分析电子病历:医生共享电子病历可以收集和分析数据,寻找能够降低医疗成本的方法。医生和医疗服务提供商之间共享患者数据,能够减少重复检查,改善患者体验,如百度智能医疗平台实现电子病历规范化和结构化。健康风险预测:通过分析大量的健康数据,可以预测人群的慢性病风险,帮助医疗机构和个人采取相应的预防和干预措施,提高健康管理的效果,如平安云的智能医疗解决方案具有智能健康风险预测功能。辅助诊断决策:通过学习海量教材、临床指南、药典及三甲医院优质病历,打造遵循循证医学的临床辅助决策系统,用以提升医疗质量,降低医疗风险。如百度智能医疗平台的临床辅助决策系统。互联网医院:互联网医院是指利用互联网技术,为患者提供在线咨询、预约挂号、远程诊疗等医疗服务。互联网医院可以通过大数据分析,为患者提供个性化的医疗建议和服务,如丁香医生。 3.大数据在零售行业的应用个性化推荐:通过分析顾客的购买历史、浏览行为和偏好,利用大数据技术进行个性化推荐,提高销售转化率和顾客满意度。库存管理:通过分析销售数据和供应链数据,预测产品需求和库存水平,帮助零售商优化库存管理,减少过剩和缺货情况。客户细分:通过分析顾客的购买行为和消费习惯,将顾客分为不同的细分群体,为每个群体提供个性化的营销策略和服务。价格优化:通过分析市场竞争和顾客需求,优化定价策略,实现最佳的价格和利润平衡。供应链优化:通过分析供应链数据,优化供应链流程和物流配送,提高供应链的效率和可靠性。数据安全与合规1.概念/定义根据《中华人民共和国数据安全法》,数据是指任何以电子或者其他方式对信息的记录。数据安全是指通过采取必要措施,确保数据处于有效保护和合法利用的状态,以及具备保障持续安全状态的能力。各地区、各部门对本地区、本部门工作中收集和产生的数据及数据安全负责。 [22]2.数据全生命周期安全(1)数据采集安全:指为确保在组织系统中生成新数据,或者从外部收集数据过程的合法、合规及安全性,而采取的一系列措施。(2)数据传输安全:指为防止传输过程中的数据泄漏,而采取的一系列数据加密保护策略和安全防护措施。(3)存储安全:指为确保存储介质上的数据安全性,而采取的一系列措施,如在数据分类分级的基础上,结合业务场景,明确不同类别和级别数据的加密存储要求。(4)数据备份与恢复:指通过规范数据存储的冗余管理工作机制,保障数据的高可用性,如建立数据备份与恢复平台,按照备份清单定期执行备份,并对备份数据完整性和可用性进行验证。(5)使用安全:指为保障在组织内部对数据进行计算、分析、可视化等操作过程的安全性,而采取的一些列措施,如采取对不同类型不同级别的数据进行脱敏处理,对数据处理活动进行监控等操作。(6)数据处理环境安全:指为确保组织的数据处理系统、终端、平台等环境的安全性,而采取的一系列措施。(7)数据内部共享安全:指为确保组织内部之间的数据交互过程安全而采取的一系列措施。(8)数据外部共享安全:指为确保不同组织之间的数据交互过程安全而采取的一系列措施。(9)数据销毁安全:指通过对数据及其存储介质实施相应的操作手段,使得数据彻底消除且无法通过任何手段恢复。 [23]3.企业数据安全治理实践(1)中国联通集团数据安全治理实践该方案以防止数据泄漏与数据滥用为目标,以零信任安全为理念将自主研发的数据追踪溯源系统、数据安全网关系统等数据安全产品实际应用到具体的数据生产场景中,以解决数据安全问题,保障公司大数据业务的快速发展,保护用户个人隐私,维护社会稳定,保障国家安全。总体框架如图所示,目前,该方案已在浙江省大数据发展管理局、广东省政务服务数据管理局等多个政府部门落地实施,运行效果良好,降低了政务信息共享交换环节数据泄露、数据篡改、数据滥用等问题的风险。 [23]中国联通数据安全体系总体框架(2)蚂蚁集团数据安全治理实践蚂蚁集团在过去几年的数据安全实践中,持续加大对数据、算法、产品的建设力度,不断强化流程规范的制定和实际落地,同时大幅提升数据安全基线、度量、审计、心智等重要环节工作,总结出一套行之有效、覆盖数据处理全生命周期的数据安全复合治理管理模式。蚂蚁数据安全复合治理管理模式如图所示。 [23]蚂蚁数据安全复合治理管理模式(3)百度数据安全治理实践百度基于现有的数据安全策略及相关规范要求集成多维安全检测和防护能力,建立了覆盖数据全生命周期的数据安全与隐私保护解决方案,可实现“事前主动识别,事中灵活控制,事后全维追踪”的目标,百度数据安全治理实践路线如图所示,可为高价值数据、敏感数据和私有化部署数据等数据提供安全评估和保障。 [23]百度数据安全治理实践路线意义播报编辑现在的社会是一个高速发展的社会,科技发达,信息流通,人们之间的交流越来越密切,生活也越来越方便,大数据就是这个高科技时代的产物。 [8]阿里巴巴创办人马云来台演讲中就提到,未来的时代将不是IT时代,而是DT的时代,DT就是Data Technology数据科技,显示大数据对于阿里巴巴集团来说举足轻重。 [9]有人把数据比喻为蕴藏能量的煤矿。煤炭按照性质有焦煤、无烟煤、肥煤、贫煤等分类,而露天煤矿、深山煤矿的挖掘成本又不一样。与此类似,大数据并不在“大”,而在于“有用”。价值含量、挖掘成本比数量更为重要。对于很多行业而言,如何利用这些大规模数据是赢得竞争的关键。 [10]大数据的价值体现在以下几个方面:(1)对大量消费者提供产品或服务的企业可以利用大数据进行精准营销;(2)做小而美模式的中小微企业可以利用大数据做服务转型;(3)面临互联网压力之下必须转型的传统企业需要与时俱进充分利用大数据的价值。不过,“大数据”在经济发展中的巨大意义并不代表其能取代一切对于社会问题的理性思考,科学发展的逻辑不能被湮没在海量数据中。著名经济学家路德维希·冯·米塞斯曾提醒过:“就今日言,有很多人忙碌于资料之无益累积,以致对问题之说明与解决,丧失了其对特殊的经济意义的了解。”这确实是需要警惕的。在这个快速发展的智能硬件时代,困扰应用开发者的一个重要问题就是如何在功率、覆盖范围、传输速率和成本之间找到那个微妙的平衡点。企业组织利用相关数据和分析可以帮助它们降低成本、提高效率、开发新产品、做出更明智的业务决策等等。例如,通过结合大数据和高性能的分析,下面这些对企业有益的情况都可能会发生:(1)及时解析故障、问题和缺陷的根源,每年可能为企业节省数十亿美元。(2)为成千上万的快递车辆规划实时交通路线,躲避拥堵。(3)分析所有SKU,以利润最大化为目标来定价和清理库存。(4)根据客户的购买习惯,为其推送他可能感兴趣的优惠信息。(5)从大量客户中快速识别出金牌客户。(6)使用点击流分析和数据挖掘来规避欺诈行为。 [11]趋势播报编辑趋势一:数据的资源化何为资源化,是指大数据成为企业和社会关注的重要战略资源,并已成为大家争相抢夺的新焦点。因而,企业必须要提前制定大数据营销战略计划,抢占市场先机。趋势二:与云计算的深度结合大数据离不开云处理,云处理为大数据提供了弹性可拓展的基础设备,是产生大数据的平台之一。自2013年开始,大数据技术已开始和云计算技术紧密结合,预计未来两者关系将更为密切。除此之外,物联网、移动互联网等新兴计算形态,也将一齐助力大数据革命,让大数据营销发挥出更大的影响力。趋势三:科学理论的突破随着大数据的快速发展,就像计算机和互联网一样,大数据很有可能是新一轮的技术革命。随之兴起的数据挖掘、机器学习和人工智能等相关技术,可能会改变数据世界里的很多算法和基础理论,实现科学技术上的突破。趋势四:数据科学和数据联盟的成立未来,数据科学将成为一门专门的学科,被越来越多的人所认知。各大高校将设立专门的数据科学类专业,也会催生一批与之相关的新的就业岗位。与此同时,基于数据这个基础平台,也将建立起跨领域的数据共享平台,之后,数据共享将扩展到企业层面,并且成为未来产业的核心一环。趋势五:数据泄露泛滥未来几年数据泄露事件的增长率也许会达到100%,除非数据在其源头就能够得到安全保障。可以说,在未来,每个财富500强企业都会面临数据攻击,无论他们是否已经做好安全防范。而所有企业,无论规模大小,都需要重新审视今天的安全定义。在财富500强企业中,超过50%将会设置首席信息安全官这一职位。企业需要从新的角度来确保自身以及客户数据,所有数据在创建之初便需要获得安全保障,而并非在数据保存的最后一个环节,仅仅加强后者的安全措施已被证明于事无补。趋势六:数据管理成为核心竞争力数据管理成为核心竞争力,直接影响财务表现。当“数据资产是企业核心资产”的概念深入人心之后,企业对于数据管理便有了更清晰的界定,将数据管理作为企业核心竞争力,持续发展,战略性规划与运用数据资产,成为企业数据管理的核心。数据资产管理效率与主营业务收入增长率、销售收入增长率显著正相关;此外,对于具有互联网思维的企业而言,数据资产竞争力所占比重为36.8%,数据资产的管理效果将直接影响企业的财务表现。趋势七:数据质量是BI(商业智能)成功的关键采用自助式商业智能工具进行大数据处理的企业将会脱颖而出。其中要面临的一个挑战是,很多数据源会带来大量低质量数据。想要成功,企业需要理解原始数据与数据分析之间的差距,从而消除低质量数据并通过BI获得更佳决策。趋势八:数据生态系统复合化程度加强大数据的世界不只是一个单一的、巨大的计算机网络,而是一个由大量活动构件与多元参与者元素所构成的生态系统,终端设备提供商、基础设施提供商、网络服务提供商、网络接入服务提供商、数据服务使能者、数据服务提供商、触点服务、数据服务零售商等等一系列的参与者共同构建的生态系统。而今,这样一套数据生态系统的基本雏形已然形成,接下来的发展将趋向于系统内部角色的细分,也就是市场的细分;系统机制的调整,也就是商业模式的创新;系统结构的调整,也就是竞争环境的调整等等,从而使得数据生态系统复合化程度逐渐增强。 [12]IT分析工具播报编辑大数据概念应用到IT操作工具产生的数据中,大数据可以使IT管理软件供应商解决大广泛的业务决策。IT系统、应用和技术基础设施每天每秒都在产生数据。大数据非结构化或者结构数据都代表了“所有用户的行为、服务级别、安全、风险、欺诈行为等更多操作”的绝对记录。大数据分析的产生旨在于IT管理,企业可以将实时数据流分析和历史相关数据相结合,然后大数据分析并发现它们所需的模型。反过来,帮助预测和预防未来运行中断和性能问题。进一步来讲,他们可以利用大数据了解使用模型以及地理趋势,进而加深大数据对重要用户的洞察力。他们也可以追踪和记录网络行为,大数据轻松地识别业务影响;随着对服务利用的深刻理解加快利润增长;同时跨多系统收集数据发展IT服务目录。大数据分析的想法,尤其在IT操作方面,大数据对于我们发明并没有什么作用,但是我们一直在其中。Gartner已经关注这个话题很多年了,基本上他们已经强调,如果IT正在引进新鲜灵感,他们将会扔掉大数据老式方法开发一个新的IT操作分析平台。 [13]促进发展播报编辑经李克强总理签批,2015年9月,国务院印发《促进大数据发展行动纲要》(以下简称《纲要》),系统部署大数据发展工作。《纲要》明确,推动大数据发展和应用,在未来5至10年打造精准治理、多方协作的社会治理新模式,建立运行平稳、安全高效的经济运行新机制,构建以人为本、惠及全民的民生服务新体系,开启大众创业、万众创新的创新驱动新格局,培育高端智能、新兴繁荣的产业发展新生态。《纲要》部署三方面主要任务。一要加快政府数据开放共享,推动资源整合,提升治理能力。大力推动政府部门数据共享,稳步推动公共数据资源开放,统筹规划大数据基础设施建设,支持宏观调控科学化,推动政府治理精准化,推进商事服务便捷化,促进安全保障高效化,加快民生服务普惠化。二要推动产业创新发展,培育新兴业态,助力经济转型。发展大数据在工业、新兴产业、农业农村等行业领域应用,推动大数据发展与科研创新有机结合,推进基础研究和核心技术攻关,形成大数据产品体系,完善大数据产业链。三要强化安全保障,提高管理水平,促进健康发展。健全大数据安全保障体系,强化安全支撑。 [14]2015年9月18日贵州省启动我国首个大数据综合试验区的建设工作,力争通过3至5年的努力,将贵州大数据综合试验区建设成为全国数据汇聚应用新高地、综合治理示范区、产业发展聚集区、创业创新首选地、政策创新先行区。围绕这一目标,贵州省将重点构建“三大体系”,重点打造“七大平台”,实施“十大工程”。“三大体系”是指构建先行先试的政策法规体系、跨界融合的产业生态体系、防控一体的安全保障体系;“七大平台”则是指打造大数据示范平台、大数据集聚平台、大数据应用平台、大数据交易平台、大数据金融服务平台、大数据交流合作平台和大数据创业创新平台;“十大工程”即实施数据资源汇聚工程、政府数据共享开放工程、综合治理示范提升工程、大数据便民惠民工程、大数据三大业态培育工程、传统产业改造升级工程、信息基础设施提升工程、人才培养引进工程、大数据安全保障工程和大数据区域试点统筹发展工程。此外,贵州省将计划通过综合试验区建设,探索大数据应用的创新模式,培育大数据交易新的做法,开展数据交易的市场试点,鼓励产业链上下游之间的数据交换,规范数据资源的交易行为,促进形成新的业态。国家发展改革委有关专家表示,大数据综合试验区建设不是简单的建产业园、建数据中心、建云平台等,而是要充分依托已有的设施资源,把现有的利用好,把新建的规划好,避免造成空间资源的浪费和损失。探索大数据应用新的模式,围绕有数据、用数据、管数据,开展先行先试,更好地服务国家大数据发展战略。 [15]2016年3月17日,《中华人民共和国国民经济和社会发展第十三个五年规划纲要》发布,其中第二十七章“实施国家大数据战略”提出:把大数据作为基础性战略资源,全面实施促进大数据发展行动,加快推动数据资源共享开放和开发应用,助力产业转型升级和社会治理创新;具体包括:加快政府数据开放共享、促进大数据产业健康发展。 [16]新手上路成长任务编辑入门编辑规则本人编辑我有疑问内容质疑在线客服官方贴吧意见反馈投诉建议举报不良信息未通过词条申诉投诉侵权信息封禁查询与解封©2024 Baidu 使用百度前必读 | 百科协议 | 隐私政策 | 百度百科合作平台 | 京ICP证030173号 京公网安备110000020000什么是大数据?| Oracle 中国
什么是大数据?| Oracle 中国
单击查看我们的辅助功能政策
跳到内容
关于
服务
解决方案
定价
合作伙伴
资源
关闭搜索
搜索 Oracle.com
快速链接
Oracle Cloud Infrastructure
Oracle Fusion Cloud Applications
Oracle Database
下载 Java
Oracle 职业机会
搜索
Country
菜单
菜单
联系我们
登录 Oracle Cloud
甲骨文中国
大数据
Oracle Cloud Free Tier
免费使用自然语言处理技术来构建、测试和部署应用。
立即注册
大数据主题
大数据的定义
大数据的 3V 特性
大数据的价值和真实性
大数据的历史
大数据使用场景
大数据的挑战
大数据的工作原理
大数据优秀实践
大数据介绍
大数据的定义
大数据到底是什么?
大数据指高速 (Velocity) 涌现的大量 (Volume) 多样化 (Variety) 数据,其特性可简单概括为 3V。
简而言之,大数据指非常庞大、复杂的数据集,特别是来自新数据源的数据集,其规模之大令传统数据处理软件束手无策,却能帮助我们解决以往非常棘手的业务难题。
下载电子书:大数据的发展以及数据湖仓一体的未来 (PDF)
大数据的 3V 特性
大量 (Volume)
大数据的“大”首先体现在数据量上。这意味着您需要处理海量、低密度的非结构化数据。这些数据的价值可能是未知的,例如 Twitter 数据流、网页或移动应用点击流,以及设备传感器所捕获的数据等等。在实际应用中,大数据的数据量通常高达数十 TB,甚至数百 PB。
高速 (Velocity)
大数据的“高速”指高速接收乃至处理数据 — 数据通常直接流入内存而非写入磁盘。在实际应用中,某些联网的智能产品需要实时或近乎实时地运行,要求基于数据实时评估和操作,而大数据只有具备“高速”特性才能满足这些要求。
多样化 (Variety)
多样化是指数据类型众多。通常来说,传统数据属于结构化数据,能够整齐地纳入关系数据库。随着大数据的兴起,各种新的非结构化数据类型不断涌现,例如文本、音频和视频等等,它们需要经过额外的预处理操作才能真正提供洞察和支持性元数据。
大数据的价值和真实性
在过去几年,大数据又新增了两个 V 特性:价值 (value) 和真实性 (veracity)。首先,数据固然蕴含着价值,但是如果不通过适当方法将其价值挖掘出来,数据就毫无用处。其次,数据的真实性和可靠性也同样重要。
如今,大数据已成为一种资本,全球各个大型技术公司无不基于大数据工作原理,在各种大数据用例中通过持续分析数据提高运营效率,促进新产品研发,他们所创造的大部分价值无不来自于他们掌握的数据。
目前,众多前沿技术突破令数据存储和计算成本呈指数级下降。相比过去,企业能够以更低的经济投入更轻松地存储更多数据,而凭借经济、易于访问的海量大数据,您可以轻松做出更准确、更精准的业务决策。
然而,从大数据工作原理角度来讲,大数据价值挖掘是一个完整的探索过程而不仅仅是数据分析,它需要富有洞察力的分析师、业务用户和管理人员在大数据用例中有针对性地提出有效问题、识别数据模式、提出合理假设并准确开展行为预测。
那么怎样才能实现这个目标?
大数据的历史
虽然大数据这个概念是最近才提出的,但大型数据集的起源却可追溯至 1960 - 70 年代。当时数据世界正处于萌芽阶段,全球第一批数据中心和首个关系数据库便是在那个时代出现的。
2005 年左右,人们开始意识到用户在使用 Facebook、YouTube 以及其他在线服务时生成了海量数据。同一年,专为存储和分析大型数据集而开发的开源框架 Hadoop 问世,NoSQL 也在同一时期开始慢慢普及开来。
Hadoop 及后来 Spark 等开源框架的问世对于大数据的发展具有重要意义,正是它们降低了数据存储成本,让大数据更易于使用。在随后几年里,大数据数量进一步呈爆炸式增长。时至今日,全世界的“用户”— 不仅有人,还有机器 — 仍在持续生成海量数据。
如今,随着物联网 (IoT) 的兴起,越来越多的设备接入了互联网,收集了大量的客户使用模式和产品性能数据。同时,机器学习的出现也进一步加速了数据规模的增长。
然而,尽管已经出现了很长一段时间,人们对大数据的利用才刚刚开始。今天,云计算进一步释放了大数据的潜力,通过提供真正的弹性 / 可扩展性,它让开发人员能够轻松启动 Ad Hoc 集群来测试数据子集。此外,图形数据库在大数据领域也变得越来越重要,它们能够以独特的形式展示大量数据,帮助用户更快速执行更全面的分析。
下载图形数据库使用场景电子书
大数据的优势:
大数据意味着更多信息,可为您提供更全面的洞察。
更全面的洞察意味着更高的可靠性,有助于您开发全新解决方案。
大数据使用场景
从客户体验到智能分析,大数据可帮助您轻松处理各种业务活动。以下是企业运营中的常见大数据使用场景,
产品开发
Netflix 和 Procter & Gamble 等公司利用大数据来预测客户需求。他们对过去和当前产品或服务的关键属性进行分类,并对那些属性和成功商业产品之间的关系进行建模,从而为新产品和服务构建预测模型。此外,P&G 还根据来自焦点小组、社交媒体、试销市场和前期铺货的数据和分析结果来规划、生产和发布新产品。
预测性维护
各种结构化数据(例如设备年份、品牌、型号等信息)以及非结构化数据(包括数以百万计的日志条目、传感器数据、错误消息和引擎温度)中往往深藏着可供预测机械故障的信息,通过分析这些数据,企业可以在事故发生前识别潜在问题,从而更加经济高效地安排维护活动,充分延长零部件和设备的正常运行时间。
客户体验
当今市场竞争的核心在于赢得客户。相比过去,企业现在更有条件清楚地了解客户体验。对此,大数据让您能够通过社交媒体、网站访问、呼叫记录以及其他来源收集数据,进而改善客户互动,为客户提供个性化产品,降低客户流失率,主动解决问题,最终以出色体验创造更多价值。
欺诈和合规性
在今天,您的系统面临的威胁远不止几个心怀不轨的黑客,还有人员配置完善的专家团队。同时,安全形势与合规要求也在不断变化,带来了重重挑战。借助大数据,您可以通过识别数据模式发现欺诈迹象,汇总海量信息,加速生成监管报告。
机器学习
机器学习是当今的一个热门话题,而数据(特别是大数据)正是这一现象背后的一大重要推动因素。通过利用大数据训练机器学习模型,我们能够“训练”机器使之具备特定能力而无需为其编写程序。正是可供训练机器学习模型的大数据促成了这一转变。
提高运营效率
运营效率领域很少会爆出重磅消息,但大数据在该领域的影响却最为深远。借助大数据,您可以深入分析和评估生产、客户反馈、退货率以及更多其他问题,从而减少缺货现象,预测未来需求,还可以利用大数据根据当前市场需求改善决策。
推动创新
大数据有助于您研究人、组织、实体以及流程之间的相互关系,进而基于深度洞察,以全新方式推动创新。在大数据的帮助下,您可以有效改善财务和企业计划决策,验证趋势和客户需求,更好地为客户提供新产品和新服务,还可以实施动态定价,从而充分实现收益。简而言之,大数据将打开创新世界的大门,为您带来无穷的可能性。
下载大数据使用场景电子书
大数据的挑战
大数据蕴含着无穷潜力,同时也带来了诸多挑战。
首先,大数据体量庞大。虽然人们为数据存储开发了许多新技术,但数据量却在以每两年翻一番的速度增长。目前,各企业都在努力应对数据的快速增长,不断寻找更高效的数据存储方式。
其次,仅存储数据是不够的。数据的价值在于运用,而这又取决于数据管理。目前,我们需要做很多工作才能获得清洁数据,也就是与客户密切相关并以有利于分析的方式整理的数据,例如数据科学家在真正开始使用数据之前,通常要耗费 50% 到 80% 的时间来管理和准备数据。
最后,大数据技术的更新速度非常快。几年前,Apache Hadoop 是广为流行的大数据处理技术。2014 年,Apache Spark 问世。如今,只有结合这两种框架才能打造出理想解决方案。总而言之,紧跟大数据技术的发展脚步是一项持久性挑战。
更多大数据资源:
了解有关 Oracle 大数据的更多信息
大数据的工作原理
大数据可为您提供全新的洞察,带来新的商机和业务模式。那么大数据的工作原理是什么呢?
1. 大数据首先需要将来自不同来源和应用的数据汇集在一起,然而传统的数据集成机制,例如提取、转换和加载 (ETL),通常无法胜任这一工作。换言之,我们需要新的策略和技术来分析 TB 甚至 PB 级的大数据集。
在集成时,您需要导入和处理数据、执行格式化操作,以符合业务分析师要求的形式整理数据。
2. 管理大数据对存储要求较高。存储解决方案可以部署在本地,也可以部署在云端。其次,您可以采用任何形式存储数据,根据需要为数据集设置处理要求,引入必要的处理引擎。目前,许多客户都不得不根据数据当前所在位置来选择存储方案。对此,云解决方案不仅能够满足客户当前的计算需求,同时还支持用户按需、快速地访问所有数据,越来越受到人们的青睐。
3. 只有真正分析数据并基于数据数据洞察采取有效行动,您的大数据投资才会取得回报。您可以:对各种数据集进行可视化分析以获得全新理解;进一步探索数据以获得全新洞察;与他人分享您的洞察;结合机器学习和人工智能构建数据模型;立即行动起来,释放您的数据价值!
大数据优秀实践
为帮助您成功开启大数据之旅,我们基于大数据工作原理,从各种大数据用例中总结了一些重要的优秀实践。这些原则有助于奠定成功的大数据基础。
协调大数据与特定业务目标
更全面的数据集有助于您获得全新洞察。为此,您首先需要进行新的技能、组织和基础设施投资,在一种业务驱动的环境中保证项目持续获得投入和资金。其次,为确保正确实施,请评估您的大数据能否真正支持并促进您的关键业务和 IT 工作,这些任务可能包括:了解如何筛选网络日志以揭示电子商务行为,通过社交媒体和客户支持互动推断客户舆情,以及了解统计相关法及其与客户、产品、制造和工程数据的相关性。
通过标准化和有效治理缓解技能短缺
企业实施大数据的一大重要障碍是技能不足。首先,通过在 IT 治理计划中添加大数据技术、大数据考量和决策,您可以缓解这一风险。其次,标准化有助于更好地管理成本和充分利用资源。第三,为顺利实施大数据战略和解决方案,请及早并定期评估大数据技能需求,主动识别潜在技能缺失。第四,您需要培训 / 交叉培训现有人员、招聘新人员,并在必要时寻求咨询公司的支持。
通过卓越中心优化知识转移
通过设立卓越中心来分享知识、控制监管、管理项目沟通,无论大数据项目是全新投资还是扩展性投资,您都可以在整个企业范围内分摊所有软件和硬件成本,以一种更加结构化和系统化的方法扩展大数据功能,提高整体信息架构的成熟度。
通过协调结构化和非结构化数据充分获得回报
大数据分析可以带来价值,但将低密度的大数据与您目前使用的结构化数据整合到一起,您可以获得更有意义的深度洞察。
在实际应用中,无论是捕获客户、产品、设备还是环境大数据,您的目标都是向核心主数据和分析摘要添加更多相关数据点,从而得出更准确的结论。例如,相比所有客户的舆情,仅优质客户的舆情更加细化,更有针对性。因此,许多人将大数据视为其现有商务智能功能、数据仓储平台以及信息架构的重要扩展。
对此,大数据既可以基于人也可以基于机器来构建分析流程和模型。利用分析模型以及大数据分析功能(包括统计、空间分析、语义、交互式探索以及可视化),您可以将不同类型和来源的数据关联起来,得出有意义的洞察。利用分析模型,您可以将不同类型和来源的数据关联起来,并得出有意义的洞察。
打造高效的探索实验室
探索数据价值绝非一条坦途,有时候我们甚至不知道前进的方向,这些都在我们的意料之中。尽管如此,管理团队和 IT 部门仍然需要为这种“漫无目的”或者“缺乏明确需求”的探索活动提供应有的支持。
与此同时,分析师和数据科学家也需要与业务部门密切合作,在合作过程中确定自身需要哪些关键业务知识及存在哪些知识缺口。最后,为了实施交互式数据探索和统计算法试验,您需要一个高效的工作区,需要为沙盒环境提供支持并进行适当监管。
与云运营模式保持一致
大数据流程和用户需要访问各种资源来进行迭代试验和生产工作。对此,大数据解决方案应覆盖所有数据区域,包括事务、主数据、参考数据以及摘要数据。支持您按需创建分析沙盒。同时,资源管理对于整个数据流(包括预处理和后处理、集成、数据库内汇总和分析建模)的控制至关重要,妥善规划的私有云和公有云供应及安全性策略对于满足这些不断变化的需求也有着非常重要的意义。
了解有关 Oracle 大数据的更多信息
免费参加大数据研讨会
信息图:如何构建高效的数据湖
注:为免疑义,本网页所用以下术语专指以下含义:
Oracle专指Oracle境外公司而非甲骨文中国。
相关Cloud或云术语均指代Oracle境外公司提供的云技术或其解决方案。
按角色查看
招贤纳士
开发人员
投资者
合作伙伴
初创企业
学生和教育工作者
为什么选择 Oracle
分析报告
Oracle 多云
OCI | Microsoft Azure
云参考架构
企业责任
多元化与包容性
安全实践
学习
什么是 AI?
什么是云计算?
什么是云存储?
什么是 HPC?
什么是 IaaS?
什么是 PaaS?
最新动态
Oracle CloudWorld
Oracle 云免费套餐
云架构中心
云迁移
甲骨文红牛车队
软件产品登记证书
完整使用程序使用通知申请流程
联系我们
销售: 400-699-8888
您需要什么帮助?
订阅电子邮件
活动
新闻
OCI 博客
国家/地区
© 2024 Oracle
使用条款和隐私政策
京ICP备10049020号-1
广告选择
招贤纳士
甲骨文中国新浪微博
普及一下什么是大数据技术? - 知乎
普及一下什么是大数据技术? - 知乎首页知乎知学堂发现等你来答切换模式登录/注册大数据大数据运维大数据时代普及一下什么是大数据技术?关注者399被浏览893,747关注问题写回答邀请回答好问题 361 条评论分享139 个回答默认排序溪亭日暮人工智能话题下的优秀答主 关注“大数据 ”这个概念火了很久,但又很不容易说得清楚(不然呢?怎么会是个位数的回答),这时候买本书来看看可能会更香。先说结论——大数据技术,其实就是一套完整的“数据+业务+需求”的解决方案。它其实是一个很宽泛的概念,涉及五个领域:1. 业务分析;2.数据分析;3.数据挖掘;4.机器学习;5.人工智能。从1到5,越来越需要技术背景;从5到1,越来越贴近具体业务。其实,除了像搜索引擎这样依靠数据技术而诞生的产品外,大部分互联网产品在生存期,即一个产品从0到1的阶段,并不是特别需要大数据技术的。而在产品的发展期,也就是从“1”到“无穷”的阶段,“大数据技术”对产品的作用才会逐渐体现。主要原因是初期产品的功能和服务较少,也没有“积累的用户数据”用于模型研发。所以,我们常听说“构建大数据的壁垒”,这里面,“数据技术”是小壁垒,“大数据”本身才是大壁垒。这里就从“大数据”开始说起。什么是大数据?“大数据 ”从字面上看,就是很“大”的“数据”。先别急着打我。有多大呢?早N多年前,百度首页导航每天需要提供的数据超过1.5PB(1PB=1024TB),这些数据如果打印出来将超过5千亿张A4纸。5千亿张,是不是很暴力了。再来两个不暴力的:“广西人最爱点赞,河北人最爱看段子,最关心时政的是山西人,最关注八卦的是天津。”这组有趣的数据,是今日头条根据用户阅读大数据得出的结论。而比这个更精准的数据,是三年前美国明尼苏达州的一则八卦新闻:一位气势汹汹的老爸冲进Target的一家连锁超市,质问超市为什么把婴儿用品的广告发给他正在念高中的女儿。但非常打脸的是,这位父亲跟他女儿沟通后发现女儿真的怀孕了。在大数据的世界里,事情的原理很简单——这位姑娘搜寻商品的关键词,以及她在社交网站所显露的行为轨迹,使超市的营销系统捕捉到了她怀孕的信息。你看,单个的数据并没有价值,但越来越多的数据累加,量变会产生质的飞跃。脑补一下上面这个事件中的“女儿”,她在网络营销系统中的用户画像标准可能包括:用户ID、性别 、性格描述、资产状况、信用状况、喜欢的颜色、钟爱的品牌、大姨妈的日期、上周购物清单等等,有了这些信息,系统就可以针对这个用户,进行精准的广告营销和个性化购物推荐。当然,除了获得大数据的个性化推荐,一不留神也容易被大数据割一波韭菜。亚马逊在一次新碟上市时,根据潜在客户的人口信息、购物历史、上网记录等,给同一张碟片报出了不同的价格。这场“杀熟事件”的结局就是:亚马逊的 CEO 贝索斯不得不亲自出来道歉,解释只是在进行价格测试。大数据 ,说白了,就是巨量数据集合。大数据来源于海量用户的一次次的行为数据,是一个数据集合;但大数据的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。在电影《美国队长2》里,系统能把一个人从出生开始的所有行为特征,如消费行为,生活行为等,作为标签存入数据库中,最后推测出未来这个人是否会对组织产生威胁,然后使用定位系统,把这些预测到有威胁的人杀死。而在《点球成金》里,球队用数据建模的方式,挖掘潜在的明星队员(但其实这个案例并非典型的大数据案例,因为用到的是早已存在的数据思维和方法)。麦肯锡全球研究所曾给出过大数据一个相当规矩的定义:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。上面这四个特征,也就是人们常说的大数据的4V特征(volume,variety,value,velocity),即大量,多样性,价值,及时性。具体来说就是:1. 数据体量巨大(这是大数据最明显的特征),有人认为,大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T);这里按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB(进率2^10)。不过,数据的体量有时可能并没那么重要。比如13亿人口的名字,只占硬盘几百M空间的数据,但已经是这个领域里非常大的数据。2. 数据类型繁多(也就是多维度的表现形式)。比如,网络日志、视频、图片、地理位置信息等等。3. 价值密度低,商业价值高。以视频为例,一小时的视频,在不间断的监控过程中,可能有用的数据仅仅只有一两秒。因此,如何结合业务逻辑并通过强大的机器算法来挖掘数据价值(所谓“浪里淘金”吧),是最需要解决的问题。 4. 处理速度快且及时。数据处理遵循“1秒定律”,可从各种类型的数据中快速获得高价值的信息。事实上,关于这个“4V”,业界还是有不少争议的。比如阿里技术委员会的王坚博士,就直接把4V“扔”进了垃圾堆。王坚在《在线》这本书里说过:“我分享时说‘大数据’这个名字叫错了,它没有反映出数据最本质的东西。”他认为,今天数据的意义并不在于有多“大”,真正有意思的是数据变得“在线”了,这恰恰是互联网的特点。所有东西都能“在线”这件事(数据随时能调用和计算),远比“大”更能反映本质。什么是大数据技术?对于一个从事大数据行业人来说,一切数据都是有意义的。因为通过数据采集、数据存储、数据管理、数据分析与挖掘、数据展现等,我们可以发现很多有用的或有意思的规律和结论。比如,北京公交一卡通每天产生4千万条刷卡记录,分析这些刷卡记录,可以清晰了解北京市民的出行规律,来有效改善城市交通。但这4千万条刷卡数据 ,不是想用就能用的,需要通过“存储”“计算”“智能”来对数据进行加工和支撑,从而实现数据的增值。而在这其中,最关键的问题不在于数据技术本身,而在于是否实现两个标准:第一,这4千万条记录,是否足够多,足够有价值;第二,是否找到适合的数据技术的业务应用。下面就来简单说说上述提到的一些和“大数据“”形影不离的“小伙伴们”——云计算由于大数据的采集、存储和计算的量都非常大,所以大数据需要特殊的技术,以有效地处理大量的数据。 从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。可以说,大数据相当于海量数据的“数据库”,云计算相当于计算机和操作系统,将大量的硬件资源虚拟化后再进行分配使用。整体来看,未来的趋势是,云计算作为计算资源的底层,支撑着上层的大数据处理,而大数据的发展趋势是,实时交互式的查询效率和分析能力, “动一下鼠标就可以在秒级操作PB级别的数据”。Hadoop/HDFS /Mapreduce/Spark除了云计算,分布式系统基础架构Hadoop的出现,为大数据带来了新的曙光。Hadoop是Apache软件基金会旗下的一个分布式计算平台,为用户提供了系统底层细节透明的开源分部式基础架构。它是一款用Java编写的开源软件框架,用于分布式存储,并对非常大的数据集进行分布式处理,用户可以在不了解分布式底层细节的情况下,开发分布式程序,现在Hadoop被公认为行业大数据标准开源软件。而HDFS为海量的数据提供了存储;Mapreduce则为海量的数据提供了并行计算,从而大大提高计算效率。它是一种编程模型,用于大规模数据集(大于1TB)的并行运算,能允许开发者在不具备开发经验的前提下也能够开发出分布式的并行程序,并让其运行在数百台机器上,在短时间完成海量数据的计算。在使用了一段时间的 MapReduce 以后,程序员发现 MapReduce 的程序写起来太麻烦,希望能够封装出一种更简单的方式去完成 MapReduce 程序,于是就有了 Pig 和 Hive。同时Spark/storm/impala等各种各样的技术也相继进入数据科学的视野。比如Spark是Apache Software Foundation中最活跃的项目,是一个开源集群计算框架,也是一个非常看重速度的大数据处理平台。打个比方,如果我们把上面提到的4千万条记录比喻成“米”,那么,我们可以用“HDFS”储存更多的米,更丰富的食材;如果我们有了“Spark”这些组件(包括深度学习框架Tensorflow),就相当于有了“锅碗瓢盆”,基本上就能做出一顿可口的饭菜了。图源:CSDN其实,大数据火起来的时候,很多做统计出身的人心里曾经是有一万个草泥马的——因为大数据实在太火,以至于很多公司在招人的时候,关注的是这个人对计算工具的使用,而忽略了人对数据价值和行业的理解。但目前统计学专业人士确实面临的一个现实问题是:随着客户企业的数据量逐渐庞大,不用编程的方式很难做数据分析。所以,越来越多的统计学家也拿自己开涮:“统计学要被计算机学替代了,因为现在几乎没有非大数据量的统计应用”。总之,掌握编程的基础,大量的项目实践,是从事大数据技术领域的必要条件。以下是大数据技术的知识体系的一个梳理,需要的朋友,可以存一下:图源:CSDN发布于 2020-07-16 18:19赞同 85315 条评论分享收藏喜欢收起盐选推荐知乎 官方账号 关注在当今这个时代,人们对「大数据」这个词并不陌生。大数据技术指的是超过传统数据库系统处理能力的数据。随着互联网上的各种大数据的产生,数据分析就显得尤为重要。
今天,我们来聊聊大数据。
提起数据,大家可能会觉得比较无聊,看到一大堆数据头都大了。
但数据其实没有那么难理解,从中还可以得出很多有趣的小结论。比如,马云就曾经分享过这么一个结论:在中国,浙江女性的胸最小。这个结论是怎么得出的呢?就是通过阿里巴巴的大数据,发现淘宝销售的胸罩中,卖到浙江去的胸罩平均尺寸最小。有很多用其他方法难以得到的信息,通过分析数据,就变得一目了然。
当然,大数据对于我们的意义,可不仅仅是得到一些信息而已,真正理解了大数据,还可以改变我们的思维方式。
不知道大家小的时候听没听过这样一首儿歌,儿歌里说:「因为所以,科学道理」。这其实是在说,我们习惯性的思维方式是 「因为什么,所以什么」,是用因果性的方式思维,而这种思维,正是大数据思维所不一样的,大数据不是关注因果关系,而是关注相关性,也就是说人与人之间、人与事物、事物与事物之间的相互关系。
我举一个例子哈:
十年前的一个夏天,科学家们在研究游泳溺水事故时,发现了一个有趣的现象:数据表明呢,随着冰淇淋销量的增长,淹死的人数直线上升,两者的变化几乎完全一致。这是为什么呢?大家可以思考一下。
难道是吃冰淇淋会导致人们淹死?
——当然不是了,吃冰淇淋并不是溺水的原因。真正的原因是什么呢?是天热了,吃冰淇淋的人多了,游泳的人也多了,淹死的人自然就多了。
在冰淇淋销量和溺水人数之间没有因果关系,只有相关性。
通过这两个故事啊,大家是不是对数字开始有点感冒了呢?下面啊,我就和大家分享一下,用大数据思维可以教给我们的四个要点:
第一点:传统的因果思维是有问题的。
传统的思维,常常习惯在相关的两件事之间建立因果关系,我们总是喜欢想:因为什么,所以什么。
但这个世界很复杂,而且变得越来越复杂,干扰的因素很多,很多时候我们并不能准确地找到原因。而如果强行找原因,往往会适得其反。
就像我们刚刚举的那个例子,如果按照因果关系的思维,莽撞地限制冰淇淋的销售,那么非但不会降低溺水人数,由于减少了人们避暑的方式,淹死的人反而会变多。
初衷是好的,但盲目建立因果关系是很危险的。
第二点:注重相关性,才是更有效率的思维方式。
沃尔玛是全世界最大的连锁超市,它的数据分析师发现,当把啤酒和婴儿纸尿裤摆放在一起时,会大幅提高两者的销量。
为什么会这样呢?是因为带孩子的爸爸变多了吗?还是因为人们在买啤酒的时候有点愧疚,希望展现一下自己有责任心的一面?没人知道。
但是啊这一点也不重要了。沃尔玛发现了这一相关后,迅速调整货架布局,把这两种货物摆在一起,既提高了销量,又便利了顾客。
很多顾客赞叹:「沃尔玛居然知道我心里在想什么」——其实沃尔玛不知道。但这没关系了。
从始至终,沃尔玛也没有去研究这一现象的原因。但这丝毫也没有妨碍沃尔玛做出正确的决策,而且反应更快了。
注重相关性而非因果,并不会使你损失什么。
第三点:相关需要全样本。
首先,我解释一下样本是什么。样本是我们做观察和调研的时候抽取的一部分数据,它对于做决策具有很重要的作用。在大数据当中,正是样本规模的改变,导致了决策思维的改变。
相关性,是大数据最核心的特征。
但是你有没有考虑过,既然相关性这么好,为什么人们还是长期保留着因果性的传统思维呢?
按照进化的逻辑,像因果性这么低效的思维方式,怎么还没有被淘汰掉呢?
这就是大数据的关键。
因为相关性不追究事物之间的逻辑关系,所以要想得到可靠的结论,所需的数据量要比因果性更大,样本要更全面。
在以前,技术的局限让我们不可能获得足够的数据来支持我们的判断。所以我们不得不采取一种取巧的方式,去探究和论证因果。
但现在,随着互联网和计算机技术的发展,大数据和全样本变得可能了,我们没有理由不去利用这种便利。
人与猴子的区别在于我们会使用工具,而新思维的人和旧思维的人区别在于:我们会使用更新、更高级的工具。
这就引出了大数据的第二个特征:全样本。© 本内容版权为知乎及版权方所有,侵权必究发布于 2020-11-19 17:06赞同 5602 条评论分享收藏喜欢
《“十四五”大数据产业发展规划》解读_政策解读_中国政府网
《“十四五”大数据产业发展规划》解读_政策解读_中国政府网
首页
|
简
|
繁
|
EN
|
登录
个人中心
退出
|
邮箱
|
无障碍
EN
https://www.gov.cn/
首页 > 政策 > 解读
《“十四五”大数据产业发展规划》解读
2021-12-01 10:45
来源:
工业和信息化部网站
字号:默认
大
超大
|
打印
|
近日,工业和信息化部发布《“十四五”大数据产业发展规划》(以下简称《规划》),为便于理解《规划》内容,做好贯彻实施工作,现就相关问题解读如下。
一、《规划》出台的背景和意义?
当前,数据已成为重要的生产要素,大数据产业作为以数据生成、采集、存储、加工、分析、服务为主的战略性新兴产业,是激活数据要素潜能的关键支撑,是加快经济社会发展质量变革、效率变革、动力变革的重要引擎。面对世界百年未有之大变局和新一轮科技革命和产业变革深入发展的机遇期,世界各国纷纷出台大数据战略,开启大数据产业创新发展新赛道,聚力数据要素多重价值挖掘,抢占大数据产业发展制高点。
党中央、国务院高度重视大数据产业发展,推动实施国家大数据战略。习近平总书记就推动大数据和数字经济相关战略部署、发展大数据产业多次做出重要指示。工业和信息化部会同相关部委建立大数据促进发展部际联席会议制度,不断完善政策体系,聚力打造大数据产品和服务体系,积极推进各领域大数据融合应用,培育发展大数据产业集聚高地。经过五年的努力,我国大数据产业快速崛起,逐步发展成为支撑经济社会发展的优势产业,数据资源“家底”更加殷实,数据采集、传输、存储基础能力显著提升,大数据产品和服务广泛普及,特别是在疫情防控和复工复产中发挥了“急先锋”和“主力军”的作用。
“十四五”时期是我国工业经济向数字经济迈进的关键期,对大数据产业发展提出了新的要求。《中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要》(以下简称《国家“十四五”规划纲要》)围绕“打造数字经济新优势”,做出了培育壮大大数据等新兴数字产业的明确部署。为深入落实党中央、国务院决策部署,凝聚各方共识,敏锐抓住数字经济发展的历史机遇,更好地推进大数据产业高质量发展,特制定出台《“十四五”大数据产业发展规划》,作为未来五年大数据产业发展工作的行动纲领。
二、《规划》的总体考虑是什么?
《规划》以习近平新时代中国特色社会主义思想为指导,全面贯彻党的十九大和十九届二中、三中、四中、五中、六中全会精神,立足新发展阶段,完整、准确、全面贯彻新发展理念,构建新发展格局,统筹问题导向和目标导向,统筹短期目标和中长期目标,统筹全面规划和重点部署,聚焦突出问题和明显短板,充分激发数据要素价值潜能,夯实产业发展基础,构建稳定高效产业链,统筹发展和安全,培育自主可控和开放合作的产业生态,打造数字经济发展新优势,为建设制造强国、网络强国、数字中国提供有力支撑。
一是释放数据要素价值。数据是新时代重要的生产要素,是国家基础性战略资源。大数据产业提供全链条大数据技术、工具和平台,深度参与数据要素“采、存、算、管、用”全生命周期活动,是激活数据要素潜能的关键支撑。《规划》坚持数据要素观,以释放数据要素价值为导向,推动数据要素价值的衡量、交换和分配,加快大数据容量大、类型多、速度快、精度准、价值高等特性优势转化,支撑数据要素市场培育,激发产业链各环节潜能,以价值链引领产业链、创新链,推动产业高质量发展。
二是做强做优做大产业。产业基础是产业形成和发展的基本条件,产业链是产业发展的根本和关键,打好产业基础高级化、产业链现代化的攻坚战不仅是“十四五”时期产业发展的必然要求,更是支撑产业高质量发展的必要条件。《规划》坚持固根基、扬优势、补短板、强弱项并重,围绕产业基础高级化的目标,坚持标准先行,突破核心技术,适度超前统筹建设通信基础设施、算力基础设施和融合基础设施等新型基础设施,筑牢产业发展根基。围绕产业链现代化的目标,聚焦产业数字化和数字产业化,在数据生成、采集、存储、加工、分析、服务、安全、应用各环节协同发力、体系推进,打好产业链现代化攻坚战。
三是推动产业生态良性发展。任何产业要实现高质量发展都离不开优质的企业主体、全面的公共服务、扎实的安全保障。经过五年的培育,大数据产业协同互促的发展生态初步形成,但是距离支撑高质量发展仍存在一定差距。《规划》坚持目标导向和问题导向,培育壮大企业主体,优化大数据公共服务,推动产业集群化发展,完善数据安全保障体系,推动数据安全产业发展,为产业高质量发展提供全方位支撑。
三、《规划》主要内容和重点有哪些?
《规划》在延续“十三五”规划关于大数据产业定义和内涵的基础上,进一步强调了数据要素价值。《规划》总体分为5章,具体内容可以概括为“3个6”,即6项重点任务、6个专项行动、6项保障措施。
其中,6项重点任务包括:一是加快培育数据要素市场。围绕数据要素价值的衡量、交换和分配全过程,着力构建数据价值体系、健全要素市场规则、提升数据要素配置作用,推进数据要素市场化配置。二是发挥大数据特性优势。围绕数据全生命周期关键环节,加快数据“大体量”汇聚,强化数据“多样化”处理,推动数据“时效性”流动,加强数据“高质量”治理,促进数据“高价值”转化,将大数据特性优势转化为产业高质量发展的重要驱动力,激发产业链各环节潜能。三是夯实产业发展基础。适度超前部署通信、算力、融合等新型基础设施,提升技术攻关和市场培育能力,发挥标准引领作用,筑牢产业发展根基。四是构建稳定高效产业链。围绕产业链各环节,加强数据全生命周期产品研发,创新服务模式和业态,深化大数据在工业领域应用,推动大数据与各行业深度融合,促进产品链、服务链、价值链协同发展,不断提升产业供给能力和行业赋能效应。五是打造繁荣有序产业生态。发挥龙头企业引领支撑、中小企业创新发源地作用,推动大中小企业融通发展,提升协同研发、成果转化、评测咨询、供需对接、创业孵化、人才培训等大数据公共服务水平,加快产业集群化发展,打造资源、主体和区域相协同的产业生态。六是筑牢数据安全保障防线。坚持安全与发展并重,加强数据安全管理,加大对重要数据、跨境数据安全的保护力度,提升数据安全风险防范和处置能力,做大做强数据安全产业,加强数据安全产品研发应用。
关于《规划》的主要亮点,可以归纳为“三新”:一是顺应新形势。“十四五”时期,我国进入由工业经济向数字经济大踏步迈进的关键时期,经济社会数字化转型成为大势所趋,数据上升为新的生产要素,数据要素价值释放成为重要命题,贯穿《规划》始终。二是明确新方向。立足推动大数据产业从培育期进入高质量发展期,在“十三五”规划提出的产业规模1万亿元目标基础上,提出“到2025年底,大数据产业测算规模突破3万亿元”的增长目标,以及数据要素价值体系、现代化大数据产业体系建设等方面的新目标。三是提出新路径。为推动大数据产业高质量发展,《规划》提出了“以释放数据要素价值为导向,以做大做强产业本身为核心,以强化产业支撑为保障”的路径设计,增加了培育数据要素市场、发挥大数据特性优势等新内容,将“新基建”、技术创新和标准引领作为产业基础能力提升的着力点,将产品链、服务链、价值链作为产业链构建的主要构成,实现数字产业化和产业数字化的有机统一,并进一步明确和强化了数据安全保障。
四、《规划》在加快培育数据要素市场方面有哪些举措?
数据是新时代重要的生产要素,是国家基础性战略资源,这已成为全球共识。我国高度重视数据要素市场培育。十九届四中全会提出将数据作为生产要素参与分配,《关于构建更加完善的要素市场化配置体制机制的意见》和《建设高标准市场体系行动方案》明确提出“加快培育数据要素市场”。《国家“十四五”规划纲要》对完善数据要素产权性质、建立数据资源产权相关基础制度和标准规范、培育数据交易平台和市场主体等作出战略部署。广东、江苏等地就数据要素市场培育开展积极探索,深圳、天津、贵州等地在数据立法、确权、交易等方面已经取得了有益进展。
大数据产业作为以数据生成、采集、存储、加工、分析、服务为主的战略性新兴产业,提供全链条技术、工具和平台,孕育数据要素市场主体,深度参与数据要素全生命周期活动,是激活数据要素潜能的关键支撑,是数据要素市场培育的重要内容。推进我国数据要素市场建设,既对提升大数据产业基础能力和产业链现代化水平提出了更高要求,同时也为大数据产业发展带来更广阔、更丰富的价值空间。
为充分发挥大数据产业在加快培育数据要素市场中的关键支撑作用,《规划》围绕数据要素价值的衡量、交换和分配全过程,重点部署以下工作:一是建立数据价值体系,制定数据要素价值评估指南,开展评估试点,为数据要素进入市场流通奠定价值基础。二是健全要素市场规则,发展数据资产评估、交易撮合等市场运营体系,鼓励企业参与数据交易平台建设,创新数据交易模式,建立健全风险防范处置、应急配置等机制。三是提升要素配置作用,加快数据要素化,培育数据驱动的产融合作、协同创新等新模式,推动要素数据化,促进数据驱动的传统生产要素合理配置。
五、《规划》提出“发挥大数据特性优势”,是出于什么考虑?
在党中央、国务院的坚强领导下,工业和信息化部联合相关部门,共同推动我国大数据产业发展取得了显著成效,市场规模快速攀升,产业基础实力增强,产业链初步形成,生态体系持续优化,应用价值链的广度和深度不断拓展。但同时,大数据产业仍存在数据壁垒突出、碎片化问题严重等瓶颈约束,全社会大数据思维仍未形成,大数据容量大、类型多、速度快、精度准、价值高的“5V”特性未能得到充分释放。
为更好引导支持大数据产业发展,需要从根本上遵循大数据的自然特性和发展规律,鼓励研发释放“5V”特性的技术工具,探索符合“5V”特性的模式路径,破解制约“5V”特性发挥的堵点难点,以产业高水平供给实现数据高价值转化。经过研究论证,推动大数据“5V”特性发挥需与产业发展的汇聚、处理、流动、治理与应用等核心环节紧密结合,多维度提升适应“5V”特性的发展水平和能力。比如,对于“大体量”数据增长速度要适度超前部署数据采集汇聚的基础设施,对于“多样化”数据处理需要大数据技术和应用不断创新,对于保护数据“时效性”价值需畅通数据高速流动、实时共享的渠道,对于保障数据“高质量”可用好用的需提升数据管理能力,对于促进数据“高价值”转化要注重引导数据驱动的新应用新模式发展等。
基于上述考虑,《规划》提出“发挥大数据特性优势”,坚持大数据“5V”特性与产业高质量发展相统一,通过“技术应用+制度完善”双向引导,重点推进“大体量”汇聚、“多样性”处理、“时效性”流动、“高质量”治理、“高价值”转化等各环节协同发展,鼓励企业探索应用模式,推广行业通用发展路径,建立健全符合规律、激发创新、保障底线的制度体系,实现大数据产业发展和数据要素价值释放互促共进。
六、《规划》在构建稳定高效的大数据产业链方面有哪些举措?
国际格局的深刻调整给我国大数据产业链稳定发展带来了不确定风险,但同时也孕育着新的机遇。必须站在国家战略安全的高度,做大做强优势领域,聚焦薄弱环节补足短板,防范和化解可能面临的挑战,保障大数据产业链安全稳定高效。
“十三五”时期,工业和信息化部会同相关部门共同努力,推动大数据产业发展取得长足进步,围绕“数据资源、基础硬件、通用软件、行业应用、安全保障”的大数据产品和服务体系初步形成,覆盖数据生成、存储、加工、分析、服务全周期的产业链初步建立,大数据应用广泛渗透到千行百业并已有众多成功案例,大数据产业逐渐成为国民经济中新的增长点。但发展过程中也显现出了诸多不足,如在大数据分析、治理、安全等环节关键环节仍然缺乏可用、可信、可管的大数据产品和服务,预测性、指导性深层次应用缺乏,无法满足各级政府、社会组织和广大民众更高层次的需求。
《规划》坚持安全与发展并重,围绕破解关键产品和服务供给不足、应用层次不深、安全保障体系不健全等问题,推动产业链做优做强,重点部署了以下内容:一是打造高端产品链,建立大数据产品图谱,提升全链条大数据产品质量和水平。二是创新优质服务链,加快数据服务向专业化、工程化、平台化发展,创新大数据服务模式和业态,发展第三方大数据服务产业,培育优质大数据服务供应商。三是优化工业价值链,培育专业化场景化大数据解决方案,构建多层次工业互联网平台体系,培育数据驱动的制造业数字化转型新模式新业态。四是延伸行业价值链,加快建设行业大数据平台,打造成熟行业应用场景,推动大数据与各行业各领域深度融合,充分发挥大数据的乘数效应和倍增作用。
七、下一步,如何推动《规划》落实?
(一)组织宣贯培训。面向地方各级工业和信息化主管部门、事业单位、大数据企业和行业应用企业等,详细解读和宣贯《规划》内容。
(二)建立推进机制。会同工业和信息化部相关司局以及业内外资深专家等组建推进工作机制,与各地工业和信息化主管部门做好对接,建立纵向联动、横向协同的推进工作机制,确保重点任务落实,及时沟通信息、交流经验。
(三)任务分解落实。抓紧制定形成可落地、可执行的重点任务分工表,落实推进责任。鼓励和指导地方工业和信息化主管部门结合区域特点,提出适合本地区实际情况的政策措施。
(四)开展试点示范。持续组织开展大数据产业发展试点示范项目、DCMM贯标,鼓励有条件的地方、行业和工业企业围绕技术创新、融合应用、数据治理、生态培育等重点任务先行先试,按照边试点、边总结、边推广的思路,探索可复制、可推广的实施路径和模式。
【我要纠错】
责任编辑:于珊
扫一扫在手机打开当前页
相关稿件
链接:
全国人大
|
全国政协
|
国家监察委员会
|
最高人民法院
|
最高人民检察院
国务院部门网站
|
地方政府网站
|
驻港澳机构网站
|
驻外机构
中国政府网
|
关于本网
|
网站声明
|
联系我们
|
网站纠错
主办单位:国务院办公厅 运行维护单位:中国政府网运行中心
版权所有:中国政府网 中文域名:中国政府网.政务
网站标识码bm01000001 京ICP备05070218号 京公网安备11010202000001号
国务院客户端
国务院客户端小程序
中国政府网微博、微信
电脑版
客户端
小程序
微博
微信
邮箱
退出
注册
登录
网站纠错
主办单位:国务院办公厅 运行维护单位:中国政府网运行中心
版权所有:中国政府网 中文域名:中国政府网.政务
网站标识码bm01000001
京ICP备05070218号 京公网安备11010202000001号
《“十四五”大数据产业发展规划》解读
近日,工业和信息化部发布《“十四五”大数据产业发展规划》,为便于理解《规划》内容,做好贯彻实施工作,现就相关问题解读如下。
什么是大数据? - 知乎
什么是大数据? - 知乎切换模式写文章登录/注册什么是大数据?一杯白开水 这是一个变化的世界,我们谁都没想到我们今天可以聚在这里,可以继续畅想未来,我跟大家都认为电脑够快,互联网还要快,很多人还没搞清楚什么是PC互联网,移动互联来了,我们还没搞清楚移动互联的时候,大数据时代又来了 --马云辞职演讲大数据这个词想必大家都耳熟能详,可是大数据是什么?大数据有哪些特点?大数据的应用?我们先来看下一些搜索引擎对大数据的定义: 大数据(英语:Big data),又称为巨量资料,指的是在传统数据处理应用软件不足以处理的大或复杂的数据集的术语。 数据也可以定义为来自各种来源的大量非结构化或结构化数据。从学术角度而言,大数据的出现促成广泛主题的新颖研究。这也导致各种大数据统计方法的发展。大数据并没有统计学的抽样方法;它只是观察和追踪发生的事情。因此,大数据通常包含的数据大小超出传统软件在可接受的时间内处理的能力。由于近期的技术进步,发布新数据的便捷性以及全球大多数政府对高透明度的要求,大数据分析在现代研究中越来越突出。 --维基百科 大数据(big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》 中大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性) --百度百科 大数据由巨型数据集组成,这些数据集大小常超出人类在可接受时间下的收集、庋用、管理和处理能力。大数据的大小经常改变,截至2012年,单一数据集的大小从数太字节(TB)至数十兆亿字节(PB)不等。 在一份2001年的研究与相关的演讲中,麦塔集团(META Group,现为高德纳)分析员道格·莱尼(Doug Laney)指出数据增长的挑战和机遇有三个方向:量(Volume,数据大小)、速(Velocity,数据输入输出的速度)与多变(Variety,多样性),合称“3V”或“3Vs”。高德纳与现在大部分大数据产业中的公司,都继续使用3V来描述大数据。高德纳于2012年修改对大数据的定义:“大数据是大量、高速、及/或多变的信息资产,它需要新型的处理方式去促成更强的决策能力、洞察力与最优化处理。”另外,有机构在3V之外定义第4个V:真实性(Veracity)为第四特点。 大数据必须借由计算机对数据进行统计、比对、解析方能得出客观结果。美国在2012年就开始着手大数据,奥巴马更在同年投入2亿美金在大数据的开发中,更强调大数据会是之后的未来石油。数据挖掘(data mining)则是在探讨用以解析大数据的方法。 --MBA智库百科大数据是具有海量、高增长率和多样化的信息资产,它需要全新的处理模式来增强决策力、洞察发现力和流程优化能力。Big data is high volume, high velocity, and/or high variety information assets that require new forms of processing to enable enhanced decision making, insight discovery and process optimization. --研究机构Gartner大数据到底是什么,如果简单来理解大数据就是 4V 的特征: Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值),即 数据体量巨大、数据类型繁多、价值密度低、处理速度快。 但是这样理解会显得太浅显,要想更加全面了解大数据概念可以查看 资料《大数据时代》。 了解一个东西,我们要了解它是因何而生,大数据的发展 早在1980年,著名未来学家阿尔文・托夫勒便在《第三次浪潮》一书中,将大数据热情地赞颂为“第三次浪潮的华彩乐章”。从2009年开始,“大数据”才成为互联网信息技术行业的流行词汇。2012年,大数据概念炙手可热,2013年,大数据走向实践,有的专家称之为“大数据元年”。美国互联网数据中心指出,互联网上的数据每年将增长50%,每两年将翻一番,而目前世界上90%以上的数据是最近几年才产生的。 最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡,麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。” “大数据”在物理学、生物学、环境生态学等领域以及军事、金融、通讯等行业存在已有时日,却因为近年来互联网和信息行业的发展而引起人们关注。 大数据到底有多大?一组名为“互联网上一天”的数据告诉我们,一天之中,互联网产生的全部内容可以刻满1.68亿张DVD;发出的邮件有2940亿封之多(相当于美国两年的纸质信件数量);发出的社区帖子达200万个(相当于《时代》杂志770年的文字量);卖出的手机为37.8万台,高于全球每天出生的婴儿数量37.1万…… 仅根据2013年的统计,互联网搜索巨头百度已拥有数据量接近EB级别、阿里、腾讯声明自己存储的数据总量都达到了百PB以上。此外,电信、医疗、金融、公共安全、交通、气象等各个方面保存的数据量也都达到数十或者上百PB级别。大数据特点大数据的4V的特征:Volume(大量)、Variety(多样)、Velocity(高速)、Value(价值);第一个特征是数据量大。大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T)。第二个特征是数据类型繁多。包括网络日志、音频、视频、图片、地理位置信息等等,多类型的数据对数据的处理能力提出了更高的要求,例如在传统的关系型数据库中,所存储的数据都是结构化的,例如:但是在现实生活中,信息往往并没有严格的结构限制。比如一个电商网站需要记录如下用户行为: 用户小申, 于某某时间在商品搜索栏搜索了“PS4”一词,然后进入 XXX 商铺进行浏览,经过与店家沟通,讨价还价,最终以2000元的价格购买了PS4 “炫酷黑”PS4一部。 诸如此类的用户行为数据属于非结构化数据,很难用关系型数据库存储。因此诸多No-SQL数据库(例如 MongoDB)成为了存储大数据的更好选择。第三个特征是处理速度快,时效性要求高。这是大数据区分于传统数据挖掘最显著的特征。第四个特征是数据价值密度相对较低。如随着物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,如何通过强大的机器算法更迅速地完成数据的价值“提纯”,是大数据时代亟待解决的难题。大数据带来的变革当数据的处理技术发生翻天覆地的变化时,大数据时代,我们的思维也要变革。第一个思维变革:利用所有的数据,而不再仅仅依靠部分数据,即不是随机样本,而是全体数据。第二个思维变革:我们唯有接受不精确性,才有机会打开一扇新的世界之窗,即不是精确性,而是混杂性。 第三个思维变革:不是所有的事情都必须知道现象背后的原因,而是要让数据自己“发声”,即不是因果关系,而是相关关系。大数据的应用洛杉矶警察局和加利福尼亚大学合作利用大数据预测犯罪的发生。google流感趋势(Google Flu Trends)利用搜索关键词预测禽流感的散布。统计学家内特.西尔弗(Nate Silver)利用大数据预测2012美国选举结果。麻省理工学院利用手机定位数据和交通数据建立城市规划。梅西百货的实时定价机制。根据需求和库存的情况,该公司基于SAS的系统对多达7300万种货品进行实时调价。 [9] 医疗行业早就遇到了海量数据和非结构化数据的挑战,而近年来很多国家都在积极推进医疗信息化发展,这使得很多医疗机构有资金来做大数据分析。讲个经典小故事 20世纪90年代,美国沃尔玛超市管理人员分析销售数据时,发现了一个令人难以理解的现象:在某些特定的情况下,“啤酒”与“尿布”两件看上去毫无关系的商品,会经常出现在同一个购物篮中,且大多出现在年轻的父亲身上。 分析背后原因是,在美国有婴儿的家庭中,一般是母亲在家中照看婴儿,年轻的父亲去超市买尿布。父亲在购买尿布的同时,往往会顺便为自己购买啤酒。 由此,沃尔玛就在卖场尝试将啤酒与尿布摆放在相同区域,让年轻的父亲可以同时找到这两件商品,并很快地完成购物,从而极大提升商品销售收入。 再举个例子, 关于姿势 你们现在坐着的姿势 你坐着的姿势 你坐着的姿势 你坐着的姿势 这些都不一样 这是一个关于腿长 你的背部和背部轮廓的函数 如果我现在放一些传感器 或许100个 在你的椅子里 我可以算出你的独一无二的参数 就像你的指纹 但不是针对你的手指 那我们能用它来干什么呢? 东京的研究者把它 运用在一个汽车防盗设施的雏形上,它的设想是盗贼坐在驾驶座上 企图把车开走 但是汽车识别出 驾驶座上的是个未授权驾驶人 那汽车可能就会熄火 除非你在仪表盘上输入密码 来表明“我已获得授权” 。 如果欧洲的每辆汽车 都装备了这项技术会是怎样的情形? 我们还能做些什么呢? 或许如果我们整合数据 我们可以识别示警信号 对于在下一个五秒钟内 可能发生的意外做出最佳预判 我们也可以进行数据化的是 司机的疲劳度 当汽车侦测到司机的坐姿 倒成某一特定姿势时 这个设备感知到并发出车内警告 可能是震动方向盘或语音提示 “嗨,醒醒 集中精神在路况上” 这就是生活的更多方面数据化后 我们能做的事情。大数据在机器学习的应用,深蓝战胜何洁。 机器学习是许多 网上在线应用的基础 搜索引擎 亚马逊的个性化算法 电脑智能翻译 语音识别系统 研究者最近在研究 关于活组织检查的问题 关于肿瘤活组织检查 他们让电脑 通过 (历史) 数据和存活率 来判断这些细胞 是否是癌症细胞 果不其然 当你把数据交给电脑 电脑通过自主学习 可以寻找出 12个最佳的鉴别特征用来预测 乳腺癌细胞的活检切片 确实是癌症细胞 问题是医学文献 只知道其中的九个鉴别特征 其他三个 人们不会去寻找 但是电脑把它们找了出来 。我们会给机器一堆数据,让它们去发现规律而不是我们去告诉它怎么做。 好像说的有点不太平易近人,支付宝的年底的集五福,大家想必都玩过,我们为什么扫一扫手机就能知道是个福字?原因显而易见。大数据带来的挑战在科技的快速发展推动下,在 IT 领域,企业会面临两个方面的问题。一是如何实现网站的高可用、易伸缩、可扩展、高安全等目标。为了解决这样一系列问题,迫使网站的架构在不断发展。从单一架构迈向高可用架构,这过程中不得不提的就是分布式。二是用户规模越来越大,由此产生的数据也在以指数倍增长,俗称数据大爆炸。海量数据处理的场景也越来越多。大数据黑暗一面 大数据也有黑暗的一面 ,它可以改善我们的生活但也会带来一些我们需要注意的问题。首先就是, 我们可能因为预测的结果而受到惩罚 。警察可能会用大数据来实现目标 ,有点像“少数派报告” 现在有个词叫做预见性监管或者叫算法犯罪学 这个想法是如果我们掌握了大量数据。比如以往犯罪发生的地点,我们可以就知道把警力派到哪里,这很合理 但问题是 数据分析不会仅限于地点数据 。它会进一步深入到个人层面 ,为什么我们不去分析 ,某人的中学成绩单 或者我们可以了解他们的就职情况、信用记录 、他们的上网行为 、他们是否熬夜、 当可以通过健康腕带读取生化数据时。 就可以知道他们是否有激进的想法,我们可以用算法来预测我们将要做什么, 可能有些事情还没做, 我们就要承担责任 ,个人隐私在小数据时代是主要挑战 。在大数据时代 这个挑战将会成为保卫自由意愿 道德选择 、人类意志 人类的能动性 。 还有另一个问题 :大数据会偷走我们的工作, 在21世纪大数据和算法会威胁到白领和需要专业知识的工作 。就像在20世纪工厂自动化和装配生产线的应用,威胁到了蓝领们的工作岗位 。想象一下一个研究室技术员 ,他的工作就是通过一个显微镜,观察一个癌症活检组织 ,来判定它是不是癌症的 。这个人上大学、 买房子、 他/她投票选举 ,他/她是这个社会的一份子。 然后这个人的工作还有其他像他一样的专业人员, 将会发现他们的工作被彻底改变了或者彻底废除了。 我们一直以为在短时或者暂时的就业调整期后, 一段时间内科技会创造就业机会, 这对于我们所处的参考工业革命来说就是这样。因为在工业革命时期事情就是这样的,但是我们忘记了一件事情,有些类型的职业已经彻底消失了并且再也不会回来 。如果你是一匹马,工业革命不是一件好事,所以我们必须非常小心,根据我们的需求和整个人类的需求来利用和适应大数据。我们必须是技术的主人而不是技术的仆人。我们正在步入大数据时代,老实说, 我们并不能很好地处理所有我们现在能够收集到的数据,这不仅仅是国家安全局的问题,许多企业也搜集并不恰当地使用数据,我们需要时间来纠正这个问题。这有点像原始人类面对火时所面临的挑战, 火是一种工具 但是如果使用不当就会引火烧身。 大数据即将改变我们的生活方式,我们的工作方式和思考方式它可以帮助我们管理事业。帮助我们过想要的满足、充满希望、幸福和健康的生活 但是在过去, 对于信息技术(IT) 我们经常只看到了T 就是技术、硬件。因为这是切实可见的东西 现在我们需要把目光放在 I 上 信息。它不是那么切实可见但某种程度上却更加重要。在人类永无止境的探索过程中,我们可以从我们能收集的信息中来了解这个世界 以及人类在这个世界中所处的地位。 互联网的世界,逐步从IT阶段步入DT阶段,如何处理个人隐私是个很严重的问题,李彦宏在中国高层发展论坛上针对用户数据隐私的问题表示,“我想中国人可以更加开放,对隐私问题没有那么敏感,如果他们愿意用隐私交换便捷性,很多情况下他们是愿意的。”虽然对这个看法嗤之以鼻,但是我们的隐私数据确实是在四处泄露。数据时代已经来临,既然抗拒不了它,那便勇敢去接受它,去拥抱它。《大数据时代》链接:https://pan.baidu.com/s/1NpWKTCX3pXyhh-v8fwdNlg 提取码:i74d 发布于 2019-08-20 11:25大数据大数据分析赞同 1143 条评论分享喜欢收藏申请
大数据:发展现状与未来趋势_中国人大网
大数据:发展现状与未来趋势_中国人大网
当前位置:首页
十三届全国人大常委会专题讲座第十四讲
大数据:发展现状与未来趋势
梅宏
来源: 中国人大网 浏览字号: 大 中 小
2019年10月30日 16:22
中国特色社会主义进入新时代,实现中华民族伟大复兴的中国梦开启新征程。党中央决定实施国家大数据战略,吹响了加快发展数字经济、建设数字中国的号角。习近平总书记在十九届中共中央政治局第二次集体学习时的重要讲话中指出:“大数据是信息化发展的新阶段”,并做出了“推动大数据技术产业创新发展、构建以数据为关键要素的数字经济、运用大数据提升国家治理现代化水平、运用大数据促进保障和改善民生、切实保障国家数据安全”的战略部署,为我国构筑大数据时代国家综合竞争新优势指明了方向!
今天,我拟回顾大数据的发端、发展和现状,研判大数据的未来趋势,简述我国大数据发展的态势,并汇报我对信息化新阶段和数字经济的认识,以及对我国发展大数据的若干思考和建议。
一、大数据的发端与发展
从文明之初的“结绳记事”,到文字发明后的“文以载道”,再到近现代科学的“数据建模”,数据一直伴随着人类社会的发展变迁,承载了人类基于数据和信息认识世界的努力和取得的巨大进步。然而,直到以电子计算机为代表的现代信息技术出现后,为数据处理提供了自动的方法和手段,人类掌握数据、处理数据的能力才实现了质的跃升。信息技术及其在经济社会发展方方面面的应用(即信息化),推动数据(信息)成为继物质、能源之后的又一种重要战略资源。
“大数据”作为一种概念和思潮由计算领域发端,之后逐渐延伸到科学和商业领域。大多数学者认为,“大数据”这一概念最早公开出现于1998年,美国高性能计算公司SGI的首席科学家约翰·马西(John Mashey)在一个国际会议报告中指出:随着数据量的快速增长,必将出现数据难理解、难获取、难处理和难组织等四个难题,并用“Big Data(大数据)”来描述这一挑战,在计算领域引发思考。2007年,数据库领域的先驱人物吉姆·格雷(Jim Gray)指出大数据将成为人类触摸、理解和逼近现实复杂系统的有效途径,并认为在实验观测、理论推导和计算仿真等三种科学研究范式后,将迎来第四范式——“数据探索”,后来同行学者将其总结为“数据密集型科学发现”,开启了从科研视角审视大数据的热潮。2012年,牛津大学教授维克托·迈尔-舍恩伯格(Viktor Mayer-Schnberger)在其畅销著作《大数据时代(Big Data: A Revolution That Will Transform How We Live,Work,and Think)》中指出,数据分析将从“随机采样”、“精确求解”和“强调因果”的传统模式演变为大数据时代的“全体数据”、“近似求解”和“只看关联不问因果”的新模式,从而引发商业应用领域对大数据方法的广泛思考与探讨。
大数据于2012、2013年达到其宣传高潮,2014年后概念体系逐渐成形,对其认知亦趋于理性。大数据相关技术、产品、应用和标准不断发展,逐渐形成了包括数据资源与API、开源平台与工具、数据基础设施、数据分析、数据应用等板块构成的大数据生态系统,并持续发展和不断完善,其发展热点呈现了从技术向应用、再向治理的逐渐迁移。经过多年来的发展和沉淀,人们对大数据已经形成基本共识:大数据现象源于互联网及其延伸所带来的无处不在的信息技术应用以及信息技术的不断低成本化。大数据泛指无法在可容忍的时间内用传统信息技术和软硬件工具对其进行获取、管理和处理的巨量数据集合,具有海量性、多样性、时效性及可变性等特征,需要可伸缩的计算体系结构以支持其存储、处理和分析。
大数据的价值本质上体现为:提供了一种人类认识复杂系统的新思维和新手段。就理论上而言,在足够小的时间和空间尺度上,对现实世界数字化,可以构造一个现实世界的数字虚拟映像,这个映像承载了现实世界的运行规律。在拥有充足的计算能力和高效的数据分析方法的前提下,对这个数字虚拟映像的深度分析,将有可能理解和发现现实复杂系统的运行行为、状态和规律。应该说大数据为人类提供了全新的思维方式和探知客观规律、改造自然和社会的新手段,这也是大数据引发经济社会变革最根本性的原因。
二、大数据的现状与趋势
全球范围内,研究发展大数据技术、运用大数据推动经济发展、完善社会治理、提升政府服务和监管能力正成为趋势。下面将从应用、治理和技术三个方面对当前大数据的现状与趋势进行梳理。
一是已有众多成功的大数据应用,但就其效果和深度而言,当前大数据应用尚处于初级阶段,根据大数据分析预测未来、指导实践的深层次应用将成为发展重点。
按照数据开发应用深入程度的不同,可将众多的大数据应用分为三个层次。第一层,描述性分析应用,是指从大数据中总结、抽取相关的信息和知识,帮助人们分析发生了什么,并呈现事物的发展历程。如美国的DOMO公司从其企业客户的各个信息系统中抽取、整合数据,再以统计图表等可视化形式,将数据蕴含的信息推送给不同岗位的业务人员和管理者,帮助其更好地了解企业现状,进而做出判断和决策。第二层,预测性分析应用,是指从大数据中分析事物之间的关联关系、发展模式等,并据此对事物发展的趋势进行预测。如微软公司纽约研究院研究员David Rothschild通过收集和分析赌博市场、好莱坞证券交易所、社交媒体用户发布的帖子等大量公开数据,建立预测模型,对多届奥斯卡奖项的归属进行预测。2014和2015年,均准确预测了奥斯卡共24个奖项中的21个,准确率达87.5%。第三层,指导性分析应用,是指在前两个层次的基础上,分析不同决策将导致的后果,并对决策进行指导和优化。如无人驾驶汽车分析高精度地图数据和海量的激光雷达、摄像头等传感器的实时感知数据,对车辆不同驾驶行为的后果进行预判,并据此指导车辆的自动驾驶。
当前,在大数据应用的实践中,描述性、预测性分析应用多,决策指导性等更深层次分析应用偏少。一般而言,人们做出决策的流程通常包括:认知现状、预测未来和选择策略这三个基本步骤。这些步骤也对应了上述大数据分析应用的三个不同类型。不同类型的应用意味着人类和计算机在决策流程中不同的分工和协作。例如:第一层次的描述性分析中,计算机仅负责将与现状相关的信息和知识展现给人类专家,而对未来态势的判断及对最优策略的选择仍然由人类专家完成。应用层次越深,计算机承担的任务越多、越复杂,效率提升也越大,价值也越大。然而,随着研究应用的不断深入,人们逐渐意识到前期在大数据分析应用中大放异彩的深度神经网络尚存在基础理论不完善、模型不具可解释性、鲁棒性较差等问题。因此,虽然应用层次最深的决策指导性应用,当前已在人机博弈等非关键性领域取得较好应用效果,但是,在自动驾驶、政府决策、军事指挥、医疗健康等应用价值更高,且与人类生命、财产、发展和安全紧密关联的领域,要真正获得有效应用,仍面临一系列待解决的重大基础理论和核心技术挑战。在此之前,人们还不敢、也不能放手将更多的任务交由计算机大数据分析系统来完成。这也意味着,虽然已有很多成功的大数据应用案例,但还远未达到我们的预期,大数据应用仍处于初级阶段。未来,随着应用领域的拓展、技术的提升、数据共享开放机制的完善,以及产业生态的成熟,具有更大潜在价值的预测性和指导性应用将是发展的重点。
二是大数据治理体系远未形成,特别是隐私保护、数据安全与数据共享利用效率之间尚存在明显矛盾,成为制约大数据发展的重要短板,各界已经意识到构建大数据治理体系的重要意义,相关的研究与实践将持续加强。
随着大数据作为战略资源的地位日益凸显,人们越来越强烈地意识到制约大数据发展最大的短板之一就是:数据治理体系远未形成,如数据资产地位的确立尚未达成共识,数据的确权、流通和管控面临多重挑战;数据壁垒广泛存在,阻碍了数据的共享和开放;法律法规发展滞后,导致大数据应用存在安全与隐私风险;等等。如此种种因素,制约了数据资源中所蕴含价值的挖掘与转化。
其中,隐私、安全与共享利用之间的矛盾问题尤为凸显。一方面,数据共享开放的需求十分迫切。近年来人工智能应用取得的重要进展,主要源于对海量、高质量数据资源的分析和挖掘。而对于单一组织机构而言,往往靠自身的积累难以聚集足够的高质量数据。另外,大数据应用的威力,在很多情况下源于对多源数据的综合融合和深度分析,从而获得从不同角度观察、认知事物的全方位视图。而单个系统、组织的数据往往仅包含事物某个片面、局部的信息,因此,只有通过共享开放和数据跨域流通才能建立信息完整的数据集。
然而,另一方面,数据的无序流通与共享,又可能导致隐私保护和数据安全方面的重大风险,必须对其加以规范和限制。例如,鉴于互联网公司频发的、由于对个人数据的不正当使用而导致的隐私安全问题,欧盟制定了“史上最严格的”数据安全管理法规《通用数据保护条例》(General Data Protection Regulation,GDPR),并于2018年5月25日正式生效。《条例》生效后,Facebook和谷歌等互联网企业即被指控强迫用户同意共享个人数据而面临巨额罚款,并被推上舆论的风口浪尖。2020年1月1日,被称为美国“最严厉、最全面的个人隐私保护法案”——《加利福利亚消费者隐私法案》(CCPA)将正式生效。CCPA规定了新的消费者权利,旨在加强消费者隐私权和数据安全保护,涉及企业收集的个人信息的访问、删除和共享,企业负有保护个人信息的责任,消费者控制并拥有其个人信息,这是美国目前最具典型意义的州隐私立法,提高了美国保护隐私的标准。在这种情况下,过去利用互联网平台中心化搜集用户数据,实现平台化的精准营销的这一典型互联网商业模式将面临重大挑战。
我国在个人信息保护方面也开展了较长时间的工作,针对互联网环境下的个人信息保护,制定了《全国人民代表大会常务委员会关于加强网络信息保护的决定》《电信和互联网用户个人信息保护规定》《全国人民代表大会常务委员会关于维护互联网安全的决定》和《消费者权益保护法》等相关法律文件。特别是2016年11月7日,全国人大常委会通过的《中华人民共和国网络安全法》中明确了对个人信息收集、使用及保护的要求,并规定了个人对其个人信息进行更正或删除的权利。2019年,中央网信办发布了《数据安全管理办法(征求意见稿)》,向社会公开征求意见,明确了个人信息和重要数据的收集、处理、使用和安全监督管理的相关标准和规范。相信这些法律法规将在促进数据的合规使用、保障个人隐私和数据安全等方面发挥不可或缺的重要作用。然而,从体系化、确保一致性、避免碎片化考虑,制订专门的数据安全法、个人信息保护法是必要的。
另一方面,我们也应看到,这些法律法规也将在客观上不可避免地增加数据流通的成本、降低数据综合利用的效率。如何兼顾发展和安全,平衡效率和风险,在保障安全的前提下,不因噎废食,不对大数据价值的挖掘利用造成过分的负面影响,是当前全世界在数据治理中面临的共同课题。
近年来,围绕大数据治理这一主题及其相关问题,国际上已有不少成功的实践和研究探索工作,诸如在国家层面推出的促进数据共享开放、保障数据安全和保护公民隐私的相关政策和法规,针对企业机构的数据管理能力评估和改善,面向数据质量保证的方法与技术,促进数据互操作的技术规范和标准等。然而,考察当前的研究和实践,仍存在三个方面的主要问题。
一是大数据治理概念的使用相对“狭义”,研究和实践大都以企业组织为对象,仅从个体组织的角度考虑大数据治理的相关问题,这与大数据跨界流动的迫切需求存在矛盾,限制了大数据价值的发挥。二是现有研究实践对大数据治理内涵的理解尚未形成共识,不同研究者从流程设计、信息治理和数据管理应用等不同视角,给出了大数据治理的不同定义,共识的形成尚有待时日!三是大数据治理相关的研究实践多条线索并行,关联性、完整性和一致性不足。诸如,国家层面的政策法规和法律制定等较少被纳入大数据治理的视角;数据作为一种资产的地位仍未通过法律法规予以确立,难以进行有效的管理和应用;大数据管理已有不少可用技术与产品,但还缺乏完善的多层级管理体制和高效管理机制;如何有机结合技术与标准,建立良好的大数据共享与开放环境仍需要进一步探索。缺少系统化设计,仅仅在已有的相关体系上进行扩展和延伸,可能会导致数据治理的“碎片化”和一致性缺失等等。
当前,各界已经普遍认识到了大数据治理的重要意义,大数据治理体系建设已经成为大数据发展重点,但仍处在发展的雏形阶段,推进大数据治理体系建设将是未来较长一段时间内需要持续努力的方向。
三是数据规模高速增长,现有技术体系难以满足大数据应用的需求,大数据理论与技术远未成熟,未来信息技术体系将需要颠覆式创新和变革。
近年来,数据规模呈几何级数高速成长。据国际信息技术咨询企业国际数据公司(IDC)的报告,2020年全球数据存储量将达到44ZB(1021),到2030年将达到2500ZB。当前,需要处理的数据量已经大大超过处理能力的上限,从而导致大量数据因无法或来不及处理,而处于未被利用、价值不明的状态,这些数据被称为“暗数据”。据国际商业机器公司(IBM)的研究报告估计,大多数企业仅对其所有数据的1%进行了分析应用。
近年来,大数据获取、存储、管理、处理、分析等相关的技术已有显著进展,但是大数据技术体系尚不完善,大数据基础理论的研究仍处于萌芽期。首先,大数据定义虽已达成初步共识,但许多本质问题仍存在争议,例如:数据驱动与规则驱动的对立统一、“关联”与“因果”的辩证关系、“全数据”的时空相对性、分析模型的可解释性与鲁棒性等;其次,针对特定数据集和特定问题域已有不少专用解决方案,是否有可能形成“通用”或“领域通用”的统一技术体系,仍有待未来的技术发展给出答案;其三,应用超前于理论和技术发展,数据分析的结论往往缺乏坚实的理论基础,对这些结论的使用仍需保持谨慎态度。
推演信息技术的未来发展趋势,较长时期内仍将保持渐进式发展态势,随技术发展带来的数据处理能力的提升将远远落后于按指数增长模式快速递增的数据体量,数据处理能力与数据资源规模之间的“剪刀差”将随时间持续扩大,大数据现象将长期存在。在此背景下,大数据现象倒逼技术变革,将使得信息技术体系进行一次重构,这也带来了颠覆式发展的机遇。例如,计算机体系结构以数据为中心的宏观走向和存算一体的微观走向,软件定义方法论的广泛采用,云边端融合的新型计算模式等;网络通信向宽带、移动、泛在发展,海量数据的快速传输和汇聚带来的网络的Pb/s级带宽需求,千亿级设备联网带来的Gb/s级高密度泛在移动接入需求;大数据的时空复杂度亟需在表示、组织、处理和分析等方面的基础性原理性突破,高性能、高时效、高吞吐等极端化需求呼唤基础器件的创新和变革;软硬件开源开放趋势导致产业发展生态的重构;等等。
三、大数据与数字经济
大数据是信息技术发展的必然产物,更是信息化进程的新阶段,其发展推动了数字经济的形成与繁荣。信息化已经历了两次高速发展的浪潮,始于上世纪80年代,随个人计算机大规模普及应用所带来的以单机应用为主要特征的数字化(信息化1.0),及始于上世纪90年代中期,随互联网大规模商用进程所推动的以联网应用为主要特征的网络化(信息化2.0)。当前,我们正在进入以数据的深度挖掘和融合应用为主要特征的智能化阶段(信息化3.0)。在“人机物”三元融合的大背景下,以“万物均需互联、一切皆可编程”为目标,数字化、网络化和智能化呈融合发展新态势。
在信息化发展历程中,数字化、网络化和智能化是三条并行不悖的主线。数字化奠定基础,实现数据资源的获取和积累;网络化构建平台,促进数据资源的流通和汇聚;智能化展现能力,通过多源数据的融合分析呈现信息应用的类人智能,帮助人类更好地认知复杂事物和解决问题。
信息化新阶段开启的另一个重要表征是信息技术开始从助力经济发展的辅助工具向引领经济发展的核心引擎转变,进而催生一种新的经济范式—“数字经济”。数字经济是指以数字化知识和信息为关键生产要素、以现代信息网络为重要载体、以信息通信技术的有效使用为效率提升和经济结构优化的重要推动力的一系列经济活动,是以新一代信息技术和产业为依托,继农业经济、工业经济之后的新经济形态。从构成上看,农业经济属单层结构,以农业为主,配合以其他行业,以人力、畜力和自然力为动力,使用手工工具,以家庭为单位自给自足,社会分工不明显,行业间相对独立;工业经济是两层结构,即提供能源动力和行业制造设备的装备制造产业,以及工业化后的各行各业,并形成分工合作的工业体系。数字经济则可分为三个层次:提供核心动能的信息技术及其装备产业、深度信息化的各行各业以及跨行业数据融合应用的数据增值产业。当前,数字经济正处于成型展开期,将进入信息技术引领经济发展的爆发期、黄金期!
从另一个视角来看,如果说过去20多年,互联网高速发展引发了一场社会经济的“革命”,深刻地改变了人类社会,现在可以看到,互联网革命的上半场已经结束。上半场的主要特征是“2C”(面向最终用户),主战场是面向个人提供社交、购物、教育、娱乐等服务,可称为“消费互联网”。而互联网革命的下半场正在开启,其主要特征将是“2B”(面向组织机构),重点在于促进供给侧的深刻变革,互联网应用将面向各行业,特别是制造业,以优化资源配置、提质增效为目标,构建以工业物联为基础和工业大数据为要素的工业互联网。作为互联网发展的新领域,工业互联网是新一代信息技术与生产技术深度融合的产物,它通过人、机、物的深度互联,全要素、全产业链、全价值链的全面链接,推动形成新的工业生产制造和服务体系。当前,新一轮工业革命正在拉开帷幕,在全球范围内不断颠覆传统制造模式、生产组织方式和产业形态,而我国正处于由数量和规模扩张向质量和效益提升转变的关键期,需要抓住历史机遇期,促进新旧动能转换,形成竞争新优势。我国是制造大国和互联网大国,推动工业互联网创新发展具备丰富的应用场景、广阔的市场空间和巨大的推进动力。
数字经济未来发展呈现如下趋势:一是以互联网为核心的新一代信息技术正逐步演化为人类社会经济活动的基础设施,并将对原有的物理基础设施完成深度信息化改造和软件定义,在其支撑下,人类极大地突破了沟通和协作的时空约束,推动平台经济、共享经济等新经济模式快速发展。以平台经济中的零售平台为例,百货大楼在前互联网时代对促进零售业发展起到了重要作用。而从上世纪九十年代中后期开始,伴随互联网的普及,电子商务平台逐渐兴起。与要求供需方必须在同一时空达成交易的百货大楼不同,电子商务平台依托互联网,将遍布全球各个角落的消费者、供货方连接在一起,并聚合物流、支付、信用管理等配套服务,突破了时空约束,大幅减少了中间环节,降低了交易成本,提高了交易效率。按阿里研究院的报告,过去十年间,中国电子商务规模增长了10倍,并呈加速发展趋势。二是各行业工业互联网的构建将促进各种业态围绕信息化主线深度协作、融合,在完成自身提升变革的同时,不断催生新的业态,并使一些传统业态走向消亡。如随着无人驾驶汽车技术的成熟和应用,传统出租车业态将可能面临消亡。其他很多重复性的、对创新创意要求不高的传统行业也将退出历史舞台。2017年10月,《纽约客》杂志报道了剑桥大学两名研究者对未来365种职业被信息技术淘汰的可能性分析,其中电话推销员、打字员、会计等职业高居榜首。三是在信息化理念和政务大数据的支撑下,政府的综合管理服务能力和政务服务的便捷性持续提升,公众积极参与社会治理,形成共策共商共治的良好生态。四是信息技术体系将完成蜕变升华式的重构,释放出远超当前的技术能力,从而使蕴含在大数据中的巨大价值得以充分释放,带来数字经济的爆发式增长。
四、我国大数据发展的态势
党的十八届五中全会将大数据上升为国家战略。回顾过去几年的发展,我国大数据发展可总结为:“进步长足,基础渐厚;喧嚣已逝,理性回归;成果丰硕,短板仍在;势头强劲,前景光明”。
作为人口大国和制造大国,我国数据产生能力巨大,大数据资源极为丰富。随着数字中国建设的推进,各行业的数据资源采集、应用能力不断提升,将会导致更快更多的数据积累。预计到2020年,我国数据总量有望达到8000EB(1018),占全球数据总量的21%,将成为名列前茅的数据资源大国和全球数据中心。
我国互联网大数据领域发展态势良好,市场化程度较高,一些互联网公司建成了具有国际领先水平的大数据存储与处理平台,并在移动支付、网络征信、电子商务等应用领域取得国际先进甚至领先的重要进展。然而,大数据与实体经济融合还远不够,行业大数据应用的广度和深度明显不足,生态系统亟待形成和发展。
随着政务信息化的不断发展,各级政府积累了大量与公众生产生活息息相关的信息系统和数据,并成为最具价值数据的保有者。如何盘活这些数据,更好地支撑政府决策和便民服务,进而引领促进大数据事业发展,是事关全局的关键。2015年9月,国务院发布《促进大数据发展行动纲要》,其中重要任务之一就是“加快政府数据开放共享,推动资源整合,提升治理能力”,并明确了时间节点,2017年跨部门数据资源共享共用格局基本形成;2018年建成政府主导的数据共享开放平台,打通政府部门、企事业单位间的数据壁垒,并在部分领域开展应用试点;2020年实现政府数据集的普遍开放。随后,国务院和国务院办公厅又陆续印发了系列文件,推进政务信息资源共享管理、政务信息系统整合共享、互联网+政务服务试点、政务服务一网一门一次改革等,推进跨层级、跨地域、跨系统、跨部门、跨业务的政务信息系统整合、互联、协同和数据共享,用政务大数据支撑“放管服”改革落地,建设数字政府和智慧政府。目前,我国政务领域的数据开放共享已取得了重要进展和明显效果。例如:浙江省推出的“最多跑一次”改革,是推进供给侧结构性改革、落实“放管服”改革、优化营商环境的重要举措。以衢州市不动产交易为例,通过设立综合窗口再造业务流程,群众由原来跑国土、住建、税务3个窗口8次提交3套材料,变为只跑综合窗口1个窗口1次提交1套材料,效率大幅提高。据有关统计,截至2019年上半年,我国已有82个省级、副省级和地级政府上线了数据开放平台,涉及41.93%的省级行政区、66.67%的副省级城市和18.55%的地级城市。
我国已经具备加快技术创新的良好基础。在科研投入方面,前期通过国家科技计划在大规模集群计算、服务器、处理器芯片、基础软件等方面系统性部署了研发任务,成绩斐然。“十三五”期间在国家重点研发计划中实施了“云计算和大数据”重点专项。当前科技创新2030大数据重大项目正在紧锣密鼓地筹划、部署中。我国在大数据内存计算、协处理芯片、分析方法等方面突破了一些关键技术,特别是打破“信息孤岛”的数据互操作技术和互联网大数据应用技术已处于国际领先水平;在大数据存储、处理方面,研发了一些重要产品,有效地支撑了大数据应用;国内互联网公司推出的大数据平台和服务,处理能力跻身世界前列。
国家大数据战略实施以来,地方政府纷纷响应联动、积极谋划布局。国家发改委组织建设11个国家大数据工程实验室,为大数据领域相关技术创新提供支撑和服务。发改委、工信部、中央网信办联合批复贵州、上海、京津冀、珠三角等8个综合试验区,正在加快建设。各地方政府纷纷出台促进大数据发展的指导政策、发展方案、专项政策和规章制度等,使大数据发展呈蓬勃之势。
然而,我们也必须清醒地认识到我国在大数据方面仍存在一系列亟待补上的短板。
一是大数据治理体系尚待构建。首先,法律法规滞后。目前,我国尚无真正意义上的数据管理法规,只在少数相关法律条文中有涉及到数据管理、数据安全等规范的内容,难以满足快速增长的数据管理需求。其次,共享开放程度低。推动数据资源共享开放,将有利于打通不同部门和系统的壁垒,促进数据流转,形成覆盖全面的大数据资源,为大数据分析应用奠定基础。我国政府机构和公共部门已经掌握巨大的数据资源,但存在“不愿”、“不敢”和“不会”共享开放的问题。例如:在“最多跑一次”改革中,由于技术人员缺乏,政务业务流程优化不足,涉及部门多、链条长,长期以来多头管理、各自为政等问题,导致很多地区、乡镇的综合性窗口难建立、数据难流动、业务系统难协调。同时,由于办事流程不规范,网上办事大厅指南五花八门,以至于同一个县市办理同一项事件,需要的材料、需要集成的数据在各乡镇的政务审批系统里却各有不同,造成群众不能一次性获得准确的相关信息而需要“跑多次”。当前,我国的政务数据共享开放进程,相对于《行动纲要》明确的时间节点,已明显落后,且数据质量堪忧。不少地方的政务数据开放平台,仍然存在标准不统一、数据不完整、不好用甚至不可用等问题。政务数据共享开放意义重大,仍需要坚持不懈地持续推进。此外,在数据共享与开放的实施过程中,各地还存在片面强调数据物理集中的“一刀切”现象,对已有信息化建设投资保护不足,造成新的浪费。第三,安全隐患增多。近年来,数据安全和隐私数据泄露事件频发,凸显大数据发展面临的严峻挑战。在大数据环境下,数据在采集、存储、跨境跨系统流转、利用、交易和销毁等环节的全生命周期过程中,所有权与管理权分离,真假难辨,多系统、多环节的信息隐性留存,导致数据跨境跨系统流转追踪难、控制难,数据确权和可信销毁也更加困难。
二是核心技术薄弱。基础理论与核心技术的落后导致我国信息技术长期存在“空心化”和“低端化”问题,大数据时代需避免此问题在新一轮发展中再次出现。近年来,我国在大数据应用领域取得较大进展,但是基础理论、核心器件和算法、软件等层面,较之美国等技术发达国家仍明显落后。在大数据管理、处理系统与工具方面,我国主要依赖国外开源社区的开源软件,然而,由于我国对国际开源社区的影响力较弱,导致对大数据技术生态缺乏自主可控能力,成为制约我国大数据产业发展和国际化运营的重大隐患。
三是融合应用有待深化。我国大数据与实体经济融合不够深入,主要问题表现在:基础设施配置不到位,数据采集难度大;缺乏有效引导与支撑,实体经济数字化转型缓慢;缺乏自主可控的数据互联共享平台等。当前,工业互联网成为互联网发展的新领域,然而仍存在不少问题:政府热、企业冷,政府时有“项目式”、“运动式”推进,而企业由于没看到直接、快捷的好处,接受度低;设备设施的数字化率和联网率偏低;大多数大企业仍然倾向打造难以与外部系统交互数据的封闭系统,而众多中小企业数字化转型的动力和能力严重不足;国外厂商的设备在我国具有垄断地位,这些企业纷纷推出相应的工业互联网平台,抢占工业领域的大数据基础服务市场。
五、若干思考和建议
最后,我想基于自己在大数据领域的研究实践,汇报若干思考和建议。一家之见,仅供参考。
(一)大力发展行业大数据应用
当前,我国互联网领域的大数据应用市场化程度高、发展较好,但行业应用广度和深度明显不足,生态系统亟待形成和发展。事实上,与实体经济紧密结合的行业大数据应用蕴含了更加巨大的发展潜力和价值。以制造业为例,麦肯锡研究报告称:制造企业在利用大数据技术后,其生产成本能够降低10%—15%。而大数据技术对制造业的影响远非成本这一个方面。利用源于产品生命周期中市场、设计、制造、服务、再利用等各个环节数据,制造业企业可以更加精细、个性化地了解客户需求;建立更加精益化、柔性化、智能化的生产系统;创造包括销售产品、服务、价值等多样的商业模式;并实现从应激式到预防式的工业系统运转管理模式的转变。制造业是国民经济不可或缺的一环,也是一个国家竞争力背后的强大力量支撑。我国制造业位居世界第一,却大而不强。企业创新能力不足,高端和高价值产品欠缺,在国际产业分工中处于中低端,大力推动制造业大数据应用的发展,对产业升级转型至关重要。
当前,我国不同行业领域正在积极推进数字化转型、网络化重构、智能化提升,推动行业大数据应用,也是推进数字中国建设的重要途径和基础。
(二)建立系统全面的大数据治理体系
大数据是数字经济的关键要素,强大的信息技术产业和全面深度信息化赋能的传统行业无疑是数字经济的基础!大数据治理须从营造大数据产业发展环境的视角予以全面、系统化考虑!
我以为,在一国之范围内,大数据治理体系建设涉及国家、行业和组织三个层次,至少包含数据的资产地位确立、管理体制机制、共享与开放、安全与隐私保护等四方面内容,需要从制度法规、标准规范、应用实践和支撑技术等视角多管齐下,提供支撑。
在国家层次,重点是要在法律法规层面明确数据的资产地位,奠定数据确权、流通、交易和保护的基础,制定促进数据共享开放的政策法规和标准规范,促进政务数据和行业数据的融合应用,并且出台数据安全与隐私保护的法律法规,保障国家、组织和个人的数据安全。在行业层次,重点是要在国家相关法律法规框架下,充分考虑本行业中企业的共同利益与长效发展,建立规范行业数据管理的组织机构和数据管控制度,制定行业内数据共享与开放的规则和技术规范,促进行业内数据的共享交换和融合应用。在组织层次,重点是要提升企业对数据全生命期的管理能力,促进企业内部和企业间的数据流通,提升数据变现能力,保障企业自身的数据安全及客户的数据安全和隐私信息。
在数据治理体系建设中,数据共享开放是大数据资源建设的前提,在现阶段重要性尤其突出。在平衡数据共享开放和隐私保护、数据安全的关系时,我以为,还是需要强调应用先行、安全并重的原则。数据共享开放不应被孤立看待,可能需要综合考虑数据的使用场合及数据主体的权益。如,数据集中管理可能带来保管上的安全问题,然而数据融合才能产生价值,一定程度的集中是趋势所在,也更利于建立更强大可靠的保护机制;多源数据的融合可能导致信息泄露,然而在确知风险前,是否需要因其“可能性”而拒绝技术的应用?数据脱敏仍然可能存在隐私泄露的风险,是否允许个体在知情前提下“用隐私换方便”、“用隐私换治疗换健康”?是否允许使用符合当前“标准”、但无法确保未来一定不出现信息泄露的脱敏方法,并对相关应用予以免责?当然,加强兼顾隐私保护、数据安全和数据流动利用的新技术研发,也非常必要。当前,如安全多方计算、同态加密、联邦学习等技术研发,希望允许拥有数据的各方在不向其他组织或个人公开数据中所含敏感信息的情况下,实现数据的融合利用。虽然这些技术尚处于发展的初级阶段,但因其广阔的应用前景而受到普遍关注。
另外,打破信息孤岛、盘活数据存量是当前一项紧迫的任务,而在此过程中,不宜过分强调物理集中,而应将逻辑互联作为打通信息“孤岛”的手段,逻辑互联先行,物理集中跟进。在数据共享体系建设中,需要在一定层级上构建物理分散、逻辑统一、管控可信、标准一致的政务信息资源共享交换体系,在不改变现有信息系统与数据资源的所有权及管理格局的前提下,明晰责权利,即:数据应用部门提需求、数据拥有部门做响应、交换平台管理部门保流转。同时,集约化的政务云建设正成为政府、企业建设新的信息系统的首选方案,如何在新一轮建设热潮中,从规划、立项审批、建设、审计等环节以及方案指导、标准规范和技术支持等方面给予全方位保障,尽可能避免新“孤岛”的产生,也是一项重大挑战。
(三)以开源为基础构建自主可控的大数据产业生态
在大数据时代,软件开源和硬件开放已成为不可逆的趋势,掌控开源生态,已成为国际产业竞争的焦点。建议采用“参与融入、蓄势引领”的开源推进策略,一方面鼓励我国企业积极“参与融入”国际成熟的开源社区,争取话语权;另一方面,也要在建设基于中文的开源社区方面加大投入,汇聚国内软硬件资源和开源人才,打造自主可控开源生态,在学习实践中逐渐成长壮大,伺机实现引领发展。中文开源社区的建设,需要国家在开源相关政策法规和开源基金会制度建立方面给予支持。此外,在开源背景下,对“自主可控”的内涵定义也有待更新,不一定强调硬件设计和软件代码的所有权,更多应体现在对硬件设计方案和软件代码的理解、掌握、改进及应用能力。
(四)积极推动国际合作并筹划布局跨国数据共享机制
2018年11月17日,习近平总书记在APEC工商领导人峰会上发表主旨演讲指出“经济全球化是人类社会发展必经之路”,“各国都是全球合作链条中的一环”。在数字经济快速发展的时代背景下,我国应该积极推动在大数据技术和应用方面的国际合作,建立跨国数据共享机制,与其他国家一起分享数字经济的红利,同时也使我国获得更多发展机遇和更大发展空间,积极促进数字经济下人类利益共同体和命运共同体的构建。当前,我国正在积极推动“一带一路”合作发展。各国在合作的各个领域都将产生大量的数据。建议积极推进跨国的大数据治理合作,在保障数据安全的前提下,促进数据跨境流动,从而形成围绕国家合作各个领域的大数据资源,为数字经济领域的国际合作奠定坚实的基础。“一带一路”沿线大都属发展中国家,无论技术还是经济水平较之发达国家都有明显差距。而数字经济这一新经济形态的成型发展将带给包括中国在内的各发展中国家经济转型发展的历史性机遇期。经济后发国家有机会在新经济的全球垄断性格局形成之前,与发达国家站在同一起跑线上,并且由于没有“路径依赖”所带来的历史包袱,也有可能在新一轮的竞争中占有优势。
(五)未雨绸缪,防范大数据发展可能带来的新风险
大数据发展可能导致一系列新的风险。例如,数据垄断可能导致数据“黑洞”现象。一些企业凭借先发展起来的行业优势,不断获取行业数据,但却“有收无放”,呈现出数据垄断的趋势。这种数据垄断不仅不利于行业的健康发展,而且有可能对国家安全带来冲击和影响。又如,数据和算法可能导致人们对其过分“依赖”及社会“被割裂”等伦理问题。大数据分析算法根据各种数据推测用户的偏好并推荐内容,在带来便利的同时,也导致人们只看到自己“希望看到的”信息,从而使人群被割裂为多个相互之间难以沟通、理解的群体,其可能引发的社会问题将是难以“亡羊补牢”的。
需要看到,以互联网为代表的新一代信息技术所带来的这场社会经济“革命”,在广度、深度和速度上都将是空前的,也会是远远超出我们从工业社会获得的常识和认知、远远超出我们的预期的,适应信息社会的个体素质的养成、满足未来各种新兴业态就业需求的合格劳动者的培养,将是我们面临的巨大挑战!唯有全民提升对大数据的正确认知,具备用大数据思维认识和解决问题的基本素质和能力,才有可能积极防范大数据带来的新风险;唯有加快培养适应未来需求的合格人才,才有可能在数字经济时代形成国家的综合竞争力。
我的汇报结束,谢谢大家!
(主讲人系中国人民解放军军事科学院副院长)
名词解释:
API:应用编程接口(Application Programming Interface)的首字母缩写,是指某软件系统或平台为其他应用软件系统提供的一组函数,通过调用这些函数,其他应用软件系统可以使用此软件系统或平台的部分功能或访问某些数据。
开源平台:“开源”是开放源代码的简称,开源平台是指支持开源社区活动,管理开放源代码,向所有开源社区参与者提供相关服务的软件平台(平台基于互联网构建并通过互联网通过服务)。任何人都可以获得开源软件的源代码并加以修改,并在某个预先约定的开源协议限制范围内发布修改后的新版本。结合上下文,这里的开源平台是指提供大数据管理、处理、分析等方面能力的开源软件的软件平台。
可伸缩的计算体系结构:可伸缩英文为scalable,指一个计算系统的能力和性能随应用负载的增加,通过极少的改动或配置甚至只是简单的硬件资源增加,而保持线性增长的能力,是表征计算系统处理能力的一个重要的设计指标。可伸缩的计算体系结构是计算系统体系结构设计追求的重要指标,软件定义、虚拟化、资源池化等方法和技术常用于可伸缩性的实现。
鲁棒性:鲁棒是英文Robust的音译,也就是健壮的意思,因此鲁棒性也被翻译为健壮性。鲁棒性一般用于描述一个系统在异常或极端情况下仍然可以工作的能力。结合上下文,这里谈及的大数据分析模型的鲁棒性是指在数据存在错误、噪音、缺失,甚至在恶意数据攻击等异常情况下,模型仍然能得到较为准确结论的能力。
数据互操作:数据互操作是指不同信息系统之间可以通过网络连接对彼此的数据进行访问,包括对其他系统数据的读取与写入。数据互操作是实现数据共享的基础。
“全数据”:“全数据”也称“全量数据”,是与“采样数据”相对的概念。传统的数据分析受限于数据采集、存储、处理的成本,一般都仅对问题相关的所有数据进行局部采样,并基于采样获得的部分数据进行分析,得出结论,结论的准确性与采样方法以及对被采样数据的统计假设密切相关。而大数据时代,人们开始提出“全数据”的概念,即,并不采样,而是将与问题相关的所有数据全部输入到分析模型中分析。这种方法避免了因采样而可能带来的误差,但是也增加了计算成本。
云边端融合:云是指云计算中心,边是指边缘计算设备,端是指终端设备。以智能家居为例,智能电视、冰箱、空调等直接与用户交互的设备是“端”,通过互联网连接的异地的云计算平台是“云”,而安装在每个家庭的智能家居中控服务器是“边”。云计算中心具有强大的计算存储能力,一般用于复杂的数据计算处理;终端设备距离最终用户较近,对用户的操作响应快,一般负责与用户进行交互;边缘计算设备介于“云”和“端”之间,负责对端所采集的数据做本地化处理,同时将需要更强大计算能力支持的任务和数据发往云计算中心处理,并将“云”返回的结果提供给端设备。云边端融合是一种“云”、“边”、“端”不同计算设备各司其职,密切协同且优势互补的新型计算模式。
宽带、移动、泛在的网络通信:“宽带”是指通信速率高,海量大数据的高速传输需求推动骨干网络向Pb/s发展;“移动”是指移动通信;“泛在”是指无所不在。宽带、移动、泛在通信是指:未来大量移动终端和物联网设备通过无所不在的接入网络接入主干网并通过高速主干网络进行通信。
安全多方计算:安全多方计算是为解决在保护隐私信息以及没有可信第三方的前提下,一组互不信任的参与方之间的协同计算问题而提出的理论框架。安全多方计算能够同时确保输入的隐私性和计算的正确性,在无可信第三方的前提下通过数学理论保证参与计算的各方成员输入信息不暴露,且同时能够获得准确的运算结果。此项技术的研究尚处于初级阶段。
同态加密:同态加密是一种密码学技术,其核心在于保证:对经过同态加密的数据进行处理(如:运行某种数据分析算法)后得到输出,将这一输出进行解密,其结果与用同一方法(即上述数据分析算法)处理未加密的原始数据得到的输出结果一致。同态加密技术使得数据拥有者可以将数据加密后交给第三方处理,从第三方获得处理结果后,对此结果进行解密便可获得所期望的结果。如此一来,数据拥有者就不必担心因将原始数据交给第三方而存在的隐私泄露风险,同时又能获得第三方提供的数据分析服务。此项技术的研究尚处于初级阶段。
联邦学习:联邦机器学习是一个多组织协同的机器学习框架,使得一个组织在不共享原始数据的情况下,可以利用其他组织数据中所蕴含的信息和知识,建立协同的机器学习模型。此模型比各组织仅利用本组织内部数据而训练的机器学习模型有更高的性能。此项技术的研究尚处于初级阶段。
ZB、EB、Pb/s、Gb/s:在计算机领域,一个二进制位称为一个比特,一般用小写b表示;而8个二进制位称一个字节,用大写B表示。简言之:1B=8b。计算数据量或数据所需存储空间大小时,习惯用字节为单位(用B表示)。1KB=1024B,1MB=1024KB,1GB=1024MB(通常简记为109),1TB=1024GB,1PB=1024TB,1EB=1024PB,1ZB=1024EB。1EB约等于10亿GB,而1ZB约等于1万亿GB。假设一首长为3分钟的歌曲录制成MP3文件(44K/320kbps音质),大小约为8MB,那么1ZB的数据存储空间可存储MP3格式歌曲140万亿多首,如果全部听一遍,需要8亿多年。计算网络传输速率时习惯上用比特每秒为单位(用b/s表示)。1Pb/S和1Gb/S分别代表1秒钟传输的数据是1P(1000万亿)个比特和1G(10亿)个比特。网络速率1Gb/S(此处是小写b)的情况下,下载一个2GB(此处是大写B)的电影,需要16秒;而网络速率1Pb/S的情况下,仅需要0.016毫秒。
编 辑: 王伟
责 编: 王伟
<< 返回首页
相关文章
如何向普通人解释什么是大数据? - 知乎
如何向普通人解释什么是大数据? - 知乎首页知乎知学堂发现等你来答切换模式登录/注册数据挖掘大数据如何通俗易懂地解释一件事如何向普通人解释什么是大数据?关注者152被浏览33,299关注问题写回答邀请回答好问题3 条评论分享16 个回答默认排序亿信华辰已认证账号 关注对于消费者或互联网用户而言,大数据就是尽可能的收集“隐私”信息,进行营销;对于投资人和创业者而言,大数据是个热门的融资标签;对于工程师而言,大数据实际上只有一个意思,就是把一堆乱七八糟的数据进行计算……但其实“大数据”也不是一个非常精确的术语,有些人用它来指代数据本身,通俗的指代大量的数据,而另一些人则用它来指代对数据的分析或从中获得的洞察力更多的关注大数据的功能性作用。那么大数据究竟是什么呢?大数据就是很多数据吗?大数据就是用数据说话吗?大数据就是数据可视化吗?大数据就是数据分析与数据挖掘吗?这些可以说是大数据也可以说不是,因为这些答案并不算全面,也许这些名词还不够通俗易懂,那么小亿今天用更易懂的方式和大家聊聊什么是大数据。 一、大数据的概念尽管要通俗的解释大数据,但还是离不开大数据概念。单纯大数据的概念,是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合,是存储在各种存储介质中的海量的各种形态数据,具有5V特点,即:Volume (大量)、Velocity (高速)、Variety (多样)、Value (价值密度)、Veracity(真实性)。大数据概念的产生就是因为数据量和数据类型急剧增加,以至于原有的数据存储、传输、处理以及管理技术不能胜任,需要全新的技术工具和手段。大数据,顾名思义,“大”该是应有之义,大数据的定义最初与容量有关系。业界有几种对大数据的定义,其中一个共同点就是数据的容量超出了原有的存储、管理和处理能力。适用于大数据的技术,包括大规模并行处理(MPP)数据库,数据挖掘电网,分布式文件系统,分布式数据库,云计算平台,互联网,和可扩展的存储系统。对于“多大容量的数据才算大数据”,大数据的规模并没有具体的标准,仅仅规模大也不能算作大数据。规模大本身也要从两个维度来衡量,一是从时间序列累积大量的数据,二是在深度上更加细化的数据。大数据之“大”,不仅在于其“大容量”,更在于其“大价值”,并已成为除人力、土地、财务、技术之外的另一种重要的资源。似乎这么解释大数据还不够准确,那么我们用一个例子来解释大数据。在网购盛行的时代,“双11”、“618”等促销日总能掀起网购热潮。每个网购消费者都会在淘宝、京东等购物软件上浏览、搜索产品,而这些因为浏览产生的就是数据,所有人的数据集合在一起,数据的量级变得非常大,就变成了大数据;而平台根据这些数据分析每个人的消费偏好,进一步为消费者精准推送感兴趣的产品,从而促进消费者消费。阿里、京东、360等互联网平台接触消费者众多,也因此获得了很多数据。但是正如精准推送一样,不对这些数据进行处理、挖掘就没法产生价值。二、大数据的应用领域数字化时代,大数据无处不在,人人都在谈大数据。大数据和大数据技术也已经被已经被应用到了各个行业,包括金融、汽车、餐饮、电信、能源、体能和娱乐等在内的社会各行各业都已经融入了大数据的印迹。下面我们从大数据的应用领域和行业继续聊聊大数据的概念。1、制造业制造业通常利用工业大数据提升制造业水平,包括产品故障诊断与预测、分析工艺流程、改进生产工艺,优化生产过程能耗、工业供应链分析与优化、生产计划与排程。进一步发挥制造业大数据的优势和作用。2、金融行业大数据在高频交易、社交情绪分析和信贷风险分析三大金融创新领域发挥重大作用。利用大数据对金融行业进行分析和预测,能够对金融行业起到重要作用。3、汽车行业利用大数据和物联网技术的无人驾驶汽车,在不远的未来将走入我们的日常生活。无人驾驶汽车技术是基于海量的大数据,植入ai只能,根据植入的大量数据进行规划路线,并利用云计算技术实时关注路况。4、互联网行业互联网行业将借助于大数据技术,分析客户行为,进行商品推荐和针对性广告投放。例如阿里巴巴、百度搜索、网易云音乐等,都是基于大数据分析用户的喜好,从而为用户投放相应的内容,吸引用户留存。5、餐饮行业餐饮行业能够利用大数据实现餐饮O2O模式,将餐饮搬到线上,激活线下餐饮店的活力,彻底改变传统餐饮经营方式。6、电信行业电信行业能够利用大数据技术实现客户离网分析,及时掌握客户离网倾向,出台客户挽留措施。7、能源行业随着智能电网的发展,电力公司可以掌握海量的用户用电信息,利用大数据技术分析用户用电模式,可以改进电网运行,合理设计电力需求响应系统,确保电网运行安全。8、物流行业物流行业利用大数据优化物流网络,逐步实现“智慧物流”,帮助物流行业建设大数据和云计算网络系统,充分发挥物流数据的作用,提高物流效率,降低物流成本。9、城市管理可以利用大数据实现智能交通、环保监测、城市规划和智能安防。10、生物医学大数据可以帮助我们实现流行病预测、智慧医疗、健康管理,同时还可以帮助我们解读DNA,了解更多的生命奥秘。11、安全领域政府可以利用大数据技术构建起强大的国家安全保障体系,企业可以利用大数据抵御网络攻击,警察可以借助大数据来预防犯罪。12、个人生活大数据还可以应用于个人生活,利用与每个人相关联的“个人大数据”,分析个人生活行为习惯,为其提供更加周到的个性化服务。数据的价值,远远不止于此,大数据对各行各业的渗透,大大推动了社会生产和生活,对于大数据的理解,想必也在这些实际的案例中可见一斑了,大数据未来必将产生重大而深远的影响。三、以实际案例理解大数据说了这么多大数据概念和大数据应用的领域,那么大数据技术在我们的生活中究竟是怎样应用的呢,今天小亿就以亿信华辰开发的数据处理全链路工具亿信ABI为例,为大家举几个例子理解大数据。1、教育行业高校应用陕西中医药大学数据分析平台项目是为学校构建一个可视化、自动化的数据管理平台。可实现统计图、地图应用、多维分析等可视化效果,收获数据价值,辅助校领导决策,驱动学校不断进步。平台以计算机网络为核心技术支撑,以信息资源的充分共享为手段,以校领导便捷办公及决策等为主要目标。同时,数据分析平台项目建设也是学校信息化建设的高级过程,既是对学校数据的全面梳理,更是对学校信息化建设成果的进一步扩展与提升。陕西中医药大学数据分析平台项目,涉及内容包括首页、领导驾驶舱、综合校情、数据简报、信息探索和学生门禁等各项内容。 陕西中医药大学数据分析平台项目建设是将陕西中医药大学数据以各种图表等形式在平台上展示,可直观地掌握学校信息的情况,通过统计不同维度来分析不同的问题。平台为信息资源整合共享奠定基础,为学院教学、科研、管理和服务提供统一、规范、准确、实时的权威数据服务,并为今后的数据挖掘和科学决策提供可靠的依据。2、金融行业银行应用浦银租赁信息中心为更好践行公司“数字赋能、信息融合”的数字化发展规划,结合公司各部门数据类需求规划了数据平台的建设任务,拟依托该平台建设以实现数据应用的统一数据来源、数据质量的集中化管控,以提升公司整体的数据应用水平。基于监管报表生成质量无法得到有效保证、内外部数据的统计分析工作成为日常办公基本需要、各部门对数据服务提出较高要求等问题,浦银租赁大数据服务平台总体设计分为数据分析、监管报送和数据采集三大模块。 浦银租赁大数据服务平台一共建设了183张报表,涵盖日常工作报表、财务报表、监管报送、1104报表、人行报表、总行报表、EAST报表等,满足公司领导、资产部门、财务部等各部门人员多样化的数据分析需求。帮助高管快速掌握公司的运营情况,精细化管理;让业务人员自助拖拽报表,释放实施人员精力,为业务人员提供工作便利,提高工作效率;支持监管报表的填报、审核、上报、汇总等工作,满足监管报表的定时报送要求。3、通信行业企业应用华为在全球的业务高速发展,支撑企业业务发展的IT服务也必须不断提升来提高企业竞争力。IT产品数字化运营,主体自然是IT产品,因产品服务对象不同,运营方向也会不同。企业目前有300+产品,2000+应用,越来越多的产品在寻求数字化运营服务,全产品自动化通用运营服务,显得迫在眉睫。在建设过程中依据已有部分产品个性化运营门户,调研各大产品运营需求,提炼IT产品运营通用指标,拉通产品集成数据,打通三大业务数据源头,建设全产品自动化数据仓库,基于亿信BI建设通用指标主题模型,最终完成通用产品数字化运营服务。 IT产品数字化运营为华为构筑用户全栈数字化运营服务,在推动企业IT数字化转型进程中起着举足轻重的作用。企业IT产品数字化运营,实现数据集成、数据仓库、IT产品数字化运营服务,最终自动化完成IT产品用户、性能体验、质量分析等数字化运营,为300+产品,2000+应用在网运营提供自助、敏捷、开放的运营监控服务,驱动自我管理改进。四、小结大数据技术是指从各种各样类型的巨量数据中,快速获得有价值信息的技术。解决大数据问题的核心是大数据技术。目前所说的"大数据"不仅指数据本身的规模,也包括采集数据的工具、平台和数据分析系统。大数据研发目的是发展大数据技术并将其应用到相关领域,通过解决巨量数据处理问题促进其突破性发展。因此,大数据时代带来的挑战不仅体现在如何处理巨量数据从中获取有价值的信息,也体现在如何加强大数据技术研发,抢占时代发展的前沿,所以理解大数据在当今的时代是非常重要的。关于亿信华辰亿信华辰是中国专业的智能数据产品与服务提供商,一直致力于为政企用户提供从数据采集、存储、治理、分析到智能应用的智能数据全生命周期管理方案,帮助企业实现数据驱动、数据智能,已积累了8000多家用户的服务和客户成功经验,为客户提供数据分析平台、数据治理系统搭建等专业的产品咨询、实施和技术支持服务。欢迎关注公众号:亿信华辰Pro-让数据驱动进步-编辑于 2021-11-30 10:08赞同 1添加评论分享收藏喜欢收起知乎用户很多没有接触过大数据的人,都很难清楚地知道,究竟多大的数据量才可以称之为大数据。那么,根据数据收集的端口,企业端与个人端之间,大数据的数量级别是不同的。先来个彩蛋:本公司目前在招聘一些大数据分析师,我们欢迎所有对数据分析感兴趣的人来试试,符合条件的可以投递简历(可培养!!!)投递方式见下方,更多岗位信息关注本公司公众号,欢迎主动与我们联系。(1、签订正式合同、五险一金;2、须本科及以上学历(优秀者可放宽条件);3、无经验者有项目经理带;4、在京工作一年后要求回当地的工作的,可申请调回当地省会城市的分公司或合作企业工作;5、每日简历投递量非常大,欢迎主动与我们联系!!大数据是什么?多大的数据叫大数据?企业端(B端)据近十万的级别,就可以称为大数据;个人端(C端)的大数据要达到千万级别。收集渠道没有特定要求,PC端、移动端或传统渠道都可以,重点要达到这样数量级的有效数据,形成数据服务即可。很有趣,大家可以看到2B和2C,两类大数据差了两个数量级。有些小公司,数据只有千到万级的规模,但经过收集分析,也能从中有针对性的总结出这一群体的原则,同样能指导企业进行一定程度的用户分析、获取或者是服务工作,但这并不是大数据,而是一般性的数据挖掘。前两天看见别人分享的那个案例,说今年年初有个用50块本金摆地摊卖水果的中年人,他并不懂得大数据,但是他对水果的收成了若指掌:他知道哪个地方下了多少雨,水果的甜度会到多少,哪些地方的消费者会喜欢吃这个甜度的水果。卖到最后卖出了137家门店、4.7亿的年销售额。这确实是一种小的数据挖掘,但并不是数据分析。大数据分析虽然脱胎于此,但大数据面向的是更海量的一个数据,借助了更广义的知识数据库的分析方法。大部分的数据公司的数据来源是海量的,它的收集和分析,并不是局限于个体,而是以一个非常非常广泛的群体为对象展开的。发布于 2023-05-19 15:15赞同添加评论分享收藏喜欢
通俗易懂:什么叫大数据?一文带你看懂大数据核心概念 | 红帽
通俗易懂:什么叫大数据?一文带你看懂大数据核心概念 | 红帽
Skip to content精选链接服务支持控制台开发人员开始试用
全部内容面向客户客户支持文档支持案例订阅管理红帽生态系统目录查找合作伙伴面向合作伙伴合作伙伴门户合作伙伴支持成为合作伙伴试用购买与出售红帽市场红帽商店联系销售代表开始试用学习资源培训和认证面向开发人员混合云学习中心互动实验室学习社区红帽 TV开源社区Ansible面向系统管理员面向架构师Red Hat产品解决方案培训与服务资源合作伙伴关于红帽了解更多平台产品红帽企业 Linux使用灵活、稳定的操作系统支持混合云创新。
红帽 OpenShift用于大规模构建、现代化和部署应用的容器平台。
红帽 Ansible 自动化平台实施企业级自动化的基础。
试用与购买开始试用通过免费试用评估产品。
在线购买在红帽商店选购产品和服务。
与主要云提供商集成使用提供商的承诺支出购买红帽解决方案,包括:
精选云服务快速构建、部署和扩展应用。剩下的都交给我们。AWS 上的红帽 OpenShift 服务红帽 OpenShift AI微软 Azure 红帽 OpenShift查看所有云服务查看所有产品类别应用平台人工智能边缘计算IT 自动化Linux 标准化机构类型汽车行业金融服务医疗保健工业部门媒体娱乐公共部门电信行业客户案例英国陆军阿根廷电力公司 EdenorHCA 医疗保健公司麦格理银行塔塔咨询服务有限公司美国联合包裹服务公司 UPS查看所有成功案例了解服务详情服务咨询服务开放创新实验室技术客户经理服务培训 & 认证全部课程所有认证验证认证技能评估培训订阅服务培训社区红帽院校合作常见问题联系培训专家特色产品红帽系统管理一 (RH124)红帽 OpenShift 管理一 (DO280)红帽认证工程师 (RHCE)了解服务与支持主题AI应用现代化自动化云计算云原生应用容器DevOps边缘计算Linux虚拟化查看所有主题文章什么是云服务?什么是边缘计算?什么是混合云?造云大计,为什么选择红帽?云 VS 边缘,关系与区别是什么?红帽 OpenShift vs. KubernetesAnsible 入门基础教程什么是 Linux 系统?了解更多博客客户成功案例活动和网络研讨会新闻中心播客和视频系列资源库培训和认证浏览资源面向客户我们的合作伙伴红帽生态系统目录查找合作伙伴面向合作伙伴Partner Connect成为合作伙伴培训服务支持访问合作伙伴门户关于红帽公司介绍企业文化社会责任发展模式订阅模式产品支持开源开源承诺我们参与贡献的方式红帽 GitHub公司信息行业分析师关系博客全球办事处新闻中心社区Ansible面向系统管理员面向架构师客户倡导计划进一步了解红帽联系我们面向客户客户支持文档支持案例订阅管理红帽生态系统目录查找合作伙伴面向合作伙伴合作伙伴门户合作伙伴支持成为合作伙伴试用购买与出售红帽市场红帽商店联系销售代表开始试用学习资源培训和认证面向开发人员混合云学习中心互动实验室学习社区红帽 TV开源社区Ansible面向系统管理员面向架构师
推荐
New建议当您浏览 redhat.com 时,我们会向您推荐您可能喜欢的资源。 现在,您可以试试以下内容。所有红帽产品技术话题红帽资源红帽全球峰会服务支持控制台开发人员开始试用联系人选择语言简体中文EnglishFrançaisDeutschItaliano日本語한국어PortuguêsEspañol
联系我们
简体中文
选择语言简体中文EnglishFrançaisDeutschItaliano日本語한국어PortuguêsEspañolRed Hat产品解决方案培训与服务资源合作伙伴关于红帽菜单
搜索
推荐
联系我们
简体中文
登录
产品解决方案培训与服务资源合作伙伴关于红帽联系我们选择语言简体中文EnglishFrançaisDeutschItaliano日本語한국어PortuguêsEspañol
Jump to section
Jump to section
主题
了解大数据
了解大数据
Published 2019年 1月 22日 •%t 分钟阅读复制 URL
对当今企业来说,找到数据的真正价值至关重要。但在我们挖掘数据价值、形成业务洞察之前,我们需要先通过各种相关来源,准确、安全、快速地获取这些数据。该怎么做呢?实现大数据的基础是集成多个数据源,并且能够跨本地和云边界转换工作负载。
什么是大数据?大数据是指对于传统的数据处理方法来说过于庞大或复杂的数据。总的来说,大数据的特征可总结为"3V"——体量(volume)、类型(variety)和速度(velocity)。体量是指数据量极大,类型是指非标准格式范围广,而速度则意味着要快速高效地处理。
为什么大数据很重要?数据只有在可以得到保护、可以处理、可以理解以及可以利用时,才算是具有价值。我们之所以要利用大数据,就是为了提供有助于改善业务的实时信息。实时信息处理是尝试要以一致且无缝的方式为客户创造价值的公司的主要目标之一,也是边缘计算的主要功能之一。通过大数据获得的洞察可帮助您降低成本,提高运维效率,并找到新的方法来增加利润和吸引新客户。
大数据分析与 IT 优化大数据分析是指对所有原始数据和暗数据进行整合,从而让您理解、为您所用的过程。暗数据是组织在正常业务活动中收集的数据,为满足合规性要求,我们必须对暗数据进行存储和保护。人们常常会忽视暗数据,但与其他数据一样,它们也能够生成有价值的洞见,帮助您改善业务。大数据洞察可帮助您避免代价高昂的问题,而不是被动地响应问题。分析数据模式有助于您预测(而不只是猜测)客户的行为和需求,它也能帮您增加收入。为了确保效率,分析软件需要运行于灵活、全面且可信的基础之上。因此,IT 优化就非常关键。您需要确保在技术堆栈发生变化时,仍能继续收集、分析和使用数据。
数据湖、数据沼泽与大数据存储数据湖是一个存储库,可将数据的近似精确副本或精确副本存储在同一位置。在需要一个大型整体存储库来管理其数据的企业中,数据湖已经越来越普遍。与数据库相比,它们的价格也更低。数据湖可让您以原生格式保存大量数据,方便您的顶级分析师在传统数据存储(比如数据仓库)以外,独立于任何记录系统(针对给定数据元素的权威数据源名称),来钻研其细化和分析技能。如果您想要让您最优秀的分析师继续磨练他们的技能并探索分析数据的新方法,那么您就需要一个数据湖。数据湖既需要持续维护,也需要针对数据的访问和使用制定一个计划。如果维护不当,您的数据就可能会沦为一堆垃圾,无法访问、难以操作、价格高昂而且毫无用处。用户无法访问的数据湖,就成了"数据沼泽"。大型企业都会设有多个业务部门(BU),每个都有特殊的数据需求。为了分析,每个业务部门都要竞相争取获得数据和基础架构,这就是对资源的争夺。但数据湖无法解决这个问题。您需要的,是具备数据共享环境的多租户工作负载隔离。那又意味着什么呢?简单而言,在这种解决方案中,通过对数据分析工具进行容器化或虚拟化,您的企业可以只用处理少部分可以在各个业务部门之间共享的副本,而不用在每个业务部门需要访问数据时都制定完整数据副本(通过管理编写脚本来复制数据并使其全部工作来完成)。进一步了解数据存储Icon-Red_Hat-Directional-A-Black-RGB
大数据集成中的 IT 挑战大数据是敏捷集成的一大挑战。如何在保持严格服务水平协议的同时,在多个业务部门之间共享数据?如何从您的数据中获得更多价值?挖掘大数据回报很高,但也很复杂。数据科学家负责分析数据,以获取有助于业务发展的洞察和建议。数据工程师需要在数据管道中识别、组装和管理正确的工具,以便为数据科学家提供最好的支持。最后,在基础架构方面,管理员必须深耕基础架构,以提供即将使用的基本服务。这一系列的工作中,无不伴随着集成、存储容量和 IT 预算缩减等挑战。如果您想寻求集成解决方案,请先思考以下问题:您的数据源是否可靠?您的数据是否真实?您的存储容量是否充足?您基于硬件的存储会不会隔离数据,导致难以查找、访问和管理信息?您的架构能否适应不断发展的数据技术?您有没有充分利用云?您的数据有保护吗?针对大数据您制定了哪些安全性方案?通过集成获得更多数据Icon-Red_Hat-Directional-A-Black-RGB
扩展阅读
文章
了解数据服务
数据服务是若干小型、独立且松散耦合的功能的集合,它们可以改变、整理、分享或计算数据存储卷中所收集和保存的信息。
了解详情Icon-Red_Hat-Directional-A-Black-RGB
文章
什么是云存储?
云存储就是整理存放在某处的数据,只要获得相应权限,所有人都能通过互联网访问这些数据。了解其工作原理。
了解详情Icon-Red_Hat-Directional-A-Black-RGB
文章
为什么选择红帽存储?
了解什么是软件定义存储,如何部署红帽软件定义存储解决方案,从而根据您的需求灵活地管理、存储和共享数据。
了解详情Icon-Red_Hat-Directional-A-Black-RGB
详细了解存储
产品
出色的软件定义存储,可以随着容器的增减,跨环境为数据提供永久的存储位置。
了解更多Icon-Red_Hat-Directional-A-Black-RGB
可大规模扩展的开放式软件定义存储系统,可有效管理 PB 级数据。
了解更多Icon-Red_Hat-Directional-A-Black-RGB
相关文章
了解大数据了解数据服务了解数据存储文件存储、块存储还是对象存储?什么是网络附加存储?
什么是软件定义存储?什么是数据湖?什么是云存储?为什么选择红帽存储?什么是数据管理?
相关资源
继续探索
电子书云原生数据库和数据分析的首要考虑因素电子书简化存储管理电子书构建产品级AI丨ML环境的首要考虑因素电子书超越平台的混合云解决方案'
LinkedInYouTubeFacebookTwitter产品红帽企业 Linux红帽 OpenShift红帽 Ansible 自动化平台云服务 查看所有产品工具培训和认证我的帐户开发者资源客户支持红帽价值计算器红帽生态系统目录查找合作伙伴试用购买与出售产品试用中心红帽市场红帽商店在线购买(日本)控制台沟通联系销售人员联系客户服务联系培训部门社交媒体关于红帽我们是世界领先的企业开源解决方案供应商,提供包括 Linux、云、容器和 Kubernetes。我们致力于提供经过安全强化的解决方案,从核心数据中心到网络边缘,让企业能够更轻松地跨平台和环境运营。选择语言简体中文简体中文EnglishFrançaisDeutschItaliano日本語한국어PortuguêsEspañolRed Hat legal and privacy links关于红帽加入红帽活动全球办事处联系红帽红帽博客多元、平等与包容红帽周边产品红帽全球峰会Red Hat legal and privacy links隐私声明使用条款方针政策概览数字可访问性声明
中国信通院发布《大数据白皮书(2022年)》
中国信通院发布《大数据白皮书(2022年)》
上海外国语大学官方网站
SISU Global
学校主页
Language :ZH
中文
English
导航
首页
认识我们
相关政策
支撑项目
开放交流
更多
中国信通院发布《大数据白皮书(2022年)》
发布者:梁刚健发布时间:2023-01-09浏览次数:4257
原文链接:https://mp.weixin.qq.com/s/K1g0LXENK5d0x7aP4M4FvQ原创 中国信通院 中国信通院CAICT 2022年,全球大数据技术产业与应用创新不断迈向新高度。宏观看,国际方面,美欧、韩日、澳洲通过政策、法案、设立机构等形式,持续深化实施自身大数据战略。国内方面,党中央、国务院再次做出一系列重要部署,我国大数据领域良好的发展态势进一步巩固。微观看,数据存储与计算、数据管理、数据流通、数据应用、数据安全五大核心领域均伴随相关政策、技术、产业、应用的不断演进,发展目标进一步明确和丰富,发展成效不断显现。2023年1月4日,第五届“数据资产管理大会”在线上举办。会上,中国信息通信研究院云计算与大数据研究所所长何宝宏发布了《大数据白皮书(2022年)》并进行了深度解读。白皮书聚焦过去一年来大数据领域不断涌现的新技术、新模式、新业态,分析总结全球和我国大数据发展的总体态势,并重点针对数据存储与计算、数据管理、数据应用、数据流通、数据安全五大核心领域,逐一分析、探讨其发展现状、特征、问题和趋势,最后对我国大数据未来发展进行展望与研判。白皮书核心观点1. 我国大数据产业发展态势好动力足。我国大数据经过多年高速发展,产业规模高速增长,创新能力不断增强,生态体系持续优化,市场前景广受认可,呈现良好发展态势。近一年,我国在政策、人才、资金等方面持续加码,为大数据后续发展注入强劲动力。2. 数据存储与计算领域通过深度优化实现提质增效。经过60余年发展,数据存储与计算领域总体技术框架趋于成熟,在此基础上,以云化、湖仓一体为代表的深度优化理念不断涌现,并逐步应用,为数据存储与计算领域进一步降本提质提供了新范式。3. 数据管理领域在政策引领下规模化落地。2020年来,行业、地方大力推动DCMM贯标评估,通过“以评促建”的方式提升数据管理能力,累计完成近千家企业的评估。各领域企业的数据管理意识和能力不断增强,越来越多的企业开始从顶层统筹规划数据管理工作,我国数据管理能力建设呈现大规模落地态势。4. 数据流通领域流通规范体系加速构建。制度创新方面,党中央、国务院发布以《关于构建数据基础制度 更好发挥数据要素作用的意见》为代表的一系列政策文件,为我国数据流通产业发展提供了重要思路;技术创新方面,数据流通技术提供了“数据可用不可见”“数据可控可计量”的数据服务新范式,为企业安全地获取和利用外部数据提供了技术可能。5. 数据应用领域积极探索数据深层价值的释放路径。由于技术能力不足、前序工作未就绪等因素限制,传统数据应用主要针对的是少量、局部、非实时数据,依赖大量人工决策,导致数据主要释放其浅层价值。当前,国内外各方正积极探索新的数据应用方法论,并在不同行业、不同场景进行滚动式实践,从而释放数据深层价值,目前已取得初步进展。6. 强需求牵引数据安全产业生态飞速发展。2021年来,数据安全体系建设进程明显提速。政策层面,数据安全法律政策逐步细化,政策环境不断完善,为企业数据安全建设提供政策引领;技术层面,数据安全技术产品蓬勃发展,数据安全培训、数据安全评估等方面需求呈现爆炸式增长。白皮书目录一、大数据发展总体态势(一)各国深化推进自身大数据战略(二)我国大数据发展态势好动力足(三)五大核心领域发展方向进一步明确二、数据存储与计算:通过深度优化实现提质增效(一)数据存储与计算发展历久弥新(二)当前数据存储与计算发展呈现三大特点(三)数据存储与计算面临的主要挑战与发展趋势三、数据管理:在政策引领下规模化落地(一)政策驱动行业实践日益成熟(二)当前数据管理发展呈现四大特点(三)数据管理面临的主要挑战与发展趋势四、数据流通:流通规范体系加速构建(一)数据流通发展重心向“规范化”转移(二)当前数据流通发展呈现四大特点(三)数据流通面临的主要挑战与发展趋势五、数据应用:积极探索数据深层价值的释放路径(一)数据应用开始探索第三阶段实践路径(二)当前数据应用发展呈现三大特点(三)数据应用面临的主要挑战与发展趋势六、数据安全:强需求牵引产业生态飞速发展(一)数据安全发展基础不断夯实(二)当前数据安全发展呈现三大特点(三)数据安全面临的主要挑战与发展趋势七、总结与展望更多精彩,敬请阅读解读PPT。1234567891011121314151617版权声明:本白皮书版权属于中国信息通信研究院,并受法律保护。转载、摘编或利用其它方式使用本白皮书文字或者观点的,应注明“来源:中国信息通信研究院”。违反上述声明者,本院将追究其相关法律责任。校 审 | 陈 力、珊 珊编 辑 | 凌 霄
虹口校区
中国上海市大连西路550号(200083)
松江校区
中国上海市文翔路1550号(201620)
© 2020 上海外国语大学 Shanghai Intemational Studies University - SISU|沪ICP备05051495号