数据要素化条件之二:机读性
机读性是伴随计算机应用而产生的。如同人通过各种语言,按照一定的语法规律来表达某种含义,反映客观规律一样,计算机也需要特定的数据格式。因而,机读数据就是具备计算机等智能设备可以自动读取和处理的特定格式的数据。机器可读格式则是指结构化的文档格式(包括个别事实陈述及其内部结构),以便软件应用程序可以轻松识别和提取特定数据。只有在数据具备机读性的前提下,才可以进行数据点(Data Points)的识别和提取,进而可以组合并存储在特定位置以供进一步处理。
数据的机读性条件体现在其格式语言的结构化上。人类所创造的各种文明均系以人可识读和理解的形式来表达和传播的,当人类使用各种符号来记录某种事实,表达某种思想时,均构成了人可识读的数据,即信息或者知识。人借助大脑来理解数据之含义或意义,只要有人可识读的文字、图表或图形等具象表达,就不需要专门的设备或装置,人类就可以直接理解、分析和应用相应的数据。从这个角度来说,人类可识读的数据被认为是非标准化、非结构化的语义学意义上的信息,而机器可读数据必须是结构化数据。为了让机器读取数据,数据必须遵循机器可以理解的格式语言呈现,如CSV、JSON、XML等。遵循这些格式语言使数据以结构化方式呈现,使机器可读和可处理。机读数据一定是数字化的,但数字化的数据并不一定是可机读的。例如文本的数字化扫描件不是机器可读的(但人类可读),因为它是非结构化的数据。
这意味着当人类进入数据智能阶段,当有效的知识产生方式转变为机读数据支撑的数据智能时,具有价值的数据是那些能够支撑算法、机器学习等智能分析手段应用的原始数据。如果将数据的价值定位于知识生产或支撑决策或行动,那么成为生产要素的数据必须具备可机读性。因为只有可机读数据才能支撑机器学习,支撑新的知识生产方式。具有可机读性的数据可以大致分为两类:一类是来源于人可识别的数据,包括人类文明长河中积累的所有事实信息和知识,经过结构化处理之后,转化为机读数据。另一类是由计算机、应用程序或服务,或由传感器处理从设备、软件或机器(无论是虚拟的还是真实的)接收到的信息而产生的数据,它们并不需要人的直接干预。万物互联的网络环境下,这些数据经初步处理后即成为可机读的数据,主要以机器处理的数据文件格式存在,成为支撑数据智能的主要“原材料”。
在这两类数据中,机器生产的机读数据一直是支撑数据智能的主体,也是本文始终突出的研究重点。一方面这是因为机器生产的数据不仅数量巨大,样本齐全,而且均可以关联到特定对象,成为对客观世界最真实的全样本记录。这是人类利用自己进行观察和测量所无法比拟的。网络、传感器和智能设备则可以全天候、全样本、真实地记录客观世界。从客观世界中采集的看似杂乱无章的数据可以通过汇集处理,洞察出关于客观对象的内在规律,从而提炼或形成新的认知或知识。另一方面,机读数据的机读性使它不仅可以借助计算机高效处理信息,而且可以自主学习和自动聚合,成为机器学习与人工智能技术的基础。机读性的数据可以通过自动聚合器(Automatic Syndication Feeds)轻松分享数据。用户只要有一个合适的软件应用程序来接受聚合,就可以获取或接收到所要数据,并进行计算分析。机读数据的独特性在于可重复利用,而且可以在不断地结合、汇集和演算分析中产生新的价值,而且这个过程并不会终止,可以不断演进下去。这就使得机器像人类一样的自主学习成为可能,这是高级人工智能的本质也是实现数据特殊应用价值的基本途径。