几十年来,数据管理的本质还是意味着收集、储存和不时的访问。近年来,随着技术的提升企业可以从企业数据中心到云空间和业务边缘(生成、访问和储存)的大数据中提取到关键信息导致这一切都发生了变化。在这个前提下,由于AI和机器学习等现代ji's技术的帮助下数据分析已经成为企业必备功能,在即将到来的2022年,这将显得格外重要。 企业如果需要通过从大部分的非结构化的数据中进行快速解析,来找到可以推动企业决策的信息。那么他们还需要创建一个现代化的数据环境来实现这一目标。 以下是将在2022年脱颖而出的一些数据管理的趋势。 在非结构化差距存在的情况下,数据湖变得更加有条理 企业数据分析有两种方法。首先是从CRM和ERP等业务应用程序中获取数据,并将其导入数据仓库以**给BI工具。现在,这些数据仓库正在迁移到云端,采用Snowflake等技术。由于数据具有一致的架构,这种方法很好理解。 第二种方法是获取任何原始数据并将其直接导入到数据湖中,而无需任何预**。这很吸引人,因为任何类型的数据都可以流入数据湖,这就是Amazon S3成为大规模数据湖的原因。问题是,某些数据比其他数据更容易**。例如,日志文件、基因组学数据、音频、视频、图像文件等不能完全适合数据仓库,因为它们缺乏一致的结构,这意味着很难搜索数据。正因为如此,数据湖最终会成为数据沼泽:搜索、提取和分析所需内容太难了。 现在的大趋势和2022年持续的数据趋势是数据湖房屋的出现,由DataBricks流行起来,用于创建具有半结构化数据的数据湖,这些数据确实具有一定的语义一致性。例如,Excel文件就像一个数据库,即使它不是数据库,因此数据湖房屋利用半结构化数据的一致架构。虽然这适用于.csv文件、Parquet文件和其他半结构化数据,但它仍然不能解决非结构化数据的问题,因为此数据没有明显的通用结构。您需要某种方法来索引和推断非结构化数据的通用结构,以便可以针对数据分析进行优化。这种用于分析的非结构化数据的优化是一个很大的创新领域,特别是因为当今世界上至少有80%的数据是非结构化的。
|