数据自动识别技术主要目标是自动识别和发现工业互联网中
的敏感数据,从而能够更有效地实施敏感数据保护,能够在
数据交换和共享中对数据进行精准安全防护的基础。目前,
数据识别技术广泛应用于工业互联网业务中的各类场景,数
据分类分级、数据安全监测、数据脱敏等技术产品中。传统
的数据识别技术以关键字、字典和正则表达式匹配为主,这
种方法再辅以人工的帮助可以适用于结构化数据的识别。在
工业互联网的大数据场景下,随着数据量的剧增,数据格式
更加丰富多样,传统的数据识别技术对于非结构化数据难以
适用,对于结构化数据也无法满足日益复杂的识别需求。在
此需求驱动下,引入机器学习和自然语言处理等技术,可以
在一定程度上自动生成识别规则,解决上述难题。目前常用
的模型算法包括 HMM 模型、CRF 模型、BiLSTM模型和
BiLSTM-CRF 模型等,但各类模型的运算开销比较大,还
不能满足大规模应用的需要,算法的成熟度以及准确度也有
待提升,智能数据识别技术应用并不广泛。未来,数据识别
技术将倾向于将传统方法与智能化方法结合,兼顾识别覆盖
率、效率与准确率,降低人工参与的比率,逐步向自动化、
智能化不断演进