一种基于压缩数据直接计算的大数据处理方法 (专利授权号:CN202110301350.1)
中国人民大学理工处V6 ( 中国人民大学 )
技术摘要
本发明涉及一种基于压缩数据直接计算的大数据处理方法,其特征在于,包括以下步骤:1)基于改进的Sequitur压缩方法,按用户给定粒度对原始输入数据进行压缩,并转换为由数字构成的DAG图;2)确定最优遍历方式,并基于确定的最优遍历方式对步骤1)中的DAG图进行自上而下或自下而上的遍历,实现对压缩数据的直接处理。本发明通过设置改进的Sequitur算法以及自上而下和自下而上的建立策略,实现了对压缩数据的直接处理,且在时间与空间上有显著的提升,适用性强,且对于更高级的文档分析,同样可以在此基础上派生出一些表示,可以广泛应用于大数据处理领域。
技术说明
本发明涉及一种基于压缩数据直接计算的大数据处理方法,其特征在于,包括以下步骤:1)基于改进的Sequitur压缩方法,按用户给定粒度对原始输入数据进行压缩,并转换为由数字构成的DAG图;2)确定最优遍历方式,并基于确定的最优遍历方式对步骤1)中的DAG图进行自上而下或自下而上的遍历,实现对压缩数据的直接处理。本发明通过设置改进的Sequitur算法以及自上而下和自下而上的建立策略,实现了对压缩数据的直接处理,且在时间与空间上有显著的提升,适用性强,且对于更高级的文档分析,同样可以在此基础上派生出一些表示,可以广泛应用于大数据处理领域。
成熟度
通过小试
技术来源
中国人民大学