首页 计算机审计论文:基于数据挖掘的审计数据分析

计算机审计论文:基于数据挖掘的审计数据分析

举报
开通vip

计算机审计论文:基于数据挖掘的审计数据分析计算机审计论文:基于数据挖掘的审计数据分析 计算机审计论文:基于数据挖掘的审计数据分析 ,摘要, 本文针对计算机审计的现状,提出了基于数据挖掘的审计数据分析流程,以及应用dbscan聚类算法查找审计证据的方法。 ,关键词, 计算机审计;数据挖掘;聚类算法;噪声数据 随着经济和信息技术的不断发展,许多企业开始引入了,,,等系统,这些系统使得企业的众多活动数据可以实时记录,形成了大量有关企业经营管理的数据仓库。从这些海量数据中获取有用的审计数据是目前计算机审计的一个应用。对于审计人员来说,如何从被审计单位的海...

计算机审计论文:基于数据挖掘的审计数据分析
计算机审计论文:基于数据挖掘的审计数据分析 计算机审计论文:基于数据挖掘的审计数据分析 ,摘要, 本文针对计算机审计的现状,提出了基于数据挖掘的审计数据分析流程,以及应用dbscan聚类算法查找审计证据的方法。 ,关键词, 计算机审计;数据挖掘;聚类算法;噪声数据 随着经济和信息技术的不断发展,许多企业开始引入了,,,等系统,这些系统使得企业的众多活动数据可以实时记录,形成了大量有关企业经营管理的数据仓库。从这些海量数据中获取有用的审计数据是目前计算机审计的一个应用。对于审计人员来说,如何从被审计单位的海量数据中找出全面、高质量的审计数据从而找出审计证据是一个难题。本文利用数据挖掘技术对此问题进行了探讨并提出了解决的方法。 数据挖掘(,,,, ,,,,,,)指的是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中提取出隐藏的、不为人知的却潜在有用的信息和知识的过程,,,。事实上,实际应用数据的质量和存储模式对于实施计算机审计并成功获取审计证据非常重要。由于被审单位信息系统软硬件平台的异构性和可能存在的人为故意隐瞒、造假等,为保证计算机审计工作顺利进行和审计结论的正确,对审计数据进行采集时必须对数据进行检查、控制和分析。 ,审计数据采集 审计数据采集指在开展计算机审计时从被审计单位的财务及业务信息系统及其他数据源获得审计所需的电子数据并进行适当的格式转换,,,。一般来说,计算机审计中数据采集的方法主要包括以下几种: (,)利用被审单位信息系统的数据导出功能。大多数的信息管理系统都提供了数据导出的功能,审计人员直接可以利用该功能导出企业财务数据完成数据的采集。 (,)利用通用的数据处理软件完成数据采集。如,ccess、,?, ,erver等都具有较强大的数据导入导出功能和数据转换功能。审计人员可以利用这些软件完成数据的采集。如被审企业原始数据为文本格式可以转换为数据库 关于同志近三年现实表现材料材料类招标技术评分表图表与交易pdf视力表打印pdf用图表说话 pdf 格格式。 (,)利用审计软件完成数据采集。如国家从,,,,年开始建设的“金审工程”就以现场审计实施系统(,,)及审计办公系统(,,)作为计算机辅助审计的工具。别外应用国内的企业财务审计软件、审计数据采集分析软件等都可以完成审计数据的采集。 (,)利用专用程序接口完成数据采集。当被审计单位提供的审计数据的数据结构与已有的审计数据处理软件系统的数据结构差异较大时,可以在审计人员的协助下由专门的程序员开发接口程序,完成数据的采集,但成本相对较高。 , 数据清洗 利用数据挖掘对审计数据进行处理分类时,为了提高分类的准确性、高效性和可伸缩性,必须对数据库进行预处理,包括:数据的清洗、相关性分析、数据转换等。 文献,,,中给出数据清洗的定义为:发现和消除数据中的错误和不一致来提高数据的质量。一般而言,审计数据库中数据采集于异质操作数据库,不可避免存在着数据的错误或不一致等问题,如数据造假、数据重复、数据缺失等错误。根据文献,,,提出的审计数据质量特征,必须要对采集的原始数据进行清洗,即由“脏”变“干净”,提高审计数据质量,这是保证审计结论正确的关键。 数据清洗的一般过程如图,所示。 (,)数据分析:为了清洗出干净的数据,必须对数据进行详尽的分析,包括数据的格式类别等。比如采集来的财务数据的字段类型、宽度、含义等。 (,)模式转换:模式转换主要是指将源数据映射成目标数据模型,如属性的转换,字段的约束条件和数据库中各个数据集之间的映射和转换等。有时需要将多个数据表合并成一个二维表格,有时却要将一个数据表拆分成多个二维表格以便于问题的解决。 (,)数据校验:上一步的模式转换可行否,需要进行评估测试,经过反复分析、 设计 领导形象设计圆作业设计ao工艺污水处理厂设计附属工程施工组织设计清扫机器人结构设计 、计算、分析才能更好地清 洗数据。否则不经过数据校验可能有些错误数据不是很明显,不能被很好地筛选出来。比如模式转换时将一个数据集分解成多个数据表的时候,造成父表的主关键字的值和子表外部关键字的值不一致,从而形成孤立记录,影响审计人员审计证据的正确性,进而影响审计结论的正确性。 (,)数据回流:用“干净”的数据替代原始数据源中的“脏”数据,避免下次数据采集时重做数据的清洗。 有时候数据的清洗需要反复进行,审计人员需要对采集到的电子数据进行多次清洗,这样才能得到高质量的审计数据。 , 数据挖掘实现 经过数据预处理后的审计数据库包含了多个数据集,每个数据集又包含了若干数据记录或者称为元组,如何从这些二维表格数据中挖掘出有意义的审计数据至关重要。本文介绍一种利用聚类算法进行审计数据挖掘的算法。 ,(, 算法概述 ,(,(,聚类算法 所谓聚类就是根据相似性对数据对象进行分组,发现数据的分布特征,使得每个聚类中数据有非常高的相似性而不同聚类中的数据尽可能不同,,,。它同分类的主要区别在于,分类事先知道所依据的数据特征,而聚类是要找到这个数据特征。作为数据挖掘的功能,聚类分析可以作为一个获 取数据分布情况、观察每个类的特征和对特定类进行进一步独立分析的工具;聚类也能够有效处理噪声数据,比如数据库中普遍包含的孤立点、空缺或错误数据等。 聚类分析算法通常有5类,,,:?基于划分的方法,如;,,,,,,;?基于层次的方法,如;,,,和,,,;,;?基于密度的方法,如,,,;,,、,,,,;,、,,,,;,,和,,,,;?基于网格的方法,如,,,,,和,,,,;,,,,,,;?基于模型的方法,如;,,,,,。其中,,,;,,算法具有很好的过滤噪声数据的优点。本文探讨利用,,,;,,算法对审计数据进行处理,找出异常数据,查找出审计证据。 ,(,(, ,,,;,,算法 ,,,;,,算法的基本思想为,,,:对于同一个聚类中的每个对象,在给定的半径,的邻域中包含的对象不能少于某一个给定的最小数目,,,,,,(也称密度)。 为了生存一个聚类,,,,;,,算法首先从数据集,,中选择任意一个对象,,并查找数据集,,中关于半径,的所有邻域对象,如果这个邻域对象的个数小于最小数目,,,,,,,则,为噪声数据;否则,的邻域对象形成一个初始聚类,,,中包含对象,及,直接密度可达的所有对象。然后确定该类中的每一个对象?是否为核心对象,若是,就将?的,—邻域内尚未包含到,的所有对象追加到,中, 并继续判定新追加的对象是否为核心对象,如果是,重复上述追加过程,直到这个聚类不能再扩大为止。然后,,,;,,算法再在数据集,,中另选一个没有被标识为某个聚类或者噪声的对象,重复上面的操作,一直到数据集,,中的所有对象要么被标识为某个聚类、要么被标识为噪声数据为止。 ,,,;,,算法进行聚类的过程就是不断执行数据集查询比较的过程,最后产生的噪声数据就是通常所说的异常数据,对于帮助审计人员进行审计判断非常有效。图,表示了二维平面坐标下的噪声数据和若干聚类。 ,(,数据模式定义 ,(,(,项间的距离 设,,和,,是数据集,,中的任意两条记录即某两个数据项,它们之间的距离定义为: 式中,,,(,,,,,,,),,,(,,,,,,,)表示数据集中两个项,,和,,在二维空间的坐标点,因此,,,表示,,和,,在二维空间坐标的距离。如果,,,大于给定的值,,则表示,,和,,不属于同一个聚类分组。 ,(,(,审计数据预处理 数据挖掘时数据的选择是在二维平面上进行的,首先选 择列(字段或属性),再选择行(记录或元组)。为了能够获得有效的审计证据得出正确的审计结论,有时候必须对源数据集进行数据转换。 因为各个企事业单位的规模不同,财务数据的数量级或者数量单位可能不同,为了得到更加科学可靠的聚类分析结果,需要对财务数据进行预处理,一般进行比例变换。如将,轴定义为某公司某月营业收入与利润总额的比值,将,轴定义为财务费用与净利润的比值,这样处理的数据能更好地反映该企业的实际情况。这里的财务数据预处理都是由用户来定义的,可以根据不同的审计要求和审计目的来定义。 建立一个新的二维表格数据至少包含4个属性项:记录号,,轴数据,,轴数据,标记。其中记录号保持对应源数据集,,中的记录号, ,坐标和,坐标即为经过比例变换后的数值,标记字段初始内容为空。 ,(,算法描述及流程图 给定一个计算机审计数据集,假设具有,个元组或者记录,利用,,,;,,算法思想构造出,个分组(,,,),每个分组代表一个聚类。且,个分组必须满足如下条件: (,)每个分组至少包含,,,,,,个元组。 (,)每个分组中的任意两个元组直接的距离小于等于给定的距离,。 (3)每个元组仅属于一个分组。 图,为实现审计数据挖掘的算法(称为,,,,,;,,)的流程图。 ,(, 聚类算法的实现 算法:审计数据挖掘聚类算法(,,,,,;,,) 输入:根据数据集,,产生的二维表格数据 //至少含有4个字段:,,; 记录号,,, ,坐标数据,,, ,坐标数据,,,, 标记 半径, //度量密度的距离 密度,,,,,, //簇中的数目 输出:噪声数据记录 ,,,,,,,,, ,,,,,;,,(,,,,,,,,,,,,,) ,,, ,,;, ,,;,,, ,, ,,,, ,, ,,,,;, ,,;;,,, ,, ,,,, ,, ,,,,,, ,,,,,, ,,,,, ,,;;,,, //输出标识为噪声的数据 ,,,, ,,, ,,;, ,,;;,,, ,, ,,,, ,, ,,, ,,,,,, ,,,,, ,, ;,,,,,, ,, ,?,,,,(, ,,;;,,, ,, ,,, ,, ,,,, ,,,,, ,, ;,,,,,,) //随机选取没有被标记的记录, ,?,,,,,(,,,,,,,,,,) //找到,关于,的,,,,,,密度可达记录 ,, ,,,,;,,,,(,),,,,,,, , ,, ,,,,,, ,,,,, ,,,, ,?,,,,,(,,,,,,,,,,) ,,;, ,,;;,,, ,, , ,, ,,,,,, ;,,,,,, ,,, ,,;, ,,;;,,, ,, , ,, ??,,, ,,;;,,, ,, ? ,, , ;,,,,, ,,;,,, //?为核心记录 ,?,,,,,(?,,) ,,,,, ,,,,,, ,,,,, ,,,,,, ,,,,, ,,,,,, 在,,,,,;,,算法中,利用,,,,()函数产 生第一个随机记录,,利用,,,,,()函数产生,关于,的,,,,,,密度可达记录。该算法最后的结果和随机产生的第一条记录相关,形成的聚类可能有不同,但得到的噪声数据一致,因此对于审计证据的查找是有效的。 , 结论 数据挖掘技术与海量数据下审计业务的有效结合是未来计算机审计的一个发展方向。本文主要介绍了审计数据的采集、数据的处理转换和数据的挖掘3个方面,并且在数据的挖掘方面采用了基于聚类的,,,;,,算法来快速、准确、高效地输出噪声数据。该算法中涉及的二维平面,,,轴坐标可以根据实际审计需要由审计人员加以定义,因此可以应用到各类审计实践中去。另外,可以将,,,;,,算法扩展到三维空间上,只要再加上一个,轴数据,当然,轴数据也应该是和,,,轴数据相关的一个比例数据,此时聚类的结果将会变成一个不规则球体,从而能够更加容易挖掘出未曾发现的知识,也更加容易发现数据间的潜在联系。 主要参考文献 ,,,,加,,,,,,, ,,,,;,,,,,,, ,(数据挖掘概念与技术,,,.范明,译( 北京:机械工业出版社,,,,,. ,,,陈伟,张金城,,,,,, ?,,(审计数据处理实验中的模拟数据生成系统,,,.计算机工程,,, ,,(19). ,,,王琦峰,胡玲玲( 基于,,的审计数据采集方法 ,,,.计算机系统应用,,,,,(3). ,,,米天胜,张金城( 面向数据的计算机审计中数据质量问题的探讨,,,.审计与经济研究,,,,,(1). ,,,王昊,朱文明( 审计数据质量研究:从审计取证的视角 ,,,.南京大学学报:自然科学版,,,,,(1). ,,,杨磊,李建军,张志军,孙翠娟(谈数据挖掘中常用的聚类算法,,,.中国成人教育,,,,,(4). ,,,胡彩平,秦小麟(一种改进的空间聚类算法 ,,,.模式识别与人工智能,,,,,(3)( ,,,,美,,,,,,,,, , ,,,,,,( 数据挖掘教程 ,,,.郭崇慧,译(北京:清华大学出版社,,,,,. ,,,刘蓉,陈晓红( 基于数据挖掘的移动通信客户消费行为分析,,,.计算机应用与软件,,,,,(2). ,,,,李明华,刘全,刘忠,郗连霞(数据挖掘中聚类算法的新发展 ,,,.计算机应用研究,,,,,(1).
本文档为【计算机审计论文:基于数据挖掘的审计数据分析】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_650122
暂无简介~
格式:doc
大小:100KB
软件:Word
页数:9
分类:生活休闲
上传时间:2017-09-17
浏览量:76