人的记忆力会随着岁月的流逝而衰退,写作可以弥补记忆的不足,将曾经的人生经历和感悟记录下来,也便于保存一份美好的回忆。大家想知道怎么样才能写一篇比较优质的范文吗?下面是小编帮大家整理的优质范文,仅供参考,大家一起来看看吧。
大数据与会计面试问题篇一
随着大数据概念的火热,数据科学家这一职位应时而出,那么成为数据科学家要满足什么条件?或许我们可以从国外的数据科学家面试问题中得到一些参考,下面是77个关于数据分析或者数据科学家招聘的时候会常会的几个问题,供各位同行参考。
1、你处理过的最大的数据量?你是如何处理他们的?处理的结果。
6、如何设计一个解决抄袭的方案?
7、如何检验一个个人支付账户都多个人使用?
8、点击流数据应该是实时处理?为什么?哪部分应该实时处理?
11、你是如何处理缺少数据的?你推荐使用什么样的处理技术?
12、你最喜欢的编程语言是什么?为什么?
13、对于你喜欢的统计软件告诉你喜欢的与不喜欢的3个理由。
14、sas, r, python, perl语言的区别是?
15、什么是大数据的诅咒?
16、你参与过数据库与数据模型的设计吗?
18、你喜欢td数据库的什么特征?
22、什么是哈希表碰撞攻击?怎么避免?发生的频率是多少?
26、为什么朴素贝叶斯差?你如何使用朴素贝叶斯来改进爬虫检验算法?
27、你处理过白名单吗?主要的规则?(在欺诈或者爬行检验的情况下)
28、什么是星型模型?什么是查询表?
33、普通线性回归模型的缺陷是什么?你知道的其它回归模型吗?
34、你认为叶数小于50的决策树是否比大的好?为什么?
35、保险精算是否是统计学的一个分支?如果不是,为何如何?
36、给出一个不符合高斯分布与不符合对数正态分布的数据案例。给出一个分布非常混乱的数案例。
42、你如何建议一个非参数置信区间?
44、什么是归因分析?如何识别归因与相关系数?举例。
45、如何定义与衡量一个指标的预测能力?
47、如何创建一个关键字分类?
48、什么是僵尸网络?如何进行检测?
50、什么时候自己编号代码比使用数据科学者开发好的软件包更好?
52、什么是概念验证?
53、你主要与什么样的客户共事:内部、外部、销售部门/财务部门/市场部门/it部门的人?有咨询经验吗?与供应商打过交道,包括供应商选择与测试。
55、什么是cron任务?
57、是假阳性好还是假阴性好?
58、你熟悉价格优化、价格弹性、存货管理、竞争智能吗?分别给案例。
59、zillow’s算法是如何工作的?
60、如何检验为了不好的目的还进行的虚假评论或者虚假的fb帐户?
61、你如何创建一个新的匿名数字帐户?
62、你有没有想过自己创业?是什么样的想法?
63、你认为帐号与密码输入的登录框会消失吗?它将会被什么替代?
65、哪位数据科学有你最佩服?从哪开始?
66、你是怎么开始对数据科学感兴趣的?
67、什么是效率曲线?他们的缺陷是什么,你如何克服这些缺陷?
68、什么是推荐引擎?它是如何工作的?
70、你认为怎么才能成为一个好的数据科学家?
71、你认为数据科学家是一个艺术家还是科学家?
73、给出一些在数据科学中“最佳实践的案例”。
75、你知道使用在统计或者计算科学中的“经验法则”吗?或者在商业分析中。
76、你觉得下一个20年最好的5个预测方法是?
首先是这一天,并且是访问百度的日志中的ip取出来,逐个写入到一个大文件中。注意到ip是32位的,最多有个2^32个ip。同样可以采用映射的方法,比如模1000,把整个大文件映射为1000个小文件,再找出每个小文中出现频率最大的ip(可以采用hash_map进行频率统计,然后再找出频率最大的几个)及相应的频率。然后再在这1000个最大的ip中,找出那个频率最大的ip,即为所求。
或者如下阐述(雪域之鹰):假设目前有一千万个记录(这些查询串的重复度比较高,虽然总数是1千万,但如果除去重复后,不超过3百万个。一个查询串的.重复度越高,说明查询它的用户越多,也就是越热门。),请你统计最热门的10个查询串,要求使用的内存不能超过1g。
典型的top k算法,还是在这篇文章里头有所阐述,详情请参见: 算法。
文中,给出的最终算法是:
第二步、借助堆这个数据结构,找出top k,时间复杂度为n‘logk。
即,借助堆结构,我们可以在log量级的时间内查找和调整/移动。因此,维护一个k(该题目中是10)大小的小根堆,然后遍历300万的query,分别和根元素进行对比所以,我们最终的时间复杂度是:o(n) + n'*o(logk),(n为1000万,n’为300万)。ok,更多,详情,请参考原文。
或者:采用trie树,关键字域存该查询串出现的次数,没有出现为0。最后用10个元素的最小推来对出现频率进行排序。
方案:顺序读文件中,对于每个词x,取hash(x)p00,然后按照该值存到5000个小文件(记为x0,x1,...x4999)中。这样每个文件大概是200k左右。
如果其中的有的文件超过了1m大小,还可以按照类似的方法继续往下分,直到分解得到的小文件的大小都不超过1m。
对每个小文件,统计每个文件中出现的词以及相应的频率(可以采用trie树/hash_map等),并取出出现频率最大的100个词(可以用含100个结点的最小堆),并把100个词及相应的频率存入文件,这样又得到了5000个文件。下一步就是把这5000个文件进行归并(类似与归并排序)的过程了。
还是典型的top k算法,解决方案如下:
方案1:
顺序读取10个文件,按照hash(query)的结果将query写入到另外10个文件(记为)中。这样新生成的文件每个的大小大约也1g(假设hash函数是随机的)。
找一台内存在2g左右的机器,依次对用hash_map(query, query_count)来统计每个query出现的次数。利用快速/堆/归并排序按照出现次数进行排序。将排序好的query和对应的query_cout输出到文件中。这样得到了10个排好序的文件(记为)。
对这10个文件进行归并排序(内排序与外排序相结合)。
方案2:
一般query的总量是有限的,只是重复的次数比较多而已,可能对于所有的query,一次性就可以加入到内存了。这样,我们就可以采用trie树/hash_map等直接来统计每个query出现的次数,然后按出现次数做快速/堆/归并排序就可以了。
方案3:
与方案1类似,但在做完hash,分成多个文件后,可以交给多个文件来处理,采用分布式的架构来处理(比如mapreduce),最后再进行合并。
方案1:可以估计每个文件安的大小为5g×64=320g,远远大于内存限制的4g。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。
遍历文件a,对每个url求取hash(url)00,然后根据所取得的值将url分别存储到1000个小文件(记为a0,a1,...,a999)中。这样每个小文件的大约为300m。
遍历文件b,采取和a相同的方式将url分别存储到1000小文件(记为b0,b1,...,b999)。这样处理后,所有可能相同的url都在对应的小文件(a0vsb0,a1vsb1,...,a999vsb999)中,不对应的小文件不可能有相同的url。然后我们只要求出1000对小文件中相同的url即可。
求每对小文件中相同的url时,可以把其中一个小文件的url存储到hash_set中。然后遍历另一个小文件的每个url,看其是否在刚才构建的hash_set中,如果是,那么就是共同的url,存到文件里面就可以了。
方案2:如果允许有一定的错误率,可以使用bloom filter,4g内存大概可以表示340亿bit。将其中一个文件中的url使用bloom filter映射为这340亿bit,然后挨个读取另外一个文件的url,检查是否与bloom filter,如果是,那么该url应该是共同的url(注意会有一定的错误率)。
bloom filter日后会在本blog内详细阐述。
方案1:采用2-bitmap(每个数分配2bit,00表示不存在,01表示出现一次,10表示多次,11无意义)进行,共需内存2^32 * 2 bit=1 gb内存,还可以接受。然后扫描这2.5亿个整数,查看bitmap中相对应位,如果是00变01,01变10,10保持不变。所描完事后,查看bitmap,把对应位是01的整数输出即可。
方案2:也可采用与第1题类似的方法,进行划分小文件的方法。然后在小文件中找出不重复的整数,并排序。然后再进行归并,注意去除重复的元素。
oo,申请512m的内存,一个bit位代表一个unsigned int值。读入40亿个数,设置相应的bit位,读入要查询的数,查看相应bit位是否为1,为1表示存在,为0表示不存在。
dizengrong:
又因为2^32为40亿多,所以给定一个数可能在,也可能不在其中;
这里我们把40亿个数中的每一个用32位的二进制来表示
假设这40亿个数开始放在一个文件中。
然后将这40亿个数分成两类:
1.最高位为0
2.最高位为1
与要查找的数的最高位比较并接着进入相应的文件再查找
再然后把这个文件为又分成两类:
1.次最高位为0
2.次最高位为1
与要查找的数的次最高位比较并接着进入相应的文件再查找。
.......
以此类推,就可以找到了,而且时间复杂度为o(logn),方案2完。
这里,再简单介绍下,位图方法:
使用位图法判断整形数组是否存在重复
判断集合中存在重复是常见编程任务之一,当集合中数据量比较大时我们通常希望少进行几次扫描,这时双重循环法就不可取了。
位图法比较适合于这种情况,它的做法是按照集合中最大元素max创建一个长度为max+1的新数组,然后再次扫描原数组,遇到几就给新数组的第几位置上1,如遇到5就给新数组的第六个元素置1,这样下次再遇到5想置位时发现新数组的第六个元素已经是1了,这说明这次的数据肯定和以前的数据存在着重复。这种给新数组初始化时置零其后置一的做法类似于位图的处理方法故称位图法。它的运算次数最坏的情况为2n。如果已知数组的最大值即能事先给新数组定长的话效率还能提高一倍。
欢迎,有更好的思路,或方法,共同交流。
方案1:先做hash,然后求模映射为小文件,求出每个小文件中重复次数最多的一个,并记录重复次数。然后找出上一步求出的数据中重复次数最多的一个就是所求(具体参考前面的题)。
方案1:上千万或上亿的数据,现在的机器的内存应该能存下。所以考虑采用hash_map/搜索二叉树/红黑树等来进行统计次数。然后就是取出前n个出现次数最多的数据了,可以用第2题提到的堆机制完成。
方案1:这题是考虑时间效率。用trie树统计每个词出现的次数,时间复杂度是o(n*le)(le表示单词的平准长度)。然后是找出出现最频繁的前10个词,可以用堆来实现,前面的题中已经讲到了,时间复杂度是o(n*lg10)。所以总的时间复杂度,是o(n*le)与o(n*lg10)中较大的哪一个。
方案1:在前面的题中,我们已经提到了,用一个含100个元素的最小堆完成。复杂度为o(100w*lg100)。
方案2:采用快速排序的思想,每次分割之后只考虑比轴大的一部分,知道比轴大的一部分在比100多的时候,采用传统排序算法排序,取前100个。复杂度为o(100w*100)。
方案3:采用局部淘汰法。选取前100个元素,并排序,记为序列l。然后一次扫描剩余的元素x,与排好序的100个元素中最小的元素比,如果比这个最小的要大,那么把这个最小的元素删除,并把x利用插入排序的思想,插入到序列l中。依次循环,知道扫描了所有的元素。复杂度为o(100w*100)。
大数据与会计面试问题篇二
;【摘 要】 随着大数据时代的到来,会计信息的获取变得越来越便捷。对于财务会计来说大数据犹如一把双刃剑,在给会计工作人员带来便捷的同时,也给会计的工作带来了新的挑战。本文以大数据的概念及特点为基础,分析大数据时代对会计的管理模式、信息安全等方面带来的影响。
1.相关概念
1.1大数据的概念。大数据本身没有什么概念,只是大量的图片、文字等信息汇集到一起所形成的数据库。是指以多元形式,许多来源搜集而构成的庞大数据组,往往具有实时性。本文将大数据引申为需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。对大数据来说可以不用随机分析法这样的捷径,而是可以对所有数据进行分析处理。
大数据时代下,大数据主要有数据体量巨大、数据类型繁多、价值密度低、处理速度快等特点。大数据正在迅速发展,当下我们的生活被各类数据信息包围着。很多企业高层管理者并没有认识到大数据时代会对会计工作产生何种影响,对于会计工作的职能定位只局限于核算功能,并没有向管理功能方向延伸,也没有针对会计报表中有价值的数据进行挖掘与利用。
1.2会计的概念。会计是以会计凭证为依据,以货币为主要计量单位,以提高经济效益为主要目标,运用专门方法对企业及其他组织的经济活动进行全面、连续、系统地核算和监督,提供会计信息,并随着社会经济的日益发展,逐步开展预测、决策、控制和分析的一种经济管理活动,是经济管理活动的重要组成部分。并向相关会计信息使用者提供符合会计法律法规和规章制度要求的会计信息的一项管理工作。
2.大数据时代对会计的影响
2.1实现财务数据一体化。财务会计具有核算、监督、评价、决策的职能。财务会计人员每天做的最基础的工作就是数据核算。传统的财务会计流程是财务人员根据业务员提交的业务数据进行核算和决算,需要会计经常审核业务部门提出的各项申请。而大数据时代的到来,使得数据来得及时来的准确,财务人员可以对当下的数据进行实时处理,还可以更便捷的获取历史数据,给财务人员提供了一个可以和数据面对面交流的机会。财务人员可以随时接触到业务前端,实时分析,实时挖掘出有效又实用的信息。
在报表分析过程中,也可以利用大数据的不同处理方式,提高数据处理效率,对数据进行多维度展开分析,形成多样化的财务报告。在风险识别、风险分析和风险评价中,还可以利用大数据查找出企业风险,并分析数据特征,评价各种风险对企业实现目标的影响程度,排列风险次序等。
2.2实现财务信息增值,提高财务决策的可靠性。现在大部分的企业在预算分析过程中很多都是依靠初级的、比较简单的数据进行分析,距离专业的财务分析还有一定的距离,所以往往容易导致预算偏离实际。而大数据信息技术可以全面的对企业的各个流程、各个阶段的数据以及企业内外部数据进行全面而系统的分析,可以帮助实现大数据下企业全面预算管理的目标,实现目标分解、预算编制、预算执行与监督,以及预算与绩效管理的有效集成。
通过优化企业内部资源配置,实现客户需求的精准定位,在准确预测市场的情况下生产,基于大数据的财务决策,利用大數据的优势,为企业的决策者提供良好的策略。并且大数据时代提供的数据种类繁多,很多种数据信息可以同时描述同一种事物,在这样的情况下,财务工作者在对同一个方面进行判断的同时,可以收集到更多更有力的数据以支持自己的结论。更多的数据种类和更大的数据量可以帮助发现更多的事实,提高财务决策的可信赖程度。
2.3对会计信息要求更高。大数据时代的到来,其标志是大量的数据和信息的出现,预示着会计工作者对各种各样的信息都应该给予全面关注,这样才能牢牢抓住有效信息。但是由于财务数据来源比较复杂,会计工作者除了需要处理结构化信息以外还需要特别关注非结构化信息。这样就要求会计信息要具有相关性,有用性,保证能够收集到决策有用的财务信息,这样会计工作才能顺利开展。除此之外,会计信息还必须保证准确性,围绕精确而且相关的会计信息进行工作从而做出有效的财务决策。随着会计信息数量的增加,会计信息的处理难度就不断加大,会计工作者加工会计信息的工作量也随之加大,需要反复检查财务数据,才能保证数据的准确性,这就预示着会计人员要花费大量的精力在信息选择上。
2.4财务数据的安全性受到挑战。在大数据时代,人们既享受着数据共享的便捷性,又不得不面临信息安全的问题。尤其对于企业的财务信息来说,记载着企业经营发展和管理决策等诸多重要数据,其安全可靠性、真实完整性对于企业的发展而言意义重大。但是,从当前的会计信息安全管理成效来看,除了一些技术上的漏洞以外,还存在着财务软件选择不佳、管理疏漏、管理人员缺乏信息安全意识等诸多客观因素,可能会导致存储会计信息的计算机系统遭受到病毒甚至是黑客入侵,造成信息外泄,更给那些不法分子盗取会计数据信息提供了可乘之机,对企业发展构成严重威胁。
3.总结
在大数据时代,会计工作的职能定位需要从以往的核算功能向管理功能过渡。会计人员还需要参与到企业发展决策当中,凭借会计数据为最终决策提供参考依据。同时,企业还要加快推进会计信息共享时效,建立起功能全面的信息平台。会计从业人员更要不断提高自身的能力素质,学习与会计相关的先进技术。大数据时代对会计工作的影响是多方面的,既促进会计职能作用的大幅提升,又为企业发展和社会进步提供强大动力。
大数据不仅为反映企业经营情况提供了条件,而且大数据还会成为企业发展的重要优势条件。随着人类社会的不断发展,重视大数据会计的处理和分析可以为企业带来巨大的增值价值,从而适应不断变化的经济环境,实现对企业的有效管理。
【参考文献】
作者简介:姓名:赵心月(1996—),性别:女,籍贯:辽宁省海城市,专业:会计专硕,研究方向:财务管理和会计实务,单位:沈阳理工大学。
第二作者:曾婷
相关热词搜索:;大数据与会计面试问题篇三
1、你处理过的最大的数据量?你是如何处理他们的?处理的结果。
6、如何设计一个解决抄袭的方案?
7、如何检验一个个人支付账户都多个人使用?
8、点击流数据应该是实时处理?为什么?哪部分应该实时处理?
11、你是如何处理缺少数据的?你推荐使用什么样的处理技术?
12、你最喜欢的编程语言是什么?为什么?
13、对于你喜欢的统计软件告诉你喜欢的与不喜欢的3个理由。
14、sas,r,python,perl语言的区别是?
15、什么是大数据的诅咒?
16、你参与过数据库与数据模型的设计吗?
18、你喜欢td数据库的什么特征?
22、什么是哈希表碰撞攻击?怎么避免?发生的频率是多少?
26、为什么朴素贝叶斯差?你如何使用朴素贝叶斯来改进爬虫检验算法?
27、你处理过白名单吗?主要的规则?(在欺诈或者爬行检验的情况下)
28、什么是星型模型?什么是查询表?
33、普通线性回归模型的缺陷是什么?你知道的其它回归模型吗?
34、你认为叶数小于50的决策树是否比大的好?为什么?
35、保险精算是否是统计学的一个分支?如果不是,为何如何?
36、给出一个不符合高斯分布与不符合对数正态分布的数据案例。给出一个分布非常混乱的数案例。
42、你如何建议一个非参数置信区间?
44、什么是归因分析?如何识别归因与相关系数?举例。
45、如何定义与衡量一个指标的预测能力?
47、如何创建一个关键字分类?
48、什么是僵尸网络?如何进行检测?
50、什么时候自己编号代码比使用数据科学者开发好的软件包更好?
52、什么是概念验证?
53、你主要与什么样的客户共事:内部、外部、销售部门/财务部门/市场部门/it部门的人?有咨询经验吗?与供应商打过交道,包括供应商选择与测试。
55、什么是cron任务?
57、是假阳性好还是假阴性好?
58、你熟悉价格优化、价格弹性、存货管理、竞争智能吗?分别给案例。
59、zillow’s算法是如何工作的?
60、如何检验为了不好的目的还进行的虚假评论或者虚假的fb帐户?
61、你如何创建一个新的匿名数字帐户?
62、你有没有想过自己创业?是什么样的想法?
63、你认为帐号与密码输入的登录框会消失吗?它将会被什么替代?
65、哪位数据科学有你最佩服?从哪开始?
66、你是怎么开始对数据科学感兴趣的?
67、什么是效率曲线?他们的缺陷是什么,你如何克服这些缺陷?
68、什么是推荐引擎?它是如何工作的?
70、你认为怎么才能成为一个好的数据科学家?
71、你认为数据科学家是一个艺术家还是科学家?
73、给出一些在数据科学中“最佳实践的案例”。
75、你知道使用在统计或者计算科学中的“经验法则”吗?或者在商业分析中。
76、你觉得下一个20年最好的5个预测方法是?
大数据与会计面试问题篇四
云会计可以让企业将工作重心转移到经营管理上,而将会计信息化的基础建设和软件服务工作外包给互联网企业,这种模式所带来的优势和效率显而易见,将推动企业管理模式的转变和思维模式的转变。与此同时,要在企业中推广云会计的应用,还存在着急需突破的困境,这些困境不但制约云会计服务商的发展壮大,也无法消除企业采纳云会计的种种疑虑。首先是数据标准缺失困境。目前尚没有明确的指导性和约束性文件,云会计服务商只是凭着商业逻辑开发相关的软件并提供硬件基础服务,用户也只是根据自身需要选择相应的服务,至于是否符合未来云会计数据的要求,则无暇顾及。各厂商在开发产品和提供服务的过程中各自为政,为将来不同服务之间的互连互通带来严重障碍。例如,用户将数据托管给某个云会计服务商,一旦该服务商破产,用户能否将数据迁移至另一个云会计服务商?如果用户将数据同时托管给多个云会计服务商,能否便捷地执行跨云的数据访问和数据交换?目前在数据的处理标准方面还没有具体的突破,尤其是在数据汇集以后,如何整理?如何分析?如何访问?是三个密切联系又急需解决的问题。在大数据环境下,数据该如何共享?如何保持一致性?也必须有标准来支撑。另外,数据的质量标准是保证数据在各个环节保持一致的基础,这方面的缺失使数据的应用范围受到极大约束。由于数据标准的缺失,导致云会计的应用及服务标准也难以制定,如何对不同云会计服务商提供的服务进行统一的计量计费?如何定义和评价服务质量?如何对服务进行统一的部署?这些问题也使得云会计的普及举步维艰。其次是安全问题困境。云会计的安全不仅涉及当事企业,也与许多第三方企业的利益息息相关,这个问题解决得好,可以极大地促进云会计的发展,否则将使涉事企业面临经济、信用等多方面的巨大损失。一是存储方面的安全问题,云会计的存储技术运用虚拟化及分布式方法,用户并不知道数据的存储位置,云会计服务商的权限可能比用户还要高,因此云会计的数据在云中存储时,如果存储技术不完善,那么会计信息面临严重的安全隐患。二是传输方面的安全问题,传统的会计数据在内部传输时,加密方法一般比较简单,但传输到云会计服务商的云端时,可能被不法用户截取或篡改,甚至删除,将导致重大的损失。
要解决云会计中的数据标准困境,必须厘清数据标准的制定原则和制定思路,才能推动云会计的健康发展。
(一)数据标准的制定原则
云会计的最大特点是数据海量、数据互通、数据复杂等不同于以往会计信息系统中的结构化数据格式,是一种大数据的表现形式。标准化的云会计数据不但有助于解决“信息孤岛”问题,更可以大大降低数据的使用成本、软件的兼容成本等。在制定标准化数据过程中,要树立高效性、可用性、经济性三者互相协调的观念,既要反对简单沿用他国标准的做法,也要摒弃完全定制化的观念,要坚持可持续、可协同的标准化思路。高效性是指云会计的数据标准要使得产出投入比最大化,如系统方面的投入与系统运算能力是否协调,存储空间的效率是否高效,数据中心的能源消耗是否最小化,设备的维护成本是否最低等;云会计的高效性直接影响到云会计服务商与企业用户的可持续发展,否则许多投入成本可能会演化为沉没成本。可用性是指云会计的数据标准不仅使云会计服务商能够满足用户当前的需求,而且能够不断升级,满足用户的未来需求。可用性越好,那么在发生业务变动时,系统的迁移性越好,即使在发生系统故障时,恢复时间也能最短化。经济性要考虑全周期的成本,如标准建设的成本、标准应用的成本等,另外一个值得注意的是用户的学习成本,虽然它不一定直接与用户的经济成本挂钩,但会影响到用户使用系统的积极性,一个难以掌握、难以使用的标准终究会遭到用户的抛弃,没有长久的生命力。
(二)数据标准的制定思路
鉴于以上所阐述的数据标准的制定原则,建议按照“官方引导,协同制定,继承扩展”的思路来制定数据标准。云会计的数据标准不仅是个别企业的标准,而且关系到所有企业能否相互交换、相互沟通的基础性工作。单纯由官方(协会或政府)统一进行设计,再把标准无偿地开放给社会使用,其优点是工作效率高、设计成本低,但标准并非直接来源于会计工作的实际情况,标准的客观性略差,可行性较低。单纯由民间设计,企业按照实际会计工作需要自主制定,再以某种收费或免费的方式向其他企业开放,其优点是标准相对客观,可行性较高,但整体的社会成本较高,推进速度慢、公信力差。这两种方式均难以克服固有的缺点,因此最好的方式是将官方的公信力和民间的积极性相结合,协调各方资源,协同制定数据标准,以公共产品的形式免费供给各企业使用。为了推动我国会计信息化的蓬勃发展,我国早在2004年就制定并发布了《信息技术会计核算软件数据接口》(gb/t19581-2004)国家标准。于2010年6月又发布了更新版的《财经信息技术会计核算软件数据接口》(gb/t24589-2010)系列国家标准。随着国际上以xbrl(可扩展商业报告语言,extensiblebusinessreportinglanguage)为基础的会计数据标准的诞生,我国于2010年10月发布了《可扩展商业报告语言(xbrl)技术规范》(gb/t25500.1-2010)系列国家标准和《企业会计准则通用分类标准》。由此可见,我国在会计数据标准的制定和应用方面始终走在国际的前沿,尤其是gb/t24589-2010系列标准,不仅包括了会计科目、会计账簿、记账凭证、会计报表,还涵盖了应收应付、固定资产等内容,填补了国内标准化方面的空白,即使在国际上也处于领先的地位。因此此类标准既具有社会意义,也具有经济意义;既推动国内会计事业的发展,也能助力国际会计事业的发展。因此,建议对该标准的实际应用情况进行跟踪研究,确切了解标准的应用效果和应用质量等,收集企业的`反馈意见,发展并完善,结合云会计的特点,制定新版的标准,在国内推广的同时,也将其贡献给世界标准化组织,为其他国家或世界性组织提供参考。
(三)制定数据标准的具体建议
大数据环境下,为了使云会计真正高效、廉价地为企业服务,使云会计的有关应用早日落到实处,本文尝试提出制定数据标准的若干建议。基础性标准。基础性标准是原则性的、指导性的,为整体的标准体系提供总则规范、专用术语及参考架构等,目的是为建立庞大的标准体系打下基础,起到统一、规范的作用,并为将来的标准建设提出原则性指导意见。数据的处理标准。数据的处理包含了数据整理、数据分析和数据访问三个部分,相应地就要制定数据整理标准、数据分析标准、数据访问标准。数据整理标准是指在数据采集汇聚后,初步的处理方式和方法,细分后又包含数据表示、数据注册和数据清理三类标准。数据分析标准主要针对大数据环境下数据分析的性能、功能等提出具体指标,并进行规范。数据访问标准则要求制定标准化的接口及共享方式,最大化地扩大数据的应用范围。数据的质量标准。数据的质量标准针对数据质量提出具体的管理要求和指标要求,确保数据的质量,使其在产生、存储、交换和使用等各个环节中保持一致,并对数据全生命周期进行规范化管理,一般应该包括元数据质量标准、质量评价标准和数据溯源标准三类。应用及服务标准。应用及服务标准主要是针对大数据提供的应用和服务,在技术、功能、开发、维护和管理等方面进行规范,主要包括开放数据集和数据服务平台两类标准。其中开放数据集标准是为了向第三方开放数据而制定的规范标准,数据服务平台标准是对大数据服务平台所提出的功能性、维护性和管理性标准。
云会计的应用使得用户与会计信息的物理存储位置产生空间上的分离,在通过互联网传输、储存和使用数据、信息的过程中,安全问题成为企业关注的一个重点,云会计服务商必须构建完善的安全管理机制,并随着技术的发展不断改善,才能保证企业获得安全的云会计服务。云会计的安全问题首先体现在会计信息的传输阶段。在企业内部传输时,在适当的物理措施和制度保证基础上,通过简单的加密就可以保证信息的安全。但会计信息一旦要传输至云中时,那么会计信息的安全性就受制于云会计服务商。由于云会计的信息传输载体是互联网,传输过程中信息可能被非法截留,甚至被篡改。第二个问题体现在会计信息的存储方面。云会计的应用可以使企业便捷地获得并处理会计信息,但云会计采用了虚拟化的分布式方法,用户并不清楚会计信息的存储位置,不法分子可能会对云端的会计信息发起攻击,盗取或篡改其中的信息。第三个问题体现在会计信息的使用阶段。作为商业机密,会计信息的使用对象一般是与财务密切相关的工作人员或企业管理人员,在日常工作中,保密不周、人机分离、密码过于简单、角色划分错乱、权限错配等都会使会计信息泄露出去。建议从以下包含技术手段及管理手段的七个方面展开工作,解决云会计的安全问题。
(一)研发云会计的大数据水印技术
以往为了加强对多媒体数据的版权保护,数字水印曾经是一种主要的加密手段,在不影响使用的前提下,将标识信息以隐蔽的方式插入到多媒体数据载体的内部。但云会计中的大数据具有无序性、动态性等特点,在其中插入水印要非常谨慎,其前提是会计大数据中存在冗余信息。可以将少量水印信息嵌入到会计大数据的冗余信息位置上,既可以识别出大数据的所有者及使用对象,也有利于追踪分布式环境下的泄密者。
(二)研发会计大数据的溯源技术
由于云会计数据的来源繁杂多样,有必要记录这些数据的来源以及传播和计算过程,可以采用数据库领域的数据溯源技术,通过标记法对数据进行标记,记录数据在云端的查询与传播历史。数据溯源技术应用于云会计中还需要解决以下两个问题:(1)数据溯源是否危及隐私保护。数据溯源要分析会计大数据的来源,而数据来源本身就是非常敏感的隐私数据,这样的溯源可能无法获得用户的谅解。(2)数据溯源的自身安全保护,当前大多数大数据溯源技术并未充分考虑安全问题,如标记本身是否正确、标记与数据之间是否绑定等,而大数据的高速性、大规模、多样性等特点使之更难解决。
(三)加强用户身份及会计云身份的认证
在云会计的应用中,除了对用户身份的认证外,还必须设置对会计云的身份认证,只有这种双向认证得到有效落实,云中的数据才能被安全地合法访问。首先,会计云是一个海量的分布式系统,拥有庞大的用户群体,具有动态性和跨区域的特点,很难对违法数据进行跟踪和管制。如果云会计服务商不能对用户进行严格的认证,就会给恶意攻击者留下可乘之机。因此无论用户在何处登录,云会计服务商和应用程序都要验证用户的合法身份。其次,为达到欺诈目的而在互联网上驻留的“黑会计云”也将不断涌现,用户可能遭到恶意软件的攻击,也可能会被网络钓鱼。因此用户在使用会计云之前,必须对会计云的身份进行验证。为了达到用户与会计云的双向认证,必须建立跨云认证模型,实现用户与会计云之间安全且高效的互相认证,确保双方的数据安全。
(四)制定用户可验证的数据存储方案
用户把自身的数据存储在云中,就必须依赖云会计服务商确保数据的安全性,但在外包服务的商业模式下,云会计服务商的可信度难以评估,很难让用户相信自己的数据被云会计服务商正确地存储、处理,为此云会计服务商必须制定用户可验证的数据存储方案。云会计服务商可以建立一种动态化更新及开放式验证的数据完整性核查方案,确保数据的完整性及可恢复性,使用户随时可以知晓存储在云中的数据的正确性,即使在数据遭到一定程度的损坏时,也能从会计云中取回全部数据。在此基础上,拟订数据泄露的问责方案,使用户在怀疑数据遭到泄露时,可以核查甚至追究云会计服务商的相应责任。
(五)设置动态数据的安全保护机制
在功能日益复杂的情况下,云会计的应用程序也不断大型化,云会计服务商的安全保护经验和技术水平也参差不齐,为用户提供的应用程序肯定会存在各种安全漏洞。在云会计为多个用户提供服务的环境下,一个相同的服务进程要处理多个用户的数据,如果应用程序存在安全漏洞,那么个别的恶意用户就有机会盗用其他用户的权限,窃取数据和商业机密,所以应该设置防止非法用户恶意操作的动态化数据安全保护机制。可以对数据流进行分散控制,一方面对数据进行细粒度标记;另一方面基于数据流策略对数据的流向进行约束,从而实现在相同的服务进程中对不同的用户数据进行隔离,达到保护数据的目的。
(六)建设可信的会计云计算平台
在云会计环境下,用户将数据及计算全部托管到云端,不仅无法对自身的数据进行控制,更无法对云会计服务商的计算过程进行监督,为了达到用户对云会计信任的目的,云会计服务商必须通过一整套安全技术手段,建设用户可以远程监督的云会计计算平台,从而提高用户的信任度。可以通过建设虚拟的可信云会计计算平台,为数据存储及会计核算中的所有数据提供可信的运行环境。
(七)建设管理、心理、法律三个安全软屏障
除了上述各种技术手段保障云会计的安全外,还应该从管理、心理、法律三个方面建设安全软屏障,从而达到“软硬结合”的境界,全方位保障云会计的健康运行。
1.管理软屏障。
作为高端的会计信息化系统,云会计的安全保障离不开“三分技术,七分管理”,对物理设备和从业人员进行严格管理。对物理设备既要做好外围隔离工作,也要在移动和更换过程中严格控制。对从业人员建立严格的身份控制和权限划分,不同级别的从业人员只能访问权限内的数据。经常更换用户名和密码,对数据访问行为进行严格记录。云会计服务商不能获取用户的会计数据,只能操作工作权限内的数据。
2.心理软屏障。
利用各种宣传手段对用户和管理人员进行软约束,使其了解云会计的安全特点和自身应该严守的工作规范,避免由于误操作和恶意操作给云会计带来各种威胁。
3.法律软屏障。
云会计的安全需要法律作为后盾,对云会计服务商及其他责任主体的行为进行约束和规范,确保云会计安全的技术手段和各种软屏障手段得到严格执行,从而保障云会计的隐私和数据使用权不被误用。
作者:姚如佳单位:东华大学管理学院

一键复制