知识链知识获取:技术实现与应用举例

摘要:知识获取是知识链组建的首要目标。文章从技术角度定义了知识链知识获取,介绍了新兴的知识获取技术:数据挖掘、Web挖掘、文本挖掘,并分别结合银行业、电子商务、网络新闻的知识获取案例探讨了三种挖掘技术的应用。

关键词:知识链知识获取 数据挖掘 Web挖掘 文本挖掘

中***分类号: G250.7 文献标识码: A 文章编号: 1003-6938(2012)06-0073-04

1 引言

知识经济和全球化是21世纪的两大特征。企业之间的竞争将主要依靠其聚集、整合和开发各类资源的能力。企业与大学、科研机构、上下游企业甚至竞争对手之间通过知识流动,以实现知识共享和知识创造,这种组织之间的知识流动形成了知识链(Knowledge Chain)[1]。知识链是知识经济时代组织之间合作竞争的新形式,未来的竞争将不再是企业与企业之间的竞争,而是知识链与知识链之间的竞争。

知识链在竞争中取胜的关键在于形成知识优势[2]。一般而言,知识优势的形成路径是从知识获取到知识共享,最后是知识创造。可见,知识获取是知识链知识优势形成的逻辑起点,它使知识链与外部知识网络形成动态沟通,是知识管理活动的基础和前提。通过对近十年知识获取相关文献的梳理后发现,学者对知识获取的研究主要集中在知识管理行为和人工智能技术两个领域。本文从技术角度定义知识链知识获取,集中介绍新兴的知识获取技术:数据挖掘、Web挖掘和文本挖掘,并结合具体的知识获取案例探讨了知识挖掘技术的应用,尝试打通知识管理领域的技术障碍,为我国的知识管理实践提供一个技术解决框架。

2 知识链知识获取技术

知识链知识获取是指将用于问题求解的知识从知识源中抽取出来,并转换成计算机可执行的程序,最终储存到知识链内部的过程。知识链组建的目标就是从外部知识源中获取有用的知识,知识源具有多样性,包括数据库、人类专家、文本文献等。目前尚无通用的知识获取方法,互联网时代的知识获取技术主要是数据挖掘、Web挖掘和文本挖掘。

2.1 数据挖掘技术

数据挖掘(Data Mining)是指从大量随机的、模糊的、未知的数据中提取潜在有用的信息和知识的过程。数据挖掘的目的是从复杂数据中发现相互联系和内在规律,从无知中找出真知,从无序中找出有序,以用于商业分析和科学研究。例如,医学研究成员尝试从成千上万病历中找出某种疾病患者的共同特征,从而为治愈这种疾病提供一些帮助。数据挖掘有一些同名词,如数据开发、知识挖掘、数据采掘等。

相对于传统的数据库查询系统,数据挖掘技术拥有自身明显的优势。首先,数据挖掘不是利用严格的SQL语言来描述,因此可以随机、即时、灵活地使用;其次,数据挖掘过程一般基于统计规律,不一定生成严格的结果集,因此能够对决策提供更优质的信息;最后,数据挖掘不仅可以对数据库原始字段进行查询,还可以在数据的不同层次上进行挖掘。目前正在研制的第四代数据挖掘软件主要特点是将数据挖掘和移动计算相结合,能够挖掘移动系统、嵌入式系统和各类计算设备产生的数据。

数据挖掘质量取决于算法的设计。比较通用的算法包括:主成分分析法、粗糙集法和决策树法。主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。它的任务是使数据阵简化,用较少的变量去解释原来数据中的大部分变异。主成分分析法适用于大样本的量化评估分析。粗糙集法的优势是无需提供任何与问题无关的数据,适合发现数据中隐含的有用规律。粗糙集先通过对条件属性的约简,即从决策表中消去某些列,然后消去重复的行和属性的冗余值,将不精确或不确定的知识用已知的知识库中的知识来(近似)刻画。决策树法则利用一种树形***作为分析工具,用决策点代表决策问题,用方案分枝代表可供选择的方案,用概率分枝代表方案可能出现的各种结果。该方法计算损益值,因此常用于风险分析决策。

2.2 Web挖掘技术

Web挖掘是数据挖掘技术在Web技术中的应用,它是指利用数据挖掘技术在Internet上的资源中发现潜在的、有用的信息或模式。与传统数据挖掘不同,Web挖掘的数据以TB数量计算,既有数位型(整型、实型)、布尔型,又有性质描述数据、分类数据还有Web 特有的数据类型,如 url(网页) 地址、E-mail 地址等,因此很难直接对Web网页上的数据进行挖掘,而必须经过必要的数据处理。典型的Web挖掘处理流程如下[3]:

(1)查找资源:从目标Web文档中寻找数据;(2)信息选择和预处理:从取得的Web资源中剔除无用信息,进行必要的分类整理;(3)模式发现:在同一个站点内部或在多个站点之间自动进行模式发现;(4)模式分析:验证、解释上一步骤产生的模式,该任务可由机器单独自动完成,也可与程序人员交互完成。

根据用户对Web数据的需求程度不同,Web挖掘一般可分为三类,即内容挖掘、结构挖掘和用法挖掘。Web内容挖掘是指从Internet文件(文档、***像、音频、视频等)获取有价值的信息和模式。Web结构挖掘是指从Web站点组织结构和链接关系中推导模式和知识,Google等搜索引擎就是结构挖掘。Web用法挖掘是指登录用户使用记录挖掘,也称访问信息挖掘。

按照自动化程度标准,Leander等人[4](2002)将Web挖掘技术分为人工方式、半自动化和全自动化三种。采用人工挖掘方式的系统主要有:W4F、Informaia、ANDES等,采用自动、半自动化挖掘方式的系统主要有:XWRAP、WIEN、Soft mealy、Stalker等。当前Web挖掘技术在商业领域的应用主要是:(1)获取竞争对手和客户信息;(2)发现用户访问模式;(3)反竞争情报活动。

2.3 文本挖掘技术

随着电脑使用的普及与互联网的发展,非结构化的电子文本文档(如学术论文、新闻文章、电子邮件、公司通告等)数量急剧增长,为了从这些知识源中挖掘有价值的知识,需要用到文本挖掘技术。文本挖掘是数据挖掘的一个新领域,它利用智能算法,并结合文字处理技术,从文本文档中发现和提取隐含的、事先未知的知识。

根据文本挖掘知识对象的种类不同,文本挖掘可以分为关联规则抽取、语义关系挖掘、文本聚类与主题分析、趋势分析四大类。文本挖掘研究中最成熟、应用最广泛的领域是文本聚类,它是指在没有预先定义类别的情况下,自动产生文本分类的过程。文本聚类可以作为发现最近邻文档的有效手段,也可被用于浏览文档集合或组织从搜索引擎返回的文档。

文本挖掘的过程与特定领域中的信息表达模型密切相关,一个典型的文本挖掘过程包括文本集合的预处理(文本数据的选择、清洗、分类、特征提取等)、索引与存储、中间表示分析(聚类、趋势分析、关联规则发现等)、后处理(知识的评价与取舍、知识的解释与知识的可视化表达)等步骤[5]。

目前,中文文本挖掘研究还处在起步阶段。中文文本挖掘主要采用“词袋”法,即提取文本高频词构成特征向量来表达文本特征。“词袋”法没有考虑词在文本(句子)中担当的语法和语义角色,也没有考虑词与词之间的顺序,丢失了大量有用信息,加之汉语中同义词与多义词的普遍存在,更加减弱了高频词向量表达文本特征的可信度[6]。因此,中文文本挖掘研究的重点是中文文本的构成特点与特征提取机制,只有中文文本的分析技术得到突破,才能实现中文文本的深度挖掘。

3 知识链知识获取应用

3.1 数据挖掘技术在银行业的应用

银行信息化发展迅速,信息系统成为银行业业务开展的主要支撑平台。从海量金融数据中抽取有价值的信息,为银行高管正确决策提供依据,是数据挖掘的重要应用领域。国际知名银行如汇丰银行、富士银行和花旗银行都是数据挖掘技术应用的先行者。具体应用主要在以下两个方面:

(1)客户管理。数据挖掘技术可以在客户寻找、客户保留和客户服务优化等银行客户管理周期各阶段提供支持。如银行可以通过分析客户的交易习惯、交易频率和交易额度等数据来判明客户的忠诚度,也可以在客户信息中进行聚类分析找到可盈利目标群。

(2)风险管理。数据挖掘可以应用在信用风险评估上,方式一是构建信用评级模型,对信用卡申请人和贷款申请人的风险进行量化评分;方式二是检测信用卡的异常使用,预防商业欺诈造成的损失。

3.2 Web挖掘技术在电子商务中的应用

知识经济时代,网上交易正改变着人们的商务习惯和商务理念。顾客在Web站点上的注册信息、浏览信息、购物信息都隐藏着自己的商务行为模式,也蕴藏着巨大的商机。合理运用Web挖掘技术,有助于电子商务企业及时获得零售商、合作商、中间商以及竞争对手的信息,有助于发现潜在客户、用户和市场,以实现个性化的市场服务,提高市场竞争力。

Web挖掘在电子商务中的主要方法有统计分析、知识发现、预测模型三种。统计分析是利用大数法则,发现Web数据的规律,并进一步解释这些规律,为管理战略提供依据。通常使用的方法有线性分析和非线性分析、连续回归分析和逻辑回归分析、单变量和多变量分析以及时间序列分析等[8]。知识发现是数据挖掘的高级过程,用于确定数据中有效、新颖、潜在有用、基本可理解的模式的特定过程,例如宾馆酒店通过对消费特别高和特别低的顾客进行偏离模式分析,可以发现一些有趣的消费模式。预测模型假设消费者行为具有重复性和规律性,通过建立模型预测下一个时点消费数量或消费选择。

3.3 文本挖掘技术在网络新闻中的应用

网络新闻具有海量性、即时性、交互性和超文本等特征。网络新闻的文本挖掘,可以实现对新闻资料的自动组织、生成专题,以满足网络用户检索新闻信息的需要。网络新闻文本挖掘的内容主要有三个方面:主题发现与跟踪、热点趋势检测、事件预测规则的发现。

4 结语

运用数据挖掘、Web挖掘和文本挖掘技术,知识链可以从外部知识源获取知识形成自己的知识仓库和知识地***,但是要想赢得知识优势和竞争优势,知识链还必须实现成员之间知识的充分共享,最终通过知识创造保持核心能力。本文主要基于技术层面研究知识链知识获取,未来知识获取发展的趋势将是技术和行为的融合,知识管理者不仅要对信息和人进行管理,更要将信息处理能力和人的创新能力相互结合,以增强组织对环境的适应能力。当前的知识管理系统的研发正在朝着这个方向发展,如IBM开发的Lotus系统和微软公司开发的Share Point Portal Server系统都实现了人、场所、事务的有机关联。

参考文献:

[1]顾新.知识链管理-基于生命周期的组织之间知识链管理框架模型研究[M].成都:四川大学出版社,2008.

[2]张省,顾新.知识链知识优势的形成与评价研究[J].情报资料工作,2012,(3):24-28.

[3]胡洁,彭颖红.企业信息化与知识工程[M].上海:上海交通大学出版社,2009.

[4]Leander A.,Riberio-Neto B.,Silva A.A brief survey of web data extraction tools[J]. SIGMOD Record,2002,31(2):84-93.

[5]谌志群,张国煊.文本挖掘研究进展[J].模式识别与人工智能,2005,18(1):65-74.

[6]谌志群,张国煊.文本挖掘与中文文本挖掘模型研究[J].情报科学,2007,25(7):1046-1051.

[7]李小庆.银行数据挖掘与知识发现技术全景分析[J].华南金融电脑,2010,(11):44-47.

[8]Srivastava J, Cooley R, Deshpande M.Web usage mining:Discovery and application of usage patterns from web data[J].ACM SIGKDD Exploration,2002,(2):76-88.

[9]凌传繁.Web挖掘技术在电子商务中的应用[J].情报杂志,2006,(1):93-95.

[10]阮光册.基于文本挖掘的网络媒体报道研究[J].***书情报工作网刊,2011,(6):24-31.

作者简介:张省(1981-),男,绵阳师范学院法学与社会学院讲师,四川大学工商管理学院博士研究生,研究方向:知识管理;顾新(1968-),男,四川大学工商管理学院教授,研究方向:企业管理、技术经济及管理、教育经济与管理。

知识链知识获取:技术实现与应用举例

转载请注明出处学文网 » 知识链知识获取:技术实现与应用举例

学习

略论三门球运动的规律

阅读(21)

三门球运动是一项新型的球类运动,它最显著的特点就是三方同场角逐。全国众多中小学将该项运动引入体育教学与训练之中,为提高学生的身心健康水平发挥积极的作用。三门球运动作为一种高级的运动项目,有其内在的发展规律,只有遵循和掌握这些规

学习

刘勰的《文心雕龙》赏析

阅读(30)

本文为您介绍刘勰的《文心雕龙》赏析,内容包括刘勰文心雕龙名句赏析,刘勰文心雕龙全文翻译。关键词历史;为情造文;全面总结;创作经验

学习

我们曾经爱过

阅读(24)

本文为您介绍我们曾经爱过,内容包括我们曾经爱过女声版,我们曾经爱过。聚会订在9月10号,既是教师节,又是中秋节,据说同学聚会的一大功能是“拆散一对是一对”。临行前,男友有点紧张地问我:“还记得回家的路吗?”我笑他太紧张:“当然啦,还欠着几

学习

梦想开花作文400字

阅读(26)

本文为您介绍梦想开花作文400字,内容包括梦想开花作文用400字怎样写,梦想开花的作文怎么写。就算是你们不说我也能够想象的到,在那个地方,你们根本就没有想过该如何让他们去后悔,只是觉得在这样的过程当中,你们有着很多的时间去做已将同的一

学习

柔软的时光

阅读(29)

本文为您介绍柔软的时光,内容包括柔软的时光全文免费阅读,一段柔软的时光。我曾经写过一篇叫作《时间的碎片》的文字,在这篇文字里,我把所有时间的碎片都链接成一段完整的时光。人的一生会有各种不同内涵的时光。你有过靠着母亲的甜甜睡去

学习

吃出健康来

阅读(27)

本文为您介绍吃出健康来,内容包括吃出健康来教案,吃出来的健康全集。常言道:“病从口入。”吃得不合理不干净,会招来各种疾病。近30年来,我国经济发展之快,贫穷人口减少之速,震惊全球。饥饿人群几乎消失,大众生活从缺衣少食向营养过剩迅速转变

学习

什么是疾病风险?等

阅读(22)

本文为您介绍什么是疾病风险?等,内容包括疾病风险的特点有哪些,疾病的风险怎么描述。疾病是相对于健康而言的。健康是人们永远的追求和向往,而疾病是健康的大敌。疾病是每个人在生存过程中必然要遭遇的、不可避免的风险,大到肾功能衰竭、

学习

“KWL表格”在小学英语阅读教学中的妙用

阅读(44)

本文为您介绍“KWL表格”在小学英语阅读教学中的妙用,内容包括kwl英语阅读教学策略是谁提出来的,kwl在初中英语阅读教学中的应用。英语新课标要求:英语阅读教学的目标,不仅仅是培养学生的阅读理解能力,英语阅读教学的目标理念必须建立在人

学习

卫生间里的爱情法则

阅读(35)

我当了副处长后,手中的权力直按影响到一些大小老板的财富增长,每天面对的尽是些恭维和笑脸,多少有些飘飘然。这时我正好结婚10年,日子里缺少刺激和感动。

学习

怎样种植杨树

阅读(21)

本文为您介绍怎样种植杨树,内容包括种植杨树最新政策,杨树几月种植最好。一、苗木选择

学习

浅谈统计分析中的误差控制

阅读(45)

本文为您介绍浅谈统计分析中的误差控制,内容包括统计分析如何发现数据中有误差,数据统计中的误差分析。【摘要】本文通过对统计分析流程的介绍,针对不同的阶段容易产生误差的地方进行剖析,合理进行误差控制,减小非系统误差的产生,从而达到对

学习

遵守公司规章制度范文精选

阅读(15)

本文为您介绍遵守公司规章制度范文精选,内容包括遵守公司规章制度语句,公司规章制度格式范本。遵守公司规章制度篇1今天为大家准备了简单的实习单位鉴定意见评语汇编欣赏,希望内容对您有所帮助,具体情况请看全文介绍。

学习

华学生:诚信著春秋 质量兴大业

阅读(31)

华学生,从一支建筑施工队起家,把一个小小的工程处发展成为注册总资本金为1.16亿元,总资产逾3亿元,下辖云南大同建筑集团有限公司文山公司、云南大同建筑集团有限公司昆明公司、云南汇同贸易股份有限公司、文山州华宇房地产开发有限责任公司

学习

浅谈沼气技术

阅读(20)

本文为您介绍浅谈沼气技术,内容包括沼气不产气的原因,家用沼气全套设备。[摘要]在我国传统农业所面临的环境污染、生态破坏等问题日益突出,沼气能源化利用有利于减少农村种植业和养殖业废弃物造成的污染,提高环境质量,是我国生态农业建设的

学习

防雷技术范文精选

阅读(29)

本文为您介绍防雷技术范文精选,内容包括防雷技术试题及答案,防雷的心得体会500。防雷技术篇1摘要:本文首先分析了提高防雷检测覆盖率的措施,然后探讨了防雷技术在智能建筑物中的运用,最后对气象防雷技术未来发展前景以及展望,具有较强的创新

学习

单片机技术论文范文精选

阅读(23)

本文为您介绍单片机技术论文范文精选,内容包括单片机技术论文3000字,单片机论文设计方案概述怎么写。单片机技术论文篇1摘要:本文介绍近年来单片机技术在提供系统可靠性方面所做的努力与发展。提醒用户在单片机选型、单片机应用系统设计

学习

数控技术论文范文精选

阅读(34)

本文为您介绍数控技术论文范文精选,内容包括数控技术论文致谢3篇,数控技术论文3000字总结。数控技术论文篇11.国内外数控系统的发展概况

学习

马克思技术观

阅读(35)

本文为您介绍马克思技术观,内容包括马克思科学实践观,马克思科技观三个阶段。【关键词】马克思/技术观/范畴/本质

学习

技术与艺术之间的关系

阅读(26)

本文为您介绍技术与艺术之间的关系,内容包括技术与艺术的关系结合实例,艺术与技术的关系总结。艺术与技术之间是持续发展着的,有了摄影机和胶片才会产生电影这种艺术形式。摄影机与胶片是电影的物理承载形式,这是先觉条件,是基础,之后才产生

学习

谈绿色向日葵栽培技术

阅读(31)

本文为您介绍谈绿色向日葵栽培技术,内容包括向日葵如何绿色运行,向日葵栽培技术要点。摘要本文浅谈了绿色向日葵的栽培技术。

学习

DNA分子复制过程中的引物相关知识补充

阅读(39)

本文为您介绍DNA分子复制过程中的引物相关知识补充,内容包括rna引物在dna复制过程中的作用是,dna复制引物是dna还是rna。摘要DNA分子复制需要引物,体内DNA分子复制需要RNA作为引物,复制结束后将引物切除,并通过相关酶补齐引物切除后留下的