当前位置: 首页 > >

基于贝叶斯分类器的重大危险源辨识

发布时间:

第 47 卷

第 4期

吉林 大学学报 ( 理学版 ) Journal o f Jilin Un iv ers ity ( Sc ience Edition)

V o.l 47 N o . 4 Ju ly 2009

2009 年 7 月

基于贝叶斯分类器的重大危险源辨识
董立岩, 李 真, 阎鹏飞
( 吉林大学 计算机科学与技术学院 , 长春 130012)

摘要: 针对应急领域重大危险源的识别问题 , 提出一种新的识别模型 : 基于贝叶斯分类器的 重大危险源识别模型. 先利用已知知识建立模型, 再根据建立的模型运用概率判断新的识别 对象是否为重大危险源 . 分别将识别模型应用于化工产品生成领域和森林防火领域 , 实验结 果与实际情况相符, 表明该模型效果较好. 关键词 : 贝叶斯分类器; 数据挖掘 ; 重大危险源辨识; 应急预案 中图分类号 : TP399 文献标识码 : A 文章编号: 1671 5489( 2009) 04 0800 05

Identification ofM ajor Hazards Based on Bayesian C lassifier
DONG L i yan , L I Zhen , YAN P eng fe i
(C ollege of C o mpu ter S cience and T echnology, J ilin University, Changchun 130012 , Ch ina)

Ab strac: t In v iew o f the problem of m ajor hazards id entificat io n in e m ergency response dom a in, w e proposed a ne w ident ification m ode,l Bayesia n based m a jo r hazards id entificat io n m ode.l F irst the m ode l w as construc ted w ith th e a id o f know n know ledge , then m a jo r hazards w ere id entified according to the constructed mode l v ia probab ility . W e applied th ism odel to chem ical production area and forest fire prevention area respectively , obtain in g the resu lts reasonab le . P ractice show s this w ay is effect iv e . Key wo rds : Bayesian classifier ; data m in in g ; m ajor hazards iden tif ic ation ; em ergency response p lan *年来 , 由重大危险源引发的事故时有发生 , 对人们生命、财产产生严重威胁. 为防止事故的发 生 , 必须要控制危险源, 尤其是重大危险源 . 而控制重大危险源, 则需先辨识重大危险源. 其中 , 危险 源是指一个系统中具有潜在能量和物质释放危险的、可导致人员伤害、财产损失或破坏环境的、在一 定触发因素作用下可转化为事故的部位、区域、场所、 空间、岗位、设备及其位置等. 危险源由 3个要 素构成 : 潜在危险性、存在条件和触发因素 . 重大危险源是指长期或临时生产、加工、搬迁、 使用或贮 存危险物质 , 且危险物质数量等于或超过临界量的单元 . 单元指一个 (套 ) 生产装置、设施或场所 , 或 同属一个工厂且边缘距离小于 500 m 的几个 ( 套 ) 生产装置、 设施或场所
[ 1]

. 目前, 人们主要根据以往
[ 2]

的事故经验进行危险源识别 , 即与相关标准、规范、规程或相关经验对照辨识危险源 险源的评价方法 , 人们也进行了研究, 如基于马尔科夫过程的危险源评价 大危险源有较好效果 .
[ 3]

. 对于重大危

等 . 本文将贝叶斯方法引

入重大危险源识别中 , 提出一种基于朴素贝叶斯的重大危险源辨识模型. 该方法对计算机辅助识别重

1 朴素贝叶斯分类器
分类是数据挖掘和模式识别领域的一个重要研究课题. 它是一个函数, 该函数将一个属性集合的
收稿日期 : 2009 03 10 . 作者简介 : 董立岩 ( 1966 ~ ) , 男 , 汉族 , 博士 , 教授 , 从事数据库与数据挖掘的研究 , E m ai: l dongly@ jlu . edu. cn . 基金项目 : 国家自然科学基金 ( 批准号 : 60275026 ).

第 4期

董立岩 , 等 : 基于贝叶斯分类器的重大危险源辨识

801

实例映射到一个类标上. 通常分类过程分为两个基本步骤: ( 1) 对历史数据集建立分类模型; ( 2) 使 用 ( 1)中所得的模型对新数据集进行分类 . 常见的分类器有如下几种: 决策树分类器
[ 6] [ 7 10] [ 4 5]

; 基于神经网

络的分类器 ; 贝叶斯分类器等 . 这些分类器已得到广泛应用 . 与其他分类器相比, 贝叶斯分类器 具有如下特点: ( 1) 在分类效果方面较好, 在某些领域甚至有更好的分类效果; ( 2) 在知识表示方面, 贝叶斯网络可以直观的表示属性间的因果关系 , 易于理解, 而其他分类器如人工神经网络 , 对节点之 间关系意义的解释存在较大困难; ( 3) 在健壮性方面 , 贝叶斯分类器具有很好的抗噪音能力. 贝叶斯网络是一个图形化的模型 , 它能表现一个节点集合中节点间的概率关系 . 一个贝叶斯网络 由两部分组成: ( 1) 一个有向无环图, 它表示节点之间的因果关系; ( 2) 条件概率表 , 它表现一个节 点在所有父节点取一些特定值的情况下, 这个节点取某个值的条件概率. 贝叶斯分类器是一种使用贝 叶斯网络进行分类的分类器, 它所使用的贝叶斯网络中有两类节点 : 属性节点和类节点 . 根据贝叶斯 网络表示的因果关系和条件概率, 可以推算出某事物在属性取特定值时, 它属于某个类的条件概率, 从而对其进行分类. 通常构建一个贝叶斯分类器需要完成 3个任务 : 确定属性节点、类节点及其相应的值域; 在相关 领域专家的指导下或通过对历史数据的分析确定各个节点直接的因果关系 , 进行图形化表示及条件概 率表的学* . 基于贝叶斯网络的分类器构建算法通常较复杂 , 在许多实际应用中 , 基于朴素贝叶斯的 分类器也具有较好的效果 , 而构建朴素贝叶斯分类器和分类算法要简单得多. 朴素贝叶斯分类器 基于类条件独立性假设 , 即一个属性值对给定类的影响独立于其他属性 值 . 设有变量集 U = {A 1, A 2, , An }, 其中 A 1, A 2, , An 是实例的属性变量, C 是取 m 个值的类变量. 假设所有的属性都条件独立于类变量 C, 即每个属性变量都以类变量作为惟一的父节点 , 即可得到朴 素的贝叶斯分类器. 使用朴素贝叶斯分类器进行分类工作过程如下: 将每个没有类标号的数据样本用 n 维特征向量 X = { x 1, x 2, , x n } 表示, 分别描述 X 在 n 个属性 {A 1, A 2, , An } 上的属性值. 设有 m 个类 {C 1, C 2, , C n }, 朴素贝叶斯分类将未知样本 X 分配给类 C i, 当且仅当: P (C i X ) > P ( C j X ) , 1 j m, i ! j, 其中 P ( C i X ) 最大的类 C i 为最大后验假设 . 根据贝叶斯定理: P ( X C i )P (C i ) . P (C i X ) = P (X ) 由于 P ( X ) 对于所有的类均为常数 , 所以只需求出使 P ( X C i )P (C i ) 值最大的 i; 如果类的先验概率未 知 , 则通常的方法是将 P (C 1 ), P (C 2 ), , P ( C n ) 作为等概率的 . 为降低计算可以做类条件独立的假 设 . 给定样本的类标号, 假设属性值相互条件独立, 即在各属性间不存在依赖关系, 则 P (X C i ) =
[ 11 12]

?P ( x
k= 1

n

k

C i ),

概率 P (X 1 C i ), P (X 2 C i ), P (X n C i ) 可以从训练样本估值中得到. P (X k C i ) = S i k /S i, 其中 S ik是在属性 Ak 上具有值 X k 的类 C i 的训练样本数 , S i 是 C i 中的样本数 .

2 重大危险源识别模型
一个重大危险源的识别过程如图 1所示.

图 1 基于朴素贝叶斯分类器的重大危险源识别过程 Fig . 1 M ajor hazard iden tificat ion p rocess based on N a ve B ayesian classifier

( 1 ) 确定属性集合 A = { a1, a 2, , an }, 其中 a1, a 2, 道的属性, 该集合一般需要相关专家确定.

, an 表示用于判断是否为重大危险源所应知

802

吉 林 大 学 学 报 (理 学 版 )

第 47卷

( 2) 确定 A 中各个元素的论域, 即确定每个元素的取值范围. 通常 , 若 A 中的变量是离散变量, 则一般可以直接用于分类器的构造 ; 若 A 中的变量是连续变量 , 则通常需要对连续变量进行离散化. 常见的离散化的方法有聚类分析、基于熵的离散化、通过自然划分分段等 . ( 3) 类变量 C 的确定, 即确定分类的结果集. C = { c1, c2, , cm }, 其中 ci ( i = 1, 2 ,
[ 11]

, m ) 表示可能

的评价结果 , 可以根据情况需要确定类别. 例如, C 集合可以取 { 重大危险源, 普通危险源 , 非危险源 }. ( 4) 根据以往的经验 , 在专家指导下, 获取相关重大危险源识别数据集 ; 用获取的数据集训练朴 素贝叶斯分类器 . ( 5) 将训练得到的分类器用于新数据中 , 以识别新的重大危险源.

3 应



( 1) 假设在某化工产品的生产过程中, 在有关专家指导下 , 选取了 # 事故易发性 ? ( 记为 V )、 # 事 故发生一般可能造成的死亡人数 ? (记为 D )和 # 事故发生影响区域半径 ? (记为 R )作为分析的属性, 相 应可能的取值列于表 1 .
表 1 用于化 工产品评定的属性及其论域 T ab le 1 A ttr ibu tes and dom ains u sed in che m ical judgm en t 属性名称 相应的论域 事故易发性 V { 小, 中, 大 } 死亡人数 D /人 { 1, 2~ 5 , > 5} 影响半径 R /m { < 50, 50~ 100, > 100}

本文假设类变量 ( 记为 C )的可能取值为: 重大危险源、普通危险源、非危险源. 用于训练贝叶斯 分类器的部分数据见表 2 .
表 2 用于化工产品评定的部分训练数据集 Table 2 Parts of train ing data set u sed in che m ica l judgm en t 事故易发性 V 小 小 中 中 中 大 大 死亡人数 D /人 1 1 1 > 5 1 2~ 5 > 5 影响半径 R /m 50~ 100 < 50 < 50 > 100 50~ 100 50~ 100 100 类别 C 普通危险源 非危险源 普通危险源 重大危险源 普通危险源 重大危险源 重大危险源

根据表 2 , 可以训练得到朴素贝叶斯的条件概率表部分如下:
P ( V = 中 C = 普通危险源 ) = P ( D = 1 C = 普通危险源 ) = P (R < 50 C = 重大危险源 ) = P ( V = 中 , C = 普通危险源 ) = 0. 36 , P ( C = 普通危险源 ) P (D = 1 , C = 普通危险源 ) = 0 . 45, P (C = 普通危险源 )

P (R < 50, C = 重大危险源 ) = 0. 15, P ( C = 重大危险源 )

对于类变量 C, 假设 P ( C = 非危险源 )、P (C = 普通危险源 ) 和 P (C = 重大危险源 )相等. 在训练完分类 器后, 可以通过计算找到 使 P (X C i ) = V = 小, D > 5 , 50< R < 100时 , 通过比较:
P ( V = 小 C = 重大危险源 ) % P (D > 5 C = 重大危险源 ) % P ( 50 < R < 100 C = 重大危险源 ) , P ( V = 小 C = 普通危险源 ) % P (D > 5 C = 普通危险源 ) % P ( 50 < R < 100 C = 普通危险源 ) , P ( V = 小 C = 非危险源 ) % P (D > 5 C = 非危险源 ) % P ( 50 < R < 100 C = 非危险源 ),

? P(x
k=1

n

k

C i ) 最大的 类值, 从 而得到最 终结果 . 例如 , 计算

求使取值最大的类可得到 C 为重大危险源 . 计算结果符合实际情况: 虽然事故发生的概率小 , 但一旦 发生事故, 造成伤亡的人数多、影响区域较大, 因此应该评 C 为重大危险源. 通过上述计算, 可以进行重大危险源识别. 表 3 列出了部分危险源的识别结果.

第 4期

董立岩 , 等 : 基于贝叶斯分类器的重大危险源辨识 表 3 化工产品生产过程中危险源识别结果 Tab le 3 Id en tification resu lts of produc ing process 影响半径 R /m 50~ 100 > 100 50~ 100 50~ 100 < 50 类别 C 普通危险源 重大危险源 重大危险源 非危险源 普通危险源

803

事故易发性 V 小 大 大 小 中

死亡人数 D /人 1 > 5 > 5 1 1~ 5

由表 3 可见 , 数据符合实际判定结果. ( 2) 森林防火是一项重要工作 , 一旦发生较大火灾, 将会给国家财产造成重大损失 , 给附*居民 造成严重威胁. 因此 , 应该对每一片林区火灾发生的可能性大小, 一旦发生火灾则火灾将影响的面积、 损失大小等因素进行评估 . 对于发生火灾可能性较大、发生火灾危害较严重的森林, 也应将其确立为 重大危险源 . 从而可以重点监测这些林区, 一旦发生灾情 , 将损失减少到最小. 对于评价一片林区是否为重大危险源 , 可以选取森林面积 ( 记为 A )、周围居民人数 (记为 N ) 、气 候条件 ( 记为 W ) 作为进行分析的属性, 相应可能的取值见表 4 .
表 4 用于 森林评定的属性及其论域 Tab le 4 A ttributes and dom ain s used in forest judgm en t 属性名称 相应的论域
6

森林面积 A /m 2

周围居民人数 N /千人

气候条件 W {潮湿 , 一般 , 干燥 }

{< 6 . 66 % 10 , 6. 66 % 106 ~ 6. 66 % 107, > 6. 66 % 107 } { < 1 , 1~ 100 , > 100}

本文假设类变量 ( 记为 C )的可能取值为: 重大危险源、普通危险源、非危险源. 用于训练贝叶斯 分类器的部分数据集列于表 5 .
表 5 用于森林评定的部分训练数据集 Tab le 5 森林面积 A /m < 6. 66 % 106
2

Par ts of train ing data set u sed in forest judgm en t 周围居民人数 N /千人 <1 <1 > 100 <1 <1 1~ 100 > 100 气候条件 W 潮湿 一般 干燥 潮湿 一般 干燥 干燥 类别 C 非危险源 非危险源 重大危险源 非危险源 普通危险源 重大危险源 重大危险源

< 6. 66 % 106 6 . 66 % 106 ~ 6 . 66 % 107 6 . 66 % 10 ~ 6 . 66 % 10
6 7

6 . 66 % 106 ~ 6 . 66 % 107 > 6. 66 % 107 > 6. 66 % 107

根据表 5 , 可以训练得到朴素贝叶斯的条件概率表如下:
P (A < 6. 66 % 106 C = 重大危险源 ) = P (W = 干燥 C = 重大危险源 ) = P(1 N 100 C = 重大危险源 ) = P (A < 6 . 66 % 106, C = 重大危险源 ) = 0. 14 , P ( C = 重大危险源 ) P ( W = 干燥 , C = 重大危险源 ) = 0. 86 , P ( C = 重大危险源 ) N 100 , C = 重大危险源 ) = 0 . 29, P ( C = 重 大危险源 )

P(1

通常假设 C 取 # 非危险源 ?、 # 普通危险源 ?和 # 重大危险源 ?的先验概率相 等. 假设 某片林区面积为 3 33 % 10 m , 周围居住人数为 2万人, 而气候条件一般很干燥 , 则可以通过比较如下 3 个式子的大小
6 2

判断该林区是否构成重大危险源:
P ( 6. 66 % 106 < A < 6. 66 % 107 C = 重大危险源 ) % P ( 1 N P ( 6. 66 % 10 < A < 6. 66 % 10 C = 普通危险源 ) % P ( 1 N
6 7

100 C = 重 大危险源 ) % P (W = 干燥 C = 重大危险源 ), 100 C = 普 通危险源 ) % P (W = 干燥 C = 普通危险源 ), 100 C = 非危险源 ) % P (W = 干燥 C = 非危险 源 ).

P ( 6. 66 % 10 < A < 6. 66 % 10 C = 非危险源 ) % P ( 1 N
6 7

通过计算比较可知, 第一个式子的值最大, 因此 , 应该将其判断为重大危险源 , 与实际情况相符. 同理, 通过计算可以辨识其他条件的林区是否为重大危险源, 部分结果列于表 6 .

804

吉 林 大 学 学 报 (理 学 版 ) 表 6 对森林的辨识结果 Table 6 森林面积 A /m
6 2

第 47卷

Iden tif ication resu lts of forests 气候条件 W 一般 潮湿 一般 干燥 一般 潮湿 类别 C 非危险源 非危险源 普通危险源 重大危险源 普通危险源 非危险源

< 6. 66 % 10 6 . 66 % 106 ~ 6 . 66 % 107 6 . 66 % 106 ~ 6 . 66 % 107 > 6. 66 % 107 > 6. 66 % 107 < 6. 66 % 10
6

周围居民人数 N /千人 <1 > 100 <1 1~ 100 1~ 100 <1

综上所述, 本文通过对贝叶斯分类方法的讨论, 根据应急领域中重大危险源辨识的特点, 提出了 基于贝叶斯分类器的重大危险源识别模型 . 该模型主要分为以下几个步骤: 确定属性集合及其其中各 个元素的论域; 确定分类的结果集 ; 建立重大危险源识别数据库并训练分类器 ; 用分类器识别新的危 险源. 模型应用的实验结果表明, 该模型是可行的. 参
[ 1] [ 2]







吴宗之 , 高进 东 . 重大危险源辨识与控制 [ M ]. 北 京 : 冶金工业出版社 , 2001. L I Jun hong , YAN Hu , i ZHENG Yuan , et a.l O ne of the Stud ies for M ajor D ang er Source Census m on itor ing contro lling Sy stem& s Bu ilding up: H igh speed Eva luation fo rM a jor D anger Source [ J]. A cta Sc ientiarum N a tura lium U n iversita tis N ankaiensis , 2000 , 33( 4) : 82 86 . ( 李军红 , 颜 慧, 郑 渊 , 等 . 大危险源普查监 控系统建立研究之 一 : 重大 危险源快速评价 [ J]. 南开大学学报 : 自然 科学版 , 2000, 33( 4): 82 86. )

[ 3]

DENG Q i gen , W ANG Y an, CAO Q ing gu.i R isk A ssessm en t Study on M ajor H azard Sources [ J] . Industria l Safety and Env ironm enta l P rotection, 2006 , 32( 11) : 59 61 . ( 邓奇根 , 王 安全与环保 , 2006, 32( 11) : 59 61. ) 燕 , 曹庆贵 . 重大危险源风险评价研究 [ J]. 工业

[ 4] [ 5] [ 6] [ 7]

Q uin lan J R. C4. 5: Progra m s for M ach ine L earn ing [M ]. Ca lifo rnia : M o rgan K auf m ann P ublishers , Inc , 1993. Shafer J C, A g raw al R, M ehta M. SPR I NT: a Scalab le P aralle l C lass ifier for D ata M ining [ C ] / /P roc o f the 22nd Int Conf on V ery La rge D atabases . San F rancisco : M o rgan K aufm ann Pub lishers, Inc , 1996 : 544 555. 周春光 , 梁艳 春 . 计算智能 [ M ]. 长春 : 吉林大学出版社 , 2005. Z HANG Bo , WANG J i cheng , W ANG Q iang , et a. l R esearch and I m ple m enta tion o fW eb I m ag e C lean ing [ J]. Journa l o f Co m puter R esearch and D evelopm ent , 2002, 39( 11): 1484 1490 . (张 波 , 王继成 , 王 强 , 等 . W eb 图像清洗 技术的研究与实现 [ J]. 计算机研究与发展 , 2002, 39( 11) : 1484 1490. )

[ 8]

SUN Y an feng , LI ANG Y an chun, JI ANG Jing qing , et a. l N eura lN e t w ork M ethods in F inanc ia lT i m e Ser ies Fo rcasting [ J]. Journal o f Jilin U niv ers ity : Infor m ation Science Edition, 2004, 22( 1): 49 52. ( 孙延风 , 梁艳春 , 姜 静清 , 等 . 金融时间序列预测中的神经网络方法 [ J] . 吉林大学学报 : 信息科学版 , 2004, 22( 1): 49 52. )

[ 9]

Z HOU Chun guang , XI NG H u, i XU Zhen long , e t a. l R esea rch o f P rediction M ode ls and A r ithme tic in Co mme rce [ J]. Journa l o f Jilin U niversity : Infor m ation Sc ience Ed ition , 2002 , 20( 3) : 53 60. ( 周春光 , 邢 数据的预测模型及其算法研究 [ J] . 吉林大学学报 : 信息科学版 , 2002, 20( 3): 53 60. ) 辉 , 徐振龙 , 等 . 商业

[ 10]

XU W e i ran , GUO Jun, PAN X ing de . C lassifica tion o fM achine prin ted and H andw ritten T exts B ased on the Bayes ian Judge [ J]. Chinese Journal o f Co m pute rs, 2003 , 26( 7): 802 805 . ( 徐蔚然 , 郭 的字体判断 [ J]. 计算机学报 , 2003, 26( 7): 802 805. ) 军 , 潘兴德 . 基于贝叶斯评判子

[ 11] [ 12]

HAN Jia w e, i K amber M. D a ta M ining : Concepts and T echniques [M ]. San F rancisco : M organ K au f m ann Pub lishers , Inc , 2001 . Do m ingos P , P azzani M. On the O pti m a lity o f the S i m ple Bayes ian C lassifier unde r Z ero one Loss [ J] . M ach ine L earn ing , 1997, 29( 2): 103 130.




友情链接: