当前位置:科技常识 -> 科技人物
张全:给网络装上“电子眼”

发布日期:2009-04-16       浏览次数:399

  “我都怕你们记者了。” 

  2月26日,在中国科学院声学研究所德昭楼二楼一间极其普通的办公室里,张全从满桌的资料和文件中抬起了头,眉头紧锁,有些无奈地冲记者说。 

  今年1月底,正当全国上下开展整治互联网低俗之风专项行动之际,中科院声学所研发出一种具有语义理解特点的“网络不良信息检测系统”,能帮助监管部门和网站管理者监控色情和低俗等不良信息。 

  张全正是该项目的负责人。本来就很忙的他,一下子又让新闻界给“包围”了。“接受采访几乎是张全这几天的例行工作。就连腊月二十八回家过年的前一晚,他还被媒体拍到很晚。”同办公室的袁毅老师说。 

  “我没有故事,就是一个普通人。”张全一再强调。然而,随着采访的深入,记者仿佛从这个“普通人”身上看到千千万万科研工作者的身影,他们的喜忧苦乐是那样的真实,可爱。 

  喜 

  系统研发仅用三个月 

  “你用‘三点’造个句,如何?”一开始,记者本想请张全简单介绍一下这套“网络不良信息检测系统”,孰料他先给记者出了一道考题。 

  “三点确定一个平面。我三点有个采访……”记者随口答。 

  “你的造句发到网上,很有可能被当成不良信息被屏蔽掉。”张全微笑地说。 

  记者愕然。这时,他不慌不忙地打开电脑,调出一个程序,输入了一个网址。不一会儿,屏幕开始提示有几十个“不良信息”。然而,打开这些所谓的“不良信息”一看,其实就是几则再正常不过的反邪教信息。 

  张全解释说,传统的网络监测系统,一般是基于关键词对网络信息进行机械的识别和过滤,只要文本里含有设定的关键词,不管这个词是什么意思,甚至如“小三点了一杯咖啡”里“三点”都不是一个词,也会被屏蔽掉。 

  与传统的网络监测系统不同,他们的这套系统主要根据语句的意义来判断哪些网页信息需要过滤。用户只要输入目标网站的网址,系统便会自动打开该网站的所有网页,同时模拟人浏览网页的方式来审查是否还有不良信息,对于不能做出判断的内容系统还能提出警告,供人工判别。 

  张全说,这就好比为网络装上了“电子眼”,能帮助监管部门和网站管理者从源头上遏制不良信息传播,净化网络环境。 

  为了提供检测标准,他们课题组针对网络上出现的色情、反动、低俗等不良信息进行了搜集,对其语言特征和语意特点进行了提取,建立了一个庞大的不良信息知识库,为软件搜索不良信息提供了文字基础。 

  目前,他们对该系统进行的语料测试已超过3万篇,测试成功率达85%%以上,“完全达到了商品化的要求”。通过更换知识库,该系统就可广泛应用在热点信息跟踪、舆情分析等领域。 

  出人意料的是,这套系统的研发时间并不长,“去年下半年才开始做,满打满算也就3个月的时间。”对于这点,张全很是自豪。 

  忧 

  好技术竟然卖不出去 

  张全告诉记者,“网络不良信息检测系统“是自然语言理解处理技术与先进的网络技术结合的产物。从20世纪80年代末,中科院声学所黄曾阳研究员就开始探索模拟人脑语言智能的自然语言理解处理模式,创立了“概念层次网络(HierarchicalNetworkofConcepts,简称HNC)理论”,并发展形成了HNC自然语言理解处理技术。HNC的最大特点是能够进入语义深层处理自然语言的内容,而不是仅仅利用语言的表层信息进行处理。通过多年的科研攻关,HNC团队已经取得了多项成果,形成了自主知识产权的自然语言理解处理技术,为形成满足信息时代要求的各种特定的信息处理技术奠定了坚实的基础。 

  然而,张全从事自然语言理解处理研究却是在读博士以后。1993年,从西北工业大学硕士毕业的他面临人生的一次重大抉择。“我本科、研究生学的都是信号处理,研究生毕业的时候,希望自己的研究方向有所改变。”一个偶然的机会,他认识了黄曾阳老师。与黄老师的几次深谈,坚定了他转行的决心。 

  然而,这次转行并没有想象的那么轻松,而是“痛苦的像是重新生了一回。”张全说,自然语言处理是语言学与计算机技术的交叉学科,对语言学和计算机的要求都非常高,单单写几千行的程序这一项就让他“吃不消”。 

  不过,与技术上的困难相比,张全面临最大的挑战是如何将技术产业化。张全说:“一项再完美的技术,只有在市场中才能体现出其应用的价值,停留在实验室无异于死路一条。”张全说。1996年博士毕业后,他的工作重心就转向技术转化上来。当时,尽管国内做自然语言处理的不止他们一家,然而如何自然语言处理技术进行技术转化,是大家都在探索的问题,没有现成的模式可循,同时,自己单位又没有产业化的平台,致使产业化一度陷入困境。2000年年底,他们尝试利用HNC理论的无形资产与外面公司联合成立了按企业模式独立运营的研究院,计划将其打造成产业化基地,因种种原因,这一目标还在努力之中。 

  去年下半年,国内净化网络环境的呼声日益高涨,张全他们在短时间内研发出“网络信息不良信息监测系统”,希望搭乘国家整治不良信息的快车,打开市场。 

  苦 

  也曾遭遇“无米下锅” 

  身为自然处理项目负责人,张全不得不花时间精力去谈项目,找经费。“我搞科研出身,以前总想着做好研究就行了”。然而,现在他坐在这个位置上,就不可能对这些事完全置身事外,如果有一个好项目,觉得机会好,他也会花时间来谈。 

  张全说,虽然声学所做自然语言处理已有45年的历史,但是至今在很多人眼里,声学所更多是和声音相关的,做语言处理应该不是声学所的事儿,声学所来做就难以形成品牌效应,每次拿出去跟人家谈都要解释一番,项目更不会主动找上门来。很长一段时间,课题组“吃了上顿没下顿。” 

  张全回忆说,1996年到1998年间,课题组基本上申请不到课题,没有课题就没有经费,当时中科院系统已开始全成本核算,所里给予了一定的帮助但非常有限,课题组成员的收入很难和其他课题组相比,一些研究人员选择了离开。课题组只剩下几个人。因为在外面找不到住处,张全只好在博士生宿舍“赖”了一年多。有个细节张全印象特别深,那时有很多同学在外面混的特别好,每次同学聚会,他只管去吃,同学从来不忍心让他付钱。 

  “也不觉得苦,当时也没小孩,物价水平也不高,生活还是没有太大问题。”张全微笑地说。 

  一直到1998年底,课题组申请到新的课题,一切才渐渐恢复正常。1999年年底,声学所被批准进入中科院创新基地后,所领导给予了课题组很大的经费、人员和机制的支持,使得课题组人员一度达到20多人。那段时间,课题组科研进展很快,成果出得也多。 

  张全说,随着信息时代的发展,对自然语言处理技术的需求将愈来愈多,计算机的功能必将由以简单的数值计算为主逐步过渡到以信息知识处理为主。那时,他们的自然语言理解处理技术将大有可为。 

  然而,在培育产业环境的同时,他们最为迫切的任务是完善专业知识库,但是因为经费不足,这项工作进展一直不太顺利。 

  乐 

  有帮志同道合的兄弟 

  采访快结束时,张全讲起来最近发生的一件小事。 

  随着HNC基础研究成果的不断丰富,他们越来越关注国际上有关研究的情况。近年来,他们参加了多个国际学术会议,同时也发表了一系列的研究论文。通过这些交流活动,一些国外同行也不断了解HNC理论。 

  在前不久召开的一个亚洲语言处理方面的国际学术会议上,一家境外的学术组织主动向HNC团队约稿,希望在学术期刊上以专刊的形式集中介绍HNC近期的研究成果。“真是没有想到,一直以为我们曲高和寡”,张全的兴奋之情溢于言表,“没有想到还有那么多的知音。” 

  除了不断推进研究,成果越来越多地得到大家的认可外,张全觉得最大的快乐是还有一群像兄弟一样的同事。“有时候大家争论问题,争的面红耳赤,不可开交,真是互不相让。”张全说,“然而真的取得了进展,每个人却是发自内心的高兴。”大家志同道合,虽然清贫但是还能安于清贫,一起奋斗,互相鼓励,尽管筚路蓝缕,却也相互扶持。 

  张全说,搞科研有苦有乐,有时停滞不前,有时又峰回路转,有时恨不能分秒必争,有时又想停下来歇歇。喜忧苦乐都是科研工作馈赠给你的礼物,他愿意全盘接收…… 

  人物档案 

  张全 

  1996年7月于中国科学院声学研究所获理学博士学位。1996年留所参加工作。师从概念层次网络(简称HNC)理论创立者黄曾阳先生,从事自然语言处理方向的研究。主要从事HNC自然语言处理理论及相关技术研究,现任声学所语言语音及交互信息技术部主任研究员、博士生导师,中国科学院声学研究所知识创新基地语言语音及交互信息技术部副主任。 

  曾先后参加了“八五”科学院重大项目“人机对话系统”、“九五”国家重点科技攻关项目“计算机中文信息处理技术及产品开发”和“九七三”国家基础研究发展规划项目“语音、图像、自然语言理解和数据挖掘”和“数字内容理解的理论与方法”等科研任务。


主办:山东省龙口市科学技术局 承办:山东省龙口生产力促进中心
             地址:龙口市行政中心 邮编:265701   管理员入口

鲁ICP备10014640号