| 东风's profile行者无疆PhotosBlogLists | Help |
|
23 August 推介开源的中文分词程序ictclas4j (搜索引擎/自然语言处理 ---中文分词)
ictclas是中科院计算所张华平开发的一套中文分词程序,提供了词性标注、未登录词识别等功能。当初开发这套程序的时候张华平还是个在读的硕士生。如今他已经博士毕业,自己也带硕士生了。现在张博士的精力更多地放在ictclas的推广上,或者说叫做“产品化”、“商业化”。
ictclas原来是在Windows下用C++描述的(VC6.0),后来有人把它移植到Java,功能也有所简化---这就是ictclas4j。
我在最近的工作(本地生活问答)中需要用到中文的词性标注,便下载了一份ictclas4j的source code研究一下。由于我们是本地搜索提供者,需要分析地名、生活中常用的关键字,所以需要扩展词典。刚入手就在试图扩展词典时遇到了麻烦---bug太多了:(。我写信给作者,答复居然是让我研究一下词典的数据结构。好,那就自己搞定。已经修复了几个小问题,胜利在望,呵呵
ictclas4j的词典采用红黑树来存储,效率比较低。如果采用更通用的双数组Trie (Double Array - Trie)应该会有所提升。
这个周末在家就折腾这玩意儿了..... 22 August 中国的竞技体育什么时候才能市场化? 大把烧钱博门面,还不如花在群众体育上。全民健身才能“增强人民体质”。否则,拿那么多的金牌又有什么用?我们拿的金牌大多数是普及性差的项目,例如举重、跳水,等等。乒乓球、篮球、足球这种有很强群众基础的项目才是最值得投入的。
竞技体育就应该学美国,让他们职业化,市场化。 18 August 有读博的冲动 前段时间有一个以前的同事从北京过来。我们几个人一起到黄家花苑吃了顿晚饭。黄家花苑边上的桂林公园以前叫做黄家花园,就是黄金荣家的花园。
我的同事是个海归博士,从加拿大滑铁卢大学回来的。他做人做事都是很谦逊踏实,是我一直很佩服的。在上一家公司里,有四位留学生博士,他们的才学风范确实very impressive。
我一时异想天开,也想去混个博士。实际上在读研之前看到林锐的《大学十年》的时候就被他吊起了胃口---林锐那家伙确实挺能煽动人的。
话说,我真的跑到复旦的网站看了看。终于找到博士的招生简章,这才发现居然还要考好几门课,其中就有一门政治课---《自然辩证法》。那自然辩证法读书的时候就是糊弄过去的,头大。想想作罢:P 15 August 相关问题搜索 怎样判断主题?尽可能地理解用户的语义,这是传统的关键词检索无法办到的。自动问答系统中涉及自然语言理解的理论更适用。
目前朴素的思路是利用词性标注,提取出语句中的实体词,例如名词、动词、形容词。将来或许还可以考虑利用知网之类的语义网络,进行语义扩展。 11 August 日本让人敬佩 奥运开幕式上,日本队进场的时候人手两面国旗---中日两国的国旗。棋手也选择了中日友善大使福原爱。这种用心在当天出场的一群大国里非常罕见,不得不服。其它几个传统友好国家例如巴基斯坦也不过是部分人手持中国国旗而已。
日本身上可供我们学习的实在太多。他们当初也是一个饱受西方列强欺凌的国家,后来经过明治维新,短短时间内快速崛起。先是在甲午战争中获胜,紧接着在日俄战争中战胜俄国。特别是日俄战争的胜利让举世震惊,被认为是宪政体制的胜利。此后晚清新政特意借鉴了日本的维新经验。
以开明宽容地像强者学习的心态,这就是那些民族主义者和愤青所缺少的。 04 August 蓝莲花---许巍 很喜欢许巍的词曲,例如《曾经的你》、《礼物》,还有这首《蓝莲花》。今天才得知,这首歌居然是源自玄奘取经---许巍这家伙现在信佛了。
说到“向往自由”,还是《悟空传》里那个唐僧更能体现这点。书里写道,“我要这天再也遮不住我的眼,我也地再也泯灭不要我的心。我要众生皆明白我意,我要那众神都烟消云散”
-------------
蓝莲花
作词:许巍作曲:许巍 没有什么能够阻挡 你对自由地向往 天马行空的生涯 你的心了无牵挂 穿过幽暗地岁月
也曾感到彷徨 当你低头地瞬间 才发觉脚下的路 心中那自由地世界 如此的清澈高远 盛开着永不凋零 蓝莲花(蓝莲花) |
|
|