东风's profile行者无疆PhotosBlogLists Tools Help

Blog


    25 August

    读《Unix编程环境》

    《Unix 编程环境》 (The UNIX Programming Environment)真是一本入门经典。很久不用Linux了,最近有需要便翻出来看看。
    23 August

    推介开源的中文分词程序ictclas4j

          (搜索引擎/自然语言处理 ---中文分词)
          ictclas是中科院计算所张华平开发的一套中文分词程序,提供了词性标注、未登录词识别等功能。当初开发这套程序的时候张华平还是个在读的硕士生。如今他已经博士毕业,自己也带硕士生了。现在张博士的精力更多地放在ictclas的推广上,或者说叫做“产品化”、“商业化”。
          ictclas原来是在Windows下用C++描述的(VC6.0),后来有人把它移植到Java,功能也有所简化---这就是ictclas4j。
          我在最近的工作(本地生活问答)中需要用到中文的词性标注,便下载了一份ictclas4j的source code研究一下。由于我们是本地搜索提供者,需要分析地名、生活中常用的关键字,所以需要扩展词典。刚入手就在试图扩展词典时遇到了麻烦---bug太多了:(。我写信给作者,答复居然是让我研究一下词典的数据结构。好,那就自己搞定。已经修复了几个小问题,胜利在望,呵呵
          ictclas4j的词典采用红黑树来存储,效率比较低。如果采用更通用的双数组Trie (Double Array - Trie)应该会有所提升。
          这个周末在家就折腾这玩意儿了.....
    22 August

    中国的竞技体育什么时候才能市场化?

        大把烧钱博门面,还不如花在群众体育上。全民健身才能“增强人民体质”。否则,拿那么多的金牌又有什么用?我们拿的金牌大多数是普及性差的项目,例如举重、跳水,等等。乒乓球、篮球、足球这种有很强群众基础的项目才是最值得投入的。
         竞技体育就应该学美国,让他们职业化,市场化。
    18 August

    有读博的冲动

         前段时间有一个以前的同事从北京过来。我们几个人一起到黄家花苑吃了顿晚饭。黄家花苑边上的桂林公园以前叫做黄家花园,就是黄金荣家的花园。
         我的同事是个海归博士,从加拿大滑铁卢大学回来的。他做人做事都是很谦逊踏实,是我一直很佩服的。在上一家公司里,有四位留学生博士,他们的才学风范确实very impressive。
         我一时异想天开,也想去混个博士。实际上在读研之前看到林锐的《大学十年》的时候就被他吊起了胃口---林锐那家伙确实挺能煽动人的。
         话说,我真的跑到复旦的网站看了看。终于找到博士的招生简章,这才发现居然还要考好几门课,其中就有一门政治课---《自然辩证法》。那自然辩证法读书的时候就是糊弄过去的,头大。想想作罢:P
    15 August

    相关问题搜索

         怎样判断主题?尽可能地理解用户的语义,这是传统的关键词检索无法办到的。自动问答系统中涉及自然语言理解的理论更适用。
         目前朴素的思路是利用词性标注,提取出语句中的实体词,例如名词、动词、形容词。将来或许还可以考虑利用知网之类的语义网络,进行语义扩展。
    14 August

    别人恐惧我贪婪

         每次逢大跌就有进场捡便宜货的冲动,这次又没憋住。在万科跌到7块附近的时候再次出手。刀尖舔血,危险的很啊。捎带着买了点鞍钢,不知前景如何。
    11 August

    日本让人敬佩

         奥运开幕式上,日本队进场的时候人手两面国旗---中日两国的国旗。棋手也选择了中日友善大使福原爱。这种用心在当天出场的一群大国里非常罕见,不得不服。其它几个传统友好国家例如巴基斯坦也不过是部分人手持中国国旗而已。
         日本身上可供我们学习的实在太多。他们当初也是一个饱受西方列强欺凌的国家,后来经过明治维新,短短时间内快速崛起。先是在甲午战争中获胜,紧接着在日俄战争中战胜俄国。特别是日俄战争的胜利让举世震惊,被认为是宪政体制的胜利。此后晚清新政特意借鉴了日本的维新经验。
         以开明宽容地像强者学习的心态,这就是那些民族主义者和愤青所缺少的。
    04 August

    蓝莲花---许巍

          很喜欢许巍的词曲,例如《曾经的你》、《礼物》,还有这首《蓝莲花》。今天才得知,这首歌居然是源自玄奘取经---许巍这家伙现在信佛了。
          说到“向往自由”,还是《悟空传》里那个唐僧更能体现这点。书里写道,“我要这天再也遮不住我的眼,我也地再也泯灭不要我的心。我要众生皆明白我意,我要那众神都烟消云散”
     
    -------------
    蓝莲花
    作词:许巍作曲:许巍

    没有什么能够阻挡
    你对自由地向往
    天马行空的生涯
    你的心了无牵挂
    穿过幽暗地岁月
    也曾感到彷徨
    当你低头地瞬间
    才发觉脚下的路
    心中那自由地世界
    如此的清澈高远
    盛开着永不凋零
    蓝莲花(蓝莲花)

    问答搜索

           丁丁正在大力推广新产品---丁丁问吧,试图做成像生活领域的百度知道。开发过程遇到两个难点,一个是问题搜索,另一个是问题自动分类。难就难在自然语言理解。这几天正在看自动问答系统的相关资料,找思路。重点参考了百度知道与奇虎问答。
           从目前了解来看,大部分都是基于规则/模板的。人们常用的疑问词就那么有限的几个,诸如“什么”“为什么”“哪里”“谁”,等等。疑问句中疑问词前后的实体词很重要,它们是疑问意向的关键线索。例如“徐家汇附近哪儿有卖盗版盘的?”,疑问词“哪儿”。对于特定的应用领域来说,人们常用的提问模式是可以归纳出来的。
           在明确了意向以后,我们可以进一步分析语句中的实体词,用实体词去搜索题库。