东风's profile行者无疆PhotosBlogLists Tools Help

Blog


    31 May

    为上一家公司起草的公司介绍

    /*在上一家公司服务了一年半,期间做了很多杂活.这是我当时为公司起草的介绍.在51job上发布的当天就骗来好几位博士的简历,后来还有来自UC Berkeley、CIT、新加坡国立大学、南洋理工、香港科大的。我很惭愧......*/

        ***公司是高科技创业型公司,源自美国硅谷,是全球领先的图像处理算法、视频分析应用软件公司,与国际各大系统设备厂商建立长期的战略合作伙伴关系。公司掌握各种图像处理、人工智能、视频分析的算法核心技术。我们开发的产品广泛的应用于核心保护区域如军事基地、核电设施、国家安全单位、机场码头,以及智能交通系统和居民小区安全保护系统。
       
    公司的创始人都是有多年海外工作经验的博士,他们既有在美国知名企业工作的经验,也有多次成功创业的经历,无论在专业学术上还是企业经营上都有深厚的积累。
       
    公司在美国硅谷和上海都有研发中心。目前公司在上海的研发基地处于漕河泾开发区。公司员工的整体文化层次高,有四位留学生博士,绝大多数员工都有硕士以上学历。公司的整体氛围自由活泼,勤奋务实。随着业务的拓展,目前上海研发中心正在招贤纳士,扩张规模。
       
    公司为员工创造极大的发展空间,独立承担项目的机会,与中、美国顶尖科学家、教授合作的机会。公司提供具有竞争力的薪资福利待遇,宽松的工作环境和创业期权股权。现在加盟
    ***,你可以获得大量近乎免费的早期原始股票期权、很好的福利、快速扩张中大量提职高升的机会。想干一番事业的人们,***热情期待您的加入!
    29 May

    垂直搜索比的是专业性

         通用的搜索引擎如百度baidu和谷歌Google纷纷推出生活搜索和地图搜索,大象来了!人们自然会有疑问,在这种新环境下,原先独立的垂直搜索服务提供商还有生寸空间么?
         其实大部队只要一分兵,在每个细分领域是不是仍能所向披靡就很难说了。而且大企业通常都有些官僚化,对于客户、用户反应不那么敏捷。
        我们再看看其它传统行业,从他们身上找点可以借鉴的东西。百货商店、大超市里百货俱全,还不是有很多专业的商场茁壮成长,例如国美、苏宁、迪信通,还有宜家。
        丁丁网目前专注于跟基于位置的生活信息服务,在本地生活方面,我们更专业:)

    28 May

    中文分词中的歧义消解(disambiguation)

    中文分词中的歧义消解
    (宋东风 / 自然语言处理)
     
          机械切分的分词方法总会遇到一些矛盾冲突的语境。我们这里只谈谈交集型歧义。
          自然的思路肯定是把各种可能的切分方式都用一遍,把切分结果作为候选集。然后评选出这些候选集中最优的一个,作为最终结果。再一想,各种可能的方式太多了些,也没必要。我们选取最极端的两种即可正向减字最大与逆向减字最大,这两者最有代表性。其它的切分方式都是他们的折中而已。
         比较两个切分结果,找出差异的部分。对于短句来说,这些差异的地方就是含有歧义的部分---长句很难说,因为极端的长句会含有连续出现的歧义部分。
         评估的经典思路是最短路径算法。我们把最短路径简单化,希望最终结果含有的单词数最少,孤立的单字也最少。当然,更合理的做法应该是评估组合的概率。但是由于我们缺少大规模的语料,也没有人力完成标注之类的工作,所以仍然采用机械分词的方式.
         代码实现已经完成,这里就不贴出来了。


    23 May

    2008(转载)

    今年的雪,特别的大,
    爸爸还有妈妈,回不了家。
    有群坏人,来把人吓,
    烧了我的学校,砸我的花。
    那个喇嘛,叽里呱啦,
    长鼻子的洋人,假装眼瞎。
    巴黎铁塔,伦敦警察,
    抱火炬的姐姐,人见人夸。
    汽笛嘟嘟,铁轨哗哗,
    去天堂的列车,还没到达。
    龙又翻身,大地垮塌,
    教室的瓦砾下,埋了童话。
    重重的墙,将老师压,
    我们在他身下,都很听话。
    没过很久,听到喇叭,
    外面有个爷爷,叫我别怕。
    叔叔的手,使劲地挖,
    解放军的飞机,送我回家。
    经过灾难,我已长大,
    永远不会忘记,二零零八...
    22 May

    普世的道义

         亲戚或余悲,他人亦以歌。当人们还没有从灾难的伤痛中走出来的时候,重庆的《旅游新报》就开始搔首弄姿,卖弄风情了。结果,撞枪口上,被停刊整顿。活该!谁让它挑战道德极限的。
         万科的王石在灾后捐助高潮的时候说了一些不那么热情的话,也被网络舆论炮轰。万科(000002,SZ)的股价也大跌一成多。结果,逼得万科宣布追加一亿捐助。确实,这次的灾难太重了,数以万计的同胞罹难,这时候如果人们反应冷静的话,反而显得不正常。网上传闻神舟电脑的老板要求不捐款的员工离职。真假不去追究,即使是真的也情有可原。这种时候,不动容的人难以被世人接受。
    19 May

    藏在心底的凝聚力

         
         在过去的一个星期里,我一直被感动中。无论是灾难的惨烈还是国人的反应都催人泪下。满街民众自发的行为让我看到了久违的凝聚力。我们民族在大灾大难前从来不曾低头。历史上那么多跟我们曾经齐名的古文明都不在了,古埃及古印度古巴比伦等等,只有我们中华文明源远流长,其背后自有深刻原因。我们屡遭外敌入侵而光复故土,我们民族的生命力的顽强可以想象。
         这次,政府的形象大大改进。军队的快速反应能力的得到检验,以后在应对突发事件,远程快速投放方面应该没问题了。如果我们国力再强盛一些,说不定我们也能装备一支像美军101师那样的突击部队。我军的空降部队目前还是主要靠伞降投放。伞降虽然机动快,但是其劣势在现在战争中已经暴露无遗。
         传统的动员机制、文宣机器也展示了生命力。那些有着光荣传统的英雄部队再一次大放异彩。54军的127师,源自当年的叶挺独立团(铁军),参加过南昌起义的英雄部队,为数不多的几个红军师。127师历来是军演的主力,如果你看到济南军区某机械化师,那就是他了。这次127师千里机动,迅速集结开赴灾区。15军,成名于上甘岭,唯一的空降部队,这次也是在恶劣气候条件下冒死空降。13军的军长许勇身先士卒,率先进入灾区。
    17 May

    再谈新词识别

    再谈未登录词识别
    (宋东风 / 自然语言处理)
     
         在特定领域中,由于语料相对简化,格式化信息更强,比起自由的自然语言来说更规范。这种语境下,新词识别的工作可以充分地利用规则,效果显著。无论是在计算复杂度还是识别效果上都有明显提升。
         接下来的关注重点是语料中的命名实体识别(Named Entity Recognition),提取人名、机构名称、地名等信息,这方面也有很多理论性的资源可以参考,可惜很少能找到开源资源。

    16 May

    填词

          港台有一帮知名的专业填词人,如林夕、方文山,各自拥有一帮fans。他们写的词不可谓不优美,但是都有点过了,很多时候是在堆砌词藻,典型就是那首《青花瓷》。词还是通俗易懂比较好,看看罗大佑写的《童年》,那才是源于生活高于生活,用词简单,但是形象生动充满童趣。
    -------------------
    林夕的《四季歌》
    红日微风催幼苗
    云外归鸟知春晓
    哪个爱做梦,一觉醒来
    床畔蝴蝶飞走了
    船在桥底轻快摇
    桥上风雨知多少
    半唱半和一首歌谣
    湖上荷花初开了
    四季似歌有冷暖
    来又复去争分秒
    又似风车转到停不了
    令你的心在跳
    桥下流水赶退潮
    黄叶风里轻轻跳
    快快抱月睡
    星星闪耀
    凝望谁家偷偷笑
    何地神仙把扇摇
    留下霜雪知多少
    蚂蚁有洞穴
    家有一扇门
    门外有风呼呼叫
     
    13 May

    未登录词识别

    未登录词识别

    (宋东风 / 自然语言处理)

        最近因为工作需要,特意研究了一番新词识别,也称为未登录词识别(Unknown Words Recognition).
        所谓"词",实际上是单字和单字的“相对稳定”的组合。如果某几个字总是相邻着一起出现,我们很自然地联想到这可能是一个词,例如"大长今"、"家乐福"、"可的便利".老外在这方面走在我们的前面,他们很早就开始研究搭配(collocation)和词组(term).其常用的主流算法都是结合统计方法和局部的语言规则.
        很自然地,我们站在老外的肩膀上来研究中文新词识别.对于中文,特别要考虑中文分词,否则会切分出一系列垃圾候选串---词里的单字之间隐含着结构信息,如果我们只考虑单字的话就丢弃了这种结构信息,这样就会产生一些垃圾切分.
        于是新词识别问题的转化为中文分词和词频统计问题.中文分词采用传统的机械分词即可,尽量保证切分无歧义.
        分词后,以词作为单位,统计词与词的共现频率.我们采用用滑动窗口的方式, 窗口宽度从2递增,直到我们设定的某个上限为止(不失一般性,我们取4,即最长为4个单词的组合).这就是朴素的N-Gram法,也称为"N-元"法。
        举个例子,原字符串"开源统计自然语言处理平台", 分词后得到"开 源 统计 自然 语言 处理 平台"(空格隔开).滑动窗口宽度分别为2,3,4,得到 "开源 源统计 统计自然 自然语言 语言处理 处理平台" "开源统计 源统计自然 统计自然语言 自然语言处理 语言处理平台" ...


    参考文献
    1)面向Internet的中文新词语检测 邹刚 刘洋 刘群
    2)统计与规则相结合的一种新词识别方法
    3)无词典高频字串快速提取与统计算法研究
        其大体流程如下图所示



    08 May

    十年一瞬7:从左到右的转变

         我从乡下来到城里快十年了,其间耳闻目睹的所谓的国家大事算起来也有不少,但于我都没有留下什么大印象。
         从小受到的灌输就是那些假性高亢的标语式理念。小时候学雷锋学赖宁,89风波后陡然搞起了五讲三热爱,其中一项就是热爱解放军。那时候不明白什么意思,直到懂事以后才体会到其中的意味深长。我们的文宣系统每隔几年就要搞出个新名词新说法以表明自己对这个社会还有影响力。永远的丰碑,时代的主旋律,三个代表的先进文化,八荣八耻。。。
         应该说我那时候被“塑造”的很好,到了入迷的地步。初中时候读毛选(1~4卷),背过毛泽东诗词。高中时期读鲁迅全集,自己也买过鲁迅小说集(彷徨、呐喊、故事新编),受鲁迅先生的影响很深很深。鲁迅先生是那个时代的愤青领袖,但是如果他活到建国后的话,多半是在监狱里呆着,被“专政”了。这是毛主席的原话,有史良等民主人士亲耳所听。多年以后,眼界开阔了,我才知道当初作为鲁迅对立面的胡适、钱玄同等也是新文化运动的旗手,他们对于中国思想启蒙的意义似乎被我们有意无意地疏漏了。
         大学时候凭着惯性,读了很多红色经典和所谓的时代的主旋律作品。但是大学毕竟是大学,信息来源多了,管制也松了,后来还有了互联网。也听说了八十年代的思想争锋,了解建国后几十年里的风风雨雨,那些并不如烟的往事。一百多年里,从洋务运动,戊戌变法,晚清新政,辛亥之后的纷争,新文化运动,五四....
    国人的思想不断开放,旧体制慢慢消垮。中国史上的思想繁荣时期大多都在威权衰落时,远如春秋战国,近如民国初年,再近是80年代。
         几十年前我们向外输出革命,某些组织后来甚至被归入恐怖组织。柬埔寨的红色高棉早就走出丛林跟政府和解了,尼泊尔的共产党(毛主义)在山上的日子也过不下去,下山融入社会了,刚刚赢得大选。
         时代变了,还在抱残守缺干什么,我这个老党员也很困惑
    07 May

    股民漫画

    转自和讯www.hexun.com

    资产重组老生长谈年年月月讲,屡试不爽。公司不仅卖业绩,还能卖想象。

    垃圾要包装,没事耍花枪。融资增发做假账,能用的都用上。

    最逗的就是那句“公司不仅卖业绩,还能卖想象”。实际上,主要卖想象:)

    05 May

    提神

    白天喝了杯特浓的咖啡,晚上难以入眠就继续调试程序。不知不觉干到现在(5:02),抬头看看窗外,天已经亮了:)
    03 May

    Loser Cum Laude

          闲着无事,翻出以前收集的一些视频---一些财经节目录像。看着电视里那些意气风发的小伙子,例如李想、戴志康、茅侃侃、陈曦,等等,甚至还一脸稚嫩的吴莹莹,颇生感慨。

          第一财经有一期节目主题是“80后老板与员工”,请了三个年轻的老板,三个员工,三个所谓资深评委。那三位员工嘉宾的发言很有代表性,“我们都是好孩子,走正常的路线”,而对面的老板们则不属于正常人---简称“不正常人”:)

           这种现象,我们古代也有。老祖宗总结的好,刘项不读书。萧何、陈平、张良等都比刘邦亭长有文化有道德,但是还得给他打工。明朝开国的李善长、刘基、宋濂也只能给朱和尚打工。这帮大知识分子虽然口头上说“苟全性命于乱世,不求闻达于诸侯”,其实还是很期望能“了却君王天下事,赢得生前身后名”的。 典型例子就是李白了,这家伙就写过“生不用封万户侯,但愿一识韩荆州”。再看看金庸的小说《鹿鼎记》。在韦小宝告老还乡回扬州的路上,顾炎武、黄宗羲、吕留良等人劝他自立为帝,还举汉高祖为榜样。这三位可都是史上有名的大儒啊。如此调侃他们固然是金庸一贯的风格所然,背后只怕他们的眼界也不过如此。

          同样,国外也是如此。Larry Ellison (Oracle CEO)在Yale的演讲时就称,Loser. Loserhood.Loser Cum Laude. 结果他被轰下台了:P

     

    01 May

    "劳动"节

          感冒了,没有出门,呆在家看看书,算作补课。结合手头工作,这几天准备看下面几个题目的文章和程序
    1)基于统计的新词识别
    2)命名实体识别(规则+统计)
    3)大文件排序
          过去的一年多里,偏离过主线,到别处看了番风景。期间把很多看家的本领都忘光了,只留下点概念。现在得先把以前的知识捡回来,然后争取再上一个台阶。 过去憋了很久的劲现今可有机会发挥了,可也别冲过头才好:)