东风's profile行者无疆PhotosBlogLists Tools Help

Blog


    June 30

    足以怡情

         从小就喜欢古诗文,也背诵过很多经典名篇,有些直到现在还能背出全文,例如《出师表》、《诫子书》、《岳阳楼记》。中学时候喜欢豪放词,苏轼陆游辛弃疾陈亮刘过等等。间或也看过宋祁、秦观、柳永那种花间词:) 杜牧那厮就被后人称为“豆蔻词工,青楼梦好”。
         高中一个同桌很喜欢徐志摩,老是听他念叨《再别康桥》,听得多了,居然也能记下来了。上了大学以后才知道徐志摩曾经就在我们同一所学校里读过书---那会儿这个校园叫做“沪江大学”。绿茵葱葱的校园里哪儿曾留下徐志摩的身影呢?
         至于温总理在记者招待会上引用的那些,也读过。例如,“浅浅的海峡”(余光中-乡愁),又如“开花的大地,解冻的河流”:)
         应该说,背诵这种诗词多了,潜移默化地也受到熏陶。屈原说“路漫漫其修远矣,吾将上下而求索”;文天祥,“人生自古谁无死,留取丹心照汗青”;林则徐,“苟利国家生死以,岂因祸福避趋之”。这些言语对我都有深刻的影响。孟子“生于忧患,死于安乐”更是激励着年轻的自己不惮于前行。
        另外一种意境的“采菊东篱下,悠然见南山”,又若“荣辱不惊,看庭前花开花落;去留无意,望天上云卷云飞”,大概只能在梦中想象了。

    June 28

    互联网离不开低俗

        前段时间闹得沸沸扬扬的网游“劲舞团”刚引入国内的时候,比较受女玩家欢迎。但是女玩家多了,自然会引来更多的男性玩家:P。
        史玉柱为了给“征途”做推广,想出了一个令人拍案叫绝的招数---招募美女玩家。这家伙的眼光真是狠啊,比“送礼只送脑白金”更胜一筹!
        再看另外一个例子,网上有一系列专门晒秘密的网站,这种网站极大地满足了人们的窥探心理。相比之下,猫扑mop/天涯之类的八卦网站都不算太低俗了

    June 26

    战车,又见战车

         德国战车又回来了!上一届欧洲杯时,坦克都老得生锈,开不动了,结果小组都没能出线。后来年轻的克林斯曼重新打造了辆新车,终于在06世界杯进入4强,这次欧洲杯又杀入决赛。
         不折不挠的日耳曼人将再次征服欧洲............
    June 24

    猎头是什么?

        上周被各类猎头骚扰了n次,n>10。现在也不是换工作的高峰期,很奇怪,不知道是什么原因。几年前就开始被“猎头”骚扰了,后来看网上报导说,很多所谓的猎头只不过是以前的职业中介所换个时髦的名字,其实做得事情跟以前一样,还是“人贩子”。做事的手法也比较下作,坑蒙拐骗样样都来。还遇到千方百计打听以前的或者现在的公司的通信录的,甚至直接问认不认识某人,知不知道他的联系方法。通常都会用一个听起来很吸引人的职位来诱惑被骚扰者,伎俩跟那种中奖电话差不多。eg.“先生您好,您有换工作的打算吗?我们这里有一个很好的机会,XXX,待遇在10k~15K”,哈哈
        那种业余的猎头水平也可想而知比较差,这里讲两个关于乌龙猎头的小故事。零点咨询的袁岳在书里曾经提过,他也被猎头骚扰过,问他是否愿意去某家公司做总经理。那个家伙都不知道袁岳是零点的老板。更寒的是,Google中国筹建的时候,四处招募总裁,除了后来的李开复以外,也跟唐骏接触过。还有猎头打电话给李彦宏,问他是否对该职位是否有兴趣。 这个乌龙真是摆大了.........
        在此推荐一篇文章 http://blog.csdn.net/jobchanceleo/archive/2007/12/17/1944303.aspx

    June 17

    算法题二则

    1 部分排序
         形式化描述如下:
         设有一无序集合S,其规模为m。要求从m中取出一个子集sub,sub必须满足 A(-sub都不小于S中的其它元素。
     
         我们参照快速排序的思想,其时间复杂度为n*logn。即,如果我们对S排序的话,其比较次数为m*logm。对于本题而言,我们只需要取出前n个数,则时间复杂度肯定小于全部排序。
         我们尝试把该集合切分成两个子集,一边有序,一边无序,有序的部分用二叉平衡树来存储。我们知道二分查找的时间复杂度为logn。
         以此从S中读取元素跟二叉树中的元素比较,如果可以插入,则插入,同时舍弃最小的数。这样一轮下来比较操作共做了m*logn次。
         如果把n取极大值m,这时候就是完全排序,时间复杂度为m*logm,这就是快速排序的复杂度了.
     
    2  海量数据文件排序
       按照系统内存大小,将文件切分为多个子文件,这样保证我们接下来可以在内存中对这些小的数据集进行排序。
       依次读出这些小文件,在内存中对每一个数据集进行排序。将排序好的数据集保存到磁盘上。
       对于有序的小文件进行多路归并排序。归并排序属于经典问题,这里就不加详述。
       整个过程的最大开销是磁盘IO。所以真正的挑战是怎样优化IO操作。其中一个思路就是利用操作系统的直接IO接口代替各种语言运行库的IO操作。
    June 14

    野路子

        相识多年的老朋友说我在文史财经的知识都是些野路子。这位老朋友是财会科班出身,且相识十多年,互相了解很深。他的批评自然是很有些分量,我这种凭着个人兴趣道听途说的得来的“知识”确实上不了台面。
        那接下来还是回归正道,在自己的专业上继续积累:)
    June 10

    朝花夕拾的童趣

    //借鲁迅先生的题目写篇短文
         古泊涟河日夜不息地从我老家村后流过,我的家就在河南岸的一个叫做唐桥的小村庄。涟河很宽,比黄浦江窄一些,以致我们那一带的人都称之为“大河”,而忘了它真正的名字---它在书上的名字叫做“善后河”。涟河水很清,沿河的城镇乡村的人们世代都喝河里的水。涟河很古老,在几里外的河边曾发现过汉代的码头遗址。涟河东流入海,每天随着海水涨潮落潮。
         相传在很久很久以前,海水没有东退的时候,我们那边曾经是海港,称为“龙苴港”。后来海水逐渐东退,龙苴港衰落,东边依次出现了“板浦”、“海州”、“新浦”。“浦”,码头。他们历史上都曾经是海港,如今早已经是繁荣的市镇了。
         在我小时候,涟河上还有很多船家,或打鱼或运货,跑船为生。我当时还写过一篇作文,题叫《涟河上的船》,被老师选为范文。船上人家里的小孩跟着父母四处搬迁,船到哪儿就到哪儿落脚,上岸上学。我读的小学班里就有一个叫做“五丁”的小朋友,大名已经不记得了。印象比较深的一件事是,冬天的时候小孩棉衣穿得比较厚实,上厕所的时候解不开裤带,把他急得大哭。二十多年过去了,那个常常拖着鼻涕的小伙伴现在可好?
         每年夏天是我们河边小孩的最快乐时节。在河边长大的孩子都会凫水,大家常常比赛着看谁能先游到对岸。两岸的河堤上都栽种了果树,自然少不了被小孩子偷吃。我们南岸栽的多是桃树,北岸多是苹果。两边的小孩互相游到对岸去偷,还常常在河边互相交流战果和心得。时间则选在中午大人们休息的时候---看果园的人都在屋里吃饭或者打瞌睡去了。我第一次游过河的时候只有十岁,是抱着家里的轮胎游过去的,回来后自免不了要被父母打一顿作为警诫。
         因为河水没有什么污染,所以河里鱼类贝类很多,尤其是蚬子。河边每隔几步路就是一个淘蚬子的锅灶。岸边堆满了蚬壳,人们下水的时候都不会沾泥。那几年里是沿河一带比较热闹的黄金时代。后来,上游的工业有了发展,每年会集中排污。排污那几天河水发黑,鱼虾都被污水赶到下游,打鱼的一网起来都能逮到很多,可惜卖不上价钱。
         长大以后到县城读高中,来上海上大学,离家越来越远,回家的次数也越来越少。只有在梦里才能回到那遥远的家乡.....
        

    June 08

    生活搜索的大白鲨来了

    刚刚看到报导《

    中国雅虎与口碑网合并为雅虎口碑

    6月4日中午消息,据阿里巴巴集团确认,该集团将把旗下的中国雅虎与口碑网整合成立雅虎口碑公司。原中国雅虎总裁金建杭出任新公司总裁,公司未来发展重点是基于生活服务的电子商务、社区和通讯业务。

      阿里巴巴集团董事局主席马云今日发出内部邮件,邮件中详细阐述了此次合并的计划。马云表示,雅虎口碑要致力于帮助服务领域的中小企业、个人创业者生存、成长、发展,为中国消费者提供好的生活服务平台。

    June 06

    近期阶段性目标 - IR

    Information Retrival
          接下来强化一下网络爬虫,研究信息抽取。尝试从网页中提取各类实体信息,包括人名、地名、单位等名称,地址、电话、 邮件E-Mail、MSN/QQ等通讯方式。
         很多流氓工具就这么来收集信息,发垃圾邮件垃圾短信。我自然不会那么下作,只是拿来练手。
         我身边的朋友们说我很崇拜北大天网的那帮人,算是吧。希望有一天自己也能成为那样的专家。在此之前还是低调地提高自己的修行---术业有专攻.
    June 04

    混合索引

    采用混合索引增加信息量
    (宋东风 / 搜索引擎 + 自然语言处理)
     
        我们在解析文件,构建索引时都需要将文件解析成一个个token。这样必然会丢失原文中的结构信息。例如“美国攻打伊拉克”和“伊拉克攻打美国”的解析结果一样。
        从结构性的角度来看,句子>词组>单词>单字。如果我们尽可能地保留这些结构信息,采用多重切分、混合索引,估计效果不错。当然了,这样会给索引文件中增加了很多冗余信息。这时候我们就需要评估由此带来的得失。对于原始数据量不大的场合,性能损失应该不会非常严重。
        实际上,Google、天网都是这么多的。在雷鸣、卢亮等人的文章中也提出了混合索引的思路。
        接下来试试看,过几天贴张图出来。