南大的资源还是很多地~ 图书馆看书的时候 书多就算了, PP的女生也很多,非常的养眼 以及培养人的学习热情那!
哈哈… 先熬过考试这一关再说, 今天看了3个小时就支持不住了… 老了!…
]]>
Simple Dream Easy Go~
南大的资源还是很多地~ 图书馆看书的时候 书多就算了, PP的女生也很多,非常的养眼 以及培养人的学习热情那!
哈哈… 先熬过考试这一关再说, 今天看了3个小时就支持不住了… 老了!…
]]>
其实无论是你这里的+N还是taocp里面求逆序中的改用相反数,本质都相同,都是使用了数据中一些没有被使用的bit位。
而对于这道题目,在n <2^31时,如果可以这样做,还有更加简单的方法。
直接将原数组的最高比特位看作一个比特位数组就可以了
bool duplicate=false; for(i=0;i<N;i++){ int x=abs(a[i]); if(a[x-1]<0){ duplicate=true; break; }else{ a[x-1]=-a[x-1]; } } for(i=0;i<N;i++){ a[i]=abs(a[i]); } return duplicate;
…
]]>
Abstract Given two strings S of length m and string T of length n, the paper presents a new algorithm for calculating the similarity of the two strings. By the LCSubstr (longest common substring) algorithm we can find the maximal matching of the two given strings. Then eliminate the LCSubstr we will get two temp result strings. My algorithm will calculate the temp result strings iteratively until the two result strings’ common string is null. The similarity of the two strings will be measured by accumulating the non-linear mapping length of the maximal matched substring. The algorithm is always searching for the maximal continuous matching (MCM) in every step. In the end of the article I will introduce an application of this algorithm.
Keywords: pattern matching, LCSubstr, non-linear mapping, string similarity, maximal continuous matching (MCM)
Toy程序中很重要的一个功能是去重:即去掉那种转载流的文字,转载扩赛了信息但是也造成了相当麻烦的信息冗余,我不想看的信息逼着我看了一遍又一遍。
最牛逼的方法当然是能比较两个文章的全文,看全文的匹配度了,但是这个方法的时间代价太大。还有那种选取一部分Digest 出来比较的方法理论性远远大于使用性。最直接的方法就是看两个文章的标题的最长公共子串,亦即LCS( longest common substring).
LCS的原理非常的简单:
| A串为: A1 A2 A3 ….. An |
| B串为: B1 B2 B3 ….. Bm |
只要反复的算下AB以各种位置叠在一起的最长连续字符个数就好了
数学上来说:就是写成这样一个矩阵:
match[n][m]=
| A1 | A2 | ….. | ….. | Am | |
| B1 | 01 | 01 | … | … | 01 |
| B2 | 01 | 01 | … | … | 01 |
| … | … | … | … | … | … |
| Bn | 01 | 01 | … | … | 01 |
中间的值match[i][j]都是0或者1 (match[i][j]=1 means Bi=Aj),下面就在这个表中选出最长的连续对角线都是1的串,对应的子串就是AB的最大的匹配。
举个例子吧:
from: http://www.5do8.com/blog/doc/569/index.aspx
A= I MISS MY CODE HI
B= One Like MY Code
| i | m | i | s | s | m | y | c | o | d | e | h | i | |
| o | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 |
| n | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
| e | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 |
| l | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
| i | 1 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1 |
| k | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
| e | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 |
| m | 0 | 1 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
| y | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 |
| c | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 |
| o | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 |
| d | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 |
| e | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 |
那个mycode就是最长匹配的串
在具体计算的时候考虑到汉字字符的多变性和英文很不一样,我们可以直接计算一个对角线上的所有的1而不用考虑联系性。
就变成了MCC(Max common characters)了,而这个MCC就是我们去判定重复的一个重要依据。
如果len(MCC) / min( len(string_A) ,len(string_B))>valve_Value就判定为转载。
———————– 这里可以有一个非常重要的改进,认为连续匹配会有非线性加成,如match_degree=sigma( len(common_substring[i])^2)
甚至我觉得可能某些搜索引擎就是这么干的。。【未验证】
———————-
这样就实现了新闻的唯一性的保证,为了确保系统的效率不会被这个比较拖累的太多,可以只比较最近3个月的标题。
晚上写一个实现,能配合现在已经有的模块实现标题的唯一性。
听从Solrex的建议,在学习的时候直接看Python的tutorial和Lib,然后通过写一些简单的代码来逐步熟悉库:)
Mock Bank的测试工作已经进行的差不多了,最近要集中精力来做这个“可配置的Spider”
这个玩意的需求是具有普遍性的,我们有时候会去搜索引擎反复的搜索某个关键字,比如特别关注奥运的 可能每天都去搜索下和奥运有关的新闻。但是这么做的人倒没有想象的多,就是因为搜索引擎的重复结果太令人烦躁了。这个东西很讨厌,我举个例子就很清楚了:
单击显示大图

当然这个是冗余中的一种:由于转载引起的搜索结果冗余
另外一种我管他叫挖坟,什么叫挖坟:历史沉淀引起的结果冗余。
Google下 奥运火炬就可以了。很多奥运火炬手选拔的网页由于SEO的作用很靠前,那么我最想看的敏感事件呢,基本是没有的。
现在Google news已经做得很好了,但是出于学习的态度和扩展性的态度。还是试探性的写写吧:)
——————————————-
“对于你们提出的这个测试系统上锁的问题,我的观点是‘成本太高了’,不如人工上锁,什么是人工上锁? 不知道?”某知名测试人员站起来向四周大喊一句“兄弟们听着!我要测试了,都他妈别用我的模块知道没?”
四周稀稀拉拉应答之声,“这就叫确认锁定。。。”
“法国无法无国法,德国缺德缺国德。横批:美国不美”。
针对ZD事件和火炬事件,我是用一种爱国情感去做判断而不是什么冷静的思考的。什么体制的问题,自由的问题,说到底都是权与利的问题。法国人从来的浪漫主义,自由精神在火炬事件中被放大成一种近乎弱智的表现而自取其辱。不过我个人不会因为这个抵制家乐福,说抵制家乐福的人都属于扯淡型人才。爱国精神被娱乐化了之后,海外游子变出现了个把让人很JP的人,类似雅阁女心态。
扯淡的人们,说到底就是喇嘛没权了想夺权,藏民很淳朴或者说没开化,少量极品的跟在喇嘛后面闹事。然后还有国际未名力量在挑拨,利用西方传统民众对媒介的依赖和盲目信任捅中国的漏子。
奥运政治化不是什么好事。A game is a game. 太多政治因素在里面法国佬不吃这一套
房子真是个令人忧伤的愉悦。
PM=P鞭+Money :0
我说,从来没这么感谢过伟大祖国的教学评估。
不然今天就该传说中的《实变函数与泛函分析》,坊间传闻是:实变函数学十遍,泛函分析心犯寒。
可以小缓冲下到四月底来考,实在是太好了。来说说看近期的活动和安排:)
看完了Python的tutorial,在艰难的看各种库。 那个《Python in a nutshell》是本蛮不错的书,实在看电子书看的太疲倦了就直接看这个吧。
那个关于Java的安全包已经比较熟悉鸟,虽然估计以后都不会再用到。我们数据分析的在这个小项目里面感觉就是救场的,哪里人少就去充数,这两天被调到测试组去写test case 算半个SQA助理。然后最近两天的office time都在看测试的书。剩下的时间就看Python了。
——————————-
既然Test Case写完,下面就等着coding的人编码完了过来测试咯,测试平台好像也不归我管。Hoho,好轻松那要不是有考试在远处诡笑。
下面的两周内要用Python去写一个”可配置的Spider”,哎呀终于做到我喜欢玩的东西了:)
大体是 抓取页面,分析内容,删除重复,内容展现,数据存档
|
思路是不难,但是对Python的不熟悉将是拖慢进度的最重要的原因:
可以用的资源:
|
需求(1D)–>系统分析(2D)–>编码(4D)–>测试(1D)–>文档撰写
完全非典型
扯淡不是说谎,却是真理最大的敌人在我们的文化里,最突出的特征之一就是:有太多的人在“扯淡”。
扯淡不是说谎,却是真理最大的敌人。
因为说谎的人知道何者为真,却讲的是假话。
而扯淡的人既不关心何者为真,也不关心何者为假,只在乎自身利益。
这种认为无论事实真相如何都没有差别的态度,就是扯淡的本质。
关于书名:
本书英文名为“On Bullshit”,在英美国家,“Bullshit”一词虽然人人在用,但终究是个脏字,若在报章杂志中刊登,则常常改印为”bull****”,在英语词典中,”Bull”有“大而充胖”的意思,与我们的吹牛对应,”shit”或可译为狗屎,因此”Bullshit”似可直译为“糟糕的假大空”,但这又丧失了原文传达的那种酣畅淋漓的感觉,台湾译本名为《放屁!名利双收的捷径》 虽然十分痛快过瘾,却也可能牺牲了原书哲学冷静挂帅的反讽意境。根据作者法兰克福论述的要旨,它有更深一层的含义,幸在为难之际,得词语收集大师指点,取名《论扯淡》。
本书的影响:
这本书脱胎于一篇讲稿,出自普林斯顿大学的荣休教授、哲学系前主任法兰克福教授之手,2005年在学生与编辑的一再敦促下,刊印成册,起了个令人侧目的题目:On Bullshit (中译本《论扯淡》)。出人意料的是,这本只有一万多字的“哲学随笔”大为畅销,反应出奇热烈,在年度全美非虚构类十大畅销书榜蝉联了数十个星期,并被译成近三十种不同的文字,成为出版史上的奇迹。
法兰克福在《论扯淡》里,劈头就是一句结论:在我们的文化里,最突出的特征之一就是:有太多的人在“扯淡”。虽说扯淡无处不在,却没有一种学说,一个理论来剖析他,他的主旨不在于提供一个理论模型来解析扯淡,而是探讨现今社会何以充斥着言不由衷的扯淡。文中,作者以哲学的辨证方式,开宗明义地区别了“扯淡”与“说谎”。扯淡不是说谎,却是真理最大的敌人。因为说谎的人知道何者为真,却讲的是假话。而扯淡的人既不关心何者为真,也不关心何者为假,只在乎自身利益。这种认为无论事实真相如何都没有差别的态度,就是扯淡的本质。法兰克福在书中将矛头直指当今社会,他指出,扯淡之所以充斥我们的社会,与当代民主社会和市场经济里的种种扭曲不无干系,它助长了扯淡的膨胀,特别是在政治、道德和宗教等分配权益的关键领域,在那里既难以有真伪的辨别,而追求真伪辨别又有风险和麻烦。靠扯淡来搪塞、敷衍、扭曲、误导遂成为权宜之计,更有蔚为主流的趋势。
第一次听到这个歌是在高中的时候,Nouvelle Vague 的翻唱版本,Nouvelle Vague 的作品非常的摇曳生姿。
映像特别的深刻,应该是Studio的版本,混音有海水波浪的声音,还有摇摆的旋律 很美。
| Nouvelle Vague:新浪潮。 流行音乐上的“新浪潮”之意并非戈达尔的同名电影那样晦涩艰深,一旦被后人重新诠释,它更容易丢掉黑色的外衣。 事实上,现在欧洲至少有两个音乐系列叫做“Nouvelle Vague”。 德国人说:“Nouvelle Vague”在英语里叫做“new wave”,但我们不会复兴80年代的糟糕发型,摇滚乐已麻木苍白,电子乐是新的抚慰。。。”行了,到此为止,你知道德国人要乾什么了 法国人也说“Nouvelle Vague”在英语里叫做“new wave”,但他们补充了一句:“Nouvelle Vague”在葡萄牙语里叫做“Bossa Nova”。 |
Nouvelle Vague – Love will tear us apart (LIVE)
这段”Bossa Nova“味道十足的Love will Tear Us Apart 让人有种静静的听着 然后安静的吃下午茶 看看夕阳的影子 几个朋友随便的聊天的感觉。
上面这段视屏里面的是Live版的 比较而言 Studio版的音质更专业一点 但是没有这个版本这么自然。想起小艾说的那句“想起来觉得温暖的朋友”,恩 就是这种几个朋友之间 絮絮然几句 “love is not a easy thing.”
上一张唱片封面:

—————————————————————————————————–
下面看下原版的
Joy Division – Love will tear us apart
“Love Will Tear Us Apart” is a song by the British post-punk band Joy Division. The lyrics were written by the band’s vocalist, Ian Curtis, who committed suicide a month after the song was released as a single in April 1980.
这个版本的就是很典型的早期Punk乐队的风格,N多人人比较偏爱这个原始版本的,主要是这个原始版本背后有很多的故事。大大增加了乐曲本省的可读性:
| 有关Ian Curtis: 1978年底,加盟Factory唱片公司后的曼彻斯特乐队Joy Division来到伦敦发展。Ian Curtis刚到伦敦时他的癫痫病就开始发作,因此Joy Division的音乐从一开始就带点病态色彩。 虽说乐队的发展之路颇为顺利,但Ian Curtis与生俱来的悲剧宿命正是以成功为起点,将一连串痛苦的脚印铺向毁灭的终结。 Ian和妻子Deborah相识于1972年,婚后于1979年生下第一个女儿Natalie。此后,Ian的性格变得越发孤僻,甚至有点难以理喻,他不准妻子去看他的演出,甚至规定乐队成员的妻子或女友都不准去看乐队的演出。伴随着日益加重的癫痫病症,他的自毁倾向也开始出现。 1979年底,Joy Division欧洲巡演时Ian在布鲁塞尔结识了一位名叫Annik Honori的女孩,两人开始交往。乐队巡演结束后,Ian将Annik带回了伦敦,他与妻子Deborah的关系出现了裂痕。在1980年3月,Ian离家与Annik同居。但是,与其说Ian选择了爱,不如说他为自己的精神套上了沉重的枷锁,从此他更感到生活是如此的糟糕,生命是如此的可悲。 他开始寻求永远的解脱。1980年4月7日,Ian回到曼彻斯特家中,写了封遗书后吞下了大量安眠药自杀,随即被妻子Deborah发现,送医院抢救后保住了性命。 随后乐队又开始了一连串繁忙的演出。那时Ian总是穿着雨衣在台上演唱,表演时经常伴着癫痫病的发作跳出一种奇怪的舞步,台下观众不知情,纷纷开始模仿他奇怪的举止,一时间,穿雨衣跳怪舞竟风靡英伦各地。 那段时期,Joy Division的名声越来越大,但Ian的健康状况也越来越糟,癫痫发作的次数越来越频繁,每次倒下后队员们总是担心他再也醒不过来。1980年4月,Deborah提出和Ian离婚。此后,Ian的性格变得更加怪异无常,时而兴高采烈、神采飞扬,时而阴沉沮丧,沉默寡言。 1980年5月17日,Ian在家看一部描述德国音乐家去美国发展,最后因为与当地人格格不入而自杀身亡的故事片《Stroscek》。当晚,他不停地播放着Iggy Pop的 The idol。5月18日,Ian写了一封给Deborah的遗书后在厨房上吊自尽。终年23岁。 “Don’t Walk Away, In Silence. Don’t Walk Away.” Ian 如是说。 |
————————————————————-
附上歌词:
When the routine bites hard and ambitions are low
And the resentment rides high but emotions won’t grow
And we’re changing our ways, taking different roads
Then love, love will tear us apart again
Why is the bedroom so cold
Turned away on your side?
Is my timing that flawed,
our respect run so dry?
Yet there’s still this appeal
That we’ve kept through our lives
Love, love will tear us apart again
Do you cry out in your sleep
All my failings exposed
Get a taste in my mouth
As desperation takes hold
Is it something so good
Just can’t function no more?
When love, love will tear us apart again
不同乐队翻唱的版本有二十多个:new order、Swans、the Cure,etc….
可以去Youtube上搜搜(貌似Youtube和BlogSpot都被GFW解封了,刚才没用代理上WIKI也成功了,放鞭炮
)
如果搜索到更好的版本也可以来分享哦:)
有时间可以整理下。