<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>::SinRain&#039;s Blog:: &#187; Data Mining</title>
	<atom:link href="http://www.sinrain.cn/tag/data-mining/feed/" rel="self" type="application/rss+xml" />
	<link>http://www.sinrain.cn</link>
	<description>Simple Dream Easy Go~</description>
	<lastBuildDate>Wed, 28 Jul 2010 09:30:52 +0000</lastBuildDate>
	<generator>http://wordpress.org/?v=2.9.2</generator>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
			<item>
		<title>说点关联法则</title>
		<link>http://www.sinrain.cn/2009/08/12/association_rule/</link>
		<comments>http://www.sinrain.cn/2009/08/12/association_rule/#comments</comments>
		<pubDate>Wed, 12 Aug 2009 07:04:42 +0000</pubDate>
		<dc:creator>Rain</dc:creator>
				<category><![CDATA[Algorithms]]></category>
		<category><![CDATA[All]]></category>
		<category><![CDATA[赛先生]]></category>
		<category><![CDATA[Data Mining]]></category>
		<category><![CDATA[关联法则]]></category>
		<category><![CDATA[算法]]></category>

		<guid isPermaLink="false">http://www.sinrain.cn/2009/08/12/%e8%af%b4%e7%82%b9%e5%85%b3%e8%81%94%e6%b3%95%e5%88%99/</guid>
		<description><![CDATA[Association Rule Learning是一种用来发掘目前的数据库里的变量之间潜在的关系的例子，这里最有名的例子当属“啤酒与纸尿布”的故事了，实际就是 做了A，然后又会去做B 。
一个直接的应用就是... ]]></description>
			<content:encoded><![CDATA[<p><a href="http://en.wikipedia.org/wiki/Association_rule_learning" target="_blank">Association Rule Learning</a>是一种用来发掘目前的数据库里的变量之间潜在的关系的例子，这里最有名的例子当属“啤酒与纸尿布”的故事了，实际就是 做了A，然后又会去做B 。</p>
<p>一个直接的应用就是购物篮分析，或者更流行的，推荐系统( recommendation system )。这些都是能很快想到的应用。可能用到的场所比如沃尔玛（也是之前的啤酒尿布的故事来源）、<a href="http://www.douban.com/" target="_blank">豆瓣</a>儿（我猜，我猜，我猜猜猜）、<a href="http://www.amazon.com" target="_blank">Amazon</a>、<a href="http://www.taobao.com" target="_blank">Taobao</a>或者<a href="http://www.netflixprize.com" target="_blank">NetFlix</a>之类的。</p>
<p>提到关联规则几乎第一个跳出来的要讲的就是Apriori系列的算法，此算法是前IBM Lab的<a href="http://rakesh.agrawal-family.com/" target="_blank">Rakesh Agrawal</a>大牛在94的VLDB的一篇叫《<a href="http://rakesh.agrawal-family.com/papers/vldb94apriori.pdf" target="_blank">Fast Algorithms for Mining Association Rules</a>》的paper里提出来的，该算法在2006年的ICDM里被评选为Top 10 algorithms in data mining. 这个paper也有超过8k的引用，可谓是非常非常的seminal了。</p>
<p>这儿有个八卦，2006年的时候微软偷偷挖走了Rakesh，IBM一看急了，你这个把我们数据组核心专家挖走了以后日子还怎么过啊！而且IBM之前也是给了有超过70万美金的股票期权等来试图以这种方式留人，结果二月份时候Rakesh先是把期权给卖了，然后才加入了M$。IBM就直接一纸诉状给他告上了法庭。结果不了了之，搞技术的挖墙角的事儿见多了。</p>
<p>回到正题，Apriori要解决的是：找出出现的次数大于一个指定的threshold的项集(itemSet)。直接暴力解决的复杂性是不言而喻的，单一个n元素的集合的不同的子集的个数就有{2^n}个，就别说再搭配了。而Apriori的算法的核心思想就是化大为小，从item很小开始做起，慢慢变大。</p>
<blockquote><p>“老鼠的爸爸也是老鼠”原理：非频繁项集的超集也是非频繁的<br />
if an itemset is not frequent, any of its superset is never frequent</p></blockquote>
<p>很容易理解吧，因为超集的support（支撑度def: Freq/Obs）肯定小于等于子集嘛。理解了这么多基本就可以猜出算法啦：</p>
<p><a rel="lightbox" href="http://www.sinrain.cn/wp-content/uploads/138/13847/2009/08/image.png"><img style="border-bottom: 0px; border-left: 0px; display: inline; border-top: 0px; border-right: 0px" title="image" src="http://www.sinrain.cn/wp-content/uploads/138/13847/2009/08/image-thumb.png" border="0" alt="image" width="568" height="482" /></a></p>
<p>第三行的函数Apriori-gen函数分两步走：</p>
<ol>
<li> 
<ol>
<li>连接步: R_{k+1}，连接所有的满足前{k-1}个元素相同的P_k和R_k生成一个k+1元的itemset<br />
e.g.:P_k={ a_1, a_2, …a_{k-1}, a_k},  R_k={ a_1, a_2, …a_{k-1}, a_k’ }<br />
      &#8212;&gt; R_{ k+1 }={ a_1, .. a_{k-1}, a_k, a_k’ }</li>
<li>剪枝步: 如果R_{k+1}中有任一k元子集R’不是频繁集，那么直接剪去该枝，如前所言，必须要是所有的自己都是频繁的，那么超集本身才可能是频繁的。</li>
</ol>
</li>
</ol>
<p>与此同时，Apriori的缺点也是一堆啦，频繁的扫描数据库，必然带来算法效率的低下，下篇给一个算法Demo和潜在的改进。</p>
<p>&copy;2010 <a href="http://www.sinrain.cn">::SinRain&#039;s Blog::</a>. All Rights Reserved.</p>.]]></content:encoded>
			<wfw:commentRss>http://www.sinrain.cn/2009/08/12/association_rule/feed/</wfw:commentRss>
		<slash:comments>3</slash:comments>
		</item>
		<item>
		<title>Typical Problems</title>
		<link>http://www.sinrain.cn/2009/07/07/typical-problems/</link>
		<comments>http://www.sinrain.cn/2009/07/07/typical-problems/#comments</comments>
		<pubDate>Tue, 07 Jul 2009 03:15:00 +0000</pubDate>
		<dc:creator>Rain</dc:creator>
				<category><![CDATA[All]]></category>
		<category><![CDATA[赛先生]]></category>
		<category><![CDATA[Data Mining]]></category>
		<category><![CDATA[Opera]]></category>

		<guid isPermaLink="false">http://www.sinrain.cn/2009/07/07/typical-problems/</guid>
		<description><![CDATA[Many problems can be transformed into a typical DM problem, such as: 

Customer Relationship Management

Target Marketing 
Attrition Prediction/Churn Analysis 
Fraud Detection 
Credit Scoring 


Finance

Pricing 
Risk Analysis 
Seniority of debt 


Ecomm... ]]></description>
			<content:encoded><![CDATA[<p>Many problems can be transformed into a typical DM problem, such as: </p>
<ul>
<li>Customer Relationship Management
<ul>
<li>Target Marketing </li>
<li>Attrition Prediction/Churn Analysis </li>
<li>Fraud Detection </li>
<li>Credit Scoring </li>
</ul>
</li>
<li>Finance
<ul>
<li>Pricing </li>
<li>Risk Analysis </li>
<li>Seniority of debt </li>
</ul>
</li>
<li>Ecommerce and Internet
<ul>
<li>Collaborative Filtering </li>
<li>Click Stream Analysis </li>
<li>Recommendation System </li>
</ul>
</li>
</ul>
<p>Some of the above mentioned challenges are what are we doing now. ESP the CRM and Finance, such as Churn, Fraud, Credit Scoring, Pricing, Risk Analysis, etc.</p>
<p>&copy;2010 <a href="http://www.sinrain.cn">::SinRain&#039;s Blog::</a>. All Rights Reserved.</p>.]]></content:encoded>
			<wfw:commentRss>http://www.sinrain.cn/2009/07/07/typical-problems/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Notes for the HKU&#8217;s reports.</title>
		<link>http://www.sinrain.cn/2008/09/08/notes-for-the-hkus-reports/</link>
		<comments>http://www.sinrain.cn/2008/09/08/notes-for-the-hkus-reports/#comments</comments>
		<pubDate>Mon, 08 Sep 2008 12:39:15 +0000</pubDate>
		<dc:creator>Rain</dc:creator>
				<category><![CDATA[All]]></category>
		<category><![CDATA[Idea&Books]]></category>
		<category><![CDATA[德先生]]></category>
		<category><![CDATA[赛先生]]></category>
		<category><![CDATA[Bioinformatics]]></category>
		<category><![CDATA[Data Mining]]></category>
		<category><![CDATA[HKU]]></category>

		<guid isPermaLink="false">http://www.sinrain.cn/2008/09/08/notes-for-the-hkus-reports/</guid>
		<description><![CDATA[1. Bioinformatics:  Prof. Lin http://i.cs.hku.hk/~twlam/

 Alignment and assembling
 partern matching
 mining the sequence
 index the DB: BWA, SOAP
Applications: Re-sequencing

2. Data stream

I .  Small Enough Data Structure
II. Small Memory( ind... ]]></description>
			<content:encoded><![CDATA[<p>1. Bioinformatics:  Prof. Lin <a href="http://i.cs.hku.hk/~twlam/">http://i.cs.hku.hk/~twlam/</a></p>
<ul>
<li> Alignment and assembling</li>
<li> partern matching</li>
<li> mining the sequence</li>
<li> index the DB: BWA, SOAP</li>
<li>Applications: Re-sequencing</li>
</ul>
<p>2. Data stream</p>
<ul>
<li>I .  Small Enough Data Structure<br />
II. Small Memory( independent from input size)</li>
<li> Sliding window model:<br />
 Focus on the most recent Data(Similar to the web log process in Alipay.)</li>
<li>Continuous Monitoring of distributed Data Streams.(Multiple Streams)</li>
</ul>
<p>3. Online Scheduling Dr. Chan:</p>
<ul>
<li>Charactor: 1. time serials 2. Dynamic Size 3. Online( no priori info)</li>
<li>FCFS, SJF, Round Robin </li>
<li>Competitive analysis: Flow(A,I)&lt;=C*Flow(Opt,I) , c names competitive ratio.</li>
<li>Best Strategy: Working on the least-time-left job.</li>
<li>HKU did a great job on Energy efficiency scheduling<br />
<span style="white-space: pre" class="Apple-tab-span">	</span>1 power function( typically f(x)=X^3)<br />
        2 temperature<br />
        3 Sensor network</li>
</ul>
<p>4. Data mining on uncertain data base. Dr. Ben Kao:<span style="color: #151515; font-family: Arial; font-size: 12px; line-height: 16px" class="Apple-style-span"><a href="http://www.cs.hku.hk/~kao" style="color: #0034ad; text-decoration: none">http://www.cs.hku.hk/~kao</a></span></p>
<ul>
<li> Decision Tree, Etropy</li>
<li> Curve(divide into several parts), Sampling Tech.</li>
</ul>
<p>5. Security&amp;Integrity of Data Mining Outsoucing.  Prof. Cheung(Head.) <span style="color: #151515; font-family: Arial; font-size: 12px; line-height: 16px" class="Apple-style-span"><a href="http://www.cs.hku.hk/~dcheung" style="color: #0034ad; text-decoration: none">http://www.cs.hku.hk/~dcheung</a></span></p>
<ul>
<li>Security: DB&#8211;&gt;Encryption&#8211;&gt;DB&#8217;&#8211;&gt;Mining&#8211;&gt;Result&#8217;&#8211;&gt;Decryption&#8211;&gt;Result</li>
<li>Integrity: Audit environment<br />
DB+DB&#8217;&#8211;&gt;Merge&#8211;&gt;DB*&#8211;&gt;Encryption&#8211;&gt;DB*&#8217;&#8211;&gt;Mining&#8211;&gt;Result*&#8217;&#8211;&gt;Decryption&#8211;&gt;Result*&#8211;&gt;Audit&#8211;&gt;Result.</li>
<li>Most important idea is AUDIT! By putting some artificial audit items into the Dataset.<br />
AFI, AII</li>
</ul>
<p>6. System research Prof. Wang <span style="color: #151515; font-family: Arial; font-size: 12px; line-height: 16px" class="Apple-style-span"><a href="http://www.cs.hku.hk/~clwang" style="color: #0034ad; text-decoration: none">http://www.cs.hku.hk/~clwang</a></span></p>
<ul>
<li>Grid computing</li>
<li>PvG</li>
<li>MIM </li>
</ul>
<p> </p>
<p>BTW:</p>
<p>Today&#8217;s GRE AW is quite luck&#8230; RP supre hao&#8230; </p>
<p>&copy;2010 <a href="http://www.sinrain.cn">::SinRain&#039;s Blog::</a>. All Rights Reserved.</p>.]]></content:encoded>
			<wfw:commentRss>http://www.sinrain.cn/2008/09/08/notes-for-the-hkus-reports/feed/</wfw:commentRss>
		<slash:comments>4</slash:comments>
		</item>
		<item>
		<title>MSRA的新玩具&#8212;-人立方</title>
		<link>http://www.sinrain.cn/2008/08/01/msra-renlifang/</link>
		<comments>http://www.sinrain.cn/2008/08/01/msra-renlifang/#comments</comments>
		<pubDate>Thu, 31 Jul 2008 16:47:54 +0000</pubDate>
		<dc:creator>Rain</dc:creator>
				<category><![CDATA[All]]></category>
		<category><![CDATA[Idea&Books]]></category>
		<category><![CDATA[德先生]]></category>
		<category><![CDATA[赛先生]]></category>
		<category><![CDATA[Data Mining]]></category>
		<category><![CDATA[MSRA]]></category>
		<category><![CDATA[renlifang]]></category>
		<category><![CDATA[人立方]]></category>

		<guid isPermaLink="false">http://www.sinrain.cn/2008/08/01/msra-renlifang/</guid>
		<description><![CDATA[
7月31号，MSRA上了一个新的项目 叫“人立方”。微软人立方关系搜索能够根据人名和搜索关键词之间的关联度给出一组按照关联度由大到小的人名序列。这种序列的方式只能够展现每一个列出... ]]></description>
			<content:encoded><![CDATA[<p><a href="http://www.sinrain.cn/wp-content/uploads/138/13847/2008/08/njumathsrenlifang.JPG" title="njumathsrenlifang.JPG"><img border="0" width="600" src="http://www.sinrain.cn/wp-content/uploads/138/13847/2008/08/njumathsrenlifang.JPG" alt="njumathsrenlifang.JPG" height="400" /></a></p>
<p>7月31号，MSRA上了一个新的项目 叫“人立方”。<a target="_blank" href="http://renlifang.msra.cn/readme.htm"><span class="navlink">微软人立方关系搜索</span></a>能够根据人名和搜索关键词之间的关联度给出一组按照关联度由大到小的人名序列。这种序列的方式只能够展现每一个列出的人名与搜索关键词之间的关联度，而无法阐述人名之间的关联度。搜索关键词和搜索结果人名之间的联系以及搜索结果人名之间的相互联系织成了一张“关系网”，它蕴含了更丰富更立体的信息。人立方关系搜索的“关系图”功能恰恰是为呈现二维“关系网”而做出的全新尝试！</p>
<p>人立方关系搜索的“关系图”（下面简称为关系图）根据搜索关键词和与其相关的人名之间的关联度强弱自动的计算每一个人名与关键词的距离以及其自身大小；同时，关系图还根据人名之间的关联度计算出每一个人名的摆放位置；然后用连接两个人名的一根细线表征它们之间所存在的联系。关系图在位置摆放的计算过程中尽可能的使关系紧密的人名被放置在邻近的位置，但是并不能严格保证邻近即关系紧密。为了让您更容易区分图中不同的区域，关系图以搜索关键词为极点，对位置处在不同极角的人名设定了随着极角渐变的颜色。</p>
<p><img src="http://renlifang.msra.cn/image/help_01.png" alt="图1" /></p>
<h2 style="margin: 30px 0px 0px">连线</h2>
<p style="font-size: 1.2em; margin: 20px 0px 0px; min-width: 400px; max-width: 600px">关系图中的每一根连线都代表了其两端人名或者搜索关键词之间的联系，这种联系可以由某个词语所描述，例如“父亲”。这样的联系描述都是人立方关系搜索引擎自动地从互联网中抽取出来的。在关系图中的连线上悬停鼠标，即可以看到联系描述词，但是关系图并不保证所有的连线都拥有这样的描述词。</p>
<p><img src="http://renlifang.msra.cn/image/help_02.png" alt="图2" /><br />
关系图不仅给出描述联系的词语，还可以提供描述联系的网页链接以及网页摘要。您所需要的只是点击连线即可。</p>
<p><img src="http://renlifang.msra.cn/image/help_03.png" alt="图3" /></p>
<h2 style="margin: 30px 0px 0px">控制板</h2>
<p style="font-size: 1.2em; margin: 20px 0px 0px; min-width: 400px; max-width: 600px">关系图在左侧提供了一个控制板，其中放置了移动、放大、缩小、链接地址分享以及帮助等按钮。通过移动和缩放，您可以调整关系图整体的位置和大小以方便您浏览。将鼠标放置在空白区域，通过拖拽也可以移动关系图；如果您的鼠标有中键，您还可以通过滚动中键来缩放关系图。</p>
<p><img src="http://renlifang.msra.cn/image/help_04.png" alt="图4" /><br />
您还可以分享搜索结果给您的朋友，只需要复制链接地址然后转发即可。</p>
<p><img src="http://renlifang.msra.cn/image/help_05.png" alt="图5" /></p>
<h2 style="margin: 30px 0px 0px">人名</h2>
<p style="font-size: 1.2em; margin: 20px 0px 0px; min-width: 400px; max-width: 600px">关系图提供了方便的导航功能，单击除当前搜索关键词之外的人名将直接以该人名为搜索关键词进行新的搜索。另外，为了方便您了解更多关于人名的信息，您还可以点击“关系搜索”跳转到人立方关系搜索的结果页面。</p>
<p><img src="http://renlifang.msra.cn/image/help_06.png" alt="图6" /></p>
<p> 这个是个非常有意思的尝试，Web Mining在逐渐从学术界走向应用。不过比较起这个，我觉得Alipay的数据库里关系更加的具体。今天和子陵说了下，好似他觉得比较异想天开。但是的确现在有这个需求了，以后会更明显。还是利用闲下来的时间再琢磨琢磨吧，谁给我点灵感哈！</p>
<p>&copy;2010 <a href="http://www.sinrain.cn">::SinRain&#039;s Blog::</a>. All Rights Reserved.</p>.]]></content:encoded>
			<wfw:commentRss>http://www.sinrain.cn/2008/08/01/msra-renlifang/feed/</wfw:commentRss>
		<slash:comments>3</slash:comments>
		</item>
	</channel>
</rss>
