金沙论坛点击下图进入官网:
金沙论坛点击下图进入活动:
金沙论坛点击下图进入领取彩金:
皇冠足球备用网址|http://hgzqbywzgczk.weebly.com
澳门金沙线上娱乐|http://amjsxsylqkdd.weebly.com
香港王中王|http://xgwzwxkea.weebly.com
龙8娱乐官网|http://lylgwahqa.weebly.com
博狗bogounet|http://bgbogounetrlnw.weebly.com
188bet|http://betnrhd.weebly.com
p style="color:rgb(51,51,51); font-family:Arial,Helvetica,Tahoma,sans-serif; font-size:14px; line-height:22px; margin-top:0px; margin-bottom:0px; padding-top:0px; padding-bottom:0px"> 在抛硬币的例子中,我们借助一元模型自身的概率,也就是前100次的历史数据来消除了判断结果的不确定性。而对于很多现实生活中的问题,则无法仅仅通过自身概率来判断。例如:对于天气情况,我们无法像抛硬币一样通过晴天,雨天和雾霾在历史数据中出现的概率来判断明天的天气,因为天气的种类很多,并且影响天气的因素也有很多。同理,对于网站的用户我们也无法通过他们的历史购买频率来判断这个用户在下一次访问时是否会完成购买。因为用户是的购买行为存在着不确定性,要消除这些不确定性需要更多的信息。例如用户历史行为中的广告创意,促销活动,商品价格,配送时间等信息。因此这里我们不能只借助一元模型来进行判断和预测了,需要获得更多的信息并通过二元模型或更高阶的模型了解用户的购买行为与其他因素间的关系来消除不确定性。衡量这种关系的指标叫做条件熵。条件熵是通过获得更多的信息来消除一元模型中的不确定性。也就是通过二元或多元模型来降低一元模型的熵。我们知道的信息越多 富利娱乐 ,信息的不确定性越小。例如,只使用一元模型时我们无法根据用户历史数据中的购买频率来判断这个用户本次是否也会购买。因为不确定性太大。在加入了促销活动,商品价格等信息后,在二元模型中我们可以发现用户购买与促销活动,或者商品价格变化之间的联系。并通过购买与促销活动一起出现的概率,和不同促销活动时购买出现的概率来降低不确定性。
计算条件熵时使用到了两种概率,分别是购买与促销活动的联合概率P(c),和不同促销活动出现时购买也出现的条件概率E(c)。以下是条件熵E(T,X)的计算公式。 大红鹰娱乐官网 条件熵的值越低说明二元模型的不确定性越小。
互信息是用来衡量信息之间相关性的指标。当两个信息完全相关时,互信息为1,不相关时为0。在前面的例子中用户购买与促销活动这两个信息间的相关性究竟有多高,我们可以通过互信息这个指标来度量。具体的计算方法就熵与条件熵之间的差。用户购买的熵E(T)减去促销活动出现时用户购买的熵E(T,X)。以下为计算公式:
熵,条件熵和互信息是构建决策树的三个关键的指标。下面我们将通过一个维基百科中的实例说明创建决策树的过程。
这是一家高尔夫球俱乐部的历史数据,里面记录了不同天气状况用户来打高尔夫球的历史记录。我们要做的是通过构建决策树来预测用户是否会来打高尔夫球。这里用户是否来打球是一个一元模型,具有不确定性,熵值很高。我们无法仅通过Yes和No的频率来判断用户明天是否会来。因此,需要借助天气的信息来减少不确定性。下面分别记录到了4种天气情况,我们通过计算条件熵和互信息来开始构建决策树的第一步:构建根决策点。
构建根决策点的方法就是寻找4种天气情况中与打高尔夫球相关性最高的一个。首先我们来看Play Golf这个一元模型的熵,来看看这件事的不确定性有多高.
在一元模型中,仅通过历史数据的概率来看预测Play Golf是一件非常不确定的事情,在14条历史数据中,打球的概率为64%,不打球的概率为36%。熵值达到了0.940。这与之前抛硬币的例子很像。在无法改变历史数据的概率时,我们需要借助更多的信息来降低不确定性。也就是计算条件熵。
计算二元模型的条件熵需要知道Play Golf与4种天气情况一起出现的联合概率,以及在不同天气情况下Play Golf出现的条件概率。下面我们分别来计算这两类概率。
联合概率
以上是经过分别计算后4种天气情况与Play Golf同时出现的联合概率值。
条件概率
同时我们也分别计算出了4种天气情况下,不同取值时Play Golf的条件概率值。并通过联合概率与条件概率求得4种天气情况与Play Golf间的条件熵。
互信息
在已知Play Golf的一元模型熵和不同天气条件下的二元模型熵后。我们就可以通过互信息来度量哪种天气与Play Golf的相关性最高了。
通过互信息的值可以发现,4种天气中Outlook的值最大。说明Outlook与Play Golf的相关性最高。因此我们选择Outlook作为决策树的根节点来构建决策树。
在整个决策树中,Outlook因为与Play Golf的相关性最高,所以作为决策树的根节点。以Outlook作为根节点后,决策树出现了三个分支,分别是Outlook的三个不同的取值Sunny,Overcast和Rainy。其中Overcast所对应的Play Golf都是Yes,因此这个分支的叶子节点为Yes。(后面构建分支决策节点时会看到)另外两个分支我们将使用和前面一样的方法,通过计算熵,条件熵和互信息来挑选下一个分支的决策节点。
下面我们继续构建Sunny,Overcast和Rainy这三个分支的决策节点,首先来看下Overcast节点,这个节点只有一种结果,因此无需在继续分裂。
Outlook节点Overcast分支
在Outlook根节点下的Overcast分支中,Play Golf只有一种结果Yes,因此Overcast分支停止分裂。叶子节点的值为Yes。
Outlook节点Sunny分支
在Outlook根节点下的Sunny分支中,