股票决策树_某企业拟推出产一种新产品

A. 求最小最大后悔值和决策树问题各两道!急!

1.结合实例说明什么是最小最大后悔值法。

最小最大后悔值法也称萨凡奇决策准则
最小最大后悔值法是指管理者在选择了某方案后，如果将来发生的自然状态表明其他方案的收益更大，那么他(或她)会为自已的选择而后悔。最小最大后悔值法就是使后悔值最小的方法。
最小最大后悔值法的运用
在股票市场上，最小最大后悔值法被称为最小后悔法，是股票投资者力图使后悔值降到最低限度的证券投资方法。
由于选取的购买方案往往与预测的企业经营状况存在很大的差异，这样就会出现实际收益大大低于目标收益的状况而使投资者产生后悔。最小后悔法的目的就是要使投资者将这种后悔降低到最低程度。
利用最小后悔法买卖股票的操作程序：
1、列出投资者在各种状态下的购买方案，并在每一购买方案中选出各自然状态下的最大收益值。
2、求出各种自然状态下各种方案的后悔值，其后悔值的公式是：“某方案后悔值”＝ “某自然状态下的最大收益值”-“该方案的收益值”，然后，将此方案的后悔值填入该方案栏中。
3、由此找出各方案在不同自然状态下的最大后悔值。
4、在各方案的最大后悔值中找出最小的后悔值，最小后悔值所对应的方案即为最优方案。

2.举例说明决策树的作用。

决策树是用二叉树形图来表示处理逻辑的一种工具。可以直观、清晰地表达加工的逻辑要求。特别适合于判断因素比较少、逻辑组合关系不复杂的情况。
决策树提供了一种展示类似在什么条件下会得到什么值这类规则的方法。比如，在贷款申请中，要对申请的风险大小做出判断，图是为了解决这个问题而建立的一棵决策树，从中我们可以看到决策树的基本组成部分：决策节点、分支和叶子。
决策树中最上面的节点称为根节点，是整个决策树的开始。本例中根节点是“收入>￥40,000”，对此问题的不同回答产生了“是”和“否”两个分支。
决策树的每个节点子节点的个数与决策树在用的算法有关。如CART算法得到的决策树每个节点有两个分支，这种树称为二叉树。允许节点含有多于两个子节点的树称为多叉树。
每个分支要么是一个新的决策节点，要么是树的结尾，称为叶子。在沿着决策树从上到下遍历的过程中，在每个节点都会遇到一个问题，对每个节点上问题的不同回答导致不同的分支，最后会到达一个叶子节点。这个过程就是利用决策树进行分类的过程，利用几个变量（每个变量对应一个问题）来判断所属的类别（最后每个叶子会对应一个类别）。
假如负责借贷的银行官员利用上面这棵决策树来决定支持哪些贷款和拒绝哪些贷款，那么他就可以用贷款申请表来运行这棵决策树，用决策树来判断风险的大小。“年收入>￥40,00”和“高负债”的用户被认为是“高风险”，同时“收入<￥40,000”但“工作时间>5年”的申请，则被认为“低风险”而建议贷款给他/她。
数据挖掘中决策树是一种经常要用到的技术，可以用于分析数据，同样也可以用来作预测（就像上面的银行官员用他来预测贷款风险）。常用的算法有CHAID、 CART、 Quest 和C5.0。
建立决策树的过程，即树的生长过程是不断的把数据进行切分的过程，每次切分对应一个问题，也对应着一个节点。对每个切分都要求分成的组之间的“差异”最大。
各种决策树算法之间的主要区别就是对这个“差异”衡量方式的区别。对具体衡量方式算法的讨论超出了本文的范围，在此我们只需要把切分看成是把一组数据分成几份，份与份之间尽量不同，而同一份内的数据尽量相同。这个切分的过程也可称为数据的“纯化”。看我们的例子，包含两个类别--低风险和高风险。如果经过一次切分后得到的分组，每个分组中的数据都属于同一个类别，显然达到这样效果的切分方法就是我们所追求的。
到现在为止我们所讨论的例子都是非常简单的，树也容易理解，当然实际中应用的决策树可能非常复杂。假定我们利用历史数据建立了一个包含几百个属性、输出的类有十几种的决策树，这样的一棵树对人来说可能太复杂了，但每一条从根结点到叶子节点的路径所描述的含义仍然是可以理解的。决策树的这种易理解性对数据挖掘的使用者来说是一个显著的优点。
然而决策树的这种明确性可能带来误导。比如，决策树每个节点对应分割的定义都是非常明确毫不含糊的，但在实际生活中这种明确可能带来麻烦（凭什么说年收入￥40,001的人具有较小的信用风险而￥40,000的人就没有）。

B. 我要对股票市场做决策树的模型，可是不会数据预处理，谁可以帮帮我啊，时间紧急啊

数据预处理可以通过很多股票软件进行数据生成，然后通过EXCEL软件进行处理，不过很耗时间

C. 管理学-决策树问题，求详解

----------销路好0.7 100万
......1--|
. ----------销路差0.3 -20万
.
. ------------销路好0.7 40万
I--......2--|
. ------------销路差0.3 30万
.
. -----扩建4 95万
. -----------Ⅱ---|
. | -----不扩建5 40万
......3--|
|
|
---------------销路差0.3 30万

方案一：结点1的期望收益是（0.7*100-0.3*20）*10-300=340
方案二：结点2的期望收益是（0.7*40+0.3*30）*10-140=230
方案三：结点4的期望收益是95*7-200=465，大于结点5的期望收益40*7=280，所以销路好时，扩建比不扩建好，结点3的期望收益是（0.7*40*3+0.7*465+0.3*30*10）-140=359.5
可以看出，三种方案中方案三最好

弄着一个决策树真费劲，不如在word上好弄

D. 机器学习有哪些算法

朴素贝叶斯分类器算法是最受欢迎的学习方法之一，按照相似性分类，用流行的贝叶斯概率定理来建立机器学习模型，特别是用于疾病预测和文档分类。它是基于贝叶斯概率定理的单词的内容的主观分析的简单分类。

什么时候使用机器学习算法 - 朴素贝叶斯分类器？

（1）如果您有一个中等或大的训练数据集。

（2）如果实例具有几个属性。

（3）给定分类参数，描述实例的属性应该是条件独立的。

A．朴素贝叶斯分类器的应用

（1）这些机器学习算法有助于在不确定性下作出决策，并帮助您改善沟通，因为他们提供了决策情况的可视化表示。

（2）决策树机器学习算法帮助数据科学家捕获这样的想法：如果采取了不同的决策，那么情境或模型的操作性质将如何剧烈变化。

（3）决策树算法通过允许数据科学家遍历前向和后向计算路径来帮助做出最佳决策。

C．何时使用决策树机器学习算法

（1）决策树对错误是鲁棒的，并且如果训练数据包含错误，则决策树算法将最适合于解决这样的问题。

（2）决策树最适合于实例由属性值对表示的问题。

（3）如果训练数据具有缺失值，则可以使用决策树，因为它们可以通过查看其他列中的数据来很好地处理丢失的值。

（4）当目标函数具有离散输出值时，决策树是最适合的。

D.决策树的优点

（1）决策树是非常本能的，可以向任何人轻松解释。来自非技术背景的人，也可以解释从决策树绘制的假设，因为他们是不言自明的。

（2）当使用决策树机器学习算法时，数据类型不是约束，因为它们可以处理分类和数值变量。

（3）决策树机器学习算法不需要对数据中的线性进行任何假设，因此可以在参数非线性相关的情况下使用。这些机器学习算法不对分类器结构和空间分布做出任何假设。

（4）这些算法在数据探索中是有用的。决策树隐式执行特征选择，这在预测分析中非常重要。当决策树适合于训练数据集时，在其上分割决策树的顶部的节点被认为是给定数据集内的重要变量，并且默认情况下完成特征选择。

（5）决策树有助于节省数据准备时间，因为它们对缺失值和异常值不敏感。缺少值不会阻止您拆分构建决策树的数据。离群值也不会影响决策树，因为基于分裂范围内的一些样本而不是准确的绝对值发生数据分裂。

E.决策树的缺点

（1）树中决策的数量越多，任何预期结果的准确性越小。

（2）决策树机器学习算法的主要缺点是结果可能基于预期。当实时做出决策时，收益和产生的结果可能与预期或计划不同。有机会，这可能导致不现实的决策树导致错误的决策。任何不合理的期望可能导致决策树分析中的重大错误和缺陷，因为并不总是可能计划从决策可能产生的所有可能性。

（3）决策树不适合连续变量，并导致不稳定性和分类高原。

（4）与其他决策模型相比，决策树很容易使用，但是创建包含几个分支的大决策树是一个复杂和耗时的任务。

（5）决策树机器学习算法一次只考虑一个属性，并且可能不是最适合于决策空间中的实际数据。

（6）具有多个分支的大尺寸决策树是不可理解的，并且造成若干呈现困难。

F.决策树机器学习算法的应用

（1）决策树是流行的机器学习算法之一，它在财务中对期权定价有很大的用处。

（2）遥感是基于决策树的模式识别的应用领域。

（3）银行使用决策树算法按贷款申请人违约付款的概率对其进行分类。

（4）Gerber产品公司，一个流行的婴儿产品公司，使用决策树机器学习算法来决定他们是否应继续使用塑料PVC（聚氯乙烯）在他们的产品。

（5）Rush大学医学中心开发了一个名为Guardian的工具，它使用决策树机器学习算法来识别有风险的患者和疾病趋势。

Python语言中的数据科学库实现决策树机器学习算法是 - SciPy和Sci-Kit学习。

R语言中的数据科学库实现决策树机器学习算法是插入符号。

3.7 随机森林机器学习算法

让我们继续我们在决策树中使用的同样的例子，来解释随机森林机器学习算法如何工作。提利昂是您的餐厅偏好的决策树。然而，提利昂作为一个人并不总是准确地推广你的餐厅偏好。要获得更准确的餐厅推荐，你问一对夫妇的朋友，并决定访问餐厅R，如果大多数人说你会喜欢它。而不是只是问Tyrion，你想问问Jon Snow，Sandor，Bronn和Bran谁投票决定你是否喜欢餐厅R或不。这意味着您已经构建了决策树的合奏分类器 - 也称为森林。

你不想让所有的朋友给你相同的答案 - 所以你提供每个朋友略有不同的数据。你也不确定你的餐厅偏好，是在一个困境。你告诉提利昂你喜欢开顶屋顶餐厅，但也许，只是因为它是在夏天，当你访问的餐厅，你可能已经喜欢它。在寒冷的冬天，你可能不是餐厅的粉丝。因此，所有的朋友不应该利用你喜欢打开的屋顶餐厅的数据点，以提出他们的建议您的餐厅偏好。

通过为您的朋友提供略微不同的餐厅偏好数据，您可以让您的朋友在不同时间向您询问不同的问题。在这种情况下，只是稍微改变你的餐厅偏好，你是注入随机性在模型级别（不同于决策树情况下的数据级别的随机性）。您的朋友群现在形成了您的餐厅偏好的随机森林。

随机森林是一种机器学习算法，它使用装袋方法来创建一堆随机数据子集的决策树。模型在数据集的随机样本上进行多次训练，以从随机森林算法中获得良好的预测性能。在该整体学习方法中，将随机森林中所有决策树的输出结合起来进行最终预测。随机森林算法的最终预测通过轮询每个决策树的结果或者仅仅通过使用在决策树中出现最多次的预测来导出。

例如，在上面的例子 - 如果5个朋友决定你会喜欢餐厅R，但只有2个朋友决定你不会喜欢的餐厅，然后最后的预测是，你会喜欢餐厅R多数总是胜利。

A.为什么使用随机森林机器学习算法？

（1）有很多好的开源，在Python和R中可用的算法的自由实现。

（2）它在缺少数据时保持准确性，并且还能抵抗异常值。

（3）简单的使用作为基本的随机森林算法可以实现只用几行代码。

（4）随机森林机器学习算法帮助数据科学家节省数据准备时间，因为它们不需要任何输入准备，并且能够处理数字，二进制和分类特征，而无需缩放，变换或修改。

（5）隐式特征选择，因为它给出了什么变量在分类中是重要的估计。

B.使用随机森林机器学习算法的优点

（1）与决策树机器学习算法不同，过拟合对随机森林不是一个问题。没有必要修剪随机森林。

（2）这些算法很快，但不是在所有情况下。随机森林算法当在具有100个变量的数据集的800MHz机器上运行时，并且50,000个案例在11分钟内产生100个决策树。

（3）随机森林是用于各种分类和回归任务的最有效和通用的机器学习算法之一，因为它们对噪声更加鲁棒。

（4）很难建立一个坏的随机森林。在随机森林机器学习算法的实现中，容易确定使用哪些参数，因为它们对用于运行算法的参数不敏感。一个人可以轻松地建立一个体面的模型没有太多的调整

（5）随机森林机器学习算法可以并行生长。

（6）此算法在大型数据库上高效运行。

（7）具有较高的分类精度。

C.使用随机森林机器学习算法的缺点

他们可能很容易使用，但从理论上分析它们是很困难的。

随机森林中大量的决策树可以减慢算法进行实时预测。

如果数据由具有不同级别数量的分类变量组成，则算法会偏好具有更多级别的那些属性。在这种情况下，可变重要性分数似乎不可靠。

当使用RandomForest算法进行回归任务时，它不会超出训练数据中响应值的范围。

D.随机森林机器学习算法的应用

（1）随机森林算法被银行用来预测贷款申请人是否可能是高风险。

（2）它们用于汽车工业中以预测机械部件的故障或故障。

（3）这些算法用于医疗保健行业以预测患者是否可能发展成慢性疾病。

（4）它们还可用于回归任务，如预测社交媒体份额和绩效分数的平均数。

（5）最近，该算法也已经被用于预测语音识别软件中的模式并对图像和文本进行分类。

Python语言中的数据科学库实现随机森林机器学习算法是Sci-Kit学习。

R语言的数据科学库实现随机森林机器学习算法randomForest。

E. 为什么手动实现决策树效率比调包低很多

1.每个算法模块按照“原理讲解→分析数据→自己动手实现→特征与调参”的顺序，“原理加实践，顶天立地”。
2.拒绝简单的“调包”——增加3次“机器学习的角度看数学”和3次“Python数据清洗和特征提取”，提升学习深度、降低学习坡度。
3.增加网络爬虫的原理和编写，从获取数据开始，重视将实践问题转换成实际模型的能力，分享工作中的实际案例或Kaggle案例：广告销量分析、环境数据异常检测和分析、数字图像手写体识别、Titanic乘客存活率预测、用户-电影推荐、真实新闻组数据主题分析、中文分词、股票数据特征分析等。

F. 10、决策树属于（）。

风险型决策：在未来的决定因素，可能出现的结果不能作出充分肯定的情况下，根据各种可能结果的客观概率作出的决策。决策者对此要承担一定的风险。风险型问题具有决策者期望达到的明确标准，存在两个以上的可供选择方案和决策者无法控制的两种以上的自然状态，并且在不同自然状态下不同方案的损益值可以计算出来，对于未来发生何种自然状态，决策者虽然不能作出确定回答，但能大致估计出其发生的概率值。对这类决策问题，常用损益矩阵分析法和决策树法求解；
程序化决策：就是可以根据既定的信息建立数学模型，把决策目标和约束条件统一起来，进行优化的一种决策。比如工厂选址、采购运输等等决策。这种决策是可以运用筹学技术来完成的。在这种程序化决策中，决策所需要的信息都可以通过计量和统计调查得到，它的约束条件也是明确而具体的，并且都是能够量化的。对于这种决策，运用计算机信息技术可以取得非常好的效果。通过建立数学模型，让计算机代为运算，并找出最优的方案，都是在价值观念之外做出的，至少价值观念对这种决策的约束作用不是主导因素。
悲观决策：采用悲观决策准则，通常要放弃最大利益，但由于决策者是从每一方案最坏处着眼，因此风险较小。小中取大法又称为最小风险法，是一种把风险降低到最小程度来获取收益的股票投资方法。最小风险法是一种较为稳妥的股票投资决策方法，较适合保守型的股票投资者采用。
乐观决策：
大中取大法又称乐观法、大中取大原则、乐观决策法、冒险法、最大的最大收益法，采用这种方法的管理者对未来持乐观的看法，认为未来会出现最好的自然状态，因此不论采取哪种方案，都能获取该方案的最大收益。

由于决策树，是对事物进行定量和定性分析，采用各类事物产生的概率及风险进行评估，所以选A

G. 股市中的量化交易是什么意思呢

量化交易（quantitative Trading）是利用数学、统计、计算机的模型和方法来指导在金融市场的交易，可以自动下单业可以半自动下单，这个不是核心，核心在于是不是系统化交易（systematic trading）。

比如主观交易会看K线交易，量化交易业会，但区别在于量化交易可以在历史数据上回测各种交易规则，找到表现好的，然后才用来交易。这或许会有过度拟合的风险，但也有一些方法克服。

量化交易虽然有很多优点，但是真的能战胜市场，并且保证胜率，我觉得很难说。

H. 某企业拟推出产一种新产品,现有三个方案可供选择,有关资料如下表,试画出决策树并进行决策。

方案A的预期货币价值EMV=0.4*200+0.35*80+0.25*(-30)=100.5

方案B的预期货币价值EMV=0.4*100+0.35*40+0.25*0=54

方案C的预期货币价值EMV=0.4*50+0.35*40+0.25*30=41.5

每年预计收益方案A:100.5-250/6=58.8

每年预计收益方案B:54-90/6=39

每年预计收益方案C:41.5-40/6=34.8

所以应当选择方案C.

图在WORD中画的，不太好，不过能说问题。符号采用美国项目管理协会规范，你可以根据企业具体标准修改。

I. 决策树 python 代码实现后怎么应用到实际中去

（1）#按照市值从小到大的顺序活得N支股票的代码；（2）#分别对这一百只股票进行100支股票操作；（3）#获取从2016.05.01到2016.11.17的涨跌幅数据；（4）#选取记录大于40个的数据，去除次新股；（5）#将文件名名为“股票代码.csv”。

导航:首页 > 股票外汇 > 股票决策树

股票决策树

与股票决策树相关的资料