人力资源

当前位置:首页 > 人力资源 > 文化活动 >

Python数据科学:决策树

编辑:55体育 来源:55体育 创发布时间:2021-11-21阅读58100次
  本文摘要:决策树正圆形树结构,是一种基础的重回和分类方法。

决策树正圆形树结构,是一种基础的重回和分类方法。决策树实体模型的优势取决于易读性强悍、归类速度更快。下边根据从「译为学馆」运输的2个视頻,来比较简单了解下决策树。最终来空中格斗一波,建立一个比较简单的决策树实体模型。

/01/决策树算法此次关键涉及两大类决策树,Quinlan系列产品决策树和CART决策树。前面一种涉及的算法还包含ID3算法、C4.5算法及C5.0算法,后面一种则是CART算法。

前面一种一系列算法的流程整体能够汇总为成就和剪树。在成就流程中,最先随意选择最有表明幅度的变量,然后对每一个变量随意选择线性拟合的分拆点进行剪树。

剪树,除去决策树中噪声或发现异常数据信息,在损害一定预测分析精密度的状况下,必须操控决策树的复杂性,提高其一般化工作能力。在剪树流程中,分为前修枝和后修枝。

前修枝作为操控树杆的溶解经营规模,常见方式有操控决策树仅次深层、操控树中父节点和子节点的数最多样本数或占比。后修枝作为清除没意义的排序,常见方式有推算出来节点中总体目标变量预测分析精密度或出现偏差的原因、综合性充分考虑出现偏差的原因与复杂性进行剪树。

除此之外在ID3算法中,用于信息增益筛出最有表明幅度的变量。在其中信息增益为信息熵乘于条件熵得到 ,增益值越大,则变量的危害越大。

55体育

C4.5算法则是用于信息增益亲率做为变量检测的指标值。CART算法可作为归类或标值预测分析,用于基尼系数(gini)做为随意选择线性拟合分拆变量的指标值。/02/Python搭建国际惯例,以后用于书里获得的数据信息。

一份轿车债务人借款数据。获取数据,并对数据信息进行消除应急处置。importosimportpydotplusimportnumpyasnpimportpandasaspdimportsklearn.treeastreeimportmatplotlib.pyplotaspltfromIPython.displayimportImageimportsklearn.metricsasmetricsfromsklearn.treeimportDecisionTreeClassifierfromsklearn.model_selectionimporttrain_test_split,ParameterGrid,GridSearchCV#防止pandas键入句号状况pd.set_option('display.max_columns',None)#设定说明总宽为1000,那样便会在IDE中空格符了pd.set_option('display.width',1000)#获取数据,skipinitialspace:忽略分节符后的空缺accepts=pd.read_csv('accepts.csv',skipinitialspace=True)#dropna:对缺点的数据信息进行清除accepts=accepts.dropna(axis=0,how='any')#因变量,否债务人target=accepts['bad_ind']#自变量data=accepts.ix[:,'bankruptcy_ind':'used_ind']#业务流程应急处置,loan_amt:贷款金额,tot_income:平均盈利data['lti_temp']=data['loan_amt']/data['tot_income']data['lti_temp']=data['lti_temp'].map(lambdax:10ifx>=10elsex)#清除贷款金额列deldata['loan_amt']#拆换曾一度破产倒闭标志列data['bankruptcy_ind']=data['bankruptcy_ind'].replace({'N':0,'Y':1})接下去用于scikit-learn将数据区别为训练集和检测集。


本文关键词:55体育,55体育官网

本文来源:55体育-www.shingcgzj.com

076-268479235

联系我们

Copyright © 2010-2014 遵义市55体育官网股份有限公司 版权所有  贵ICP备84486274号-4