ImageVerifierCode 换一换
格式:PPT , 页数:41 ,大小:1.56MB ,
资源ID:321653      下载积分:100 文钱
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,省得不是一点点
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.wenke99.com/d-321653.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: QQ登录   微博登录 

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(FP-Growth演算法.ppt)为本站会员(ga****84)主动上传,文客久久仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知文客久久(发送邮件至hr@wenke99.com或直接QQ联系客服),我们立即给予删除!

FP-Growth演算法.ppt

1、,第 6 章關連分析:基本概念和演算法, 2008 台灣培生教育出版 (Pearson Education Taiwan),基本專有名詞,二元表示方式:購物籃資料可以被表示成二元格式項目集:在關聯分析中,一堆0 或更多項目被稱為一項目集支持個:其代表交易中包含特定項目集之數量,基本專有名詞,關規則:關聯規則為 XY 的表示式,X 和Y 為無交集的項目集,即 。強度由支持度( support )和信賴度(confidence)進行測量支持度,信賴度,,關規則探勘(1),給定交易集合T,找尋支持度最小支持度(minsup)且信賴度最小信賴度(minconf)的所有規則。最小支持度和最小信賴度代表的

2、是支持度和信賴度的門檻值以窮舉法(brute-force approach)探勘關聯規則時會計算每一可能規則的支持度和信賴度,初始步驟有助於改善關聯規則探勘演算法的執行,以減少計算支持度和信賴度的需求,關規則探勘(2),關聯規則探勘的演算法將問題切割成二個主要的子工作:高頻項目集的產生(Frequent Itemset Generation),尋找所有滿足最低支持度門檻值的項目集規則產生(Rule Generation),從前一步驟找到的高頻項目集中,萃取所有具有高信賴度的規則,這些規則被稱為強規則(strong rule),高頻項目集的產生,晶格(lattice)結構可被用來列舉所有可能的項

3、目集合一個項目集 I = a,b,c,d,e 的晶格,Apriori 原則(1),若一項目集是高頻項目集,則他的所有子集合也必定是高頻的,Apriori 原則(2),若a,b是非高頻(infrequent)項目,則a,b的所有超集合也會是非高頻項目,Apriori 演算法中的高頻項目集產生,候選集的產生與刪除(1),候選集產生。這個步驟是以高頻 (k-1)-項目集為基礎,來產生新候選k-項目集。應該要避免產生太多不必要的候選集必須保證候選集合是完整的不應產生同樣的候選集合超過一次以上候選集刪除。這個步驟使用以支持度為基礎之刪除策略來淘汰一些候選k-項目集。,候選集的產生與刪除(2),產生候選集

4、的方法 窮舉法,圖 以窮舉法產生候選3-項目集,候選集的產生與刪除(3),產生候選集的方法 Fk-1 F1 法,圖 藉由合併高頻 (k-1)-項目集與一個高頻項目,以產生與刪除k-項目集。 要注意的是,有些候選集是不必要的,因他們的子集合是非高頻的,候選集的產生與刪除(4),產生候選集的方法 Fk-1 Fk-1 法,圖 藉由合併一對高頻 (k-1)-項目集來產生與刪除候選k-項目集,支持度計算,支持度計算是用來判斷在apriori-gen 函數的候選集刪除步驟中,留下來之每個候選集合的發生頻率,圖 列舉一筆交易t 中包含3 個項目的集合,使用雜湊樹做支持度計算,在支持度計算過程中,每一筆交易包

5、含的項目集合也會被雜湊至適合的桶子中此方式取代交易中每一項目與每一候選集的比較,而只將項目集合與其對應桶子中的候選集合做配對,計算的複雜度,Apriori 演算法的計算複雜度會被下列因素影響:支持門檻值項目的(維)交平均交寬1-高頻項目集的產生候選集產生支持計算,規則產生,規則是從一個高頻項目集產生所有這樣的規則必須滿足最低支持度門檻值以信賴度為基礎之刪除(confidence-based pruning)Apriori 演算法的規則產生,使用信賴度來刪除關聯規則,高頻項目集的精簡表示方式(1),最大高頻項目集:最大高頻項目集可被定義為一個高頻項目集,因它的最近超集合(immediate su

6、persets)沒有一個是高頻。封閉項目集:項目集X 是封閉的,若它的最近超集合與X 完全沒有相同的支持個數。封閉高頻項目集:一項目集為封閉高頻項目集,若它是封閉的且它的支持度大於或等於最小支持度。,高頻項目集的精簡表示方式(2),最大高頻項目集,高頻項目集的精簡表示方式(3),封閉高頻項目集,高頻項目集的精簡表示方式(4),高頻項目集、最大高頻項目集與封閉高頻項目集之間的關係,產生高頻項目集的替代方法,項目集晶格之走訪(traversal):演繹法( General-to-Specific)與歸納法(Specific-to-General )等價別(equivalence class)廣優先

7、(breadth-first)與深優先(depth-first)交資集的表示方式當在計算候選項目集的支持度時,交易資料集的表示方式的選擇會影響I/O 成本,演繹法、歸納法以及雙向搜尋,等價別:字首樹與字尾樹,廣優先與深優先,使用深度優先方法產生候選項目集,水準與垂直的資料格式,FP-Growth 演算法,FP-growth 演算法以不同的方法來發掘高頻項目集不支持在Apriori 範例中的產生與測試(generate-and-test使用一個稱為FP-tree 的壓縮資料結構來對資料集做編碼,並從此結構中直接萃取出高頻項目集,FP-tree 的建構(1),FP-tree 是一種輸入資料的壓縮表

8、示方式,FP-tree 的建構(2),FP-Growth 演算法中的高頻項目集產生(1),FP-growth 為產生高頻項目集的演算法, 在FP-tree 中以由下至上(bottom-up)的方式進行探索,FP-Growth 演算法中的高頻項目集產生(2),FP-Growth 演算法中的高頻項目集產生(3),FP-growth 利用各個擊破(divide-and-conquer)策略將問題切割成多個小的子問題(subproblems),以尋找特定結尾之所有高頻項目集,FP-Growth 演算法中的高頻項目集產生(4),關聯樣式的評估,關聯分析演算法可產生大量可能的樣式(pattern)可透過統

9、計參數來建立透過主觀參數來建立視覺化以模版為基礎之方法(template-based approach)主觀興趣測指標(subjective interestingness measure),客觀興趣測量(1),客觀測量是一種資料驅動方式(data-driven),以評估關聯樣式的品質,除了指定門檻值來過濾低品質樣式之外,它是領域獨立(domain-independent)並且需要來自使用者最小的輸入支持信賴架構之限制:現有之關聯規則探勘的建構,是依賴支持度和信賴度測量,以減少不感興趣的樣式興趣因素(interest factor)興趣因素的限制,客觀興趣測量(2),相關性分析相關性分析的限制

10、IS 測IS 測的限制其他的客觀興趣測量客觀測量中的一致性,客觀測量的特性(1),反轉特性(inversion property):反向特性:當交換f11 與f00,和f10 與f01 的高頻個數時,若M 的值維持不變,則客觀測量M 在反向操作下是不變的。null addition 特性若測量值不會因為增加f00 而受影響,且在列聯表中的所有其他高頻個數皆保持一樣,則在null addition 操作下客觀測量M是不變的。,客觀測量的特性(2),尺特性(scaling property):尺變性(scaling invariance property):客觀測量M 在行列尺度操作下是不變的若M(T) = M(T),其中T 是高頻個數(frequent counts)的列聯表 f11; f10; f01; f00 ,T是尺度高頻個數(scaled frequency counts)的列聯表k1k3 f11; k2k3 f10; k11k4 f01; k2k4 f00而k1, k2, k3, k4為正數。,偏態支持度分佈的影響,交叉支持樣式:交叉支持樣式為一項目集X=i1,i2,ik,其支持度比率 是小於使用者指定之門檻值c h,

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。