(中文) 雲端資料處理與探勘
(英文) Cloud Data Management And Mining
教科書 | Jiawei Han, Micheline Kamber, and Jian Pei, Data Mining: Concepts and Techniques, Third Edition, Morgan Kaufmann, 2012 by Elsevier Inc. | ||||
參考教材 | 1. MapReduce based Large-Scale Data Processing and Mining 2. 應用R語言於資料分析,李仁鐘,松崗,2015 |
||||
圖書館電子書 | Jiawei Han, Micheline Kamber, and Jian Pei, Data Mining: Concepts and Techniques, Third Edition, Morgan Kaufmann, 2012 by Elsevier Inc. http://www.sciencedirect.com/science/book/9780123814791 |
**********************************
20151013
分群Clustering
分類Classification
到底有什不同?
……………………………
分群Clustering
unsupervised Learning 非監督式學習 ~無前例可參考
從無中生有
不在乎問題大小~在乎複雜度
原來資料沒有標準答案~來分
自覺性的分群
目標是群中成員相似度越高越好
不同群之間的差異越大越好
………………………
分類Classification
Supervised learning 監督式學習
告知Label代表已有經驗可參考
從有中生無
已有答案~但跑來一個新的成員~~要想把他分到那邊…..
所以先分群~~後分類~~~
但為什麼不能先分類後分群???~因為這樣沒有效率!
…………………………………………….
底下是Data Mining流程步驟:
Purpose : 主要目的
Data Collection : 資料不容易取得EX:要有網頁爬蟲
Feature Extraction : 特徵萃取(要用什麼特徵去找?) (如何斷字?) (影像也不容易)
Feature Selection : 選取有用的特徵 (包括外顯特徵與內顯特徵)-抓出Patterns.
(Feature太多怎辦??只好做維度縮減Dimension Reduction ßP.C.A ) (最後還是要與本行專家討論) (用 P.C.A 挑出其中最重要的幾個~不然太多)
Coding Schema : 將挑出來的Data Sets 轉為 Code Sets.(編碼系統)
Coding : 做編碼動作~這是為了後面分群方法
Similarity Coefficient : 要算倆倆之間的相似係數~看像不像?
S.C. Matrix : 相似系數矩陣(類似統計中的矩陣)
Clustering method : 分群的方法
Evaluate Results : 評估結果 (Verification + Validation)要第三方單位來驗證
(Verification流程面Process. 流程面有沒有問題?)
(ValidationàPurpose是否有問題?) 目的有沒有達到? 有沒有價值?
Explain Results : 解釋這個結果代表什麼?
…………………………………………
相似係數也可以用相異度來算
相似係數公式: (Jaccard)
Numerator 分子
Denominator 分母
The example of similarity coefficient (1/6)
*******************************************