N4550B雲端資料處理與探勘

(中文) 雲端資料處理與探勘
(英文) Cloud Data Management And Mining

教科書 Jiawei Han, Micheline Kamber, and Jian Pei, Data Mining: Concepts and Techniques, Third Edition, Morgan Kaufmann, 2012 by Elsevier Inc.
參考教材 1. MapReduce based Large-Scale Data Processing and Mining
2. 應用R語言於資料分析,李仁鐘,松崗,2015
圖書館電子書 Jiawei Han, Micheline Kamber, and Jian Pei, Data Mining: Concepts and Techniques, Third Edition, Morgan Kaufmann, 2012 by Elsevier Inc.
http://www.sciencedirect.com/science/book/9780123814791

教學大綱表

**********************************

20151013

分群Clustering
分類Classification
到底有什不同?

……………………………

分群Clustering
unsupervised Learning 非監督式學習 ~無前例可參考
從無中生有
不在乎問題大小~在乎複雜度
原來資料沒有標準答案~來分
自覺性的分群
目標是群中成員相似度越高越好
不同群之間的差異越大越好

………………………

分類Classification
Supervised learning 監督式學習
告知Label代表已有經驗可參考
從有中生無
已有答案~但跑來一個新的成員~~要想把他分到那邊…..

所以先分群~~後分類~~~
但為什麼不能先分類後分群???~因為這樣沒有效率!

…………………………………………….

底下是Data Mining流程步驟:

Purpose : 主要目的

Data Collection : 資料不容易取得EX:要有網頁爬蟲

Feature Extraction : 特徵萃取(要用什麼特徵去找?) (如何斷字?) (影像也不容易)

Feature Selection : 選取有用的特徵 (包括外顯特徵與內顯特徵)-抓出Patterns.
(Feature太多怎辦??只好做維度縮減Dimension Reduction ßP.C.A ) (最後還是要與本行專家討論) (用 P.C.A 挑出其中最重要的幾個~不然太多)

Coding Schema : 將挑出來的Data Sets 轉為 Code Sets.(編碼系統)

Coding : 做編碼動作~這是為了後面分群方法

Similarity Coefficient : 要算倆倆之間的相似係數~看像不像?

S.C. Matrix : 相似系數矩陣(類似統計中的矩陣)

Clustering method : 分群的方法

Evaluate Results : 評估結果 (Verification + Validation)要第三方單位來驗證
(Verification流程面Process. 流程面有沒有問題?)

(ValidationàPurpose是否有問題?) 目的有沒有達到? 有沒有價值?
Explain Results : 解釋這個結果代表什麼?

…………………………………………

相似係數也可以用相異度來算
相似係數公式: (Jaccard)
Numerator 分子
Denominator 分母
The example of similarity coefficient (1/6)

*******************************************