雲端資料處理與探勘N4550B陳煇煌
投影片在網路硬碟2社群分享 N4550B-1011
Data Mining Concepts and Techniques 3rd Edition
作者:Jiawei Han, Micheline Kamber, Jian Pei
出版:Mo gan Kau fma nn 2011
ISBN:0123814790
格式:epub;7MB;744页
http://www.itpub.net/thread-1495219-1-1.html
http://ebookee.org/Data-Mining-Concepts-and-Techniques-3rd-Edition_1743013.html
**************************************************
20120921
不同群組之間~判斷是否有共同特徵??
另外一種群體方式~~群聚成為可以群組的個數~~
異常情況訊息~
Data ming所需要得到的訊息~
Data warehouse~~(OLAP)
Pattern recognition , Visualization(圖像表達)
Diaper–>Beer (0.5%, 75%) (Support , Confidence)
不同階段~不同類型~~大事切割成小的~~
**************************************************************
20121005
Basic Statistical Descriptions of Data
對數值性的DATA可透過排序~區間~
量測後知分散程度~可更知資訊代表含意~
資訊集中特性~
加權之前與之後Values不一樣~
因資料收集前後會有極端值~所以先去掉~再加總平均~
EX奧運~
~
MODE:出現最多的VALUE
這個減掉他會差三倍~mode~ mean
IQR=Q3-Q1
Boxplot:ends of the box are the quartiles; median is marked; add whiskers, and plot outliers individually
~
Histogram Analysis:
~
Scatter plot:
各個銷售數量與單價之間有無關係~
從圖看到中間有轉折點~代表這部分單價銷售最多~
單價越高卻賣越好~正相關~
~
DATA VISUALIZATION:
用視覺化去呈現整體的樣貌與方便找特徵~找驅勢~找關連~
~
Direct Data Visualization
~
Scatterplot Matrices
斜角對稱~
~
Landscapes:
翻轉~角度~瞎子模象~不同視角看不同影像~
考慮事情要能從不同面像考量~
~
Icon-Based Visualizatin Techniques
用視覺化去了解各部份情形~
把資訊用符號表示出來~EX:景氣藍燈~
~
Chernoff Faces
EX簡單人臉圖形1993年
用圖形讓對象很容易了解意思~
Sticr figure:
一個身體加上四隻腳~做表示~
~
Hierarchical Visualization Techniques
分層表示~堆疊表示~大世界內的小世界~
Dimensional Stacking
~
TREE-MAP
越分越細~大中小區塊~
~
Data Matrix and Dissimilarity Matrix
Data matrix
Dissimilarity matrix (對角線都是零~其他對稱)
~
Minkowski distance
Supremum
Ordinal Variables~~~
*******************************************************
20121012
Data Visualization
電腦處理之後導出之資料可透過視覺方式驗證~
Pixel-oriented
圖像或層級分析~緯度之間產生啥關聯~
了解某個緯度與另一個有啥關係~由小到大排序~
~
Credit limit
收入越低~信用額度越低~
可看出客戶集中在中等收入族群~
~
雷達圖~各個KPI連起來~
~
Chernoff faces
Stick figures 四個抓子~
人口普查的圖~a census data figure showing age, income, gender, education, etc.
~
Worlds-within-worlds
要了解關連趨勢所以要FIX下來~
~
Infocube
~
Three-D cone trees
圓錐~同心圓~
~
Similarity and dissimilarity
越大相似成度越高~
Dissimilarity~ numerical measure of how different two data objects are
~
Nominal Data 可以有兩個以上狀態~
~
兩點如果不一樣~則大於零~
……………………………………………………………………………
20121012 Homework
**********************************************************
20121019
Data Quality:Why Preprocess the Data?
考量正確性~資料反映真實情況~還有完整性~
資料從多個來源來~
即時性~需要做分析的時候~這些資料可以做分析用~
分析結果要能即時加入考量中~
分析出來的結果使用者到底能不能接受~資料來源是否有信心~
Interpretability:了解領域專業知識~是否代表啥意思~
Data Cleaning:資料可能會收到污染~或資訊遺失~
Data reduction:收集的時候都收集~但抽取有興趣部份分析~或是找出關聯性~
Data Cleaning:
Incomplete (Missing) Data:在收集資料的時候~
Fill in it automatically with~~
Noisy Data:
Noise
Incorrect attribute values
會有資料重覆問題~
Data Cleaning as a Process
Chapter 3: Data Preprocessing
Data Integration
Entity identification problem:
一樣一加侖~但容量卻不一樣~歐洲與美州~
看起來單位一樣~但是實際上不一樣~
Handling Redundancy in Data Integration:
Derived:從其他data 加過來~
Redundant attributes may be able to be detected by correlation analysis and covariance analysis
不同用戶卻有共同特徵~所以可能是同一個用戶~
Correlation Analysis (Nominal Data)
人口多少~造成與人口有正向關係~所以影響資料~
Chi-Square Calculation: An Example
Correlation Analysis (numeric data)
Visually Evaluation Correlation
Correlation (viewed as linear relationship)
Covariance (Numeric Data)
Co-Variance: An Example
Data Reduction Strategies
在某些情況會是一樣的~出來情況不會影響~
~
Data reduction strategies:
Dimensionality reduction
Numerosity reduction
Data compression
~
Data Reduction 1: Dimensionality Reduction
Mapping Data to a New Space
Haar Wavelet Co….
Why Wavelet Transform
Principal Component Analysis (PCA)
*******************************************************
20121026
Principal Component Analysis (PCA)
Prinipal Component Analysis (Steps)
Attribute Subset Selectioin
~
Parametric Data Reduction:Regression and Log-Linear Models
透過線性方式去影響結果~
Regression Analysis
資料越還原越接近本來面目~
時間序列的資料~隨者時間變動不是很快~所以變動比完成資廖小很多~
~
透過轉換方式~將影響變成比較均勻~
~
Normalization 壓縮在一個區間~
行動電信業者
********************************************************