⑴ 聚類和分類的區別(分類與聚類的本質區別)
分類(Classification)與聚類(Clustering)在數據處理圈中算是出現頻率較高的兩類演算法。但對不了解數據處理的人來說,當把二者放到一起時,很容易傻傻分不清楚。下面,看點哥在不涉及具體、復雜、高深的演算法步驟和說明的前提下,來對兩個演算法進行一下淺顯易懂、入門級的介紹和對比。
對受眾的標簽類別是已知還是未知
具體解釋就是,分類對受眾標簽類別是已知的。即事先定義的類別,類別數量,甚至類別間的層級關系都是已知的。然後利用訓練和學習完的模型把資料庫中的未分類數據項,根據特徵或屬性映射到給定類別中的某一類中;而聚類則對受眾標簽類別是未知的。即沒有事先預定的類別,類別數也不確定。只是根據物以類聚的原理,通過對演算法判斷規則的調整將具有相似特徵的數據聚成一類。
分類與聚類的應用思路
可能從概念上理解分類與聚類的本質區別比較晦澀難懂。下面列舉二者在互聯網廣告中的應用實例,從而來做進一步區分。其中,電商是同時利用這兩種演算法的典型領域。
分類演算法應用思路
效果類廣告投放的開始階段我們稱之為冷啟動階段。可能對大多數非HERO級別電商廣告主而言,自身沒有第一方數據或者數據量稀疏。這導致依靠歷史數據積累才能發揮作用的演算法無法派上用場。那麼,在冷啟動階段如何進行廣告投放?使用分類演算法對廣告平台預先分類出的人群做投放是明智之選。這里要強調:並不是說分類演算法不需要數據積累,而是人群分類本身就是基於全局的、利用歷史上受眾行為得出的,已經完成了前期的數據積累、分析過程。
使用分類演算法,就是藉助強大的大數據技術,預先將廣告平台人群數據按照標簽屬性做好分類,然後運營人員利用經驗和對客戶產品的深刻理解,可以從歸類好的平台資料庫中篩選出目標受眾類來做定向投放。分類演算法就相當於區分受眾的工具,是電商廣告主或投放平台搞清楚對誰投廣告的過程。受眾分類做得好、分得准,能大大縮短冷啟動周期,減少預算浪費。
聚類演算法應用思路
當投放開始後,隨著運營人員根據實時的投放反饋數據及時優化調整投放策略,會積累越來越多的有效用戶數據。這時候,聚類演算法開始出場了。在電商領域,這里所說的有效用戶數據,就是用戶的電商行為數據,如商品瀏覽、點擊、加入購物車、購買等行為數據。利用這些行為數據加上聚類演算法的判斷規則,協助電商廣告主進行客戶分群,即用不同劃分標准將相似行為的用戶聚到一起,比如分為:高價值用戶、一般價值用戶和潛在用戶;或者是追求品質型用戶、追求實用型用戶、追求個性型用戶等。然後進一步深入挖掘、刻畫不同客戶群的特徵,從而為不同價值或不同喜好的客戶群提供不同的營銷推廣方案和預算配比方案,將能最大化提升轉化率和客單值。
聚類演算法是電商廣告主細分市場、細分消費者的有效工具;同時也可通過研究消費者行為,進一步高效化開拓新的潛在市場、挖掘潛在客戶,最大化提高自身盈利水平。
說在最後
大數據的真正含義不在於大,而在於從海量的資料庫中挖掘出隱含在其中的有用信息。而今天所講的分類、聚類演算法,就是把數據變得更有價值的兩種常見數據挖掘演算法。對於這兩種演算法,你不一定要會,但一定要懂!只有了解了二者的應用思路,才能通過大數據高度自動化地分析,做出歸納性的推理,從中挖掘出潛在的價值信息,幫助企業調整自身市場策略、減少風險、理性面對市場,從而保持核心競爭力,立於不敗之地!