資料探勘中分類和迴歸的區別資料探勘中分類和迴歸的區別是什麼?

2021-03-05 09:21:35 字數 5051 閱讀 7636

1樓:不是7個漢字嗎

單純就這句話而言不能說錯,只是不完全。

分類是指一類問題,而回歸是一類工具。分類的目的在於給物件按照其類別打上相應的標籤再分門別類,而回歸則是根據樣本研究其兩個(或多個)變數之間的依存關係,是對於其趨勢的一個分析**。

分類的標籤如果是表示(離散的)有排序關係的類別時,比如說「好」、「較好」、「一般」這樣的時候,也可以用迴歸來處理。但是如果標籤是純粹的分類,比如說電影中的「喜劇」、「動作」、「劇情」這樣的無排序關係的標籤時,就很難用迴歸去處理了。而且,分類中還存在著「多分類」的問題,也就是一個物件可能有多個標籤的情況,這就更復雜了。

而同時,迴歸所能做的也並非只有分類,也可以用來做**等其他問題。

所以,迴歸和分類的區別並非只有輸出的「定性」與「定量」那麼簡單,應該說兩者屬於不同的範疇。

2樓:正立天地

分類是將樣本分到a, b , c ..... 這幾個類中,a與b, b與c之間沒有關係,比如不存在a與c的距離大於b與c的距離這種說法。

分類的話一般用二分類分類器,效果更好。

迴歸是將樣本的label分到可行域上的一個特定的值, 比如1,1.1, 1.211, 這些數字,1.1 當然是比1.211 更加靠近 1。

迴歸的話,注意將樣本進行資料預處理。

3樓:怒射輧醴嬽

理解有偏差,應該是針對輸入資料而言的。

資料探勘中分類和迴歸的區別是什麼?

4樓:不是7個漢字嗎

單純就這句話而言不能說錯,只是不完全。

分類是指一類問題,而回歸是一類工具。分類的目的在於給物件按照其類別打上相應的標籤再分門別類,而回歸則是根據樣本研究其兩個(或多個)變數之間的依存關係,是對於其趨勢的一個分析**。

分類的標籤如果是表示(離散的)有排序關係的類別時,比如說「好」、「較好」、「一般」這樣的時候,也可以用迴歸來處理。但是如果標籤是純粹的分類,比如說電影中的「喜劇」、「動作」、「劇情」這樣的無排序關係的標籤時,就很難用迴歸去處理了。而且,分類中還存在著「多分類」的問題,也就是一個物件可能有多個標籤的情況,這就更復雜了。

而同時,迴歸所能做的也並非只有分類,也可以用來做**等其他問題。

所以,迴歸和分類的區別並非只有輸出的「定性」與「定量」那麼簡單,應該說兩者屬於不同的範疇。

5樓:袁悠夏凡波

分類一般針對離散型資料而言的,迴歸是針對連續型資料的。本質上是一樣的

資料探勘中分類和聚類的區別

6樓:day忘不掉的痛

你好,簡單地說,分類(categorization or classification)就是按照某種標準給物件貼標籤(label),再根據標籤來區分歸類。

簡單地說,聚類是指事先沒有「標籤」而通過某種成團分析找出事物之間存在聚集性原因的過程。

區別是,分類是事先定義好類別 ,類別數不變 。分類器需要由人工標註的分類訓練語料訓練得到,屬於有指導學習範疇。聚類則沒有事先預定的類別,類別數不確定。

聚類不需要人工標註和預先訓練分類器,類別在聚類過程中自動生成 。分類適合類別或分類體系已經確定的場合,比如按照國圖分類法分類圖書;聚類則適合不存在分類體系、類別數不確定的場合,一般作為某些應用的前端,比如多文件文摘、搜尋引擎結果後聚類(元搜尋)等。

分類的目的是學會一個分類函式或分類模型(也常常稱作分類器 ),該模型能把資料庫中的資料項對映到給定類別中的某一個類中。 要構造分類器,需要有一個訓練樣本資料集作為輸入。訓練集由一組資料庫記錄或元組構成,每個元組是一個由有關欄位(又稱屬性或特徵)值組成的特徵向量,此外,訓練樣本還有一個類別標記。

一個具體樣本的形式可表示為:(v1,v2,...,vn; c);其中vi表示欄位值,c表示類別。

分類器的構造方法有統計方法、機器學習方法、神經網路方法等等。

聚類(clustering)是指根據「物以類聚」原理,將本身沒有類別的樣本聚整合不同的組,這樣的一組資料物件的集合叫做簇,並且對每一個這樣的簇進行描述的過程。它的目的是使得屬於同一個簇的樣本之間應該彼此相似,而不同簇的樣本應該足夠不相似。與分類規則不同,進行聚類前並不知道將要劃分成幾個組和什麼樣的組,也不知道根據哪些空間區分規則來定義組。

其目的旨在發現空間實體的屬性間的函式關係,挖掘的知識用以屬性名為變數的數學方程來表示。聚類技術正在蓬勃發展,涉及範圍包括資料探勘、統計學、機器學習、空間資料庫技術、生物學以及市場營銷等領域,聚類分析已經成為資料探勘研究領域中一個非常活躍的研究課題。常見的聚類演算法包括:

k-均值聚類演算法、k-中心點聚類演算法、clarans、 birch、clique、dbscan等。

希望回答對您有幫助.

資料探勘中分類和聚類有什麼區別?

7樓:張得帥

分類是資料探勘中的一項非常重要的任務,利用分類技術可以從資料集中提取描述資料類的一個函式或模型(也常稱為分類器),並把資料集中的每個物件歸結到某個已知的物件類中。從機器學習的觀點,分類技術是一種有指導的學習,即每個訓練樣本的資料物件已經有類標識,通過學習可以形成表達資料物件與類標識間對應的知識。從這個意義上說,資料探勘的目標就是根據樣本資料形成的類知識並對源資料進行分類,進而也可以**未來資料的歸類。

分類具有廣泛的應用,例如醫療診斷、信用卡的信用分級、影象模式識別。

與分類技術不同,在機器學習中,聚類是一種無指導學習。也就是說,聚類是在預先不知道欲劃分類的情況下,根據資訊相似度原則進行資訊聚類的一種方法。聚 類的目的是使得屬於同類別的物件之間的差別儘可能的小,而不同類別上的物件的差別儘可能的大。

因此,聚類的意義就在於將觀察到的內容組織成類分層結構,把 類似的事物組織在一起。通過聚類,人們能夠識別密集的和稀疏的區域,因而發現全域性的分佈模式,以及資料屬性之間的有趣的關係。

資料聚類分析是一個正在蓬勃發展的領域。聚類技術主要是以統計方法、機器學習、神經網路等方法為基礎。比較有代表性的聚類技術是基於幾何距離的聚類方法,如歐氏距離、曼哈坦距離、明考斯基距離等。

聚類分析廣泛應用於商業、生物、地理、網路服務等多種領域。

資料探勘中分類、**、聚類的定義和區別。

8樓:南霽月

sc-cpda 資料分析師公眾交流平臺 詳細看我資料

區分是將目標類資料物件的一般特性與一個或多個對比類物件的一般特性進行比較。例如,具有高gpa 的學生的一般特性可被用來與具有低gpa 的一般特性比較。最終的描述可能是學生的一個一般可比較的輪廓,就像具有高gpa 的學生的75%是四年級電腦科學專業的學生,而具有低

gpa 的學生的65%不是。

關聯是指發現關聯規則,這些規則表示一起頻繁發生在給定資料集的特徵值的條件。例如,一個資料探勘系統可能發現的關聯規則為:major(x, 「***puting science」) ⇒ owns(x, 「personal ***puter」) [support=12%, confidence=98%] 其中,x 是一個表示學生的變數。

這個規則指出正在學習的學生,12% (支援度)主修電腦科學並且擁有一臺個人計算機。這個組一個學生擁有一臺個人電腦的概率是98%(置信度,或確定度)。

分類與**

不同,因為前者的作用是構造一系列能描述和區分資料型別或概念的模型(或功能),而後者是建立一個模型去**缺失的或無效的、並且通常是數字的資料值。它們的相似性是他們都是**的工具:

分類被用作**目標資料的類的標籤,而**典型的應用是**缺失的數字型資料的值。

聚類分析的資料物件不考慮已知的類標號。物件根據最大花蕾內部的相似性、最小化類之間的相似性的原則進行聚類或分組。形成的每一簇可以被看作一個物件類。

聚類也便於分類法組織形式,將觀測組織成類分層結構,把類似的事件組織在一起。

資料演變分析描述和模型化隨時間變化的物件的規律或趨勢,儘管這可能包括時間相關資料的特徵化、區分、關聯和相關分析、分類、或**,這種分析的明確特徵包括時間序列資料分析、序列或週期模式匹配、和基於相似性的資料分析

9樓:匿名使用者

資料分析挖掘這塊,建議樓主看看帆軟公司的finebi,挺不錯的,強烈推薦一個!

10樓:宛賢惠貫潔

你好,簡單地說,分類(categorization

orclassification)就是按照某種標準給物件貼標籤(label),再根據標籤來區分歸類。

簡單地說,聚類是指事先沒有「標籤」而通過某種成團分析找出事物之間存在聚集性原因的過程。

區別是,分類是事先定義好類別

,類別數不變

。分類器需要由人工標註的分類訓練語料訓練得到,屬於有指導學習範疇。聚類則沒有事先預定的類別,類別數不確定。

聚類不需要人工標註和預先訓練分類器,類別在聚類過程中自動生成

。分類適合類別或分類體系已經確定的場合,比如按照國圖分類法分類圖書;聚類則適合不存在分類體系、類別數不確定的場合,一般作為某些應用的前端,比如多文件文摘、搜尋引擎結果後聚類(元搜尋)等。

分類的目的是學會一個分類函式或分類模型(也常常稱作分類器

),該模型能把資料庫中的資料項對映到給定類別中的某一個類中。

要構造分類器,需要有一個訓練樣本資料集作為輸入。訓練集由一組資料庫記錄或元組構成,每個元組是一個由有關欄位(又稱屬性或特徵)值組成的特徵向量,此外,訓練樣本還有一個類別標記。一個具體樣本的形式可表示為:

(v1,v2,...,vn;

c);其中vi表示欄位值,c表示類別。分類器的構造方法有統計方法、機器學習方法、神經網路方法等等。

聚類(clustering)是指根據「物以類聚」原理,將本身沒有類別的樣本聚整合不同的組,這樣的一組資料物件的集合叫做簇,並且對每一個這樣的簇進行描述的過程。它的目的是使得屬於同一個簇的樣本之間應該彼此相似,而不同簇的樣本應該足夠不相似。與分類規則不同,進行聚類前並不知道將要劃分成幾個組和什麼樣的組,也不知道根據哪些空間區分規則來定義組。

其目的旨在發現空間實體的屬性間的函式關係,挖掘的知識用以屬性名為變數的數學方程來表示。聚類技術正在蓬勃發展,涉及範圍包括資料探勘、統計學、機器學習、空間資料庫技術、生物學以及市場營銷等領域,聚類分析已經成為資料探勘研究領域中一個非常活躍的研究課題。常見的聚類演算法包括:

k-均值聚類演算法、k-中心點聚類演算法、clarans、

birch、clique、dbscan等。

希望回答對您有幫助.

資料光碟與光碟有什麼區別,資料光碟和音訊光碟和視訊光碟有什麼區別

回答親,你好 和cd光碟的區別有 1 從技術上來看。cd都是一樣的,因為它們都是將所需要的資料儲存在光碟軌道中極小的凹槽內,然後再通過光碟機的鐳射束來進行讀取工作。但是在光碟的密度方面,要比cd大得多,因此在讀取 資料的時候就需要比讀取cd的資料時更短波長的鐳射束。2 在資料容量上。cd只能容納65...

資料庫原理碼和候選碼的區別,資料庫原理中(清大出版社)對候選碼的定義「如果一個屬性集的值能夠唯一標示一個關係 」屬性集指什麼

先說候選碼,候選碼就是可以區別一個元組 即表中的一行資料 的屬性或屬版性的集合,比如學權生表student id,name,age,deptno 其中的id是可以唯一標識一個元組的,所以id是可以作為候選碼的,既然id都可以做候選碼了,那麼id和name這兩個屬性的組合可不可以唯一區別一個元組呢?顯...

資料分析挖掘的作用和意義,資料分析與資料探勘到底有什麼用

資料分析和資料探勘還不完全是一回事。資料分析 的重點是通過分析資料直接得出一些結論 而 資料探勘 的重點不是直接得出結論,而是挖掘出知識,就是規則,在用挖掘出來的知識規則去指導你分析資料。顯然,資料探勘 比 資料分析 更加深一些,而 分析 有些淺表。資料分析的目的是把隱沒在一大批看來雜亂無章的資料中...