5.5 數(shù)據(jù)挖掘及其應(yīng)用
隨著信息量的增加,人們?cè)絹?lái)越需要工具和手段來(lái)對(duì)大批量的信息進(jìn)行加工,從中找出規(guī)律與趨勢(shì)。在信息處理技術(shù)中,這被稱為數(shù)據(jù)挖掘(Data Mining)。數(shù)據(jù)挖掘的作用主要是預(yù)測(cè)。
數(shù)據(jù)挖掘與統(tǒng)計(jì)的主要區(qū)別是:使用數(shù)據(jù)挖掘工具的人是商業(yè)的最終用戶而不是統(tǒng)計(jì)學(xué)家。數(shù)據(jù)挖掘能夠?qū)⒔y(tǒng)計(jì)過(guò)程自動(dòng)化,得到的結(jié)果比較容易理解和使用,減少最終用戶的負(fù)擔(dān)。
凡在數(shù)據(jù)庫(kù)中尋找到現(xiàn)存的有用信息時(shí),稱之為“發(fā)現(xiàn)”,這是數(shù)據(jù)挖掘的功能之一。當(dāng)我們?cè)趯ふ夷軌蝾A(yù)測(cè)未來(lái)走勢(shì)的信息時(shí),稱之為“預(yù)測(cè)”。
數(shù)據(jù)挖掘主要有四類產(chǎn)品:⑴目標(biāo)方案。主要將數(shù)據(jù)挖掘用于某一特殊問(wèn)題或領(lǐng)域。因此能夠?qū)?shù)據(jù)挖掘算法中的復(fù)雜性降低或進(jìn)行自動(dòng)化處理。⑵商業(yè)工具。主要目的是幫助商業(yè)最終用戶能方便地使用和理解數(shù)據(jù)挖掘,以便能夠從這些工具中得到有用的信息,避免錯(cuò)誤的使用挖掘工具。⑶商業(yè)分析工具。主要是提供給那些對(duì)數(shù)據(jù)挖掘工作和變量代表的含義有些了解的用戶使用。⑷研究分析工具。是為數(shù)據(jù)挖掘研究者或統(tǒng)計(jì)分析人員使用的。通常包括大量的統(tǒng)計(jì)、圖形和可視化軟件,同時(shí)包括一些最新的前沿技術(shù)。
對(duì)數(shù)據(jù)挖掘產(chǎn)品的評(píng)價(jià)通常從三方面考慮:⑴商業(yè)評(píng)價(jià),它更多考慮市場(chǎng)特點(diǎn)。⑵應(yīng)用評(píng)價(jià),立足于比較細(xì)節(jié)的層次,說(shuō)明某一技術(shù)在哪個(gè)應(yīng)用領(lǐng)域效果最好。⑶算法評(píng)價(jià),是最詳細(xì)的評(píng)價(jià),它是從數(shù)據(jù)挖掘的最低層來(lái)比較這些技術(shù)