根據(jù)集團(tuán)信息化規(guī)劃,遵循“互聯(lián)網(wǎng)+”的理念,建設(shè)集團(tuán)大數(shù)據(jù)平臺(tái),實(shí)現(xiàn)集團(tuán)數(shù)據(jù)資源的集中及整合,構(gòu)建集團(tuán)統(tǒng)一的數(shù)據(jù)模型,提高企業(yè)數(shù)據(jù)的處理效率與共享程度。實(shí)現(xiàn)對(duì)集團(tuán)企業(yè)內(nèi)部數(shù)據(jù)和外部數(shù)據(jù)的分析挖掘,對(duì)內(nèi)對(duì)外提供數(shù)據(jù)服務(wù)。為全網(wǎng)提供決策支持、產(chǎn)品創(chuàng)新、交叉營(yíng)銷、服務(wù)支撐、風(fēng)險(xiǎn)管控以及流程優(yōu)化等支撐服務(wù)。
集團(tuán)大數(shù)據(jù)平臺(tái)將在Hadoop和云計(jì)算等技術(shù)的基礎(chǔ)上,對(duì)金融大數(shù)據(jù)平臺(tái)、量收系統(tǒng)、生產(chǎn)系統(tǒng)、CRM系統(tǒng)、電商平臺(tái)、數(shù)據(jù)分析綜合服務(wù)平臺(tái)的歷史數(shù)據(jù)、數(shù)據(jù)模型、報(bào)表應(yīng)用等進(jìn)行移植,全面整合集團(tuán)業(yè)務(wù)數(shù)據(jù)。數(shù)據(jù)來(lái)源涵蓋集團(tuán)所有的生產(chǎn)和管理系統(tǒng),并可接入同業(yè)及相關(guān)市場(chǎng)甚至互聯(lián)網(wǎng)信息,建立從業(yè)務(wù)層到管理層到?jīng)Q策層的智能分析體系,模擬量化風(fēng)險(xiǎn)和收益,實(shí)現(xiàn)對(duì)集團(tuán)各種業(yè)務(wù)數(shù)據(jù)進(jìn)行分類、管理、統(tǒng)計(jì)和分析等功能,給各級(jí)管理人員提供各類準(zhǔn)確的統(tǒng)計(jì)分析預(yù)測(cè)數(shù)據(jù),使其能夠及時(shí)掌握全面的經(jīng)營(yíng)狀況,為宏觀決策提供支持;為基層業(yè)務(wù)人員提供詳盡的數(shù)據(jù),供其對(duì)各自的工作目標(biāo)、當(dāng)前和歷史狀況進(jìn)行準(zhǔn)確的把握,對(duì)業(yè)務(wù)活動(dòng)進(jìn)行有效支撐;滿足集團(tuán)經(jīng)營(yíng)管理及決策支持,建設(shè)國(guó)內(nèi)一流,世界領(lǐng)先的大數(shù)據(jù)平臺(tái)。
本方案提供統(tǒng)一的運(yùn)維監(jiān)控服務(wù)。本方案涉及到的所有軟件的部署都通過(guò)Docker打包成鏡像文件,以便非??旖莸牟渴饘?shí)施。內(nèi)部系統(tǒng)通過(guò)鏡像數(shù)據(jù)接口交互層進(jìn)行交互。通過(guò)外部接口層納入集團(tuán)運(yùn)維平臺(tái)進(jìn)行統(tǒng)一監(jiān)控
一站式大數(shù)據(jù)平臺(tái)提供集群自動(dòng)化部署服務(wù)。用戶只需要安裝管理平臺(tái)軟件,就可以在友好的圖形化界面上安裝、部署、配置所需要的服務(wù)。整個(gè)安裝過(guò)程不需要用戶使用任何終端命令或者代碼。
平臺(tái)提供了強(qiáng)大的在線擴(kuò)容功能,不需要宕機(jī)停庫(kù),不需要停止業(yè)務(wù),就可以添加新的節(jié)點(diǎn),實(shí)現(xiàn)擴(kuò)容。節(jié)點(diǎn)添加完成之后可以立即對(duì)新添加的節(jié)點(diǎn)進(jìn)行角色的分配,一旦配置成功,則新加的節(jié)點(diǎn)就會(huì)馬上投入運(yùn)算。擴(kuò)容之后的數(shù)據(jù)節(jié)點(diǎn)也不需要停機(jī)進(jìn)行數(shù)據(jù)重分布,系統(tǒng)自動(dòng)選擇空閑的時(shí)間進(jìn)行數(shù)據(jù)的重新分布。同時(shí),擴(kuò)容的操作可以方便的在界面進(jìn)行操作。
平臺(tái)通過(guò)專門的監(jiān)控服務(wù)對(duì)集群的狀態(tài)進(jìn)行監(jiān)控,包括服務(wù)器CPU、內(nèi)存、網(wǎng)絡(luò)和磁盤的利用率和健康狀態(tài),以及分布式應(yīng)用系統(tǒng)的狀態(tài),并在故障發(fā)生或者某項(xiàng)指標(biāo)超過(guò)預(yù)設(shè)閥值時(shí)時(shí)提供告警功能。管理員可通過(guò)瀏覽器訪問(wèn)集群的監(jiān)控和管理界面進(jìn)行日常的監(jiān)控和維護(hù),系統(tǒng)提供圖標(biāo)信息展示。管理員可以便捷了解到集群的計(jì)算資源是否處于空閑狀態(tài)、哪些服務(wù)器的負(fù)載過(guò)高,甚至判斷集群的組網(wǎng)及機(jī)架安排是否合理等。管理員也可通過(guò)對(duì)各個(gè)節(jié)點(diǎn)的各個(gè)角色的日志信息進(jìn)行檢索,獲得更加精確的信息。
平臺(tái)提供計(jì)算任務(wù)管理和作業(yè)管理,包括作業(yè)的上傳、配置、啟動(dòng)、停止、刪除和狀態(tài)查看等功能。
在平臺(tái)中,資源可以從多個(gè)方面進(jìn)行管理。從資源管理模塊的層面,用戶通過(guò)配置不同的Scheduler來(lái)定義不一樣的資源使用策略,目前支持FIFO Scheduler、Fair Scheduler以及Capacity Scheduler,實(shí)現(xiàn)作業(yè)動(dòng)態(tài)調(diào)整,支持對(duì)任務(wù)系統(tǒng)資源占用進(jìn)行實(shí)時(shí)調(diào)配,改變作業(yè)調(diào)度優(yōu)先級(jí)等操作。
通過(guò)集群監(jiān)控系統(tǒng)向集團(tuán)運(yùn)維監(jiān)控平臺(tái)發(fā)送監(jiān)控消息,提供對(duì)接接口,實(shí)現(xiàn)大數(shù)據(jù)平臺(tái)與集團(tuán)運(yùn)維監(jiān)控平臺(tái)的互通,實(shí)現(xiàn)統(tǒng)一監(jiān)控。
平臺(tái)通過(guò)專門的監(jiān)控服務(wù)對(duì)集群的狀態(tài)進(jìn)行監(jiān)控,包括服務(wù)器CPU、內(nèi)存、網(wǎng)絡(luò)和磁盤的利用率和健康狀態(tài),以及分布式應(yīng)用系統(tǒng)的狀態(tài),并在故障發(fā)生或者某項(xiàng)指標(biāo)超過(guò)預(yù)設(shè)閥值時(shí)提供告警功能。管理員可通過(guò)瀏覽器訪問(wèn)集群的監(jiān)控和管理界面進(jìn)行日常的監(jiān)控和維護(hù),系統(tǒng)提供圖表信息展示。管理員可以便捷的了解到集群的計(jì)算資源是否處于空閑狀態(tài)、哪些服務(wù)器的負(fù)載過(guò)高,甚至判斷集群的組網(wǎng)及機(jī)架安排是否合理等。管理員也可通過(guò)對(duì)各個(gè)節(jié)點(diǎn)的各個(gè)角色的日志信息進(jìn)行檢索,獲得更加精確的信息。
平臺(tái)提供功能完整,性能優(yōu)異的ETL框架支持平臺(tái)建設(shè),針對(duì)數(shù)據(jù)的預(yù)處理,中間的轉(zhuǎn)換清洗,包括寫入目標(biāo)時(shí)針對(duì)異常數(shù)據(jù)的捕獲。整個(gè)過(guò)程由平臺(tái)提供的調(diào)度平臺(tái),元數(shù)據(jù)管理平臺(tái)提供支撐,讓各部分之間緊密合作,又各司其職。
針對(duì)此項(xiàng)目復(fù)雜的業(yè)務(wù)系統(tǒng)和管理,平臺(tái)提供完善的調(diào)度功能,以更好的對(duì)各個(gè)模塊進(jìn)行良好調(diào)度管理。
調(diào)度平臺(tái)是平臺(tái)的數(shù)據(jù)流核心,調(diào)度平臺(tái)讓相關(guān)的業(yè)務(wù)系統(tǒng)、處理系統(tǒng)按照一定的業(yè)務(wù)邏輯,在客戶的安排下,像流水線一樣,或串行,或并行,按照一定的依賴關(guān)系,在每日,每周定時(shí)觸發(fā),依次執(zhí)行。平臺(tái)提供完善的接口和管理模塊,讓眾多的作業(yè)管理簡(jiǎn)易高效。
本方案提供的大數(shù)據(jù)平臺(tái)支持多種環(huán)境,以便于后續(xù)進(jìn)行多種數(shù)據(jù)分析與挖掘,并提供多個(gè)接口對(duì)數(shù)據(jù)進(jìn)行導(dǎo)出,以便于客戶在體外進(jìn)行數(shù)據(jù)分析;也提供數(shù)據(jù)沙盤給特定的數(shù)據(jù)分析師進(jìn)行數(shù)據(jù)分析,數(shù)據(jù)沙盤也提供多個(gè)數(shù)據(jù)以及產(chǎn)品接口,以便于進(jìn)行數(shù)據(jù)探索。
本方案的平臺(tái)采用Hadoop平臺(tái),它本身是一個(gè)并發(fā)存儲(chǔ)、并發(fā)計(jì)算的高效平臺(tái),選用了 Discover的挖掘模塊,它是在對(duì)開源的R全面支持的基礎(chǔ)上,結(jié)合SparkR進(jìn)行了代碼的重大改造。并對(duì)常用的R算法進(jìn)行了并行化改造,這些改造正是基于大數(shù)據(jù)中關(guān)鍵的體量巨大這個(gè)維度進(jìn)行的優(yōu)化。之前的數(shù)據(jù)挖掘由于在單機(jī)上進(jìn)行,而由于數(shù)據(jù)挖掘需要對(duì)數(shù)據(jù)進(jìn)行大量的衍生和關(guān)聯(lián)運(yùn)算,會(huì)讓待分析的數(shù)據(jù)集積聚擴(kuò)大,因而很多數(shù)據(jù)挖掘針對(duì)海量數(shù)據(jù)只能采用抽樣的策略進(jìn)行模型訓(xùn)練,讓挖掘效果受到很大影響。在并發(fā)R算法的支撐下,只要節(jié)點(diǎn)數(shù)足夠,原則上可以處理任意體量的數(shù)據(jù)。
平臺(tái)支持R、ANSI SQL、Python、Java、C/C++等語(yǔ)言,采用B/S架構(gòu),提供圖形化界面操作支持,操作界面支持簡(jiǎn)體中文。支持多數(shù)據(jù)來(lái)源輸入輸出提供表格、圖形、地圖等可視化元素展示功能,將提供以下相關(guān)功能和特性:
標(biāo)準(zhǔn)企業(yè)報(bào)表,固定報(bào)表等。
參數(shù)驅(qū)動(dòng)報(bào)表,各種基于參數(shù)的報(bào)表。
周期性報(bào)表,例如周報(bào),月報(bào),季報(bào)等,系統(tǒng)支持管理員定義周期性運(yùn)行,亦支持業(yè)務(wù)用戶自定義重復(fù)運(yùn)行方式,用戶或管理員可以定義輸出格式,包括PDF,Excel,Word,PPT等各種格式;系統(tǒng)同時(shí)提供基于事件的觸發(fā)方式。
支持鉆取功能,提供基于事件的腳本控制能力,以滿足各種復(fù)雜報(bào)表需求。
復(fù)雜中國(guó)式報(bào)表,包括中國(guó)式表頭、復(fù)雜布局、特殊功能等各種能力。
提供豐富的圖形展現(xiàn)功能,支持包括餅圖、條形、線形、儀表盤、趨勢(shì)圖及各種圖形;支持Flash圖形。
支持報(bào)表導(dǎo)出到Excel、Word、PPT、HTML和PDF等格式,導(dǎo)出時(shí)可以選擇導(dǎo)出整個(gè)報(bào)表還是部分內(nèi)容;系統(tǒng)支持導(dǎo)出數(shù)據(jù)快照,以便日后審計(jì)等。
支持將報(bào)表導(dǎo)出成原生Excel,報(bào)表中的圖形(非Flash)能導(dǎo)出為原生Excel圖形,能夠在導(dǎo)出后的Excel中進(jìn)一步編輯,支持導(dǎo)出Excel公式,透視表等。
提供數(shù)據(jù)導(dǎo)出功能,用戶能將所查看的報(bào)表中數(shù)據(jù)進(jìn)行有選擇的導(dǎo)出。
提供報(bào)表版本管理能力,為不同的執(zhí)行結(jié)果保留不同的版本。
提供基于角色和用戶的權(quán)限控制,管理員可以為不同的角色和用戶設(shè)置相應(yīng)的功能選項(xiàng)及權(quán)限。
多語(yǔ)言多時(shí)區(qū)支持,系統(tǒng)為不用語(yǔ)言環(huán)境用戶提供多語(yǔ)言支持,用戶在登錄時(shí)可以選擇時(shí)區(qū)及語(yǔ)言,系統(tǒng)將自動(dòng)切換至相應(yīng)的UI(僅限UI)。