【1.0時代? ?終端+Excel】
1.0時代,我們獲取數(shù)據(jù)的方式是在終端點開瀏覽器,把數(shù)據(jù)通過 Excel 下載到本地中使用。Excel 中各種透視表與插件組合滿足了絕大多數(shù)小批量數(shù)據(jù)使用的場景。Excel+終端瀏覽器,基本解決了小批量數(shù)據(jù)使用的問題。
【2.0時代? ?SQL+單一數(shù)據(jù)來源】
隨著研究的深入、數(shù)據(jù)維度的拓展、數(shù)據(jù)規(guī)范的清晰,結(jié)構(gòu)化數(shù)據(jù)開始成為標配。相比于過去的數(shù)據(jù)瀏覽器提取方式,SQL 通過一個或幾個語句就能實現(xiàn)全部數(shù)據(jù)的提取,讓用戶倍感輕松。信息化帶來的效率提升,仿佛經(jīng)歷了“工業(yè)革命”般的體驗。
【2.0時代后期? ?更高的算力需求】
逐漸地,SQL 也開始暴露一些無法滿足研究需求的問題。假如研究的重心放在組合管理、因子挖掘、風險控制領域,SQL 似乎既不能滿足計算要求、也無法滿足數(shù)據(jù)處理的時效性要求,這意味著,用戶需要花費大量的精力提高一點點效率。
于是,DolphinDB 與聚源也開始給
近日,書香門地集團檢測中心參加2023年林產(chǎn)品檢驗檢測能力驗證活動中人造板甲醛釋放量、吸水厚度膨脹率和密度3個檢測項目,均取得滿意結(jié)果,這已是書香門地集團檢測中心連續(xù)4年取得該榮譽。
該活動由國家林業(yè)和草原局林產(chǎn)品質(zhì)量和標準化研究中心組織、國家人造板與木竹制品質(zhì)量檢驗中心等承辦,是一份給承擔林產(chǎn)品質(zhì)量監(jiān)測任務的各級檢驗檢測機構(gòu)和自愿參與的實驗室的年度盲樣考卷,是評價檢驗檢測實驗室檢測能力的有效手段。
書香門地集團檢測中心連續(xù)4年取得國家林業(yè)和草原局林產(chǎn)品質(zhì)量和標準化研究中心結(jié)果滿意的考核,充分說明書香門地集團檢測能力持續(xù)保證結(jié)果的準確性。年考并不是終點,而是一個新的開始。在中國林科院木工所的培訓和指導下,書香門地集團充分利用通知結(jié)果改進檢測中心檢測水平,確保檢驗檢測能力持續(xù)滿足要求并不斷提升。
未來,書香門地集團檢測中心將不斷提高質(zhì)量控制與運行管理水平,持續(xù)加強檢驗檢測能力建設,擴展更多檢測項目,為原物料和產(chǎn)品在采購、研發(fā)和生產(chǎn)等各個環(huán)節(jié)提供數(shù)據(jù)支撐,為書香門地高質(zhì)量發(fā)展保駕護航,為消費者甄選優(yōu)質(zhì)健康家居產(chǎn)品。
合作探索一種全新的業(yè)務模式。
【3.0時代? ?探索高質(zhì)量+高性能】
高質(zhì)量數(shù)據(jù)與高性能數(shù)據(jù)庫的融合是市場對3.0時代新業(yè)務場景的期待,但目前來看仍存在一些難題待解。以MySQL為例,在海量的時序數(shù)據(jù)場景下存在一些問題:
·存儲成本大:對于時序數(shù)據(jù)壓縮不佳,需占用大量機器資源。
·維護成本高:單機系統(tǒng),需要在上層人工的分庫分表,維護成本高。
·寫入吞吐低:單機寫入吞吐低,很難滿足時序數(shù)據(jù)千萬級的寫入壓力(針對tick級數(shù)據(jù)場景)。
·查詢性能差:海量數(shù)據(jù)的聚合分析性能差。
在3.0時代的探索過程中,DolphinDB 與聚源數(shù)據(jù)達成合作,我們?yōu)闃?gòu)建一站式行情數(shù)據(jù)庫服務模式共同努力。
全新的業(yè)務場景下,用戶可以通過 DolphinDB 訪問和調(diào)用聚源數(shù)據(jù)庫的各類數(shù)據(jù),快速實現(xiàn)高頻數(shù)據(jù)對接、存儲、查詢、指標計算、因子研究等,助力實現(xiàn)更便捷、更高效的投研。海量數(shù)據(jù)意味著數(shù)據(jù)質(zhì)量高、歷史可追溯時間長、維度多,因此全量數(shù)據(jù)供應商顯得尤為重要,而數(shù)據(jù)質(zhì)量是一切的基礎。
從數(shù)據(jù)質(zhì)量的角度:
聚源數(shù)據(jù)庫以金融證券為核心,服務內(nèi)容涵蓋投研數(shù)據(jù)、財富數(shù)據(jù)、固收數(shù)據(jù)、風險數(shù)據(jù)、ESG 數(shù)據(jù)等,廣泛應用于金融資訊展示、金融投研、大數(shù)據(jù)分析、風控、量化回測、金融監(jiān)管等多個領域,經(jīng)過二十余年的發(fā)展,公司與國內(nèi)券商、基金、保險、信托、銀行、期貨、資產(chǎn)管理公司等機構(gòu)建立了廣泛的業(yè)務合作,確立了在中國金融數(shù)據(jù)服務領域的領先地位,是中國最優(yōu)秀的金融資訊服務供應商之一。
從數(shù)據(jù)庫性能的角度:
SQL 或者單一 Python 的處理方法,無論便攜性還是成本都不算友好。比如計算一個投資組合的協(xié)方差矩陣,無法在 SQL 中完成,需要借助額外的 Python 反推回數(shù)據(jù)庫。高性能時序數(shù)據(jù)庫 DolphinDB 有出色的內(nèi)置函數(shù)、多范式的腳本語言、靈活的自定義計算,無論是在數(shù)據(jù)存儲端,還是在復雜分析端,都是比 SQL 和 Python 更優(yōu)的選擇。以下圖為例:
高質(zhì)量數(shù)據(jù)、高性能數(shù)據(jù)庫二者怎么融合?從最傳統(tǒng)的量化場景出發(fā),以聚源提供的因子庫為例。
DolphinDB 支持直接加工底層數(shù)據(jù)結(jié)果并且及時反饋結(jié)果到使用者手中,量化場景下的基礎因子、特色因子、回測框架都可以直接依托其后的數(shù)據(jù)基準進行融合。這些步驟的融合幫助用戶解決數(shù)據(jù)儲存量極大、讀取緩慢的通病。也就意味著,當擁有了捆綁好的高質(zhì)量基礎數(shù)據(jù)與高性能平臺的時候,用戶便有了所有想要的內(nèi)容。同時,因為 DolphinDB 自定義的優(yōu)勢加上聚源數(shù)據(jù)除常規(guī)的披露數(shù)據(jù)外,還有包括但不限于其它主流另類數(shù)據(jù)(司法,工商,輿情,預期、宏觀行業(yè)等)等,極大方便機構(gòu)客戶做特色因子挖掘和回測的工作流程,將原本離散化的工作任務集成式布置在 DolphinDB 上,真正發(fā)揮出1+1融合但是產(chǎn)出遠大于2的效果。
數(shù)據(jù)質(zhì)量與數(shù)據(jù)庫性能的優(yōu)勢相互結(jié)合,機構(gòu)可以直接享受到聚源高質(zhì)量數(shù)據(jù)加 DolphinDB 高性能數(shù)據(jù)庫的一站式服務。
除此之外,分布式高性能的數(shù)據(jù)存儲,必然對高頻率的數(shù)據(jù)量處理有著顯著優(yōu)勢,對于聚源在金融全場景下涵蓋的各更新頻率不一的數(shù)據(jù),科學合理的插值方法,是提高數(shù)據(jù)頻率的有效手段;因子算法部署在更為高頻的數(shù)據(jù)空間(如 Alpha191 算法由日K,調(diào)整為 1分鐘K),也是挖掘非線性因子的,進入市場顆粒化程度更深領域的主要路徑。數(shù)據(jù)升頻與 DolphinDB 的高性能協(xié)作,勢必會開辟量化數(shù)據(jù)場景的新賽道。
這也意味著,3.0時代將迎來數(shù)據(jù)庫與編程語言的融合。
在傳統(tǒng)的數(shù)據(jù)庫時代,我們更看重數(shù)據(jù)的寫入,所以我們強調(diào)數(shù)據(jù)庫的一致性、原子性、持久性等,而用于分析的 SQL 語句功能則相對簡單,復雜的分析和計算通常由更高級的編程語言(如 C++, Python 等)來完成。在海量數(shù)據(jù)時代,我們更看重數(shù)據(jù)的讀取,也就是通過對海量數(shù)據(jù)的分析,發(fā)掘數(shù)據(jù)背后的價值,數(shù)據(jù)分析的時效性則對企業(yè)的競爭能力至關重要。未來 SQL 語句和更高級的編程語言也將走向融合,高質(zhì)量的數(shù)據(jù)+高性能的數(shù)據(jù)庫將解決數(shù)據(jù)來源廣、時效性差、成本開銷大等一系列長期困擾市場的難題。
基于此,DolphinDB 與聚源,在路上。
相關稿件