商業數據分析有很多種,以日志數據為代表的機器數據是互聯網公司最常見數據之一,國際上,提供日志分析業務的Splunk公司也已實現幾百億人民幣市值。作為企業方數據資產之一,日志等機器數據承載著企業中諸多過程記錄信息,基于這些數據,更多價值點值得企業方與數據分析公司合作進行深度挖掘,以便增進營收、減少成本并優化效率。
致力于非結構化數據分析的開數科技(OPEN01)利用“日志分析+NLP(Natural Language Processing,自然語言處理)”,實現實時企業大數據分析,為企業提供全面且完善的數據分析服務。其技術合伙人Samuel Lee博士作為麻省理工大學計算科學與人工智能實驗室(MIT-CSAIL)科學家,在大數據與人工智能方面有著深刻技術背景,曾主持研發了BioModels量化模型全球數據標準與系統,并被記載入歐盟ISBE方案架構書;商業合伙人熊梓鍇博士則是擁有深厚商業數據分析從業經歷的戰略運營管理專家,曾在著名咨詢公司羅蘭貝格(Roland Berger,國際知名管理咨詢公司)從事戰略咨詢、世界五百強企業Bayer醫藥負責戰略管理與銷售效能管理、并曾在凱博(Copal Partners,全球化金融分析和行業研究公司)擔任過高級分析工作,在創立開數科技之前,熊博士還是精準醫療公司Genetron Health泛生子創始團隊成員。
談起開數科技創立契機,熊博士表示:過往咨詢和戰略從業經歷,使其有機會在多個行業領域,接觸到企業內部最真實的數據分析需求。這其中有超過80%數據是以非結構化的形式存在,這些數據結構復雜多樣、數據關聯性較差。在企業實際商業決策過程中,原始數據結構并不適合直接展開分析,在結構層面就對數據分析造成困難,更無法從多個維度聯系數據并產生商業價值。
早在十年前,熊博士就曾與Samuel博士在劍橋結識。由于專業關系,二人曾多次討論商業與數據分析結合可能性,以及如何最終實現“讓計算機讀懂數據”這一目標。彼時二人發現,數據分析有兩個難點尚未解決:首先是企業對數據分析需求還未充分產生,行業普遍還處于信息化的初級階段;其次是計算能力和算法發展仍不足,在當時還缺乏完備機器學習算法能讓計算機擁有對大規模數據閱讀能力和自我提升。
也正是從那時起,二人就開始在技術和商業需求方面進行探索,最終在2016年創辦成立開數科技,寓意“打開數字,挖掘并展示數據深層價值”。在IT設備儲存數據已常態化的今天,數據價值挖掘卻越來越難,其中一個主要原因在于非結構化數據不能簡單實現結構化。對此,熊博士向億歐介紹,從技術難度來說,對日志等機器數據、以及文本等自然語言這些非結構化數據的分析是數據行業難點。首先一個原因在于數據量:非結構化數據占比非常巨大,而日志、文字等文本數據之間又存在強聯系,大量數據和交叉維度分析對計算機處理能力提出了高要求;其次,數據分析結果的實時性也逐漸被企業重視,并對IT架構提出更高要求,傳統BI(Business Intelligence,商業智能)分析軟件在進行數據智能化分析時很難實現實時分析,大數據量使得系統計算壓力驟增,而難以掌握實時分析結果,則直接影響企業決策的制定和實施。
基于此,開數科技著眼于現有企業數據分析需求和物聯網發展前景,開發了“朗錄”(CAMPASS)平臺軟件,通過云端服務和軟硬一體機形式,為中型和大型客戶提供機器數據分析的企業服務。
其中朗錄的網絡服務器模塊通過挖掘服務器日志數據,為企業提供一下功能:
1)運營維護:通過日志分析判斷諸如網站故障等原因,并提供防護建議,檢查日常運營過程中可能出現的潛在風險與故障原因;
2)精準營銷:在日志中不乏用戶大量行為記錄,企業可以獲得精準用戶畫像,為營銷提供數據支撐;
3)合規審計:日志作為服務器最本源的機器數據,被認為是最佳的“信息取證”來源,有助于了解企業目前的規范性是否達標,并作為審計跟蹤的有力支撐。
基于云端SaaS服務,企業用戶可以隨時通過互聯網獲取數據分析結果。更重要的是,作為大數據分析產品,朗錄實現了實時數據可視化查看,通過二維重構,企業用戶可實時查看地理、時間等多維度下數據分析結果,方便企業及時做出經營調整,真正實現對現實業務驅動與改善。
而在人工智能方面,開數科技則是通過NLP技術及機器學習算法,實現強文本挖掘和知識網絡搭建。上述技術帶來的革新意義在于:NLP可以讓計算機直接讀懂自然語言數據,結合機器學習算法分析,可以讓數據處理更為高效、產出更有價值的分析結果。以用戶訪問為例,區域性用戶訪問可以反映產品投放集中度,而用戶在社交網站、商業網站的互動也能集中反映用戶對產品的取向性。傳統做法是對特征數據進行定義,當特征數據出現后即呈現對應結果;事實上,自然語言復雜程度遠高于定義所能提供的維度,加之數據量巨大,僅靠人工列舉無法完全獲得可靠結果,更難以形成知識網絡。
傳統的數據分析產品專注于展示實現數據的統計結果,一方面由于數據孤島的存在,難以展開多維數據分析;另一方面從效率考慮,沒有良好的算法,即便是當下先進的彈性計算資源也很難承受大數據運算壓力。NLP技術、機器學習算法和先進IT架構的引入,可以很好的解決問題并真正釋放數據的價值。
憑借NLP和機器學習算法、成熟的機器數據處理和分析技術,開數科技打造了具有情感分析引擎、人群畫像分析、產品口碑分析、熱議統計分析、用戶行為分析、品牌傳播分析的大數據智能平臺。通過了解網站所處數據特異性,基于行業、企業數據環境,針對性分析客戶關聯數據,包括微博、企業博客、公開文本等,最終實現數據強關聯,獲得更具價值的分析結果。
對于市場前景,熊博士向億歐分析:中國企業對海量數據的分析需求可以推至2008年電商行業爆發開始,當時中國市場涌現大量電商企業,互聯網進一步發展和豐富,隨著交易和網站信息井噴,海量數據出現并產生價值。“原有人口紅利、市場紅利使得早期電商企業獲得快速成長,然而在后移動互聯網時代,簡單的跑馬圈地機會越來越少,企業更多情況下需要精耕細作以提升效率。”熊梓鍇博士認為,電商數據需求只是互聯網眾多企業需求的冰山一角,出行、視頻、企業服務等領域也都需要數據分析。未來,更多智能化、工業化改造中出現的智能工業設備、物聯網設備進一步加深了機器數據挖掘需求,市場前景會更大。
作為一家數據分析型企業,開數科技在戰略和產品方面并不局限于日志分析,而是致力于打造面對企業的非結構化數據分析平臺,該平臺上會形成一系列服務于不同應用場景的數據產品。這些產品與市場上其他數據產品將共同開拓未來的大數據市場。
在客戶服務方面,開數科技以“云端+部署”形式,滿足不同層級企業客戶需求。一方面,可以為KA級客戶提供定制化企業服務,基于企業特點行業屬性實現“軟硬結合”服務;而中小企業則可以根據其提供的功能全面的云端SaaS服務,快速有效實現日常數據分析需求。
回過頭來聊創業,Samuel Lee博士和熊梓鍇博士都擁有資深的國際一流研究背景,旨在用自身技術滿足市場上尚未被滿足的、快速成長的非結構化數據分析需要。在人工智能技術大爆發、創業公司林立的情況下,身處新一波創業浪潮中,科學技術水平仍然是大數據公司的核心競爭力與壁壘。
三、四十年前美國市場上就已出現科學家創業浪潮,“將知識轉化為生產力”是當時大學與商業公司合作的主要訴求,傳統硅谷公司中,科學家搭配商業人才是常有的創業路線。因此熊梓鍇博士認為,科學家背景的知識型創業在中國也將成為一股潮流,市場上會涌現出越來越多技術驅動型創業團隊。在產業升級浪潮中,開數科技希望憑借技術實力與行業見解,在產業升級機會下幫助到更多互聯網企業以及傳統企業,實現數據驅動業務增長的目標,讓更多企業感受到數據分析帶來的商業價值。