【編者按】本文刊載于《中國公路》2020年第16期,原標題《大數據究竟能為高速公路帶來什么?》,文章有增改,作者為強榮控股集團有限公司信息管理部總監張遠信。
大數據是一種新的生產資料,是“數據”由量變引發到質變的產物;大數據同時也是一種新的思維方式,是一種我們在小數據時代無法達到而小心規避的思維方式。在高速公路從運力比拼漸變到算力比拼時代的今天,大數據成了解放高速公路行業生產力的關鍵要素,它的落地推廣,將會產生廣大的經濟效應,推進高速公路行業進一步發展進步。
一、大數據是什么
大數據是指無法在一定時間范圍內用常規工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能產生更強的洞察發現力和決策優化能力的海量、高增長率和多樣化的信息資產。對企業而言,大數據通常用來形容一個公司創造的大量非結構化數據和半結構化數據。
二、大數據在高速公路應用實例
(一)優化指揮調度
河北高速通過大數據分析對分散的全省路況、ETC、MTC、斷面交通量、氣象、紙卡、客服等歷史和實時海量數據進行匯聚整合,并通過多種數據分析模型進行多維統計分析、關聯分析、影響分析和預測分析,實現了對路網運營管理數據的全面精細化管理,解決了高速面臨的跨部門業務協同困難、異構數據庫無法互聯、綜合決策效率低、公眾智能化服務水平有限等問題,提高了數據分析類應用的使用效率,從深度、廣度、關聯性上,挖掘出了已有數據的潛在業務價值,豐富了路網運行管理的分析手段,為保障路網運行和決策調度提供多層次實時、有力的數據支撐。
(二)提升公眾出行體驗
同時河北高速在公眾出行服務方面更加充分的利用公眾出行服務數據和分析能力,更加貼合用戶出行信息方面的主要需求和重點關切,新增數據對接內容,增強數據深加工力度,加強用戶行為分析、精準信息推送等能力,提升服務的綜合運營能力。
(三)智慧服務區
廣東通驛公司通過大數據實現互通和整合應用,向數據資源深度挖掘利用層次邁進。
其中,服務區各項數據與企業級數據中心之間實現數據貫通,不同管理層級通過大數據可視化展示運營數據的演變趨勢、經營目標的完成比例、成本費用的管控現狀,多角度的分析應用等,實現運營狀態可視化監管。
同時,通過建設高速公路斷面車輛監測、服務區客流采集、人流密集度分析等多個監測,結合經營數據進行綜合分析,最終展示包括高速公路斷面車流流量及變化趨勢,入區車流占比、單車貢獻度、進店率、成交率、客流貢獻率等關聯經營因素分析應用,用以評價商鋪經營能力,分析商鋪分布及業態是否合理,提供給后期業態優化,布局調整,改造依據等應用,以提高商業運營績效。
其次,對于服務區現場巡檢、公共衛生保障、安全生產、園林綠化、設備設施管理等基礎管控業務領域,通過考評數據對比,不斷完成自我管理提升,查缺補漏,控本節流,利用大數據的引導形成良好的管理優化閉環。
(四)智慧養護
北京首發公路養護公司通過深化大數據的應用,促進養護管理智能化、規范化。通過對養護數據的積累,不斷拓展數據的應用,挖掘開發統計及圖屬數據功能,實現對公路路況,養護計劃、工作進度、效率等各項工作的分析,讓大數據效能充分發揮出來。
大數據支撐的平臺不僅釋放了人力物力,固化了工作流程,還促進了降本增效,提高了投資效率。通過大數據分析工作成效,合理分解養護任務,科學調配人員、物資及設備,進而提高養護資金使用效率,2019年度較2018年度養護業務成本降低了1400余萬元。

三、大數據輔助決策的運作原理
通過上面的用例可以看到,大數據在高速公路運營管理和業態擴展上是大有可為的,它為各項管理和決策提供了重要數據支撐和預判支撐。這些支撐主要來源于數據挖掘,是大數據加工處理的最關鍵步驟,它能發現各個因子之間的相關關系,從而使大數據增值。如果需要近距離的觀察大數據,我們需要詳細的認識數據挖掘,簡單說數據挖掘是大數據的方法論。
(一)什么是數據挖掘
數據挖掘是指從大量的數據中通過算法搜索隱藏于其中信息的過程。
數據挖掘需要從大量的、不完全的、有噪聲的、隨機的、模糊的數據中,提取隱含其中的、規律性的、人們事先未知的、但又是潛在的有用信息和知識。數據挖掘利用各種分析工具發現模型與數據間關系的過程,它可以幫助決策者尋找數據間潛在的某種關聯,發現被隱藏的、被忽略的因素,因而被認為是在這個數據爆炸時代解決信息貧乏問題的一種有效方法。
數據挖掘作為一門交叉學科,融合了數據庫、人工智能、統計學、機器學習等多領域的理論與技術。數據庫、人工智能與數理統計為數據挖掘的研究提供了三大技術支持。
(二)大數據與數據挖掘(名詞)的關系
從以上的描述中可以看到,大數據和數據挖掘(名詞)從處理數據的目的、方式、結果上看本質是相同的,都是對數據進行挖掘分析,從而發現有價值的信息。
表面上看,大數據處理的數據是全樣本海量數據,而數據挖掘主要針對不完全樣本數據。但是實際上數據挖掘也同樣適用于全樣本海量數據。因此嚴格來講他們只是叫法不一樣,數據挖掘更像是大數據的一母同胞的哥哥。
由于是一母同胞,妹妹有了新的算法和工具,哥哥同樣也會有。只是這個哥哥敦厚老實,妹妹則被老媽裝扮得粉雕玉琢,以便吸引大眾的眼球,并且理念更先進,個性更開放,更容易找到“如意郎君”。
但是回歸發現數據價值本身,我們認為兩者功力相當。
(三)數據挖掘與數據統計分析的關系
前面說了,數理統計是數據挖掘的三大技術支持之一。由于概率論與數理統計是大學理工科高等數學科目,因此,弄清楚數理統計和數據挖掘之間的關系有助于我們進一步認識大數據的實質。
首先,數據挖掘中的技術有相當比例是用統計學中的多變量分析來支撐,同時很多理論方法都是基于統計理論發展和延伸。因此,大數據開發需要具備一定的統計知識和技能。
其次,數據挖掘中不需要對數據分布做任何假設,其算法會自動尋找變量之間的關系。
最后,數據挖掘很多時候并不會從結果中產生明確的函數關系式,有時候甚至不知道到底是哪些變量在起作用,又是如何起作用的,也就是知其然而不知其所以然。
(四)數據挖掘運作原理
數據挖掘的核心是算法,每種算法都有不同側重的挖掘目的。用于預測的經典算法集合我們稱為分類法。
分類法是在一群已知結果(如是或否)的樣本中,訓練一種分類器,也即分類規則,讓它能夠對新的樣本進行分類,預測新樣本的結果。
具體的運作過程如下:我們先把數據分成訓練集和測試集,通過對歷史訓練集的訓練,生成一個或多個分類器,將這些分類器應用到測試集中,就可以對分類器的性能和準確性做出評判。如果效果不佳,那么我們或者重新選擇訓練集,或者調整訓練模式,直到分類器的性能和準確性達到要求為止。最后將選出的分類器應用到未經分類的新數據中,就可以對新數據的類別做出預測了。
形象點說,就像一個人在有大量數據支撐的情況下去練習如何評判一個餐廳是好是差。他先抽取N個餐廳的數據來訓練自己的各種評判標準,得到一個自認為不錯的評判規則,然后再抽取N個餐廳的數據進行評判測試,間中調整優化評判規則直到預測的正確率達到半仙級別,最后當遇到一家新的餐廳時,使用這個最優的評判規則進行評估。這個過程就是一個不斷學習和優化的過程。

四、高速公路大數據應用的現狀與不足
前面舉了一些業界領先的企業和管理部門應用大數據的例子,實際上在大多數高速公路運營管理機構和相關單位中,這方面還存在不少劣勢和不足。
(一)應用尚處于初級階段
目前,很多企業和管理機構處于完成了一些簡單的業務數據收集整理,比如收費數據、監控數據、養護數據、服務區數據等偏重業務操作的基礎數據,并積累了不大不小的數據量;或者略進一步,把這些業務數據做最簡單的匯總統計,然后展示出來,對數據的整理和分析水平很低,幾乎沒有任何數據的增值活動。
同時,大多交通管理部門雖然匯集不少業務數據,但是大多數數據的用途只是用于簡單的還原當時或實時的業務動態和路網動態,并沒有深入去發現這些數據之間隱藏的關聯,從而應用到一些更智能、更有價值的管理活動中去。
(二)人為孤島嚴重
目前,多數高速公路的大數據分析應用被運營方分別掌控,同質企業和關聯企業間的數據各自孤立,形成了目前看來最為阻礙高速公路大數據應用的一座孤峰。
同時,高速公路管理單位、交警、路政、氣象等關聯機構大多認為自己手上的數據屬于私有或敏感數據,不能對外公開或提供公用數據接口,這又形成了另一座難于跨過的山峰。
而且,很多關聯機構內部的各種業務數據收集處于野蠻生長狀態,沒有統一數據標準,相關的數據也還沒有做到聯通和共享,更不要說能對外提供具有良好質量的數據了。
(三)概念多于實踐,甲乙雙方思路不統一
大數據目前正處在由概念階段到普及應用的初期,很多組織的管理者并沒有意愿或能力真正落地實踐。
另一方面,對于大數據建設,乙方單位大多急于求成,沒有扎實發展自己的大數據采集開發應用能力,僅僅完成了大數據整理歸集存儲就忙著去開展業務;而甲方單位則在還沒有弄清楚自己的大數據開發戰略、方向和目的,就急沖沖要建設大數據平臺,陷入業績型建設的怪圈。
(四)產業鏈條不健全、不互補,沒有共榮生態圈。
大數據的產量鏈條包括數據獲取、處理與儲存、數據挖掘與應用三大塊。如果是在一個共榮的生態圈內,這三大塊是可以由很多公司分別獨立發展到非常專業的程度,但是目前國內并沒有形成這樣的生態圈,以至于相關組織想要形成比較可靠的應用水平,就需要從頭到尾都要做到非常專業。
這樣做的結果就是很難達到,也不利于產業鏈的健壯和互補,不能充分整合全行業的力量和分散投資風險。最后的結果可能是樣樣稀松,使市場失去對大數據應用的信心。
五、如何打破現狀真正讓大數據為高速公路賦能
前景確實毫無疑問是光明的,但是前路頗為艱險。大數據這條路我們要怎么走才能真正走好走穩呢?這需要我們對自己的思想做一系列的解放和改造。
(一)將大數據作為新的方法論
辯證唯物主義認為,要更好更快的改造世界,需要我們發現、尊重、利用客觀規律,在此基礎上發揮主觀能動性。這個表述和指導改造世界的方法論是沒錯的,但正如狹義相對論相對于廣義相對論一樣,有一個很重要的前提是我們要先發現客觀規律,并形成可認知和傳播的知識理論。
但是相對于我們已經認知的規律,不能明確確定和無法明確說明的其他事物間的關系才是客觀世界的絕大部分。這就相當于管中窺豹,如果我們硬要把這窺得的一斑來指導我們的全部生產活動,無疑是非常不靠譜的。
那么如何消除這些占主要部分的不確定性呢?根據香農信息論的最大熵原理:即當我們要對未知事件尋找一個概率模型時,這個模型應當滿足我們所有已經看到的數據,但對未知的情況不要做任何主觀假設。簡單點說,就是靠大數據來玩猜猜看,只要我們的大數據確實夠全面,這個猜猜看的結果就會非常準。
于是問題的難點從發現規律變成了收集數據。在信息越來越容易獲取的今天,這個問題的難度幾何級的下降。那么,我們還有什么理由不運用大數據的方法論來武裝我們自己呢。
(二)改變運營管理思維
方法論是道的層面,具體到高速公路運營管理上,我們需要分解成幾個重要的管理思維:預測預判思維、概率相關思維、個性化思維以及智腦可靠思維。
例如,根據氣象大數據和道路狀況大數據等等構建的惡劣天氣預警模型,結合實際地點的監控數據后,我們可以很準確的預測惡劣天氣發生的種類,概率,影響范圍等,從而可以提早防范應對,這屬于預測預判;再如,當根據高速公路異常流程預警模型發現有較大可能發生擁堵時,我們可以及時派出秩序維護車輛提前處理,而不用等到擁堵形成后才進行處理,這屬于概率相關思維;又如:主動推送個性化的出行信息,推薦個性化的出行方案;在其旅游、購物、就餐、加油等活動時,推薦其個人偏好的服務選項,這屬于個性化思維;再如,我們在決策那些路面和設施需要進行什么程度的養護或維護時,充分利用大數據結合實時的設施狀況做出的養護維護計劃,將能更合理的利用有限的人力物力,最大程度的保障道路和設施的運行安全,這屬于智腦可靠思維。
(三)改變管理人員思維方式
管理思維轉變,最終也要體現在管理人員的思維方式的轉變上,要真正使用大數據的思維方式解放和改造我們的思維方式:數據決策思維、開放聯通共贏思維、全樣本思維、標準化思維。
大數據時代,依靠全面而可靠的數據和由此提取的大數據能力,我們應該轉變決策模式,樹立用數據發現、用數據認知、用數據決策、用數據說話的數據決策思維;同時,面對行業數據的人為割裂,我們需要解放思想,樹立開放聯通共贏思維,讓所有數據有序流動,充分交織,最后大家都能從中受益;再者,大數據方法論的核心全樣本思維,這就要求我們的管理人員在踐行大數據建設開發過程中,要排除萬難,保證我們獲取到所要研究對象的全部數據;最后,要想讓數據有序流轉,充分交織,還需要我們的管理人員具備標準化思維。大數據由無數變數箱組合而成,這要求我們必須用標準化思維來制造每一個齒輪:在數據的分類標準、顆粒度、存儲標準等等方面要建立標準規范,嚴格執行。

六、大數據賦能如何落地
解決了我們的方法論和思維問題后,我們來看一個實際的例子:大數據輔助高速公路應急決策,看看在實際應用場景中,大數據如何實踐賦能的動作。
(一)相關大數據開發建設
根據大數據的生產和輔助決策的原理和過程,結合輔助應急決策這個應用場景,我們至少需要訓練完善兩個認知分析模型和兩個策略知識庫:交通事件監測模型庫、交通事件影響范圍確定與分析模型庫、交通事件處理知識庫、交通疏導策略庫,這些模型和知識庫構成我們應急決策的智腦。
首先,我們要把高速公路過往的交通監控視頻數據、交通事件數據、交通流量數據、交通管控數據、應急處理數據、交通醫療數據、擁堵數據、天氣數據等等按時間軸和大數據標準進行收集整理融合,形成多維度的歷史數據集。
然后我們通過數據挖掘和人工智能訓練兩個重要的模型庫。經過訓練集、測試集、準確性評估和不斷優化后,交通事件監測模型庫需要能在很高準確度的情況下,主要通過視頻和圖片辨識是否發生了交通事件,發生了那些類型的交通事件等;而交通事件影響范圍確定與分析模型庫則通過交通事件的相關數據準確評估交通事件的嚴重程度、影響范圍、影響時長等等。
同時,通過相關交通事件的處理情況和外延數據,不斷充實完善兩個知識庫。交通事件處理知識庫結合兩個模型庫的預測和評估結果,能準確給出應急處理的處置預案,而交通疏導策略庫則能準確給出受事件影響道路和車輛的疏導策略。
(二)應急決策技術和過程
有了應急決策智腦,我們怎么部署應用呢?
首先是交通事件的檢測。我們主要通過融合路旁智能裝置、報警電話、車內智能裝置,給決策智腦提供第一手的現場數據,由智腦給出事件檢測判斷,如果檢測到交通事件,還要給有關人員和部門發出警報。
緊接著結合當前的天氣、路況、車流量,以及巡邏車、駕駛員等提供的相關信息,進行影響范圍的分析評估, 判斷交通事件的性質和影響范圍,并預估其對交通流量的影響。
然后根據前兩個階段的監測評估,應用交通事件處理知識庫,及時進行信息發布上報、自主選定應急處理議案,比如搶險救援、交通管制、疏導、鏟冰除雪、醫療救助、生活保障等,展開交通事件應急處理流程并進行階段性反饋。
交通事件清楚處理完成后,需要進一步采集和整理本次處理全過程的詳細數據,補充完善相關的大數據,進而修正和優化現有模型和知識庫,使其不斷迭代更新,讓智腦在實際事件中不斷學習進步。
七、未來展望
在不久的將來,以5G、云計算、大數據、物聯網、人工智能、區塊鏈等等為技術核心基礎的新基建,將會為交通行業帶來一次非常深刻的數字變革,也將會成為交通強國建設的強力引擎。依托這波新基建的數字化成果,交通等領域的大數據應用將會遍地開花,結出累累碩果。在當下,我們應該借助新基建的東風,夯實高速公路大數據的基礎基石。我們認為,新基建將會大大推動自動化數據采集技術的普及,使得獲取大數據的成本越來越低,樣本越來越全面;同時,智能化數據處理技術將會大大提升,使得大數據的加工處理將越來越快,算力越來越便宜。
可以預見的是,取消高速公路省界收費站后,全國路網將實現全網化運行。界限的消失,使得全網數字化新基建勢必融為一體,這就為全網大數據融合運營管理提供了重要的前提和基礎;同時,依托一體成型的數字化新基建,大數據的融合貫通,也將慢慢打破各省級組織機構各自為政的體制。打通了數字化和數據融通這任督二脈的交通大數據必將完美呈現,形成交通智腦,支撐起全國公路一張網的運營管理模式;另一方面,交通大數據的不斷完善也將支撐高速公路企業向跨界投資、高速公路+的方向進行科學決策。
總裁辦信息管理部 張遠信