當前位置:首頁>民俗> 72掌紋圖解(從救助空巢老人到資助貧困生)
發(fā)布時間:2026-01-22閱讀( 5)

有關商家和平臺利用大數據殺熟(指商家對新老客戶、不同地區(qū)的客戶,實行不同的價格,或者利用掌握的大數據,采用十分復雜的計算方法,對消費者進行價格歧視)的消息屢有發(fā)生,而更多與大數據有關的新聞也不斷挑動著人們的神經,讓大家覺得自己在大數據面前似乎“無所遁形“。
對于普通人而言,大數據是一個近在眼前,卻又不甚了解的事物。大數據究竟是什么?它和我們熟知的數字、數學又有著什么樣的聯系?大數據究竟給我們的生活帶來了哪些改變?作為中國大數據倡始之人,大數據專家涂子沛通過回溯數的發(fā)展、數據在中外歷史重大事件的全方位應用,清晰、直觀地解釋了與大數據有關的知識。以下內容節(jié)選自《給孩子講大數據》,已獲得出版社授權刊發(fā)。

《給孩子講大數據》,涂子沛著,童趣出版有限公司編,人民郵電出版社2020年7月版。
作者丨涂子沛
摘編丨安也
大數據的出現,讓統(tǒng)計科學和數據科學重新洗牌
這是一個關于零售帝國沃爾瑪的故事。
沃爾瑪,全世界最大的零售商,擁有11000多家分店、200多萬名雇員。它的銷售收入在2018年突破了5000億美元,超過了很多國家的GDP(國內生產總值)。
沃爾瑪的數據庫是世界上最龐大的商業(yè)數據庫之一。沃爾瑪也是最早一批大規(guī)模使用數據挖掘技術的企業(yè)之一。它的首席信息官叫羅林·福特,數據分析是他的核心工作。羅林曾經感嘆:“每天早上一醒來,我就要問自己,怎么才能讓數據流動得更好、管理得更好、分析得更好?”
在一次例行的數據分析之后,研究人員突然發(fā)現:跟尿布一起搭配賣得最多的商品竟然有啤酒!尿布和啤酒,聽起來風馬牛不相及啊!任何一個人都很難將兩者聯系在一起,但這卻是對歷史數據進行挖掘的結果,反映的是數據層面的規(guī)律。這實在令人費解,這是一個真正的規(guī)律嗎?答案,還是在數據里。
經過跟蹤調查,研究人員終于發(fā)現事出有因:一些年輕的爸爸經常要到超市購買嬰兒尿布,有30%~40%的“奶爸”會順便買點兒啤酒犒勞自己。再有想象力的人恐怕也很難想到,事實的真相居然是這個樣子的。沃爾瑪隨即對尿布和啤酒進行了捆綁銷售。果然,銷量雙雙增長。這是數據科學應用的經典案例。

電影《白金數據》(2013)劇照。
沃爾瑪到底是怎樣發(fā)現這個規(guī)律的呢?這就要進入數據科學的核心:數據挖掘。數據挖掘,是指通過特定的算法對大量的數據進行分析,在大量的數據當中發(fā)現新知識,供人參考。之所以稱之為“挖掘”,是比喻在海量數據中尋找知識,就像開礦鑿金一樣困難。你可以這樣理解,數據挖掘是一臺由算法控制的挖掘機,而數據庫就像是一座礦山。
1989年之前,數據挖掘不叫數據挖掘,而是叫一個很長的名字:基于數據庫的知識發(fā)現。作為挖掘基礎的數據庫也不是和計算機同步產生的,它是在計算機出現之后,慢慢從軟件當中成長、獨立出來的。
1948年,杜魯門和杜威競選美國總統(tǒng),蓋洛普通過抽樣調查預測杜威將會當選。新聞界對這個預測深信不疑,《紐約時報》等報紙?zhí)崆耙惶煊『昧硕磐斶x美國總統(tǒng)的版面,準備搶占先機。結果卻令所有的人都大跌眼鏡,最后當選的是杜魯門!那些印有杜威當選消息的報紙只好全部銷毀。
蓋洛普失敗的原因就在于,抽樣調查需要經過問卷設計、信息收集、數據分析等多個步驟,這導致它掌握的數據有滯后性,而真實的情況是瞬息萬變的。在競選結果出來前的最后的兩周里,蓋洛普不得不停止調查,而杜魯門卻恰恰在這最后的關頭扭轉了戰(zhàn)局。
在大數據時代,對總統(tǒng)競選的預測出現了新的方法:在投票的前后,對社交媒體上的數據進行觀點的挖掘,可以較為準確地預測出誰能當選。2008年和2012年兩屆美國總統(tǒng)選舉,都有人通過挖掘推特、臉書上的數據,準確預測出了結果。
這種對互聯網數據的挖掘不需要設計問卷,也不需要挨個兒調查,成本很低;這樣的數據分析,一個人就可以完成,而不像問卷那樣要出動大量的人馬;更重要的是,這種分析是實時的,沒有滯后性。
所以,有越來越多的科學家相信,因為大數據的出現,統(tǒng)計科學和數據科學將重新洗牌,進入一個新的時代。在這個新的時代,數據挖掘將成為越來越重要的分析預測工具;抽樣技術的重要性將下降,這種技術將成為輔助工具。雖然數據挖掘如日中天,但也有搶風頭的,這就是機器學習。打遍天下無敵手的國際象棋機器人“深藍”,還有把眾多圍棋名將下得沒有脾氣的機器人阿爾法狗(AlphaGo),用的都是機器學習技術。

電影《白金數據》(2013)劇照。
機器學習憑借的也是計算機算法。和數據挖掘不同的是,其算法并不是固定的,它能夠隨著計算、挖掘次數的增多,自動調整算法的參數,使挖掘和預測的結果更為準確。
大數據刺激了數據可視化專業(yè)市場的形成
1855年,克里米亞戰(zhàn)爭爆發(fā)了。這場戰(zhàn)爭導致50多萬人死亡,異常慘烈。作為交戰(zhàn)一方的英國當然是傷亡慘重。
弗羅倫斯·南丁格爾(1820—1910)是英國的一名戰(zhàn)地護士,也是一名自學成才的統(tǒng)計學家。她在考察了英國士兵的傷亡情況之后,發(fā)現由于醫(yī)療衛(wèi)生條件惡劣而導致的死亡人數,大大超出了在前線直接陣亡的人數。
南丁格爾將她的統(tǒng)計結果制成了一張圖表。圖表清晰地反映了“戰(zhàn)斗死亡”和“非戰(zhàn)斗死亡”兩種情況下死亡人數的懸殊對比。強烈的視覺效果引發(fā)了英國整個社會的激烈討論,促成了英國政府出臺成立野戰(zhàn)醫(yī)院的決策。由此,人類歷史上第一所正式的野戰(zhàn)醫(yī)院建立起來了。
南丁格爾后來被譽為現代護理學之母。她的這張圖表更是歷史上第一份“極區(qū)圖”,也是統(tǒng)計學家對利用圖形來展示數據進行的早期探索。
一張圖表改變了一個制度,這并不夸張。人類天生就是感性的生物,視覺沖擊對人的震撼要遠遠強過單純的聯想。
南丁格爾的這種做法被稱為數據可視化。它是指以圖形、圖像、地圖、動畫等更為生動和易于理解的方式,展現數據的大小,詮釋數據之間的關系和發(fā)展的趨勢,以更好地理解并使用數據分析的結果。
南丁格爾的事例充分地證明了數據可視化的價值,特別是在公共領域的價值。生理學也證明,人的大腦皮層當中,有40%是視覺反應區(qū),人類的神經系統(tǒng)天生就對圖像化的信息最為敏感。通過圖像,信息的表達和傳遞將更加直觀、快捷、有效。而且,人的創(chuàng)造力不僅僅取決于邏輯思維,還取決于形象思維。數據可視化的技術,可以通過圖像進一步激發(fā)人的形象思維和空間想象能力,吸引、幫助用戶洞察數據之間隱藏的關系和規(guī)律。
20世紀70年代,由于計算機技術的興起,一批有遠見卓識的學者看到了這個領域巨大的潛力。有人認為:“未來的計算機不僅要能計算,還要能將計算結果轉變?yōu)橹庇^的圖形。我們應該研究這兩種結果,因為每一種都有助于我們理解問題。”
1983年,耶魯大學的教授愛德華·塔夫特成了數據可視化這門學科的掌門人。塔夫特系統(tǒng)考證了人類用“圖形”表達“數據”和“思想”的淵源,整理了歷史古籍中的圖形瑰寶,并結合計算機的發(fā)展給統(tǒng)計領域帶來的革命,出版了《定量信息的視覺展示》一書。這本書后來被公認為是“數據可視化”作為一門學科的開山之作。
塔夫特強調,數據可視化的關鍵在于“設計”,“信息過載這回事并不存在,問題出在糟糕的設計,如果你用來表達數據的圖形讓人感覺雜亂不解,那就要修改你的設計”。美國總統(tǒng)每年公布政府預算都是美國的一件大事。在塔夫特的領導下,美國白宮曾經用一張圖對奧巴馬公布的年度預算進行了可視化處理。如下圖,圖形以線條的粗細表明各項收支金額的大小,左邊是收,右邊是支,中間的紅色部分是赤字缺口,形象貼切。奧巴馬收了多少錢,要辦哪些事,各項收入和支出一目了然。

奧巴馬在2010年預算開支的可視化展示。(數據來源:《華盛頓郵報》,2010年2月1日)
進入21世紀之后,大數據的爆炸使人們更加需要展示數據、理解數據、演繹數據的工具。這種需求,刺激了數據可視化專業(yè)市場的形成,其產品迅速增多,可謂絢麗多彩、百花齊放。從最早的點線圖、直方圖、餅圖、網狀圖等簡單圖形,發(fā)展到以監(jiān)控商務績效為主的儀表盤、記分板,再到交互式的三維地圖、動態(tài)模擬、動畫技術等。
作為一個新興的行業(yè),數據可視化的發(fā)展?jié)摿Σ蝗菪∮U。數據可視化工程師既懂數據分析,又精通構圖的藝術,集故事講述和藝術家的特質于一身,通過把復雜的數據轉化為直觀的圖形,他們把數據分析的結果推向了普通大眾,可謂是大數據時代的導航員。
“物證云”是大數據在警務系統(tǒng)內的應用
大數據之大,不僅在于容量大,其根本還在于潛在的價值大。
人類可以邁進大數據時代,最根本的原因,是人類的數據技術取得了重大的突破。通過以數據挖掘為核心的一系列技術,人類在數據當中發(fā)現了新的知識、創(chuàng)造了新的價值,從而為社會帶來“大知識”“大科技”“大利潤”和“大智能”等大機遇。
在這個新時代,數據就是財富,數據分析的能力就是核心競爭力,很多行業(yè)都要相繼跨入一個數據興則興、數據強則強的“數據競爭”時代。這也是一場數據科學家之間的競爭,以發(fā)現新知識為使命的數據挖掘和機器學習,就是這個時代最為矚目的競爭利器。
我曾旅居杭州4年。這4年中很喜歡看《錢江晚報》。有一天,我看到一個大消息,之江花園案破了!
之江花園別墅的這起案件曾經轟動整個杭州市。2003年,有人在一個雨夜?jié)撊胫▓@,入室搶劫殺人,隨后潛逃,再無音信。這一年,華人神探李昌鈺第一次來杭州,有人拿這個案子問他,當時他也拿不出辦法,但留下了一句話,“只要時機到來,案子遲早會破”。這個時機,一等就是13年。讓人沒想到的是,等來的時機竟然是大數據。
20世紀90年代,杭州警方開始普及“生物痕跡”的概念,引進了物證管理系統(tǒng);2008年,標準化采集儀器“搜痕儀”在杭州的派出所得到普及,它可以收集記錄人像、DNA(脫氧核糖核酸)、指紋、掌紋、足印以及鞋底式樣等數據;2012年,這些數據開始向云端轉移,形成“物證云”,任何一個嫌疑人的數據都可以在“物證云”中和其他數據進行大范圍的比對。“物證云”正是大數據在警務系統(tǒng)內的應用。它在之江花園案的破案過程中起到了關鍵作用。
2015年9月,一名姓俞的男子在諸暨一家面館因為爭吵而傷人。當地警方把他制伏后,提取了他的DNA等數據,并錄入到“物證云”上。沒有想到的是,對數據進行跨地區(qū)比對已經實現了,警方發(fā)現他的各項數據和之江花園案留下的痕跡高度吻合,俞某的身份很快得到確認。為了破之江花園案,杭州警方十多年來踏破鐵鞋,但真正破案時卻沒費多少工夫。這首先要歸功于“物證云”的強大覆蓋能力,“物證云”讓一些零散的數據形成了聯系,破案時機就在這種比對中出現了。
1975年至1986年間,美國出現了一起連環(huán)案,犯罪嫌疑人被稱為“金州殺手”。辦案人員追蹤他20多年,查對過數千名嫌疑人,但都沒能抓到他。

電影《源代碼》(2011)劇照。
2017年12月,一名探員突然想到了一個應用大數據的新辦法。他把已經掌握的嫌疑人的DNA上傳到一個尋親網站,這個網站能夠分析上傳的基因數據,為人們尋親溯祖提供線索。結果,真的找到了一個和嫌疑人DNA部分匹配的人。憑借這個重要的發(fā)現,警方將嫌疑人的范圍從上百萬人縮小至一個家族。在排查之后,警方抓到了案犯迪安杰洛。此時,這位“金州殺手”已經72歲了。正義雖然姍姍來遲,卻沒有缺席,這里面最大的功臣也是大數據。
我的警察朋友這樣告訴我:“大數據和新技術太厲害了,我們現在是有案必破,破積案、等案破、沒案破。”“今天你要是做了壞事,就別跑,因為你根本跑不掉,你就坐在家里,等著警察來找就沒錯了。”這說的可能有些夸張,但也正說明警方如今的底氣不是一般的足。為什么底氣能這么足?正是因為有了大數據的分析。
今天,幾乎人類所有的行為都在留下數據。凡走過的,必留下痕跡。通過對痕跡的分析,一個人幾乎沒有秘密。普通人是這樣,犯罪分子也是這樣,除非他一直躲在深山老林里不出來,顯然,這在現代社會幾乎是不可能的。
用數據和“云”解決“空巢”老人的救助問題
大自然中沒有兩片相同的葉子。因為,紋理可以將一片葉子與另一片葉子區(qū)分開來。也沒有兩個人的聲紋或指紋是相同的。同樣,在數據空間里,一個人或一個物體就是一個獨特的“數體”,它可以被無數數據定義、支撐、背書。每一組、每一條數據又都有自己的特征,就像聲紋和指紋,它們是數據紋理,簡稱“數紋”。每個人的臉型、指紋、心跳和血壓等生理數據不一樣,每個人的社會活動也不一樣,不斷地收集、整合一個人的數據,一個獨特的數紋就出現了。憑借這些數紋,就可以清晰地定義一個人,區(qū)分這個人和另一個人。
這種個體區(qū)分力,在人類的歷史上還從沒有過。但今天的政府正在擁有,我叫它“單粒度治理”的能力,意思是,人正在成為顯微鏡下的一粒原子。打個比方,就像漫天飛雪,雖然每片雪花高度相似,但它們在形成過程中,由于水蒸氣條件的不同,形成了各自的獨特構造,再受氣流的影響,紛紛揚揚下落的路徑充滿變數,每一片都不一樣。今天的技術就好比上蒼之眼,可以在空中鎖定、跟蹤、分辨每一片雪花的軌跡。

電影《白金數據》(2013)劇照。
2018年8月,南方的一個花園小區(qū)里,一對老人倒在家中,被發(fā)現時已死亡多日。新聞報道說:二老都是退休教師,老爺子70多歲了,患有阿爾茨海默病,老太太也患有多種疾病。兩位老人平常和藹可親,沒有想到說走就走了,多日后才被鄰居發(fā)現,實在可憐。老人有一個兒子,就住在隔一條馬路的小區(qū)。
小區(qū)里人來人往,兒子就住在隔壁的小區(qū),可這樣的事還是發(fā)生在了眼皮子底下,到底出了什么問題?大家可能會想到鄰里關系的冷漠,兒子對老人疏于照顧,老人即使身處鬧市,又與獨居有什么區(qū)別?
每家都有老人。當今中國,獨居老人或者叫“空巢”老人的問題已經非常嚴重。據統(tǒng)計,截止到2018年年底,我國60周歲以上的人口大約有2.5億,占人口總數的18%,其中65周歲以上的人口約1.7億,占人口總數的12%。中國即將進入人口老齡化的高峰階段。
我曾經還看過一個報道,有一個在外地打工的游子打電話回家,連打了幾天都沒人接聽。他非常擔心,放下工作直奔家中,推開門就發(fā)現慘劇已經發(fā)生了。幾天之前,他父親因為心臟病發(fā)作死在浴室,母親癱瘓在床,因為沒有人照顧餓死了。不斷看到這樣的悲劇,真是令人難受。我想,今天有那么多的傳感器、智能手環(huán),用好了一定可以解決這個問題。移動技術已經讓人類永不下線,傳感器普及的浪潮正在到來。
智能手環(huán)收集到的數據如果可以和醫(yī)院實時聯通,那么被監(jiān)控者的心跳、體溫等數據就可以源源不斷地傳送到醫(yī)院的數據庫中。當被監(jiān)控者的心跳出現異常時,算法就可以把數據推送給醫(yī)生,提醒其注意及時救治。
目前,江蘇省揚州市的個園社區(qū)正在嘗試為老人安裝“智能看護”傳感器,主要包括:床墊傳感器、馬桶傳感器、煤氣泄漏報警器和室內紅外線傳感器等。這些傳感器每天會按時將收集的數據發(fā)送到系統(tǒng)終端,社區(qū)負責人員和子女只要打開手機,就可以了解到老人當天的生活情況。
日本社會也存在老齡化的問題,比中國更嚴重。據統(tǒng)計,日本的獨居老人約600萬,每年有4萬人孤獨離世。為了關注他們,日本人也用上了大數據,他們通過能源提供商監(jiān)測這一家住戶的水龍頭幾天沒被使用了,燈有沒有被打開,燃氣一直在被使用或者沒被關掉等。日本家庭的水表一般安裝在住所外面,因此,改造水表很方便。
通過安裝一個可以實時記錄用水量的電子指示器,關注獨居老人的想法就可以實現。遠方的子女每天都可以看到老人的能源使用數據,從這些數據推測老人做飯、洗澡所需的時間。當發(fā)現數值異常時,可以立即與當地社區(qū)聯系,請社區(qū)工作人員到家中查看。這樣一來,日本獨居老人在家中死亡若干天后才被發(fā)現的事件減少了30%。
把數據用好,把“云”用好,“空巢”老人的救助問題將發(fā)生極大的變革。
知冷知熱知心,是大數據的終極追求
2013年7月,華東師范大學有一位女生收到校方的短信:同學你好,發(fā)現你上個月餐飲消費較少,不知是否有經濟困難?
這條溫暖的短信也要歸功于大數據。校方通過挖掘校園飯卡的消費數據,發(fā)現這位女生每頓飯的餐費都偏低,于是向這位女生發(fā)出關心的詢問。

電影《點球成金》(2011)劇照。這部電影講述了球隊如何用數據建模的方式,挖掘潛在的明星隊員。
借助數據分析,華東師范大學把每個月在食堂吃飯超過60頓、總消費不足420元的學生,悄悄列為受資助對象,不用審核、不用公示,學校直接將金額各不相同的補貼款打進這些學生的飯卡。因為校方在長期的管理當中發(fā)現,不少家境貧寒的學生,因為面子原因不愿申請貧困生助學金。如果進行公開的評審和公示,難免會傷害一些學生的自尊心。這種方法可以說是用心良苦了。當然,偶爾也會出現美麗的錯誤!剛才說的那位女生之所以消費低,只是因為正在減肥。
誤會之所以發(fā)生,并不是因為大數據不管用,而是在于數據不夠多、不夠全面、不夠強大。大數據的特點除了“量大”,還有“多源”。如果除了飯卡,還有其他來源的數據作為輔助,判斷就會更加準確。
我的朋友周濤教授在電子科技大學工作,作為國內知名的大數據專家,他主持過一個課題,叫“尋找校園中最孤獨的人”。該課題從3萬名在校生中采集到了2億多條行為數據。這些數據包括學生選課、圖書館刷卡、寢室門禁、食堂消費以及學校超市購物等數據,都是學生在刷一卡通時產生的。
通過對不同的卡在不同地點的刷卡數據進行分析,課題組最終發(fā)現了電子科技大學有800多名學生,他們在校的大部分時間都是獨來獨往的。每一次排隊,前后都沒有同學或好友,他們是“最孤獨的人”。這些孤獨的人患上心理疾病的可能性很大,家長和學校如果提前予以關注,就會避免悲劇的發(fā)生。這也是大數據溫暖的一面。知冷知熱知心,應該是大數據的終極追求。
本文節(jié)選自《給孩子講大數據》,較原文有刪節(jié)修改,小標題為編者所加,非原文所有,已獲得出版社授權刊發(fā)。
編輯丨劉亞光
校對丨吳興發(fā)
Copyright ? 2024 有趣生活 All Rights Reserve吉ICP備19000289號-5 TXT地圖HTML地圖XML地圖