大數據學習心得 篇1
奧倫·艾奇奧倫(Oren Etzioni)創立的從文本中挖掘信息的公司ClearForest,已經被路透社收購。
美國股市每天成交量高達70億股,而其中三分二的交易都是由建產在數學模型和算法之上的計算機程序自動完成的。
farecast經過了20xx年立項,到20xx年被收購。經歷了5年的時間,數據從最早了120xx條到20xx億條。
大數據的平臺有:谷歌的MAPREDUCE 和開源HADOOP平臺(最初源于雅虎)。NOSQL更優先于MYSQL.
大數據所用的數據記錄單位:拍字節PB(2的50次方)和艾字節EB(2的60次方),澤字節ZB (2的70次方),太字節TB。1EB=10億GB。1ZB=1024EB
20xx年,所有數據中只有7%是存儲在報紙、書籍、圖片等媒價上的模擬數據,其余全部是數字數據。
20xx年世界上存儲的數據預計能達到約1.2澤字節,其中非數字數據只占不到2%。
人類存儲信息量的增長速度比世界經濟的增長速度快4倍。而計算機數據處理能力的增長速度則比世界經濟的增長速度快9倍。
大數據告訴我們“是什么”而不是“為什么”。在大數據時代,我們不必知道現象背后的原因。
大數據的算法從因果關系向相關關紗轉化。這也是思維方式的轉變。
推薦電影《點球成金》MONEYBALL
大數據的三個思維方式:
1、不要依靠分析少量的數據樣本,不要抽樣調查。要分析與某事物相關的所有數據。
2、不要追求精確性,要樂于接受紛繁復雜的數據。
3、不要探求難以捉摸的因果關系,轉而關注事物的相關關系。