什么是大數據(big data)
大數據(big data),指無法在一定時間范圍內用常規軟件工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。
特點:大量、高速、多樣、低價值密度、真實性。
應用:大數據無處不在,大數據應用于各個行業,包括金融、汽車、餐飲、電信、能源、體能和娛樂等在內的社會各行各業都已經融入了大數據的印跡。
技術:數據收集、數據存取、基礎架構、數據處理、統計分析、數據挖掘、模型預測、結果呈現。
相關解釋
數據挖掘 (Data mining):數據挖掘關乎如下過程,從一大群數據中以復雜的模式識別技巧找出有意義的模式,并且得到相關洞見。在數據挖掘中,你將會先對數據進行挖掘,然后對這些得到的結果進行分析。為了得到有意義的模式 (pattern),數據挖掘人員會使用到統計學 (一種經典的舊方法)、機器學習算法和人工智能。
ETL:ETL 代表提取、轉換和加載。它指的是這一個過程:「提取」原始數據,通過清洗 / 豐富的手段,把數據「轉換」為「適合使用」的形式,并且將其「加載」到合適的庫中供系統使用。即使 ETL 源自數據倉庫,但是這個過程在獲取數據的時候也在被使用,例如,在大數據系統中從外部源獲得數據。
Hadoop:當人們思考大數據的時候,他們會立即想到 Hadoop。Hadoop 是一個開源軟件架構,它由 Hadoop 分布式文件系統 (HDFS) 構成,它允許使用分布式硬件對大數據進行存儲、抽象和分析。
機器學習 (Machine Learning):機器學習是基于喂入的數據去設計能夠學習、調整和提升的系統的一種方法。使用設定的預測和統計算法,它們持續地逼近「正確的」行為和想法,隨著更多的數據被輸入到系統,它們能夠進一步提升。
行為分析 (Behavioral Analytics):用戶行為分析,是指在獲得網站或 APP 等平臺訪問量基本數據的情況下,對有關數據進行統計、分析,從中發現用戶訪問網站或 APP 等平臺的規律,并將這些規律與網絡營銷策略等相結合,從而發現目前網絡營銷活動中可能存在的問題,并為進一步修正或重新制定網絡營銷策略提供依據。這是狹義的只指網絡上的用戶行為分析。
商業智能 (Business Intelligence):商業智能是一個總稱,包括應用程序、基礎設施、工具以及最佳實踐,它可以訪問和分析信息,從而改善和優化決策及績效。