1. ETL(extraction-transformation-load)抽取-转换-加载 (1)extraction(抽取)
不是所有出如今业务数据库中的数据都必要抽取,抽取必要在调研阶段做大量的工作,首先要搞清楚数据是从几个业务系统中来,各个业务系统的数据库服务器运行什么,是否存在手工数据且手工数据量有多大,是否存在非结构化的数据,某些数据对于分析没有任何价值,这类数据是否必要剔除,当收集完这些信息之后才可以举行数据抽取的计划。 (2)Transformer(转换)
也就是数据的清洗,数据堆栈分为两部分,ODS(利用数据存储)及DS(数据堆栈),通常的做法是从业务系统到ODS做清洗,将脏数据与不完备数据过滤掉,在从ODS到OW的过程中转换,举行一些业务规则的计算,聚合及数据转换。 a. 数据清洗:业务系统→ODS的过程,过滤那些不符合要求的数据,将过滤的结果交给业务主管部分,确认是否过滤掉还是由业务单位修正之后再举行抽取。 b. 数据转换:ODS→DS的过程,重要举行差别维度的数据转换、数据颗粒度的转换,以及一些业务规则的计算。
ODS(Operation Data Store)利用数据存储在业务数据库与数据堆栈之间形成一个隔离,其存在可以避免数据堆栈直接调用业务数据库的数据,保持数据在结构上与业务数据库一致,起到提高业务数据库稳定性,降低数据抽取复杂性的作用。
鉴于ODS上述特点,数据会按照特定时间源源不断地写入ODS中,且一经写入的数据不能被删除,修改。所以为了提高ODS的运行服从,一般ODS会考虑使用分布式文件存储系统。