数据中台数据采集过程中可能遇到的风险和问题

2022-12-20 10:56:50
光点科技
数据中台

数据中台是为了解决企业信息化建设中的瓶颈,是企业内部管理信息系统的升级。 数据采集过程中可能遇到的风险和问题: 由于业务发展迅速,各单位对于数据的需求非常大,但是对数据质量要求很高。 很多产品为了降低成本,会使用大量免费的 API进行应用集成。 然而 API由于集成了大量非业务类、甚至不相关的业务接口,导致用户难以理解应用逻辑。 比如: 有些系统对数据质量要求不高,例如:某平台的商品数据采集过程中可能会出现如下问题:1、对商品详情进行解析时,如果需要对商品详情信息进行解析,而平台没有提供相应接口时很难实现;2、在商品页面进行抓取时会出现抓取失败、漏抓等情况;3、在商品页中如果存在多条属性信息也无法实现。这就说明:1、在进行数据采集时不能采集到非业务类、甚至不相关的指标;2、在进行统计报表分析时无法得到有效的数据支持;3、在进行运营分析时无法获取到有价值的数据。以上都是比较常见的问题。



一、常见的数据采集方法

数据采集一般分为两种,一种是从业务系统中提取数据,另外一种是通过爬虫抓取用户的行为。 1、从业务系统进行抓取:主要是通过 SQL语句进行采集; 2、用户行为(比如登录、购买、支付等)的抓取:通常会通过脚本、数据库查询以及 API的方式来获取数据; 3、从网页爬取(js):通常采用 js脚本,一般会使用 jar包,然后进行执行。 4、爬虫软件(例如: Elasticsearch, Flashcyber, snippets等)采集:使用爬虫软件来获取数据; 5、通过一些 API的方式采集数据:通常会是在后台建立 API接口,通过这个接口去获取数据; 6、使用开源爬虫软件(如 webpack等)进行采集。


二、不同系统下的数据采集方法

一般情况下,不同系统都会有其对应的数据采集规则。 比如:电商系统需要采集到各商品详情信息和销售订单信息。 金融系统则需要采集到支付流水等相关数据。 而对于一般的产品而言,数据采集工作都是按照一定的逻辑顺序进行的,例如:商品数据从购物车抓取到用户下单,再将订单信息传给业务人员然后进行分析,业务人员分析完再上传给后台进行分析。 (如:商城需要对商品进行分类,那么按照商品分类的逻辑顺序进行数据抓取即可)。所以,不同的业务场景下所需使用的数据采集方式是不一样的,需要根据具体场景和业务需求去选择合适的数据采集方式。


三、多来源指标信息来源

对于很多指标,可以通过多种来源获取数据。 比如:用户在电商平台的交易行为,可以通过网站、用户、微信、第三方等渠道进行获取。 再比如:用户的消费行为,可以通过淘宝、京东等平台进行获取,还可以通过微信公众号、小程序等途径进行获取。 数据来源多,但是缺少对相关指标的分析及处理能力。 如果在指标信息获取时出现问题,则无法很好地进行分析和处理工作。 比如:在某电商平台的商品订单信息中,包含了“购买人数”的信息。


更多数据治理相关资料请咨询客服获取,或者直接拨打电话:020-83342506


上一篇:数据中台和数据治理的区别及关系

下一篇:校园数据中台可以做什么?有什么优势?

关于我们
公司简介
价值观
公司历程
管理团队
人才构成
资质和荣誉
联系我们
咨询热线:020-83342506
地址:广州市越秀区寺右一马路18号泰恒大厦1609室
光点科技服务号
© 2011-2022 广州光点信息科技股份有限公司  |   粤公网安备 44010402002721号  |  粤ICP备12043917号