数据分析知识点全覆盖,一张图为你详尽展开

等等,昨天晚上加班到十一点,对着电脑屏幕上的数据表格,突然发现一个有趣的模式。
那个报表是关于城市交通流量的,用Python爬取了三个月的实时数据,结果发现某个十字路口的拥堵高峰时间,居然比我们预想的提前了半小时。
当时我就想,这数据来得容易,但怎么用才是关键。
比如那个SQL查询,写了几遍才把数据库里的历史记录调出来,可拿到数据后,发现有些指标根本不对劲,得重新爬一次网页数据。
这事儿让我想起,数据分析师光会获取和整理数据还不够,还得懂点统计,不然那堆数字就是一锅粥。
就像昨天弄的那个交通流量分析,用Pandas处理完数据,还得用Matplotlib画个图,老板一看才明白。
不过说真的,那个十字路口为什么提前堵了,是工程问题还是司机都变聪明了?

百战卓越班学员学习经验分享:大数据部分知识点

记得第一次接触大数据的时候,老师在课堂上举了个例子:超市的购物小票,这就是典型的结构化数据。
每一张小票都有一行,里面有商品编号、数量、价格这些列。
那时候我还觉得挺简单的,不就是表格嘛。
后来做了个项目,要分析用户评论里的情感倾向,那都是散乱的文字,这就是非结构化数据。
搞了半天,发现得用正则表达式和自然语言处理工具,才把意思一点点挖出来。
半结构化数据最烦人了,像XML文件那样,标签看着有点结构,但还得自己写解析器。

关系型数据库,我第一次用是MySQL。
记得那时候公司有个人事系统,表跟表之间全是外键关联,改个工资都得级联更新。
后来有个需求要实时统计用户行为,关系型数据库卡得像狗。
团队就搞了个NoSQL的文档数据库,把用户行为一条条往里丢,查询快多了。
成本上确实省了,关系型数据库的授权许可真不便宜,我们那个Oracle用着,每个月账单都让我心疼。

TPS这个指标,我记得上次给系统做压力测试,盯着那个计数器,从1 00TPS飙到2 00TPS的时候,CPU直接烧了。
当时就觉得,大数据这东西,光会理论没用,得知道硬件到底有多拉胯。
吞吐量就更离谱了,上次调网络的时候,看着那串数字从1 Gbps飙升到1 0Gbps,老板还在旁边说“还不够”,真是要命。

等等,还有个事,就是数据一致性问题。
我们之前用Redis做缓存,结果某个次元壁事件,缓存和数据库的数据对不上,搞了整整一个晚上。
当时就觉得,NoSQL强调最终一致性,有时候真挺坑的。
不过换个角度看,分布式系统哪有不出错的。
突然想到,如果用区块链来存这些购物小票的数据,会不会更稳?但那成本,啧啧。

这个页面...挺复杂的啊。
2 02 2 年的时候,我还在北京,那时候对这种网页代码完全不懂。
现在看,这么多 script 标签,还有各种路径像 /static/common-new/pkg/lib.f7 ce9 5 8 .js。
数量太多了,眼睛都花了。
2 02 3 年,我去了上海,那边物价比北京贵不少,当年房租一个月要四千多。
这里面的 var_hmt 什么的好像跟统计有关,金额不重要,重要的是数据。
京ICP证03 01 7 3 号-1 这后面跟的一串数字,没什么意义。
京网文【2 02 3 】1 03 4 -02 9 号,这个编号挺长的。
©2 02 6 Baidu,版权日期是 2 02 6 年,现在才 2 02 4 年,时间还长着呢。
脚本代码一直往下看,没有结束的迹象,感觉会一直加载。