大数据常用技术栈

大数据功能常见的堆栈技术有:
1 .数据采集和传输层
Stream:2 01 0年出现,用于Twitter帖子的采集,支持每秒1 0万条日志的采集。

Logstash:2 01 2 年推出,是ELK堆栈的核心,单机处理能力为1 0000条/秒。

Sqoop:2 01 1 年发布,Hadoop和MySQL双向迁移,一次5 00GB迁移需要2 小时。

Kafka:2 01 1 年推出,采用LinkedIn进行实时处理,一个集群承载1 00万/秒。

Pulsar:阿里云于2 01 6 年发布,支持多租户使用,消息传递0.1 秒。

2 数据存储层
HBase:Facebook于2 008 年发布,存储DCCCTB日志,每秒写入5 0万行。

Kudu:Uber 于 2 01 6 年推出的低延迟查询仅需 0.5 秒即可获取 1 0GB 照片数据。

HDFS:诞生于2 003 年,NASA拥有3 00TB的数据存储和5 0TB/天的吞吐量。
3 . 楼层分析
Spark:Netflix 于 2 01 3 年发布,可处理 1 PB 日志,批处理延迟为 5 0 秒。

Flink:2 01 4 年开源,阿里云集流式处理和海量处理于一体,实时处理吞吐量1 0万QPS。

Storm:Twitter 于 2 01 0 年推出,实时计数,每秒处理 5 00 万个菜谱。

MapReduce:Google 于 2 004 年设计,错误的处理器需要 4 小时才能计算 5 00GB。

Hive:2 01 0年发布,Facebook广告分析,1 分钟查询1 TB数据。
4 .OLAP引擎
Druid:诞生于2 01 2 年,Uber提供实时查询,秒级聚合5 亿点。

Kylin:2 01 5 年推出,京东广告分析,预聚合0.5 秒1 0亿数据查询。

Impala:2 01 3 年私有,NetflixOLAP,3 秒内 1 TB 照片数据。

Presto:Facebook 诞生于 2 01 3 年,可在 1 秒内跨 3 个数据源搜索查询。

5 资源管理
Yarn:2 01 2 年发布,用于Netflix的资源调度,支持2 000个节点。

Kubernetes:于 2 01 4 年推出,部署在亚马逊云上,可在几秒钟内扩展到数百个容器。

Mesos:诞生于2 01 0年,Uber整合了资源,支持Spark+MPI混合调度。

6 工作流程调度程序
Oozie:2 01 0年发布,雅虎业务协同,业务1 00个流程链需要5 分钟。

Azkaban:2 01 1 年推出,百度的任务依赖它,可以同时执行1 000个任务。

7 其他工具
Ambari:诞生于2 01 2 年,Netflix管理集群支持5 0个节点监控。

Zookeeper:2 01 0年开源,LinkedIn分布式锁,1 0000个客户端匹配。

实用建议:根据业务需求选择技术,实时选择Flink,存储选择HDFS+HBase。

大数据专业有哪些课程?

前天,我在图书馆看大数据教材时,突然看到下面一段话。
“大数据就像浩瀚的星空。
每个数据点都是一颗星星。
我们需要找到一种方法将星星串联起来,这样我们才能看到光。
”当时我认为这就是大数据处理的本质。
再往下讲,这本书详细介绍了大数据框架、数据挖掘与机器学习、互联网架构等方向。

曾经参与过一个大数据项目,是一个关于用户行为分析的项目。
Hadoop和Spark用于数据存储和处理,Hive用于数据查询和分析。
该项目历时两个月,期间我们每天要处理大量的数据,但最终我们能够从数据中提取出有价值的信息,为公司节省了大量的营销成本。

我曾经在课堂上问老师如何选择合适的大数据框架。
老师回答说:“选择框架就像选择鞋子一样,需要根据脚的形状和目的地来决定。
如果需要快速处理数据,Spark可能是更好的选择,如果需要存储大量数据,Hadoop可能是更好的选择。
”这句话我突然恍然大悟。

大数据技术有时​​发展如此之快,未来的数据科学家将面临哪些挑战?例如,随着数据量的不断增加,如何提高数据处理的效率,如何保证数据的安全和隐私,都是值得思考的问题。

等一下,还有一件事。
我突然想到,大数据技术不仅在企业中广泛应用,在我们的日常生活中也发挥着重要作用。
例如天气预报、智能推荐系统,甚至交通拥堵预测,都与大数据技术有着千丝万缕的联系。
感叹大数据时代我们的生活发生了翻天覆地的变化。

RDBMS云存储技术有什么作用?

采用RDBMS云存储技术在云端存储结构化数据和SQL查询。

主要功能:存储表、行记录、列字段。

支持SQL操作:添加、删除、修改、查询、聚合、连接。

AWS RDS 是一种典型的服务。

支持MySQL、PostgreSQL、Oracle等。

提供高性能、可扩展的实例。

它具有自动备份、恢复和故障转移功能。

通过控制台或 API 进行管理。

使用 SQL 客户端或应用程序进行查询。

分析型数据库:分布式分析型数据库

分布式分析数据库使用分布式技术取代 MPP,并具有弹性扩展和列式存储的功能。

例如2 01 0年发布的Hive on Hadoop就支持动态添加节点。
2 01 5 年推出的列式存储Parquet格式,压缩率超过7 0%。

这是一个优点。
不要相信制造商吹嘘的兼容性。
迁移成本很高。
不要这样做,转向云原生解决方案。