数据分析、爬虫、大数据经典好书分享（文末赠书）

发布时间：2024-03-13 09:48:34 作者: 华体会手机版赞助曼联04

提供源码、380分钟视频，基础知识与丰富的Python爬虫实战案例相结合。

本书主要介绍Python爬虫编写的基础知识，以及对爬虫数据的存储、深入处理和分析。全书分为四部分：第一部分为爬虫基础篇，第二部分为实战基础篇（9个案例），第三部分为框架应用篇（5个案例），第四部分为爬虫应用场景及数据处理篇（6个案例）。本书由浅入深地介绍爬虫常用的方法和工具，以及对爬虫数据处理的应用和实现。但必须要格外注意的是，爬虫的技术栈不仅包含这几部分，而且在实际在做的工作中的细分方法也不完全一样。本书只是对目前爬虫技术中最为常用的一些知识点用案例的形式进行了分类和讲解，而更多的应用也值得读者在掌握一定的基础技能后进一步探索。本书适合Python语言初学者、网络爬虫技术爱好者、数据分析从业人士以及高等学校计算机科学、软件工程等有关专业的师生阅读。

本书以案例为驱动，由浅入深地介绍Python数据分析与可视化涉及的内容，配套源代码、数据集和500分钟视频讲解，实用性很强。

使用Python进行数据分析与可视化十分便利且高效，因此Python被认为是最优秀的数据分析工具之一。本书以22个案例，由浅入深地介绍不同数据分析与可视化的应用和实现。仅通过这一些案例并不能展示数据分析与可视化的全部精髓，而更多的应用也值得读者在学到一定的基础技能后进一步探索。本书面向高等院校计算机科学、软件工程、大数据、人工智能等有关专业的师生，以及Python语言初学的人和数据分析从业人士。

（1）精选七个大数据与机器学习经典案例，全部采用国际著名机构发布的真实数据。

（2）案例从数据分析和预处理开始，到特征工程，再到机器学习建模，最后完成模型评估，系统推演，丝毫毕现。

（3）配套800分钟微课视频、在线作业系统、教学课件、程序文档、教学大纲、习题答案等资源。

本书精选七个大数据与机器学习经典案例，全部采用国际著名机构发布的真实数据，研究领域涉及房产零售、生物信息、图像处理、无人驾驶、蛋白质折叠、机器问答、植物病理等。案例从数据分析和预处理开始，到特征工程，再到机器学习建模，最后完成模型评估，系统推演，丝毫毕现。对于历史经典模型（LeNet-5）、结构优美的模型（VGG-16）、自身应用广泛并对后来算法影响深远的模型（ResNet、Inception）、性能卓著的后起之秀模型（YOLO v1～v4、DenseNet、EfficientNet、EfficientDet、BERT）等，予以重点关注。

本书具备高阶性、创新性与挑战性三种创新特质，可作为大数据和AI专业教材、毕业设计指导教材、创新训练指导教材、实训实习指导教材，也可供有关专业研究生和工程技术人员学习参考。

一本适合大数据专业的通识基础课教材。提供教学课件、教学大纲等，大数据基础理论+实战案例+习题演练。

本书基础理论和案例分析相结合，全面介绍了大数据技术的基础知识，以提升读者对大数据的认知。全书共11章，内容有大数据概述、大数据时代的思维变革、大数据的采集与存储、数据可视化、支撑大数据的技术、商业大数据、民生大数据、工业大数据、政务大数据、安全大数据和大数据的未来。本书既可作为全国高等学校计算机及相关专业“大数据导论”“大数据科学”“大数据基础”等课程的教材，也可作为普通读者了解大数据及其有关技术的参考书。

（1）以实战开发为导向，对基础理论知识点与开发过程进行详细讲解，涵盖16个完整的项目案例和两个综合案例，以加深对本书所学的知识点的理解和掌握。

（2）语言简明易懂，代码详尽，避免对 API 的形式展示，规避重复代码。由浅入深地带领读者学会以 Hadoop生态圈为核心的开发技术和大数据常见的机器学习算法。

本书基础理论、应用开发以及实际案例相结合，围绕Hadoop、Spark生态圈循序渐进地介绍关于大数据技术领域中的基础知识、应用开发技术和基于Spark的常见机器学习算法，最后以两个实战案例全面、系统地应用了本书介绍的基础知识和应用开发方法。全书共14章，分别为大数据概述、Hadoop简介及安装部署、HDFS、MapReduce计算框架、Hive数据仓库、HBase分布式数据库、Spark基础、Spark RDD弹性分布式数据集、Spark SQL、Spark Streaming实时计算框架、Spark Streaming与Flume、Kafka的整合、Spark MLlib 机器学习、实战案例——分布式优惠券后台应用系统和实战案例——新闻话题实时统计分析系统，书中的每个知识点都有相应的实现代码和实例。本书主要面向广大从事大数据分析、应用开发、机器学习、数据挖掘的专业技术人员以及从事高校信息技术专业的教师和高等院校的在读学生及相关领域的广大科研人员。

通过丰富的实操示例、实训和真实大数据项目的解析，帮助读者理解和掌握大数据技术及应用。配套300分钟实操视频、教学大纲、教学课件、Python案例源码、习题答案等。

本书从初学者方面出发，通过丰富的示例和实战项目，详细讲解大数据开发环境、关键技术及其应用。全书共分10章，第1~9章的内容分别为大数据概述、Linux系统的安装与使用、Python 3语言基础、Hadoop开发环境、HDFS技术、MapReduce技术、Hive数据仓库、HBase分布式数据库、Sqoop工具，第10章详细解析了实战项目“货运车分布分析平台”，帮助初学者快速入门。本书所有知识点都结合具体的编程示例，对于重要知识点提供视频讲解，还设计了多个实训，使读者通过实践环节加强对知识点的理解和掌握。本书适合作为高等院校计算机应用、大数据技术及相关专业的教材，也适合作为大数据技术相关培训的教材和大数据技术初学者的自学资料。

本书以企业数据分析系统为业务背景，主要介绍微软公司的Power BI系统的应用场景，让用户很快熟悉从大数据分析到人工智能的应用。配套450分钟教学视频、教学课件、电子教案、教学大纲、习题答案、实验文档等。

本书以企业数据分析系统为业务背景，主要介绍微软公司的Power BI系统的应用场景，涉及数据的收集、输入、清洗、过滤、发布等数据处理流程，以及功能模块方面的市场分析、用户分析、货品分析、流量分析、资源分析、舆情分析等多个常用场景，让用户很快熟悉从大数据分析到人工智能的应用。本书遵循以实战为主的原则，力求做到结合项目、图文并茂、语言通俗、结构紧密相连、例题丰富、实践性强。

本书适合作为高等院校计算机应用专业的教材，同时也适合智能数据分析的爱好者、数据管理人员、电商数据分析从业人员、电商运营从业人员阅读，还可当作自学或函授学习的参考书。

零编程基础入门Python数据分析及可视化，注重介绍核心概念与应用，相关联的内容通过图表形式呈现给读者，并配有多个示例，便于读者学习与总结。配套微课视频、教学课件、教学大纲、源代码、数据文件等。

本书主要介绍Python语言基础、数据分析和数据可视化等内容。全书共12章，分别为绪论、Python开发环境与工具、Python的基本概念、基本数据类型与运算符、程序流控制与异常处理、函数及其高级应用、文件与输入输出、网站数据的获取、文本数据的处理、NumPy与数学运算、Pandas数据分析和数据可视化。本书注重介绍核心概念与应用，相关联的内容通过图表形式呈现给读者，并配有多个示例，便于读者学习与总结。本书可当作高校相关课程的教材或Python程序开发学习者的自学参考书，也很适合作为机器学习实践的先导课程的参考书。

讲解文本挖掘、信息检索的主流算法及典型实例，提供实例的Python源码和练习。

文本挖掘与信息检索是近年来AI领域的热点研究方向。本书共8章，包括信息检索概述、信息检索模型、信息检索的评价、文本分类技术、文本聚类技术、自动摘要技术、文本推荐技术和网页链接分析，融合了统计学、机器学习、数据库等知识，具有多学科交叉的特点。内容全面，案例丰富，适合作为人工智能、数据科学、计算机、软件工程等专业的本科生和研究生教材，也可作为企业和事业单位相关研究人员的参考资料。

本书从Python数据分析的基础知识入手，结合大量的数据分析示例，系统地介绍了数据分析与可视化方法，带领读者逐步掌握Python数据分析的相关知识，提高解决实际问题的能力。

本书共13章，主要内容有数据分析与可视化概述、Python编程基础、NumPy数值计算基础、Pandas统计分析基础、Pandas数据载入与预处理、Matplotlib数据可视化基础、Seaborn可视化、pyecharts可视化、时间序列数据分析、SciPy科学计算、统计与机器学习、图像数据分析和综合案例实战等。

本书从数据挖掘的过程出发，以数据挖掘的流程和主要的机器学习算法为主线，全面系统地介绍了数据挖掘的基本概念和主要思想、典型的机器学习算法以及利用Python实现数据挖掘与机器学习的过程。本书将数据挖掘的理论与方法和机器学习算法以及项目实践充分结合，以便加深加快读者对所学内容的理解和掌握。

本书内容丰富，循序渐进，以数据挖掘框架为主线，系统地介绍了数据挖掘技术的基础原理、方法和实践应用，全面反映了数据挖掘的理论体系和应用的进展。课程既讨论数据挖掘的基本理论知识和框架体系结构，又介绍了数据挖掘算法的Python实现与应用，强调了理论与实践相结合，基础知识与前沿发展相结合。本书可作为计算机数据科学相关专业高年级本科生、硕士研究生的软件挖掘教材，同时也可当作对Python数据挖掘感兴趣读者的自学参考书。

（5）本书的配套资源包括教学大纲、教学课件、电子教案、程序源码和习题答案，编者还为本书精心录制了600分钟的微课视频。

本书主要介绍数据仓库与数据挖掘的基本概念和方法，包括数据预处理、数据仓库与联机分析处理、数据仓库设计与开发、回归分析、关联规则挖掘、分类、聚类、神经网络与深度学习、离群点检测以及文本和时序数据挖掘等内容。各章力求原理叙述清晰，易于理解，突出理论联系实际，辅以代码实践与指导，引领读者更好地理解与应用算法，快速迈进数据仓库与数据挖掘领域。本书可作为高等学校计算机科学与技术、数据科学与大数据技术等有关专业的教材，也可作为科研人员、工程师和大数据爱好者的参考书。

（1）以互联网大数据采集技术为中心，将Web应用技术、各种页面采集的共性技术与特有技术、大数据处理与挖掘以及爬虫合规性等有关技术有机地结合在一起，涉及当前互联网Web空间的典型应用，构成完整的大数据采集技术和应用的知识体系。

（2）在互联网大数据的采集技术中，完整系统地涵盖了普通爬虫、动态爬虫、主题爬虫、Deep Web爬虫以及微博数据采集，既强调爬虫抓取数据的功能，也凸显爬虫作为Web应用安全监测的主要技术，有利于读者全面理解网络爬虫大数据技术及其应用。

（3）秉承“授人以鱼不如授人以渔”的总体思路，本书理论与实践相结合，书中既有有关技术原理的介绍，也包含了大量的Python实现技术、开源架构等方面的介绍，提供了27个与爬虫技术和应用相关的Python程序，使得读者既能理解技术问题又能动手实践。

本书围绕大数据采集,对采集技术的相关基础、技术原理、 Python实现技术、大数据挖掘与应用方法进行了系统介绍。书中全面、完整地覆盖了很多类型的网络爬虫及相关的信息处理挖掘技术,并提供了27个与爬虫技术和应用相关的Python程序。全书共分为四大部分,即概述、基础篇、技术与实现篇、大数据挖掘与应用篇。第一部分是概述,首先指出了利用Python采集互联网大数据的重要性,介绍了有关技术研究、技术体系、 Py t hon爬虫采集技术的合规性及应用现状等; 第二部分是基础篇,包括 Web服务器的应用架构以及HTTP、 Robots、 HTML、页面编码等相关协议和规范; 第三部分是技术与实现篇,全面介绍了普通网络爬虫技术、动态页面采集方法、主题爬虫技术、 DeepWeb爬虫、微博信息采集、Web信息提取以及反爬虫技术等,内容涵盖了各种爬虫技术实现方法及Python例子; 第四部分是大数据挖掘与应用篇,介绍了用于爬虫应用中的典型大数据处理与挖掘技术以及 Web大数据采集的常见应用模式,并以新闻采集与分析、 SQL注入在线检测为例介绍了Python爬虫应用构建方法,将本书介绍的一些关键技术、模型和工具贯穿在一起。

全面涵盖计算机考研知识点；B站口碑爆棚的“计算机网络微课堂”升级版；“湖科大教书匠”高军老师领衔打造。

本书深入浅出地讲解计算机网络知识。全书共分为7章：第1章为概述，从整体上介绍计算机网络及其发展历史；第2～6章以计算机网络的五层体系结构为基础，分别介绍物理层、数据链路层、网络层、运输层和应用层的概念、工作原理、相关协议等；第7章讲述网络安全基础知识。本书的特点是注重分析各种技术背后的原理和方法，注重内容的正确性、准确性和新颖性。

为方便读者学习和理解，全书配套录制了微课视频。该视频具有动画演示生动形象、语言通俗精练、配套文案精美三大特色。本书还为读者提供PPT课件、学习大纲、习题、知识点思维导图等资源。

本书适合作为高等院校电子信息工程、通信工程、物联网工程、信息工程、电气工程自动化、自动化、计算机科学与技术等相关专业的教材，也可供其他专业的学生、教师和从事计算机网络工作的工程技术人员参考，还可作为考研者的复习用书。

普通高等教育“十一五”国家级规划教材，本书在前三版的基础上，对数据挖掘的方法论和知识点进行了重新归纳，按照基础篇、提高篇和应用篇进行设计。书中所有典型算法都通过具体跟踪执行实例来进一步说明，便于读者正确理解和应用算法。配套教学视频、教学课件和教学大纲。

本书是一本全面介绍数据挖掘基本原理、核心算法以及典型应用方法的专业书籍。第4版在前三版的基础上，对数据挖掘的方法论和知识点进行了重新归纳，按照基础篇、提高篇和应用篇进行设计。从方法论上说，数据挖掘是一个方法和原理逐步演变的过程。首先，最基础的数据挖掘方法主要有“关联规则”“分类”“聚类”，它们是数据挖掘的灵魂和基础，因此基础篇是了解和学习数据挖掘技术的入门知识。其次，随着数据挖掘技术探讨研究和应用的深入，序列数据挖掘和深度神经网络得到充分研究。前者突破数据库的数据约束，面向时间序列发现有价值的知识模式；后者突破浅层神经网络的性能瓶颈，为多模态数据的自主挖掘提供新的解决途径。因此，“序列模式”和“深度神经网络”构成提高篇。最后，以互联网数据挖掘、空间数据挖掘构成应用篇。全书分为3篇共9章，各章相对独立，以利于读者选择性学习。在每章后面都专设一节对本章内容和文献引用情况进行归纳，以利于读者了解本章内容的知识点和检索原始参考资料。

本书可作为计算机专业研究生或高年级本科生教材，也可作为从事计算机研究和开发人员的参考资料。作为教材，教师可以根据课时安排进行选择性教学。对于研究和开发人员，本书不仅是一本具有较高参考价值的专业书籍，而且也是学习典型算法及其原理的很好的教科书。

本书以Hadoop 3.x及其生态体系中常用的大数据开源项目为主线，从大数据的概念入手，进而讲解Hadoop及其生态体系中常用大数据开源项目的架构和原理，并且在本书的最后一章通过一个项目案例对Hadoop的综合运用进行讲解。

本书附有配套视频、教学PPT、教学设计、测试题等资源，同时，为了帮助初学者更好地学习本书中的内容，还提供了在线答疑，欢迎读者关注。

本书详细介绍了大数据技术的基础理论和主流前沿技术。全书共分9章，分别介绍目前面临的大数据时代、大数据系统的基本结构、大数据采集与预处理、大数据处理基础架构——云计算、计算模式与处理系统、查询展现与交互、大数据分析与数据挖掘、隐私与安全、前沿技术及应用、行业案例研究。

数据思维，技术相随。图书结构完整，行文幽默，并以图文并茂、通俗易懂的方式力图让读者心有余地入门大数据科学。

大数据已深深渗透于人们工作和生活的方方面面。然而，大数据从来都不是以“技术”为其**底色，基于数据科学的创新应用，同样需要其他领域深度融合。本书阐述了培养具有大数据素养的综合型人才所需要的相关知识储备。本书不仅介绍大数据处理流程中的技术图谱，而且更侧重地讨论了与数据科学相关的历史、哲学及伦理学，以便于读者拓展跨领域的数据思维。为了增强图书的可读性，图书描述形式力图新颖，内容深入浅出、文笔流畅、图文并茂，大幅降低非计算机类有关专业读者的学习曲线。

本书系统、全面地介绍了大数据的基本知识和应用技能，详细的介绍了大数据与大数据时代、大数据思维变革、大数据可视化、大数据商业规则、大数据促进医疗与健康、大数据激发创造力、大数据预测分析、大数据和AI、大数据存储技术、大数据处理技术、大数据与云计算、大数据安全与法律、数据科学与数据科学家以及大数据的未来等内容，具有较强的系统性、可读性和实用性。

这是一个大数据爆发的时代。面对信息的激流、多元化数据的涌现，大数据已经为个人生活、企业经营，甚至国家与社会的发展都带来了机遇和挑战，大数据慢慢的变成了IT信息产业中的蓝海。“大数据导论”是一门理论性和实践性都很强的课程。

全书分导论、方法论和进阶应用三大部分，共10章，涵盖数据分析的数据预处理、关联规则分析方法、有标签的数据分析方法、无标签的数据分析方法、数据可视化技术、深度学习技术、Hadoop大数据分布式应用计算平台等基础知识。

本书围绕大数据背景下的数据挖掘及应用技术，从大数据挖掘的基本概念入手，由浅入深、循序渐进地介绍大数据挖掘分析过程中的数据认知与预处理、数据可视化技术、数据挖掘的基本方法、Hadoop大数据分布式处理生态系统及分析应用等内容。其中数据挖掘的基本方法不仅包括数据关联分析、数据分类分析及数据聚类分析，还包括深度学习等重要的数据挖掘研究和发展主题。本书围绕大数据背景下的数据挖掘及应用技术，从大数据挖掘的基本概念入手，由浅入深、循序渐进地介绍大数据挖掘分析过程中的数据认知与预处理、数据可视化技术、数据挖掘的基本方法、Hadoop大数据分布式处理生态系统及分析应用等内容。其中数据挖掘的基本方法不仅包括数据关联分析、数据分类分析及数据聚类分析，还包括深度学习等重要的数据挖掘研究和发展主题。

课件处为本书PPT教案。大数据系列教材之一。大数据呈现海量数据，而处理数据集合，挖掘数据内涵和内在联系，是数据为我所用的关键。

大数据可视化是一门理论性和实践性都很强的课程。本教材针对信息管理、经管和其他各专业学生的发展需求，系统、全面地介绍了关于大数据可视化、信息可视化技术与应用的基本知识和技能。

本书附有完整的习题解答，可供有兴趣的读者参考和查阅。对于一些算法，本书也提供了Python代码作为补充材料。

本书的每一章都从一个具体的实际问题出发，其最大的目的是激发对特定大数据分析技术的研究。接下来用数学方法阐述研究结果，包括重要的定义、辅助语句和由此产生的结论。案例分析则通过在跨学科背景下的应用来加深所获得的知识，包括对逐步完成的任务的描述，以及伴随着有用的提示。练习部分作为读者自学不可或缺的一部分，有助于提高读者对基础理论的理解。

案例真实，开发过程完整。从数据采集、数据分析、数据可视化，完整展示大数据项目开发流程。符合高校实训需求，提供配套资源服务。

本书通过一个招聘网站岗位分析的案例，完整的呈现了大数据开发的过程。其中第1章对实训项目进行概述，让大家探索项目功能、明确实训项目的需求和目标；第2章带领大家搭建了大数据环境；第3章讲解了怎么样去使用爬虫的方式采集数据；第4章讲解了数据预处理操作；第5章对处理后的数据来进行分析；第6章通过一个web项目对数据分析结果可视化呈现。本书适合作为高等院校计算机相关专业的实训教程，也可作为广大编程爱好者的实践图书。

读者可关注清华大学出版社信息分社新媒体矩阵，获取更多知识分享，参与更多赠书、折扣购书活动

（1）关于实收奖品：本次奖品为“大数据”系列图书，奖品发放方式为随机“盲盒”式。

上一篇:ChatGPT 再次成为焦点：学生放弃导师改用 ChatGPT 自学！科技与狠活席卷高校？下一篇:晨安武汉︱武汉将新增一所中学

矿用振动筛

数据分析、爬虫、大数据经典好书分享（文末赠书）