1.Introduction to Data Mining
—— by Tan, Steinbach & Kumar
本书是非常好的数据挖掘入门书。它讨论了数据挖掘的主要主题,包括聚类,分类,模式挖掘和异常值检测。此外,它包含两章Tan&Kumar写的很详尽的关于聚类的章节。本书提供了所有数据挖掘主题的理论和实践知识,还包含许多集成的示例和图形。每个重要主题都分为两章,既涉及了每种数据挖掘技术必要的基本概念,也介绍了更复杂的概念和算法。
2. An Introduction to Statistical Learning: with Applications in R
——by Gareth James & Daniela Witten
本书是基于数据集的统计学习概述。本书中使用R语言探索数据集,提供了重要的预测和建模技术及相关的应用。包括线性回归,分类,聚类,收缩方法,重采样方法,基于树的方法,支持向量机等主题。同时还包括彩色图像和真实的例子进行模型的应用。
3. Data Science for Business: What you need to know about data mining and data-analytic thinking
—— by Foster Provost & Tom Fawcett
本书是对数据科学原理和理论的介绍。此外,它解释了解决这类问题的必要分析思路。它还讨论了探索信息所需要的各种数据挖掘技术。你将学习通过使用数据挖掘过程以适当的方式收集良好数据,并用以数据可视化解决商业问题。本书将帮助你理解从数据中获取知识的常用概念。
4. Modeling with Data
—— by Ben Klemens
本书侧重于以数据解决分析问题的一些过程。特别是解释了创建工具的理论。这是为了探索大数据集的信息。这本书还提供了关于统计学必要知识点的概述,虽然它直接暗示了这本书相对于其他百科全书来说概念都是不完整的。
5. Big Data, Data Mining, and Machine Learning: Value Creation for Business Leaders and Practitioners
—— by Jared Dean
这本书从市场的角度来探讨大数据的现实状况及其好处。它还解释了如何存储这种数据和处理它的算法。本书基于数据挖掘和机器学习,还介绍了大数据及其特性,有关分析的高性能计算体系结构的信息,大型并行处理(MPP)和内存数据库,数据挖掘的简要介绍,机器学习算法和文本分析。
6. Data Mining: Practical Machine Learning Tools and Techniques
—— by Ian H. Witten & Eibe Frank
本书介绍机器学习工具的实际应用情况。此外也提供了实用的知识,和掌握机器学习的整个过程的基础知识。本书提供了机器学习完整的基础概念,以及数据挖掘项目工具和技术的实用技巧。它还提供了可以通过修改机器学习方法中的输入或输出来提高性能的技巧。
7. Mining the Social Web
—— by Matthew A. Russell
Facebook,Twitter,LinkedIn,Google +,GitHub等的数据挖掘实例。本书介绍了对社交网络数据的探索。从社交媒体应用程序捕获数据。操作和最终的可视化工具都是这本书的重点。本书提供了社交网络环境的准确概要,使用Docker顺利运行每章的示例代码,Jupyter notebook代码的压缩包,了解适应和贡献代码的开源GitHub存储库。
8. Probabilistic Programming & Bayesian Methods for Hackers
—— by Cameron Davidson & Pilon
一本关于贝叶斯网络的书,提供解决复杂问题的能力。还讨论了Python语言的编程实例。你将了解马尔可夫链蒙特卡罗算法的用法,如何选择完美的样本大小和先验,损失函数的应用,以及在金融和营销等领域实施贝叶斯推理。
9. Data Mining Techniques: For Marketing, Sales, and Customer Relationship Management
—— by Gordon S. Linoff & Michael J. A. Berry
专门针对营销和业务管理的数据挖掘书。通过大量案例研究了解如何在现实世界中应用这些技术。本书在所有章节中都包含了新的数据挖掘技术,并对处理和执行每种技术都进行了简明扼要的解释。它具有主要的数据挖掘技术,如链接分析,决策树,协同过滤,神经网络,生存分析和关联规则。
10. Inductive Logic Programming Techniques and Applications
—— by Lavrac N.
一本关于归纳逻辑编程的经典书,具有丰富的理论和实践信息。另外引用了一些重要的工具。作者主要关注归纳逻辑程序及其用法,并在前几章中提供了该主题理论基础的详细信息。他们将机器学习范式描述为演绎,归纳,神经网络学习和遗传算法学习。
11. Mining of Massive Datasets
—— by Anand Rajaraman & Jeffrey David Ullman
这本数据挖掘书的主要重点是提供管理,操作所需的工具和知识。此外,将大量信息存储到数据库中。作者描述了用于挖掘数据的局部敏感哈希和流处理算法的技术,这些算法非常快速地用于穷举处理。然后,它涵盖了PageRank的想法和Web组织技巧。其他章节侧重于寻找频繁项目集和聚类的问题。最后几章包括两个应用,网络广告和推荐系统,这两个应用在电子商务中都很重要。
12. Data Mining: The Textbook
—— by Charu C. Aggarwal
这可能是我最近读过的Computer Scientist 方面的顶级数据挖掘书籍之一。它介绍了数据挖掘的基本概念,还介绍了一些高级的主题。它是一本非常新的书,也是由顶级数据挖掘研究员(C. Aggarwal)撰写的。还涵盖了许多近期和高级的主题,如时间序列,图形挖掘和社交网络挖掘。
13. A Programmer’s Guide to Data Mining
—— by Ron Zacharski
从编程的角度来看数据挖掘概念的指南。它提供了几个实践问题,需要在学习本书的主题后进行练习和测试。本书包括以下章节:推荐系统入门,隐式评级和基于项目的过滤,分类中的进一步探索,朴素贝叶斯,非结构化文本和聚类。
14. Data Mining with Rattle and R: The Art of Excavating Data for Knowledge Discovery
—— by Graham Williams
本书提供有关数据操作的大量信息。此外,它侧重于Rattle工具包。用R语言来演示这些技术的实现。本书包括数据理解,模型评估,数据细化,数据准备,模型构建和实际部署。你将学习通过免费安装的软件即时交付数据挖掘项目。结合Rattle与R为数据挖掘环境提供许多商业产品的功能。
15. The Elements of Statistical Learning
—— by Trevor Hastie & Robert Tibshirani
基本上,这是一本非常受欢迎的书,更侧重于统计知识。此外,它涵盖了许多数据挖掘技术。如神经网络,关联规则挖掘,SVM,回归,聚类等主题。这本书的有趣之处在于它是许多大学课程中使用的顶级书籍。作者涵盖了许多主题,如图像模型,集合方法,最小角度回归,随机森林,以及关于套索的路径算法,非负矩阵因子分解。