为你推荐
内容提要
作者简介
审稿人简介
前言
本书内容安排
阅读本书需要具备的知识
本书的目标读者
结构安排
准备工作
操作步骤
工作原理
更多内容
另见
本书使用说明
第1章 获取数据与清洗数据
1.1 简介
1.2 使用Java从分层目录中提取所有文件名
1.3 使用Apache Commons IO从多层目录中提取所有文件名
1.4 使用Java 8从文本文件一次性读取所有内容
1.5 使用Apache Commons IO从文本文件一次性读取所有内容
1.6 使用Apache Tika提取PDF文本
1.7 使用正则表达式清洗ASCII文本文件
1.8 使用Univocity解析CSV文件
1.9 使用Univocity解析TSV文件
1.10 使用JDOM解析XML文件
1.11 使用JSON.simple编写JSON文件
1.12 使用JSON.simple读取JSON文件
1.13 使用JSoup从一个URL提取Web数据
1.14 使用Selenium Webdriver从网站提取Web数据
1.15 从MySQL数据库读取表格数据
第2章 为数据建立索引与搜索数据
2.1 简介
2.2 使用Apache Lucene为数据建立索引
2.3 使用Apache Lucene搜索带索引的数据
第3章 数据统计分析
3.1 简介
3.2 生成描述性统计
3.3 生成概要统计
3.4 从多种分布生成概要统计
3.5 计算频率分布
3.6 计算字符串中的词频
3.7 使用Java 8计算字符串中的词频
3.8 计算简单回归
3.9 计算普通最小二乘回归
3.10 计算广义最小二乘回归
3.11 计算两组数据点的协方差
3.12 为两组数据点计算皮尔逊相关系数
3.13 执行配对t检验
3.14 执行卡方检验
3.15 执行单因素方差分析(one-way ANOVA test)
3.16 执行K-S检验
第4章 数据学习Ⅰ
4.1 简介
4.2 创建与保存ARFF文件
4.3 对机器学习模型进行交叉验证
4.4 对新的测试数据进行分类
4.5 使用过滤分类器对新测试数据分类
4.6 创建线性回归模型
4.7 创建逻辑回归模型
4.8 使用K均值算法对数据点进行聚类
4.9 依据类别对数据进行聚类处理
4.10 学习数据间的关联规则
4.11 使用低层方法、过滤方法、元分类器方法选择特征/属性
第5章 数据学习Ⅱ
5.1 简介
5.2 使用Java机器学习库(Java-ML)向数据应用机器学习
5.3 使用斯坦福分类器对数据点分类
5.4 使用MOA对数据点分类
5.5 使用Mulan对多标签数据点进行分类
第6章 从文本数据提取信息
6.1 简介
6.2 使用Java检测标记(单词)
6.3 使用Java检测句子
6.4 使用OpenNLP检测标记(单词)与句子
6.5 使用Stanford CoreNLP从标记中提取词根、词性,以及识别命名实体
6.6 使用Java 8借助余弦相似性测度测量文本相似度
6.7 使用Mallet从文本文档提取主题
6.8 使用Mallet对文本文档进行分类
6.9 使用Weka对文本文档进行分类
第7章 处理大数据
7.1 简介
7.2 使用Apache Mahout训练在线逻辑回归模型
7.3 使用Apache Mahout应用在线逻辑回归模型
7.4 使用Apache Spark解决简单的文本挖掘问题
7.5 使用MLib的K均值算法做聚类
7.6 使用MLib创建线性回归模型
7.7 使用MLib的随机森林模型对数据点进行分类
第8章 数据深度学习
8.1 简介
8.2 使用DL4j创建Word2vec神经网络
8.3 使用DL4j创建深度信念神经网络
8.4 使用DL4j创建深度自动编码器
第9章 数据可视化
9.1 简介
9.2 绘制2D正弦曲线
9.3 绘制直方图
9.4 绘制条形图
9.5 绘制箱线图或箱须图
9.6 绘制散点图
9.7 绘制甜圈图
9.8 绘制面积图
资源与支持
配套资源
提交勘误
与我们联系
关于异步社区和异步图书
买过这本书的人还买过
读了这本书的人还在读
同类图书排行榜