当当云阅读 > 科技 > 计算机/网络 > 计算机理论与教程 > 玩转大数据:SAS+R+Stata+Python

玩转大数据:SAS+R+Stata+Python电子书

本书采用双色印刷，部分重图片可扫码观看彩图。本书采用次加大本印刷，使代码的阅读更加方便。本书与常规介绍SAS、R语言、Stata和Python等统计软件的书籍的区别在于避免只讲统计分析而忽略如何高效、准确地提取主要结果，如何生成可直用于汇报、交流或达到SCI发表要求的表格。本书立足于目前大数据研究的现状分三步行讲解。首先强调必须掌握的数学和统计学基础知识；其次，根据真实世界的电子病历及健康注册系统的数据特征，模拟出与其复杂程度和处理难度相当的模拟数据库；再次，针对同一研究问题，在SAS、R语言、Stata和Python中行同步处理，详细讲解如何在这4个统计软件中实现从数据导、数据清洗、统计分析、整理输出结果（表格或图）到结果解释的全部过程，从而可完成软件的对比学习，达到事半功倍的效果。以上3也是本书的特色所在。

售价：¥

纸质售价：¥149.60购买纸书

80人正在读 | 0人评论

6.2

作者：孙江伟,王韵章,宁铮,李夏,王吟曦,李琳,卞伟玮

出版社：清华大学出版社

出版时间：2020-09-01

字数：26.5万

所属分类：科技 > 计算机/网络 > 计算机理论与教程

温馨提示：数字商品不支持退换货，不提供源文件，不支持导出打印

为你推荐

读书简介
目录
累计评论(0条)

读书简介
目录
累计评论(0条)

面对日渐复杂的大数据，科技工作者很难用单一的统计软件高效、完美地完成从数据挖掘、数据清洗、统计分析到结果呈现的全部工作，因此需要熟悉和掌握多种统计工具，各取所长、整合使用。本书立足于大数据研究的现状，基于实际医疗案例，介绍数学基础知识和统计学基础知识,SAS、R语言、Stata和Python这4款大数据常用分析工具的基础编程知识及实践操作。本书主要面向在校本科生、研究生，以及要掌握SAS、R语言、Stata和Python的数据工作者，熟悉四个软件的任意一个且想要在短时间内掌握其他软件的读者，也适合医科学生、临床医生或药企人员等医疗相关人员学习使用。 【推荐语】 本书采用双色印刷，部分重图片可扫码观看彩图。本书采用次加大本印刷，使代码的阅读更加方便。本书与常规介绍SAS、R语言、Stata和Python等统计软件的书籍的区别在于避免只讲统计分析而忽略如何高效、准确地提取主要结果，如何生成可直用于汇报、交流或达到SCI发表要求的表格。本书立足于目前大数据研究的现状分三步行讲解。首先强调必须掌握的数学和统计学基础知识；其次，根据真实世界的电子病历及健康注册系统的数据特征，模拟出与其复杂程度和处理难度相当的模拟数据库；再次，针对同一研究问题，在SAS、R语言、Stata和Python中行同步处理，详细讲解如何在这4个统计软件中实现从数据导、数据清洗、统计分析、整理输出结果（表格或图）到结果解释的全部过程，从而可完成软件的对比学习，达到事半功倍的效果。以上3也是本书的特色所在。笔者将着眼于真实世界的医学研究，主要介绍在四个软件中常用的、效的命令及编程方法，使数据工作者能够在短时间内掌握每个软件的精髓，并且能够学以致用，切实应用到自己的研究项目中解决相关问题。但本书不会过多的涉及诸如模型的比较和选择等问题，因该类问题常是由研究课题或项目来决定的，不存在放之四海而皆准的准则。对该类问题感兴趣的读者，请查阅相关书籍或文章。本书主要是面向在校大学生、研究生以及欲掌握SAS、R语言、Stata和Python的数据工作者,熟悉4个软件的任意一个且欲短时间内掌握其他软件者,尤其适合医科学生、临床医生或药企人员等医疗相关人员学习使用。 【作者】 孙江伟复旦大学流行病与卫生统计学专业硕士，曾在强生公司（Johnson &Johnson）任生物统计师，对国内医药临床领域及国外医疗注册系统等大数据的数据管理、数据清洗、研究设计及统计分析，有丰富的理论及实践经验，现于瑞典卡罗林斯卡医学院行卫生统计学方面的研究深造。在American Journal of Epidemiology、European Journal of Neurology等杂志发表相关领域SCI论文10篇。

目录展开

封面页

书名页

版权页

内容简介

前言

第1章　数学基础

1.1　常用的数学符号

1.2　常见概念

1.2.1　集合

1.2.2　极限

1.3　微积分

1.3.1　导数与微分

1.3.2　基本初等函数的导函数和微分公式

1.3.3　导数与微分的运算法则

1.3.4　定积分与不定积分

1.3.5　基本的不定积分公式

1.3.6　定积分与不定积分的性质

1.4　线性代数

1.4.1　标量与向量

1.4.2　矩阵与线性方程组

1.4.3　行列式的定义与运算

1.4.4　矩阵的运算法则

1.4.5　特殊的矩阵

1.4.6　矩阵的秩

1.4.7　矩阵的转置与矩阵的逆

1.4.8　特征向量与特征值

第2章　统计学基础

2.1　概率论的基本概念

2.2　随机变量与分布

2.2.1　随机变量

2.2.2　累积分布函数

2.2.3　概率函数

2.3　随机变量的数学特征

2.3.1　数学期望

2.3.2　期望值的规律

2.3.3　条件期望

2.3.4　协方差与相关系数

2.3.5　样本均值和方差

2.4　常见的随机变量分布

2.4.1　离散变量分布

2.4.2　连续变量分布

2.5　统计学基本概念

2.5.1　总体与样本

2.5.2　参数和统计量

2.5.3　中心极限定理

2.6　统计描述

2.6.1　定量资料的统计描述

2.6.2　分类资料的统计描述

2.7　统计推断

2.7.1　参数估计

2.7.2　假设检验

2.8　多因素回归模型

2.8.1　多因素线性回归模型

2.8.2　多因素Logistic回归模型

2.8.3　多因素Cox回归模型

第3章　软件基础总论

3.1　软件初识

3.1.1　SAS

3.1.2　R语言

3.1.3　Stata

3.1.4　Python

3.2　4个软件的比较

第4章　SAS基础

4.1　SAS介绍与资源

4.1.1　SAS语言及程序结构

4.1.2　SAS工作界面

4.1.3　获得帮助

4.2　数据的导入与导出

4.2.1　导入数据

4.2.2　导出数据

4.3　SAS中常用的函数

4.3.1　字符型函数

4.3.2　数值型函数

4.3.3　日期型函数

4.3.4　特殊函数

4.3.5　其他函数

4.4　SAS变量

4.4.1　变量属性

4.4.2　自动变量

4.4.3　变量列表的缩写规则

4.4.4　创建变量

4.4.5　改变变量属性

4.4.6　改变变量类型

4.5　SAS数据处理

4.5.1　选取变量

4.5.2　创建变量

4.5.3　对观测求和

4.5.4　选取并操作部分观测

4.5.5　循环和数组

4.5.6　数据集的横向合并和纵向合并

4.5.7　增加数据集处理灵活性的SAS选项

4.6　SAS中常见的proc步

4.6.1　proc contents

4.6.2　proc datasets

4.6.3　proc freq

4.6.4　proc means

4.6.5　proc sort

4.6.6　proc transpose

4.6.7　proc univariate

4.6.8　proc corr

4.6.9　proc reg

4.6.10　proc logistic

4.6.11　proc lifetest

4.6.12　proc phreg

4.7　PROC SQL

4.7.1　检索数据

4.7.2　合并数据集

4.7.3　使用PROC SQL管理表

4.8　SAS宏介绍

4.8.1　宏变量

4.8.2　宏函数

4.8.3　宏程序

4.8.4　宏参数

4.8.5　宏语言与data步

4.8.6　宏语言与PROC SQL

4.8.7　条件语句和循环语句在宏语言中的使用

第5章　R语言基础

5.1　R语言介绍

5.1.1　R语言的特点与资源

5.1.2　RStudio使用简介

5.2　R语言的基本规则

5.2.1　对象

5.2.2　函数使用基础

5.2.3　扩展包

5.2.4　帮助

5.3　数据类型

5.3.1　vector

5.3.2　factor

5.3.3　date

5.3.4　matrix

5.3.5　list

5.3.6　data.frame

5.3.7　formula

5.4　常用函数介绍

5.4.1　数据的读入和导出

5.4.2　条件判断

5.4.3　循环

5.4.4　文本处理

5.4.5　基本作图

5.4.6　自定义函数

5.5　常用数据处理与统计分析函数

5.5.1　单变量分析

5.5.2　双变量、多变量分析

5.5.3　线性回归模型

5.5.4　Logistic回归模型

5.5.5　生存分析模型

5.6　dplyr包简介

5.6.1　安装dplyr包

5.6.2　dplyr包中最常用的5个函数

5.6.3　用%>%运算符连接多个函数

5.6.4　dplyr包中其他实用的函数

5.7　ggplot2包简介

5.7.1　安装ggplot2包

5.7.2　使用ggplot2画图的基本思路

5.7.3　使用geom_histogram函数绘制直方图

5.7.4　使用geom_bar函数绘制柱状图

5.7.5　使用geom_boxplot函数绘制箱形图

5.7.6　使用geom_point函数绘制散点图

5.7.7　使用geom_smooth函数在散点图上添加线性回归结果

5.7.8　对图中细节进行微调

5.7.9　将多个图合并为一个图

5.7.10　保存图

第6章　Stata基础

6.1　Stata简介

6.1.1　界面介绍

6.1.2　在菜单栏中选择命令

6.1.3　输入命令代码

6.2　获得帮助

6.2.1　检索关键词

6.2.2　查看帮助

6.2.3　帮助建议

6.3　语法结构

6.3.1　变量集

6.3.2　by前缀

6.3.3　命令

6.3.4　=表达式

6.3.5　if表达式

6.3.6　in范围

6.3.7　权重

6.3.8　命令选项

6.3.9　数值集合

6.3.10　文件名

6.4　数据转换与分析

6.4.1　导入数据

6.4.2　浏览数据与基本描述

6.4.3　数值变量

6.4.4　文本变量

6.4.5　日期变量

6.4.6　缺失值

6.4.7　注释变量

6.4.8　调整数据结构

6.4.9　基本描述

6.4.10　统计检验

6.4.11　相关分析

6.4.12　回归分析

6.4.13　导出数据

6.5　输出结果调用

6.5.1　一般统计命令结果调用

6.5.2　估计命令结果调用

6.6　重复命令

6.6.1　by前缀

6.6.2　foreach循环

6.6.3　forvalues循环

6.7　编程工具

6.7.1　do文件

6.7.2　标量变量

6.7.3　宏变量

6.7.4　矩阵

6.7.5　程序

第7章　Python基础

7.1　Python的安装

7.1.1　使用Python安装包安装Python 3

7.1.2　通过Anaconda安装Python 3

7.2　常用交互式语言开发环境

7.2.1　编辑器

7.2.2　控制台

7.2.3　变量管理器

7.3　常用数据类型、数据结构与基本语句

7.3.1　Python中的变量命名规则

7.3.2　常见的数据类型及运算

7.3.3　常见的数据结构及运算

7.3.4　第一个程序

7.3.5　函数

7.3.6　常用逻辑语句

7.4　数据的导入与导出

7.4.1　数据的读取

7.4.2　数据存储

7.5　基础运算常用包——NumPy

7.5.1　基本性质

7.5.2　矢量化运算

7.5.3　NumPy中的函数

7.5.4　ndarray的轴、索引与切片

7.5.5　实战举例：用NumPy进行图像处理

7.6　数据处理常用包——Pandas

7.6.1　主要数据类型

7.6.2　对DataFrame的描述

7.6.3　缺失值的检测与处理

7.6.4　DataFrame的索引

7.6.5　常见操作

7.6.6　字符处理专题

7.6.7　apply专题

7.6.8　groupby专题

7.7　统计分析常用包

7.7.1　单样本t检验

7.7.2　独立样本t检验

7.7.3　两个连续型变量的相关性

7.7.4　两个分类变量的频数统计

7.7.5　线性回归模型

7.7.6　Logistic回归模型

7.7.7　生存分析

7.8　绘图常用包

7.8.1　Pandas

7.8.2　Matplotlib

7.8.3　Seaborn

第8章　软件实践总论

8.1　本书使用的数据集

8.1.1　病人基本信息数据集

8.1.2　诊断信息数据集

8.1.3　实验室检测结果数据集（一）

8.1.4　实验室检测结果数据集（二）

8.1.5　用药信息数据集

8.1.6　急性心肌梗死数据集

8.2　软件实践步骤

8.2.1　数据清洗

8.2.2　数据准备

8.2.3　数据分析

8.2.4　结果整理

8.2.5　代码的重复使用

8.3　实例：拟研究的课题

第9章　SAS实践部分

9.1　数据的清洗与管理

9.1.1　病人基本信息数据集

9.1.2　诊断信息数据集

9.1.3　实验室检测结果数据集（一）

9.1.4　实验室检测结果数据集（二）

9.1.5　用药信息数据集

9.2　数据分析与结果整理

9.2.1　定量数据的统计描述

9.2.2　分类数据的统计描述

9.2.3　相关分析

9.2.4　线性回归分析

9.2.5　Logistic回归分析

9.2.6　Cox回归分析

第10章　R语言实践部分

10.1　数据的清洗与管理

10.1.1　病人基本信息数据集

10.1.2　诊断信息数据集

10.1.3　实验室检测结果数据集（一）

10.1.4　实验室检测结果数据集（二）

10.1.5　用药信息数据集

10.2　数据分析与结果整理

10.2.1　定量数据的统计描述

10.2.2　分类数据的统计描述

10.2.3　相关分析

10.2.4　线性回归分析

10.2.5　Logistic回归分析

10.2.6　Cox回归分析

第11章　Stata实践部分

11.1　数据的清洗与管理

11.1.1　病人基本信息数据集

11.1.2　诊断信息数据集

11.1.3　实验室检测结果数据集（一）

11.1.4　实验室检测结果数据集（二）

11.1.5　用药信息数据集

11.2　数据分析与结果整理

11.2.1　定量数据的统计描述

11.2.2　分类数据的统计描述

11.2.3　相关分析

11.2.4　一般线性回归分析

11.2.5　Logistic回归分析

11.2.6　Cox回归分析

11.3　Stata在Meta分析中的应用

11.3.1　Meta分析简介

11.3.2　二分类变量的Meta分析

11.3.3　连续性变量的Meta分析

11.3.4　发表偏倚分析

第12章　Python实践部分

12.1　数据的清洗与管理

12.1.1　病人基本信息数据集

12.1.2　诊断信息数据集

12.1.3　实验室检测结果数据集（一）

12.1.4　实验室检测结果数据集（二）

12.1.5　用药信息数据集

12.2　数据准备和数据分析

12.2.1　定量数据的统计描述

12.2.2　分类数据的统计描述

12.2.3　相关分析

12.2.4　线性回归分析

12.2.5　Logistic回归分析

12.2.6　Cox回归分析

参考文献

附录A　常用假设检验方法

附录B　正则表达式

附录C　系统综述与Meta分析技术路线图

累计评论(0条) 0个书友正在讨论这本书 发表评论

发表评论

发表评论，分享你的想法吧！

发表评论

买过这本书的人还买过

读了这本书的人还在读

DeepSeek硬核技术解读￥59.00

刘丹;尹俊希;杨院伶

￥59.00

腾讯元宝使用秘笈:从入门到精通的100个实用技巧￥53.00

王吉斌;吴佳莹;曾亮;张文杰

￥53.00

精通Excel数据统计与分析￥57.54

李宗璋著

￥57.54

豆包*学习:AI 辅助中小学生学习的方法与技巧￥47.00

薛碧芸;郭泽德

￥47.00

智慧的疆界:从图灵机到人工智能第2版￥59.00

周志明

￥59.00

更多同类图书 >

玩转大数据:SAS+R+Stata+Python电子书

支持设备

豆包从入门到精通:AI助手和智能体轻松搞定工作、学习和生活难题￥47.00

豆包使用秘笈:从入门到精通的100个实用技巧￥53.00

千问从入门到精通:AI助手和智能体轻松搞定工作、学习和生活难题￥35.00

学会提问,驾驭AI:提示词从入门到精通￥61.60