暂无相关内容,正在全力查找中
[德] Simon Munzert
人物简介:
基于R语言的自动数据收集书籍相关信息
- ISBN:9787111527503
- 作者:[德] Simon Munzert / [德] Christian Rubba / [德] Peter Meipner / [德] Dominic Nyhuis / 吴今朝
- 出版社:无机械工业出版社
- 出版时间:2016-3-1
- 页数:366
- 价格:99.00元
- 纸张:暂无纸张
- 装帧:平装
- 开本:暂无开本
- 语言:暂无语言
- 丛书:数据科学与工程技术丛书
- 原作名:Automated Data Collection with R: A Practical Guide to Web Scraping and Text Mining.
- 适合人群:数据分析师, 研究人员, 统计学家, R语言开发者, 数据科学家, 量化分析师, 学术研究人员, 硕士/博士研究生, 对编程和数据收集感兴趣的初学者
- TAG:学术研究 / 编程 / 数据科学 / 自动化 / 统计分析 / 数据处理 / 数据收集 / R语言 / 脚本编写
- 豆瓣评分:9.1
- 更新时间:2025-05-01 10:21:17
内容简介:
本书由资深社会科学家撰写,从社会科学研究角度系统且深入阐释利用R语言进行自动化数据抓取和分析的工具、方法、原则和实践。作者深入剖析自动化数据抓取和分析各个层面的问题,从网络和数据技术到网络抓取和文本挖掘的实用工具箱,重点阐释利用R语言进行自动化数据抓取和分析,能为社会科学研究者与开发人员设计、开发、维护和优化自动化数据抓取和分析提供有效指导。
本书共17章,第1章是概述,阐述数据挖掘的意义与实际应用。第2~8章介绍网络和数据技术基础知识,内容涉及互联网上通信、交换、保存和显示信息的基础技术(如HTTP、HTML、XML、JSON、AJAX、SQL等),并讲解用于查询网络文档和数据集的基本技术(XPath和正则表达式)。第9~11章介绍网络抓取和文本挖掘的实用工具箱,其中第9章讲解多种网络抓取技术,涉及正则表达式的使用、XPath、各类API接口、其他数据类型以及开源社区相关的技术;第10章深入介绍用于统计性文本处理的技术;第11章给出关于用R管理数据的项目中常见问题的一些见解。第12~17章介绍实际案例分析,涉及美国参议院里的合作网络、从半结构化文档解析信息、利用Twitter预测2014年奥斯卡奖、绘制姓氏地理分布图、采集关于手机的数据、分析产品评论里的情绪等。这些案例分析针对日常的数据抓取和文本处理的工作流程、真实环境数据中的陷阱以及规避它们的方法等问题提供一些实用的见解。
全格式电子版 - 免费下载