课程 / 计算机 / 数据采集与预处理(第2版)
数据采集与预处理(第2版)
数据采集与预处理(第2版)
目录
介绍
资料
课程目录
-
1
项目1 数据采集与预处理准备
- 课时 1 1.1 认识数据采集技术,熟悉数据采集平台 可试学
- 课时 2 1.2 认识数据预处理技术 可试学
-
2
项目2 网络爬虫实践
- 课时 3 2.1 使用urllib爬取北京公交线路信息
- 课时 4 2.2 使用Selenium爬取淘宝网站信息
- 课时 5 2.3 使用Scrapy爬取北京公交信息
-
3
项目3 日志数据采集实践
- 课时 6 3.1 Flume的安装与配置
- 课时 7 3.1 企业常用Flume配置-Avro
- 课时 8 3.1 企业常用Flume配置-Exec
- 课时 9 3.1 企业常用Flume配置-Spooling Directory
- 课时 10 3.1 企业常用Flume配置-Syslog
- 课时 11 3.2 Flume采集数据上传到HDFS
- 课时 12 3.2 RegexHbaseEventSerializer序列化模式
- 课时 13 3.2 SimpleAsyncHbaseEventSerializer序列化模式
- 课时 14 3.2 SimpleHbaseEventSerializer序列化模式
- 课时 15 3.2 多Source_Channel_多Sink
-
4
项目4 使用Sqoop进行数据迁移
- 课时 16 4.1 Sqoop_HDFS_全量
- 课时 17 4.1 Sqoop_HDFS_增量(append)
- 课时 18 4.1 Sqoop_HDFS_增量(last+job)
- 课时 19 4.2 Sqoop_Hive_全量(单表)
- 课时 20 4.2 Sqoop_Hive_全量(全表)
- 课时 21 4.3 Sqoop_HDFS_MySQL
- 课时 22 4.3 Sqoop_Hive_MySQL
-
5
项目5 数据预处理实践
- 课时 23 5.1 MySQL数据库准备
- 课时 24 5.1 创建作业
- 课时 25 5.1 数据抽取-JSON到表输入
- 课时 26 5.1 数据抽取-从CSV文件抽取数据到MySql
- 课时 27 5.1 数据抽取-从CSV文件抽取数据到MySql
- 课时 28 5.1 数据抽取-从MySQL数据表抽取到MySQL
- 课时 29 5.1 数据清洗-缺失值处理
- 课时 30 5.1 数据清洗-数据规范化
- 课时 31 5.1 数据清洗-数据去重
- 课时 32 5.2 独热编码
- 课时 33 5.2 数据归一化和标准化
- 课时 34 5.2 数据连接与合并
- 课时 35 5.2 数据重塑
- 课时 36 5.2 异常值处理
- 课时 37 5.2 准备数据文件
- 课时 38 5.3 用NLTK和jieba进行文本数据预处理
- 课时 39 5.4 过滤拦截器
- 课时 40 5.4 静态拦截器
- 课时 41 5.4 时间拦截器
- 课时 42 5.4 搜索并替换拦截器
- 课时 43 5.4 主机拦截器
数据采集与预处理(第2版)
最新问答
暂无问答
最新学生
暂无学生
学习资料
暂无学习资料

京ICP备 05035396-5号