
会员
网络数据采集技术:Java网络爬虫实战
钱洋等更新时间:2020-09-29 15:50:25
最新章节:9.4 本章小结开会员,本书免费读 >
本书以Java为开发语言,系统地介绍了网络爬虫的理论知识和基础工具,包括网络爬虫涉及的Java基础知识、HTTP协议基础与网络抓包、网页内容获取、网页内容解析和网络爬虫数据存储等。本书选取典型网站,采用案例讲解的方式介绍网络爬虫中涉及的问题,以增强读者的动手实践能力。同时,本书还介绍了3种Java网络爬虫开源框架,即Crawler4j、WebCollector和WebMagic。本书适用于Java网络爬虫开发的初学者和进阶者;也可作为网络爬虫课程教学的参考书,供高等院校文本挖掘、自然语言处理、大数据商务分析等相关学科的本科生和研究生参考使用;也可供企业网络爬虫开发人员参考使用。
上架时间:2020-01-01 00:00:00
出版社:电子工业出版社
上海阅文信息技术有限公司已经获得合法授权,并进行制作发行
网络数据采集技术:Java网络爬虫实战最新章节
查看全部- 9.4 本章小结
- 9.3 WebMagic的使用
- 9.2 WebCollector的使用
- 9.1 Crawler4j的使用
- 第9章 网络爬虫开源框架
- 8.9 本章小结
- 8.8 截取验证码
- 8.7 隐藏浏览器
- 8.6 动态加载JavaScript数据(操作滚动条)
- 8.5 模拟登录
钱洋等
主页
同类热门书
最新上架
- 会员
Python物理建模初学者指南(第2版)
本书介绍了如何使用Python语言进行物理建模,包括完成二维和三维图形绘制、动态可视化、蒙特卡罗模拟、常微分方程求解、图像处理等常见任务。本书在第1版的基础上增加了关于用SymPy进行符号计算的新内容,介绍了用于数据科学和机器学习的pandas和sklearn库、关于Python类和面向对象编程的入门知识、命令行工具,以及如何使用Git进行版本控制。本书适合对科学计算感兴趣、想要使用Python完计算机14万字 - 会员
Go语言高效编程:原理、可观测性与优化
虽然技术在进步,硬件也越来越物美价廉,但如今软件工程师仍需要关注程序的性能优化。本书将介绍软件效率问题、Go语言快速入门知识、如何实现高效编程,告诉大家如何高效进行性能优化,以及何时进行,并给出需要的工具和相关知识,让你使用较少的资源实现高效编程。计算机27.3万字 - 会员
iOS自动化测试实战:基于Appium、Python与Pytest
本书主要介绍iOS自动化测试的相关内容。本书首先介绍iOS基础知识;接着介绍测试环境部署、Appium基本操作和Appium终端操作,为读者学习后面的知识打下基础;然后介绍Appium中的元素定位、元素操作、高级操作、等待机制;最后讲述Pytest测试框架、项目实战、项目代码优化、自动化测试框架开发等。本书适合测试人员和开发人员阅读。计算机8.7万字 - 会员
从零开始构建企业级RAG系统
本书是一本聚焦RAG技术实践与落地的专业技术书,分为四部分。第一部分是RAG技术基础,介绍了RAG技术的定义、发展背景、核心组成以及落地面临的挑战,同时深入探讨了RAG技术背后的原理。第二部分是RAG应用构建流程,详细讲解了RAG应用的各个环节,从数据准备与处理,到检索环节的优化,再到生成环节的技巧。第三部分是RAG技术进阶,主要介绍了RAG系统的高级优化策略、常见框架的实现原理与性能评估方法。第计算机11.8万字 - 会员
Android性能优化之道:从底层原理到一线实践
这是一套从Android性能优化本质入手,指导读者实现从硬件层到操作系统层再到应用层全面优化的实战方法论。本书由Android方向Google开发者专家撰写,融合了作者10年大厂实战经验,其中不仅包括作者实操过的监控、优化、防劣化等方向的各种典型案例,还包括多个实战小技巧,可以帮助读者解决工作中遇到的90%以上的能优化问题。本书内存、速度和流畅性、稳定性、包体积、耗电、磁盘占用、流量、降级这8个方计算机13.2万字 - 会员
Java代码审计实战
本书是一部全面且深入的Java代码审计指南,旨在帮助读者掌握JavaWeb应用中常见安全漏洞的识别、分析及防御技能。全书共分4篇,从基础到实战,系统地介绍Java代码审计的各个方面。基础篇(第1章)主要介绍JavaWeb环境的搭建步骤、常见的动态调试方法以及代码审计工具的基本使用方法,为后续的深入学习打下坚实基础。入门篇(第2章~第3章)首先介绍Java代码审计中发现的常见漏洞,然后通过实战演计算机9.7万字 - 会员
Python编程:从入门到实践(第3版)
本书是享誉全球的Python入门书,影响了超过250万读者。全书分两部分:第一部分介绍用Python编程所必须了解的基本概念,包括强大的Python库和工具,以及列表、字典、if语句、类、文件和异常、代码测试等内容;第二部分将理论付诸实践,讲解如何开发三个项目,包括简单的2D游戏、利用数据生成交互式的信息图以及创建和定制简单的Web应用,并帮助读者解决常见编程问题和困惑。第3版进行了全面修订:使用计算机24.2万字 - 会员
Ascend C异构并行程序设计:昇腾算子编程指南
本书以昇腾算子编程语言AscendC的高效开发为核心,系统介绍华为面向人工智能的昇腾AI处理器架构、硬件抽象及其软件栈。本书由浅入深,通过案例讲解知识点,理论与实践并重。全书分为6章,分别介绍了昇腾AI处理器软硬件架构、AscendC快速入门、AscendC编程模型与编程范式、AscendC算子开发流程、AscendC算子调试调优和AscendC大模型算子优化。本书适合人工智能产业的研计算机9.8万字 - 会员
开源项目成功之道
本书全面深入地探讨了开源项目的生态,不仅揭示了开源文化的精髓,还提供了实践指南,帮助读者在开源世界中找到自己的位置并发挥影响力。本书共分为三部分:首先,介绍了开源的基础知识、历史背景和选择开源的动机等;其次,深入探讨了如何运营开源项目,包括建设社群、处理冲突和应对增长等;最后,揭示了开源项目商业化的途径和策略,分析了不同的商业化模式,并指导读者为开源项目设定清晰的商业方向。本书不仅适合对开源软件感计算机14.2万字