我正在写一个爬虫,怎么通过网页内容误别出是否为中文网页?


因定制内容较多,暂时无发现现有爬虫框架满足要求,所以需要自己写(用redis做队列)。
我的问题是在爬虫得到一个网页之后, 怎么识别出这个网页是否为中文网页

java python 网页开发 网页爬虫

天王洲雅典娜 10 years, 10 months ago

用 Google Chrome 的 识别算法 吧,支持 HTML,有 Python 绑定

Domine answered 10 years, 10 months ago

Your Answer