python可以爬虫,当然matlab也可以,主要就是对于网页的请求,一个简单的例子说明一下。
学习Matlab的过程中,中文论坛是一个很不错的地方
为了方便搜索、查看论坛,很有必要把感兴趣的版块给爬取下来
当然爬取中文论坛可以做为一次爬虫练习,从中能体验到具体的过程:
Matlab基础讨论版块的请求地址是: https://www.ilovematlab.cn/forum.php?mod=forumdisplayfid=6typeid=606typeid=606filter=typeidpage=
其中参数 page 的值为当前网页的页码,截止目前,这一板块已经有了 506 页的问答信息了
整体思路是用 google 浏览器打开网页后,按 F12 进行网页分析后就可以爬取我们需要的数据了。
下面是整个源代码:
为了方便演示,这里只爬取了前100页的数据
今天的分享就到这里了,感兴趣的朋友们可以对源代码进行优化,以更快的方法爬取,祝好!
matlab乖乖做学术不好吗
(\#-_-)\┯━┯
(ノ-_-)ノ~┻━┻
“內存方面,我之前用matlab做一些計算時,當矩陣大於10000*10000,matlab就開始變慢,電腦變得好卡,所以我擔心用matlab爬網頁時,如果網頁的字符太多,也會出現這種matlab佔用很多內存導致很卡的事情發生嗎?”
10000*10000的double矩阵相当于8亿个1byte的字符,如果一个网页有这么多字符的换你用python爬也慢
当然是Python做爬虫,MATLAB做计算仿真,模型搭建是强项,做爬虫是从属功能,非主流。以上~
我今天也突发奇想,哈哈哈,看来Matlab万能啊!不过,我还是把python spider教程多
Matlab爬中文有些事乱码,怎么解决?
我用matlab做爬虫,挺好用的。matlab也可调用XPATH,精准定位元素。
标签:python,matlab,甚麼