Jan 6

专注网页提取与网页数据分析入库的设想

xieyy , 21:20 , 网站运营 , 评论(0) , 引用(0) , 阅读(3829) , Via 本站原创 | |
关于专注网页数据提取与网页数据分析方面一直有这么一个设想。即将互联网上的大量的信息中,能实现自动分析数据,对特定网页能据要求提取指定的信息。即一般意义上的数据采集。很多CMS建站程序都有的数据采集功能就是这种。
但我想要的与这个又有区别。我要的是自己掌握这项技术。即能随意的因网页的布局数据,来随意的获取所想要的数据。并入库,再以特定的方式来展现出来。
目前想到的最小的一个网页提取与数据分析的实例就是,每天将各大搜索引擎对于我站点的索引数据都自动获取,入库。以时间为单位,每天入库相应的信息。再分析这些信息。来获取一个站点被搜索引擎收录的历程。

我的目标是:运用shell程序mysql 数据库实现数据入库。
小范围的实例是:每天获取各大搜索引擎对我的站点的收录数据。并入库。
实例程序若可以的话,可共享。目前未发现在互联网上有这类程序的应用实例。
搜索了一下。有两种程序可以达到类似的网页提取与数据分析。
如:lucene及nutch项等。但应用好像都不深广。有待进一步了解。

为了更好的实现这个功能。确定程序完成时间表。
1.shell实现对数据的提取,确定网页数据,确定网页链接,提取特定数值模型。(三天)
2.入库。实现WEB查看,显示。7天。
3.即希望两周后,能见到可执行的程序及模型!
发表评论
表情
emotemotemotemotemot
emotemotemotemotemot
emotemotemotemotemot
emotemotemotemotemot
emotemotemotemotemot
打开HTML
打开UBB
打开表情
隐藏
记住我
昵称   密码   游客无需密码
网址   电邮   [注册]