Jan
6
关于专注网页数据提取与网页数据分析方面一直有这么一个设想。即将互联网上的大量的信息中,能实现自动分析数据,对特定网页能据要求提取指定的信息。即一般意义上的数据采集。很多CMS建站程序都有的数据采集功能就是这种。
但我想要的与这个又有区别。我要的是自己掌握这项技术。即能随意的因网页的布局数据,来随意的获取所想要的数据。并入库,再以特定的方式来展现出来。
目前想到的最小的一个网页提取与数据分析的实例就是,每天将各大搜索引擎对于我站点的索引数据都自动获取,入库。以时间为单位,每天入库相应的信息。再分析这些信息。来获取一个站点被搜索引擎收录的历程。
我的目标是:运用shell程序mysql 数据库实现数据入库。
小范围的实例是:每天获取各大搜索引擎对我的站点的收录数据。并入库。
实例程序若可以的话,可共享。目前未发现在互联网上有这类程序的应用实例。
搜索了一下。有两种程序可以达到类似的网页提取与数据分析。
如:lucene及nutch项等。但应用好像都不深广。有待进一步了解。
为了更好的实现这个功能。确定程序完成时间表。
1.shell实现对数据的提取,确定网页数据,确定网页链接,提取特定数值模型。(三天)
2.入库。实现WEB查看,显示。7天。
3.即希望两周后,能见到可执行的程序及模型!
但我想要的与这个又有区别。我要的是自己掌握这项技术。即能随意的因网页的布局数据,来随意的获取所想要的数据。并入库,再以特定的方式来展现出来。
目前想到的最小的一个网页提取与数据分析的实例就是,每天将各大搜索引擎对于我站点的索引数据都自动获取,入库。以时间为单位,每天入库相应的信息。再分析这些信息。来获取一个站点被搜索引擎收录的历程。
我的目标是:运用shell程序mysql 数据库实现数据入库。
小范围的实例是:每天获取各大搜索引擎对我的站点的收录数据。并入库。
实例程序若可以的话,可共享。目前未发现在互联网上有这类程序的应用实例。
搜索了一下。有两种程序可以达到类似的网页提取与数据分析。
如:lucene及nutch项等。但应用好像都不深广。有待进一步了解。
为了更好的实现这个功能。确定程序完成时间表。
1.shell实现对数据的提取,确定网页数据,确定网页链接,提取特定数值模型。(三天)
2.入库。实现WEB查看,显示。7天。
3.即希望两周后,能见到可执行的程序及模型!
拥有32个监测点的链接在线检查站点hos
谢歪歪博客进入沙盒猜想




