分类 网络 下的文章

BlogFinder https://bf.zzxworld.com/
十年之约 https://www.foreverblog.cn/
博客志 http://www.jetli.com.cn/
中国博客联盟(已关停,之前这个很热闹,网站应该有上万) zgboke.org
萌 ICP 电报频道 https://t.me/MoeICP
萌站广场 https://icp.gov.moe/aboutus.php

https://zhblogs.ohyee.cc/



我们创建了一个名为“中文博客列表导航”的项目,目标是收录几乎所有的中文博客,目前项目收录的体量大概在三千左右。

不同于一些其他的博客聚合项目,博客列表的收录门槛很低,基本上只要求是个中文博客以及有三篇文章即可。这让我们可以更全面地收录中文博客。

除了您主动向我们提交和我们顺着友情链接“顺藤摸瓜”,我们还会从一些别的聚合项目同步博客,您有可能在没有提交博客的情况下发现您的网站已经被我们收录了。

我们收集了博客的名称、一句话简介、订阅地址、网站地图、博客架构以及我们人工给博客贴上的标签。访客可以在项目主页通过标签筛选来找到对应标签下的博客,也可以在统计图标看看现在大家都在用哪些架构,比如 Hexo 和 Typecho ,或者是大家都在用哪个后缀的域名。订阅地址这些信息在前台隐藏了,不过您可以通过我们公开的 API 查看到我们收集的完整信息。

我们尽可能收集全面,也希望有社会学研究的朋友研究博客的时候可以有一个比较广泛的样本。

当然,因为我们收录的博客太多了,所以我们还需要有人来帮我们实现诸如博客测活之类的自动化。我们也希望可以为这些博客数据找到一些新的用途。


1:.Net开源的跨平台爬虫框架 DotnetSpider Star:430

DotnetSpider这是国人开源的一个跨平台、高性能、轻量级的爬虫软件,采用 C# 开发。目前是.Net开源爬虫最为优秀的爬虫之一。


2:俄国牛人写的开源爬虫xNet Star:117

这个一个俄国牛人写的开源工具,为啥说他强悍了,因为他将所有Http协议的底层都实现了一遍,这有啥好处?只要你是写爬虫的,都会遇到一个让人抓狂的问题,就是明明知道自己Http请求头跟浏览器一模一样了,为啥还会获取不到自己想要的数据

3:开源的.net爬虫Abot Star:1050

Abot是一个开源的.net爬虫,速度快,易于使用和扩展

4:C#仿火车头的开源数据采集器V5_DataCollection Star:25

V5 数据采集器是一款面向个人及专业用户提供的一款专业的数据采集软件,即适用于简单化配置操作,也适应针对复杂数据采集的能力,所见即可采。 V5数据采集器独有的代理轮询采集机制,可有效的解决网站屏蔽问题,可用于互联网数据动态监控,绝对是您的首选

5:C#爬虫引擎内核版SmartSpider Star:17

SmartSpider爬虫引擎内核版,全新的设计理念,真正的极简版本。

6:.Net开源的超级爬虫Hawk Star:1039

HAWK是一种数据采集和清洗工具,依据GPL协议开源,能够灵活,有效地采集来自网页,数据库,文件, 并通过可视化地拖拽, 快速地进行生成,过滤,转换等操作。其功能最适合的领域,是爬虫和数据清洗

7:基于C#.NET的简单且高效的网站爬虫 Star:58

Simple-Web-Crawler - 基于C#.NET的简单网页爬虫,支持异步并发、切换代理、操作Cookie、Gzip加速。

8:网站数据采集软件网络矿工采集器(原soukey采摘) 

Soukey采摘网站数据采集软件是一款基于.Net平台的开源软件,也是网站数据采集软件类型中唯一一款开源软件。尽管Soukey采摘开源,但并不会影响软件功能的提供,甚至要比一些商用软件的功能还要丰富。Soukey采摘当前提供的主要功能如下: 1.    多任务多线程数据采集,支持POST方式;...

9:网站数据采集软件NETSpider Star:94

NETSpider网站数据采集软件是一款基于.Net平台的开源软件。 软件部分功能是基本Soukey软件进行开发的.这个版本采用VS2010+.NET3.5进行开发的. NETSpider采摘当前提供的主要功能如下: 1.    多任务多线程数据采集,支持POST方式(待定); 2.    可...

10:网络爬虫程序NWebCrawler 

NWebCrawler是一款开源的C#网络爬虫程序

11:Web爬虫工具NCrawler 

NCrawler 是一个Web Crawler 工具,它可以让开发人员很轻松的发展出具有Web Crawler 能力的应用程式,并且具有可以延展的能力,让开发人员可以扩充它的功能,以支援其他类型的资源(例如PDF /Word/Excel 等档案或其他资料来源)。 NCrawler 使用多执行绪...

12:多线程web爬虫程序spidernet 

spidernet是一个以递归树为模型的多线程web爬虫程序, 支持text/html资源的获取. 可以设定爬行深度, 最大下载字节数限制, 支持gzip解码, 支持以gbk(gb2312)和utf8编码的资源; 存储于sqlite数据文件. 源码中TODO:标记描述了未完成功能, 希望提交你...

13:网页爬虫ScrapingSpider Star:48

ScrapingSpider 是一个业余时间开发的,支持多线程,支持关键字过滤,支持正文内容智能识别的爬虫。    爬虫的核心实现在ScrapingSpider.Core程序集中。爬虫类为Spider类,爬虫的爬取逻辑,与页面处理逻辑通过事件分离,两个关键事件为AddUrlEvent和Data...

14:爬虫小新Sinawler 

国内第一个针对微博数据的爬虫程序!原名“新浪微博爬虫”。 登录后,可以指定用户为起点,以该用户的关注人、粉丝为线索,延人脉关系搜集用户基本信息、微博数据、评论数据。 该应用获取的数据可作为科研、与新浪微博相关的研发等的数据支持,但请勿用于商业用途。该应用基于.NET2.0框架,需SQL SER...


下面直接结合具体的几个平台来谈谈吧。

  以下排序按推荐次序从高到低。含有根据本站情况出发的主观成分。

个站商店

  官网:个站商店

  • 全站RSS✅;

  • 收录迅速;

  • 后台管理✅;

  • 反馈处理积极;

  • 互动性强。

  这是我最近最喜欢看的博客聚合网站,基本就是因为它的全站 RSS。体验非常好。

  从访客的角度而言,全站 RSS 输出了最新鲜的文章;网站列表中有随机推荐,有标签、介绍,甚至还有搜索关键词功能。可以说对访客发现自己感兴趣的新站点非常友好。

  从站长的角度来说,个站商店还提供了一定的社交互动,还提供了衍生品友链服务。而且个站商店可以以站长为核心,名下归附多个站点,也是其他聚合网站所没有的。

  个站商店收录标准比较宽松,不仅接受博客类站点,也接受导航类、工具类站点。

博友圈

  官网:🔗博友圈:博客人的朋友圈,博客收录与文章 RSS 聚合网站。

  • RSS✅;

  • 精选推送✅;

  • 随机跳转✅;

  • 站内独立页面✅(能看加入时间、文章收录、浏览等)

  这两天(2024.03.09 语)新发现的好聚合站,有 rss,还有推荐,而且收录的站都是内容比较丰富的。没想到能通过。而且点了好几个好像跟个站商店的用户群基本不重合,正好相互补充。

中文博客列表导航

  官网:中文博客列表导航-尝试链接几乎所有的中文博客

  • 后台管理✅;

  • 随机跳转✅;

  • 隐藏具体信息,但提供标签可以筛选,也可以搜索关键词;

  • ⭐全!!!⭐

  「全」是这个网站最大的亮点。据他们自己的说明,还会从上游项目、一个站点的友链录入新站点,并不一定需要自己去提交收录。

  他们的随机跳转页面我已经收藏了,以后应该是我用的最多的跳转页面了,「虫洞」和「开往」再见了您呐ヾ( ̄▽ ̄)Bye~Bye~

十年之约

  官网:十年之约

  • RSS(需要加入一年以上申请后才输出)✅;

  • 后台管理✅;

  • 随机跳转✅;

  • 交流论坛✅

  中文博客圈中响当当的老牌聚合站点。老牌、名气大的好处就是大多数想要被收录的站点都会去他那里提交收录请求。一个想要被收录的博客站可能不知道其他聚合平台的存在,但一定会去「十年之约」试试。因而那里的博客网站也是非常全的。

  不过,「十年之约」的收录标准比较严格,不仅拒绝像我这样不太「独立」的免费域名、二级域名的情况,而且对文章数量、建站年限都有一定的要求;更重要的是,要求「博客不得含有违反中国大陆相关法律法规的内容」,又特别提到了各种违约情形。这样看来,一方面是持比较严格的立场;另一方面,它的性质其实不是博客聚合平台,而是一个「十年之约」的履约记录平台。

开往

  官网:开往-友链接力

  • 随机跳转。

  注意到「开往」是因为它独特的「随机跳转」,让我更快地发现其他有意思的博客的过程中,还有一种开盲盒的新鲜感。虽然我知道随机跳转并不是它发明的,但是确实是我第一次知道有这样的一种方式。

  「开往」也是收录、持续收录标准比较严格的网站。这个平台互联互通做得比较好,要求首页放他们的链接,所以持续随机跳转很流畅。他们还要求网站必须在大陆地区能够正常访问,以及 SSL 证书必须状态正常。

  另一个个人比较在意的点在于,可能因为他们的提交在 github 上,所以几乎都是程序员,不相关的读者随机 N 个站点可能都找不到一个能看的。所以我最近已经不再关注他们了。

站点聚合平台

  官网:站点聚合平台

  • RSS(有但失效)✅;

  • 随机跳转✅;

  • 分类标签检索✅

  似乎是个人维护的站点,精力有限的样子。提交了 RSS 服务失效的反馈给他们,回复很快,然而到现在还没修好。而且在列表页的时候,点击网站会用网站详情页覆盖掉当前页面,而不是更恰当的新标签页打开。这样想回头去看接下来的网站根本不可能,很让人困扰。

萌国萌站广场

  官网:萌国萌站广场

  曾经我加入的时候,还有「最近访问」可以勉强充当随机跳转一样发现博客的途径,现在这个栏目也取消了。「最近更新」指的并不是你网站更新了文章,而是指在他们那里更新了网站信息(很长时间都不会更新),所以完全意味不明。

  加入的意义可能只剩他们给的「萌 ICP 备」的备案号吧。也算一种表明网站「二次元」倾向的信号。

总结

  对于我个人来说,有「个站商店」的全站 RSS 和「中文博客列表导航」的随机跳转就够了。目前我已经把我访问到的所有感兴趣的博客站点添加到本地 RSS 阅读器啦,体验非常好,比国内社交平台的体验好多了。


不支持Mac上的office

一行命令永久使用 Windows/Office :

    irm https://massgrave.dev/get | iex

The current command (irm https://massgrave.dev/get | iex) will be retired on Dec 31, 2024.

Use the new command (irm https://get.activated.win | iex) moving forward.


而且这个脚本代码竟然还放在 MS 自家的 GitHub 上🤣:https://massgrave.dev。


 原文地址:https://robotkang.cc/24323.html ,感谢原博主。