GitHub每周热点(20250222)

潘忠显 / 2025-02-22

本周 GitHub Trending 项目榜单，共有项目 15 个。

项目名称	语言	项目描述	总star	周增start
microsoft/OmniParser	Jupyter Notebook	一个面向纯视觉基于 GUI 代理的简单屏幕解析工具	14177	7663
FujiwaraChoki/MoneyPrinterV2	Python	Automate the process of making money online.	10018	3745
langgenius/dify	TypeScript	Dify 是一个开源的 LLM 应用开发平台。Dify 的直观界面结合了 AI 工作流、RAG 流水线、代理功能、模型管理、可观察性特性等，让您能够快速从原型开发到生产部署。	69610	3322
microsoft/data-formulator	TypeScript	🪄 使用 AI 创建丰富的可视化	7703	2818
infiniflow/ragflow	TypeScript	RAGFlow 是一个基于深度文档理解的开源 RAG（检索增强生成）引擎。	37852	2721
unslothai/unsloth	Python	以2倍的速度和70%更少的内存微调Llama 3.3、DeepSeek-R1和推理LLMs！🦥	30739	2471
jingyaogong/minimind	Python	🚀🚀 「大模型」2小时完全从0训练26M的小参数GPT！	10706	1898
zaidmukaddam/scira	TypeScript	Scira（原名MiniPerplx）是一个极简主义的AI驱动搜索引擎，帮助你在互联网上查找信息。由Vercel AI SDK提供支持！使用Grok 2.0等模型进行搜索。	6303	1616
microsoft/markitdown	HTML	用于将文件和办公文档转换为 Markdown 的 Python 工具。	38111	1454
datawhalechina/llm-cookbook	Jupyter Notebook	面向开发者的 LLM 入门教程，吴恩达大模型系列课程中文版	15236	1178
hummingbot/hummingbot	Python	开源软件，帮助你创建和部署高频加密货币交易机器人。	10945	1136
vercel/ai-chatbot	TypeScript	由 Vercel 构建的功能齐全且可自定义的 Next.js AI 聊天机器人。	13103	1067
labring/FastGPT	TypeScript	FastGPT 是一个基于大语言模型（LLM）的知识型平台，提供全面的开箱即用功能，如数据处理、RAG 检索和可视化 AI 工作流编排，使您无需进行大量设置或配置即可轻松开发和部署复杂的问答系统。	21402	821
andrewyng/aisuite	Python	简单、统一的多生成式 AI 提供商接口	11262	674
landing-ai/vision-agent	Python	视觉代理	2907	645

microsoft/OmniParser

总 Star: 14177, 本周新增 Star: 7663

简介：一个面向纯视觉基于 GUI 代理的简单屏幕解析工具

仓库：https://github.com/microsoft/OmniParser

OmniParser 是一个将用户界面截图解析为结构化元素的工具，增强了 GPT-4V 在界面相应区域生成准确操作的能力。该解析工具旨在改善基于视觉的 GUI 代理与用户界面的交互。其主要特点包括：

增强 GPT-4V 交互：通过在用户界面中准确定位，帮助 GPT-4V 更好地生成操作。
结构化解析：将用户界面截图转换为易于理解的结构化元素。
版本更新：定期更新，带来显著改进，例如 OmniParser V2 和 V1.5，引入新功能，并在 GUI 定位基准测试中取得最先进的成果。
与视觉模型的集成：支持与各种大型语言模型和视觉模型集成，以控制 Windows 11 虚拟机。
社区和文档：在诸如 HuggingFace 等平台上提供详尽的项目文档、检查点和演示。

总体而言，OmniParser 凭借其在视觉数据与可操作见解之间架起的桥梁，在基于 GUI 的环境中脱颖而出。

安装非常简便，可以根据README进行尝试。我这里将美团页面进行了解析，可以看到对各个元素的圈选。

下边这个例子，我们可以看到，这里的解析到有「消息按钮」：

这个东西也可以应用于自动化测试，需要结合 pyautogui 等屏幕操控库。

FujiwaraChoki/MoneyPrinterV2

总 Star: 10018, 本周新增 Star: 3745

简介：Automate the process of making money online.

仓库：https://github.com/FujiwaraChoki/MoneyPrinterV2

MoneyPrinter V2 是一个旨在自动化在线赚钱过程的应用程序。

这个项目的第二版是对原始项目的全面重写，引入了更模块化的架构和更广泛的功能。

主要功能包括带有调度功能的 Twitter 机器人、YouTube Shorts 自动化工具、针对亚马逊和 Twitter 的联盟营销组件，以及用于寻找本地企业和进行冷联系的工具。该项目需要 Python 3.9，并强调社区驱动的开发，提供不同语言版本。

一个中文项目：只需提供一个视频主题或 关键词 ，就可以全自动生成视频文案、视频素材、视频字幕、视频背景音乐，然后合成一个高清的短视频。MoneyPrinterTurbo，其实只是 MPV2的一部份，自动制作短视频：

langgenius/dify

总 Star: 69610, 本周新增 Star: 3322

简介：Dify 是一个开源的 LLM 应用开发平台。Dify 的直观界面结合了 AI 工作流、RAG 流水线、代理功能、模型管理、可观察性特性等，让您能够快速从原型开发到生产部署。

仓库：https://github.com/langgenius/dify

外部链接：https://dify.ai

这个名为 Dify 的项目旨在促进 AI 应用程序的开发和部署。它提供了基于云的和自托管的选项，使其能够适应不同用户的需求。其主要特点包括：

Dify Cloud 和自托管：用户可以选择在 Dify Cloud 上部署应用程序，或者设置自己的自托管环境。
全面的文档：该项目提供了详尽的文档，以帮助用户入门并充分利用其功能。
企业解决方案：提供了专门的企业咨询服务，表明支持大规模或面向业务的实施。
社区和支持：该项目活跃于多个平台，包括 Discord、Reddit、Twitter、LinkedIn 和 Docker Hub，显示出强大的社区和支持系统。

总体而言，Dify 是一个多功能的平台，旨在简化 AI 开发过程，并提供强大的支持和社区参与。

dify-try-1

dify-try-2

microsoft/data-formulator

总 Star: 7703, 本周新增 Star: 2818

简介：🪄 使用 AI 创建丰富的可视化

仓库：https://github.com/microsoft/data-formulator

外部链接：https://arxiv.org/abs/2408.16119

Data Formulator 是一个利用 AI 来转换数据和创建丰富可视化的工具。

这个项目强调通过迭代的方式进行数据转换和可视化，利用 AI 来增强用户体验。其主要特点包括：

AI 集成：利用 AI 来辅助数据转换和可视化过程，使创建有意义的数据可视化变得更容易。
支持多数据集：用户可以同时处理多个数据集。该工具能够智能地连接数据表，以生成综合的可视化。
模型兼容性：兼容多种 AI 模型，包括 OpenAI、Azure、Ollama 和 Anthropic 的模型，由 LiteLLM 提供支持。
活跃开发：该项目正在积极维护中，定期更新，确保包含新功能和改进。

该工具旨在简化数据可视化的创建，使用户能够有效地分析和展示他们的数据。

data-formulator

infiniflow/ragflow

总 Star: 37852, 本周新增 Star: 2721

简介：RAGFlow 是一个基于深度文档理解的开源 RAG（检索增强生成）引擎。

仓库：https://github.com/infiniflow/ragflow

外部链接：https://ragflow.io

RAGFlow 是一个旨在简化和增强开发人员工作流程的项目，提供了一个强大且用户友好的框架。它因其全面的文档、多语言支持以及多种社区参与平台（包括 Discord 和 Twitter）而脱颖而出。RAGFlow 提供了一个在线演示，让用户可以亲身体验其功能，并且可以通过 Docker 轻松部署。该项目采用 Apache 2.0 许可证，确保开源贡献和合作。此外，它还维护了最新的路线图和版本信息，使其成为开发人员可靠且透明的工具。

infiniflow-ragflow-page

unslothai/unsloth

总 Star: 30739, 本周新增 Star: 2471

unslothai-unsloth

简介：以2倍的速度和70%更少的内存微调Llama 3.3、DeepSeek-R1和推理LLMs！🦥

仓库：https://github.com/unslothai/unsloth

外部链接：https://unsloth.ai

“Unsloth” 项目提供了用于微调多种机器学习模型（包括 Llama 3.3、Mistral、Phi-4、Qwen 2.5 和 Gemma）的工具，这些工具既更快又更节省内存。其主要特点包括：

对初学者友好：所有提供的笔记本都易于使用，适合不同水平的用户。
性能提升：微调过程据称速度提高了两倍。
内存效率：相比传统方法，该过程最多可减少 80% 的内存使用。
免费访问：用户可以使用 Google Colab 笔记本免费开始微调。
导出灵活性：微调后的模型可以导出为多种格式，如 GGUF、Ollama、vLLM，或上传到 Hugging Face。

总体而言，Unsloth 旨在简化和优化机器学习模型的微调过程。

jingyaogong/minimind

总 Star: 10706, 本周新增 Star: 1898

jingyaogong-minimind

简介：🚀🚀 「大模型」2小时完全从0训练26M的小参数GPT！

仓库：https://github.com/jingyaogong/minimind

外部链接：https://jingyaogong.github.io/minimind

MiniMind 项目旨在从零开始开发一个极其轻量的语言模型，只需3块钱和2小时即可完成。MiniMind 系列的核心特点是其体积非常小，最小版本仅为 GPT-3 的 1/7000，使得在个人 GPU 上快速训练成为可能。

项目包括大模型开发全过程的开源代码，如共享混合专家（MoE）、数据集清洗、预训练、监督微调、LoRA 微调、直接偏好强化学习（DPO）算法和模型蒸馏。此外，MiniMind 还拓展了视觉多模态模型 MiniMind-V。所有核心算法均使用 PyTorch 从头重构，不依赖第三方抽象接口。该项目不仅是大语言模型全阶段的开源复现，也是入门 LLM 的教程。目标是激发灵感，促进更广泛的 AI 社区进步。

![image-20250224092453599](/../../../Library/Application Support/typora-user-images/image-20250224092453599.png)

minimind2

zaidmukaddam/scira

总 Star: 6303, 本周新增 Star: 1616

简介：Scira（原名MiniPerplx）是一个极简主义的AI驱动搜索引擎，帮助你在互联网上查找信息。由Vercel AI SDK提供支持！使用Grok 2.0等模型进行搜索。

仓库：https://github.com/zaidmukaddam/scira

外部链接：https://scira.app

Scira 是一个极简主义的AI驱动搜索引擎，旨在帮助用户高效地在互联网上查找信息。它利用先进的AI模型和多种API提供多样的搜索功能。主要特点包括：

AI驱动搜索：利用Anthropic的模型回答问题。
网络搜索：使用Tavily的API进行全面的网络搜索功能。
特定URL搜索：从特定URL获取信息。
天气信息：通过OpenWeather的API提供当前天气更新。
编程支持：通过E2B的API运行多种语言的代码片段。
地图集成：使用Google Maps、Mapbox和TripAdvisor的API提供位置信息。
YouTube搜索：支持搜索YouTube视频，包括由Exa.AI提供的时间戳和转录。
学术搜索：通过Exa.AI的Web Search API搜索学术论文。

Scira 集成了来自Vercel AI SDK和Tavily AI的技术，用于模型集成、流媒体和网络搜索功能，确保提供强大而多功能的搜索体验。

microsoft/markitdown

总 Star: 38111, 本周新增 Star: 1454

简介：用于将文件和办公文档转换为 Markdown 的 Python 工具。

仓库：https://github.com/microsoft/markitdown

MarkItDown 是一个多功能工具，旨在将各种文件格式转换为 Markdown，使其在索引和文本分析等任务中非常有用。它支持多种文件类型，包括 PDF、PowerPoint 演示文稿、Word 文档、Excel 电子表格、图片（带 EXIF 元数据和 OCR 功能）、音频文件（带 EXIF 元数据和语音转录）、HTML 和基于文本的格式如 CSV、JSON 和 XML。此外，它还可以通过遍历 ZIP 文件的内容来处理它们。

MarkItDown 的主要特点包括：

在 0.0.2 alpha 1 版本中引入的插件架构，保持了与早期版本的向后兼容性。
易于使用的命令行和 Python 接口。
能够安装和使用第三方插件。
集成了 Microsoft Document Intelligence 以增强转换功能。

可以通过 pip 轻松安装，或者从 GitHub 克隆源代码进行安装。该工具可以通过命令行命令使用，指定输入和输出文件或直接传输内容。插件系统允许扩展 MarkItDown 的功能，并提供了开发新插件的资源。

datawhalechina/llm-cookbook

总 Star: 15236, 本周新增 Star: 1178

简介：面向开发者的 LLM 入门教程，吴恩达大模型系列课程中文版

仓库：https://github.com/datawhalechina/llm-cookbook

外部链接：https://datawhalechina.github.io/llm-cookbook/

“LLM Cookbook” 项目是一个面向开发者的综合指南，特别是针对中国国内开发者的需求。它基于吴恩达的系列课程，提供了大模型（LLM）的全方位入门实践，通过翻译、复现和优化这些课程内容，涵盖从 Prompt Engineering 到 RAG 开发和模型微调的整个流程。

项目的主要特点包括：

翻译和改编了吴恩达的 11 门课程，针对中国开发者的学习需求进行了定制。
提供结构化的课程体系，初学者可以通过必修课程掌握基础技能，并通过选修课程进行深入探索。
邀请开发者按照提供的格式和写法复现更多课程并提交 PR 进行贡献。

该项目旨在教会开发者如何利用 LLM API 来创建创新和实用的应用程序。它包括学习 Prompt Engineering、使用 ChatGPT API 构建应用程序、使用 LangChain 框架以及集成 Gradio 和 W&B 等工具来开发和评估生成式 AI 应用的资源。所有课程都翻译成中文，并提供示例代码和字幕，以便中文学习者更好地学习。此外，项目还提供中文情境下的 Prompt 以帮助更好地理解和对比多语言 LLM 开发。

目标受众：

具有基础 Python 能力并对 LLM 感兴趣的开发者。

亮点：

官方教程由吴恩达和 OpenAI 联合推出，翻译和改编为中文版，方便中文学习者使用。
提供实用且系统的大模型开发入门介绍，包括 Prompt 构建和应用程序开发。
提高可访问性，提供中文翻译和情境示例。

hummingbot/hummingbot

总 Star: 10945, 本周新增 Star: 1136

Hummingbot

简介：开源软件，帮助你创建和部署高频加密货币交易机器人。

仓库：https://github.com/hummingbot/hummingbot

外部链接：https://hummingbot.org

Hummingbot 是一个开源框架，旨在创建和部署自动化交易策略或机器人，可以在各种中心化和去中心化的交易所运行。其目标是通过培养一个全球性的算法交易员和开发者社区，共享知识和贡献项目代码，从而实现高频交易的普及。该平台已在140多个交易场所上促成了超过340亿美元的交易量。Hummingbot 在 Apache 2.0 开源许可证下免费提供，并提供丰富的资源，如文档、安装指南、Discord 社区支持、YouTube 上的教学视频，以及通过 Twitter 和新闻通讯提供的定期更新。

vercel/ai-chatbot

总 Star: 13103, 本周新增 Star: 1067

简介：由 Vercel 构建的功能齐全且可自定义的 Next.js AI 聊天机器人。

仓库：https://github.com/vercel/ai-chatbot

外部链接：https://chat.vercel.ai

“Next.js AI Chatbot” 是一个使用 Next.js 和 Vercel 的 AI SDK 创建的开源 AI 聊天机器人模板。

它具有高级路由功能，支持通过 React 服务器组件进行服务器端渲染和服务器操作以增强性能。

该聊天机器人支持多种 AI 模型提供商，包括 OpenAI、Anthropic 和 Cohere，并且通过 AI SDK 可以轻松集成。

该项目使用 Tailwind CSS 进行样式设计，并使用 Radix UI 提供的可访问组件原语。

数据持久性通过 Vercel Postgres 管理，用于保存聊天记录和用户数据，文件存储则使用 Vercel Blob。

身份验证通过 NextAuth.js 安全处理。

该模板设计为易于部署和定制，适用于各种 AI 聊天机器人应用。

labring/FastGPT

总 Star: 21402, 本周新增 Star: 821

labring-FastGPT

简介：FastGPT 是一个基于大语言模型（LLM）的知识型平台，提供全面的开箱即用功能，如数据处理、RAG 检索和可视化 AI 工作流编排，使您无需进行大量设置或配置即可轻松开发和部署复杂的问答系统。

仓库：https://github.com/labring/FastGPT

外部链接：https://tryfastgpt.ai

FastGPT 是一个基于大语言模型（LLM）的知识库问答系统。它提供了开箱即用的数据处理和模型调用功能。其独特之处在于可以通过 Flow 进行可视化工作流编排，从而实现复杂的问答场景。该平台支持多种语言和格式的知识输入，包括文本文件、Markdown、HTML、PDF 等。此外，它还提供对话和插件工作流、代码沙盒、以及通过表单进行用户输入的工具。FastGPT 同时支持在线使用和本地开发，适用于各种应用场景。

andrewyng/aisuite

总 Star: 11262, 本周新增 Star: 674

简介：简单、统一的多生成式 AI 提供商接口

仓库：https://github.com/andrewyng/aisuite

aisuite 项目为开发者提供了一个简单且统一的界面，通过标准化的接口与多个生成式 AI 提供商进行交互，类似于 OpenAI 的接口。

它作为各个 Python 客户端库的轻量级封装，使用户无需修改代码即可无缝切换和比较不同大型语言模型（LLM）提供商的响应。该库目前主要关注聊天补全功能，并计划在未来扩展到其他用例。

aisuite 的主要特点包括：

支持多个 AI 提供商，包括 OpenAI、Anthropic、Azure、Google、AWS、Groq、Mistral、HuggingFace Ollama、Sambanova 和 Watsonx。
通过使用 HTTP 端点或 SDK 来调用提供商，确保稳定性。
安装灵活，可以按需安装基础包或特定提供商的包。
简单的设置，API 密钥可以设置为环境变量或通过配置传递。

该项目旨在简化与各种生成式 AI 模型的交互过程，提供一种高效的方法来测试和比较其输出。

landing-ai/vision-agent

总 Star: 2907, 本周新增 Star: 645

简介：视觉代理

仓库：https://github.com/landing-ai/vision-agent

VisionAgent 是一个帮助用户利用代理框架生成代码来解决各种视觉任务的库。它与流行的大型语言模型（如 Anthropic Claude-3.5 和 OpenAI）无缝集成，以提供最佳性能。VisionAgent 的主要特点包括：

易用性： 可以通过一个网络应用快速测试。
简便安装： 使用 pip 进行安装非常简单。
详细文档： 为用户提供了详细的文档。
实用示例： 提供实际示例，如在本地 Jupyter Notebook 中运行的图像计数。
支持多种 LLM 提供商： 可以灵活使用不同的大型语言模型提供商。

总体来说，VisionAgent 简化了生成视觉任务代码的过程，使其对开发者来说更为便捷和高效。

vision-agent-try-2