GitHub每周热点(20250222)
潘忠显 / 2025-02-22
本周 GitHub Trending 项目榜单,共有项目 15 个。
项目名称 | 语言 | 项目描述 | 总star | 周增start |
---|---|---|---|---|
microsoft/OmniParser | Jupyter Notebook | 一个面向纯视觉基于 GUI 代理的简单屏幕解析工具 | 14177 | 7663 |
FujiwaraChoki/MoneyPrinterV2 | Python | Automate the process of making money online. | 10018 | 3745 |
langgenius/dify | TypeScript | Dify 是一个开源的 LLM 应用开发平台。Dify 的直观界面结合了 AI 工作流、RAG 流水线、代理功能、模型管理、可观察性特性等,让您能够快速从原型开发到生产部署。 | 69610 | 3322 |
microsoft/data-formulator | TypeScript | 🪄 使用 AI 创建丰富的可视化 | 7703 | 2818 |
infiniflow/ragflow | TypeScript | RAGFlow 是一个基于深度文档理解的开源 RAG(检索增强生成)引擎。 | 37852 | 2721 |
unslothai/unsloth | Python | 以2倍的速度和70%更少的内存微调Llama 3.3、DeepSeek-R1和推理LLMs!🦥 | 30739 | 2471 |
jingyaogong/minimind | Python | 🚀🚀 「大模型」2小时完全从0训练26M的小参数GPT!🌏 只需2小时从零开始训练一个26M参数的GPT模型! | 10706 | 1898 |
zaidmukaddam/scira | TypeScript | Scira(原名MiniPerplx)是一个极简主义的AI驱动搜索引擎,帮助你在互联网上查找信息。由Vercel AI SDK提供支持!使用Grok 2.0等模型进行搜索。 | 6303 | 1616 |
microsoft/markitdown | HTML | 用于将文件和办公文档转换为 Markdown 的 Python 工具。 | 38111 | 1454 |
datawhalechina/llm-cookbook | Jupyter Notebook | 面向开发者的 LLM 入门教程,吴恩达大模型系列课程中文版 | 15236 | 1178 |
hummingbot/hummingbot | Python | 开源软件,帮助你创建和部署高频加密货币交易机器人。 | 10945 | 1136 |
vercel/ai-chatbot | TypeScript | 由 Vercel 构建的功能齐全且可自定义的 Next.js AI 聊天机器人。 | 13103 | 1067 |
labring/FastGPT | TypeScript | FastGPT 是一个基于大语言模型(LLM)的知识型平台,提供全面的开箱即用功能,如数据处理、RAG 检索和可视化 AI 工作流编排,使您无需进行大量设置或配置即可轻松开发和部署复杂的问答系统。 | 21402 | 821 |
andrewyng/aisuite | Python | 简单、统一的多生成式 AI 提供商接口 | 11262 | 674 |
landing-ai/vision-agent | Python | 视觉代理 | 2907 | 645 |
microsoft/OmniParser
总 Star: 14177, 本周新增 Star: 7663
简介:一个面向纯视觉基于 GUI 代理的简单屏幕解析工具
仓库:https://github.com/microsoft/OmniParser
OmniParser 是一个将用户界面截图解析为结构化元素的工具,增强了 GPT-4V 在界面相应区域生成准确操作的能力。该解析工具旨在改善基于视觉的 GUI 代理与用户界面的交互。其主要特点包括:
- 增强 GPT-4V 交互:通过在用户界面中准确定位,帮助 GPT-4V 更好地生成操作。
- 结构化解析:将用户界面截图转换为易于理解的结构化元素。
- 版本更新:定期更新,带来显著改进,例如 OmniParser V2 和 V1.5,引入新功能,并在 GUI 定位基准测试中取得最先进的成果。
- 与视觉模型的集成:支持与各种大型语言模型和视觉模型集成,以控制 Windows 11 虚拟机。
- 社区和文档:在诸如 HuggingFace 等平台上提供详尽的项目文档、检查点和演示。
总体而言,OmniParser 凭借其在视觉数据与可操作见解之间架起的桥梁,在基于 GUI 的环境中脱颖而出。
安装非常简便,可以根据README进行尝试。我这里将美团页面进行了解析,可以看到对各个元素的圈选。

下边这个例子,我们可以看到,这里的解析到有「消息按钮」:

这个东西也可以应用于自动化测试,需要结合 pyautogui 等屏幕操控库。

FujiwaraChoki/MoneyPrinterV2
总 Star: 10018, 本周新增 Star: 3745
简介:Automate the process of making money online.
仓库:https://github.com/FujiwaraChoki/MoneyPrinterV2
MoneyPrinter V2 是一个旨在自动化在线赚钱过程的应用程序。
这个项目的第二版是对原始项目的全面重写,引入了更模块化的架构和更广泛的功能。
主要功能包括带有调度功能的 Twitter 机器人、YouTube Shorts 自动化工具、针对亚马逊和 Twitter 的联盟营销组件,以及用于寻找本地企业和进行冷联系的工具。该项目需要 Python 3.9,并强调社区驱动的开发,提供不同语言版本。

一个中文项目:只需提供一个视频 主题 或 关键词 ,就可以全自动生成视频文案、视频素材、视频字幕、视频背景音乐,然后合成一个高清的短视频。MoneyPrinterTurbo,其实只是 MPV2的一部份,自动制作短视频:

langgenius/dify
总 Star: 69610, 本周新增 Star: 3322
简介:Dify 是一个开源的 LLM 应用开发平台。Dify 的直观界面结合了 AI 工作流、RAG 流水线、代理功能、模型管理、可观察性特性等,让您能够快速从原型开发到生产部署。
仓库:https://github.com/langgenius/dify
外部链接:https://dify.ai
这个名为 Dify 的项目旨在促进 AI 应用程序的开发和部署。它提供了基于云的和自托管的选项,使其能够适应不同用户的需求。其主要特点包括:
- Dify Cloud 和自托管:用户可以选择在 Dify Cloud 上部署应用程序,或者设置自己的自托管环境。
- 全面的文档:该项目提供了详尽的文档,以帮助用户入门并充分利用其功能。
- 企业解决方案:提供了专门的企业咨询服务,表明支持大规模或面向业务的实施。
- 社区和支持:该项目活跃于多个平台,包括 Discord、Reddit、Twitter、LinkedIn 和 Docker Hub,显示出强大的社区和支持系统。
总体而言,Dify 是一个多功能的平台,旨在简化 AI 开发过程,并提供强大的支持和社区参与。
microsoft/data-formulator
总 Star: 7703, 本周新增 Star: 2818
简介:🪄 使用 AI 创建丰富的可视化
仓库:https://github.com/microsoft/data-formulator
外部链接:https://arxiv.org/abs/2408.16119
Data Formulator 是一个利用 AI 来转换数据和创建丰富可视化的工具。
这个项目强调通过迭代的方式进行数据转换和可视化,利用 AI 来增强用户体验。其主要特点包括:
- AI 集成:利用 AI 来辅助数据转换和可视化过程,使创建有意义的数据可视化变得更容易。
- 支持多数据集:用户可以同时处理多个数据集。该工具能够智能地连接数据表,以生成综合的可视化。
- 模型兼容性:兼容多种 AI 模型,包括 OpenAI、Azure、Ollama 和 Anthropic 的模型,由 LiteLLM 提供支持。
- 活跃开发:该项目正在积极维护中,定期更新,确保包含新功能和改进。
该工具旨在简化数据可视化的创建,使用户能够有效地分析和展示他们的数据。
infiniflow/ragflow
总 Star: 37852, 本周新增 Star: 2721
简介:RAGFlow 是一个基于深度文档理解的开源 RAG(检索增强生成)引擎。
仓库:https://github.com/infiniflow/ragflow
外部链接:https://ragflow.io
RAGFlow 是一个旨在简化和增强开发人员工作流程的项目,提供了一个强大且用户友好的框架。它因其全面的文档、多语言支持以及多种社区参与平台(包括 Discord 和 Twitter)而脱颖而出。RAGFlow 提供了一个在线演示,让用户可以亲身体验其功能,并且可以通过 Docker 轻松部署。该项目采用 Apache 2.0 许可证,确保开源贡献和合作。此外,它还维护了最新的路线图和版本信息,使其成为开发人员可靠且透明的工具。
unslothai/unsloth
总 Star: 30739, 本周新增 Star: 2471
简介:以2倍的速度和70%更少的内存微调Llama 3.3、DeepSeek-R1和推理LLMs!🦥
仓库:https://github.com/unslothai/unsloth
外部链接:https://unsloth.ai
“Unsloth” 项目提供了用于微调多种机器学习模型(包括 Llama 3.3、Mistral、Phi-4、Qwen 2.5 和 Gemma)的工具,这些工具既更快又更节省内存。其主要特点包括:
- 对初学者友好:所有提供的笔记本都易于使用,适合不同水平的用户。
- 性能提升:微调过程据称速度提高了两倍。
- 内存效率:相比传统方法,该过程最多可减少 80% 的内存使用。
- 免费访问:用户可以使用 Google Colab 笔记本免费开始微调。
- 导出灵活性:微调后的模型可以导出为多种格式,如 GGUF、Ollama、vLLM,或上传到 Hugging Face。
总体而言,Unsloth 旨在简化和优化机器学习模型的微调过程。
jingyaogong/minimind
总 Star: 10706, 本周新增 Star: 1898
简介:🚀🚀 「大模型」2小时完全从0训练26M的小参数GPT!🌏 只需2小时从零开始训练一个26M参数的GPT模型!
仓库:https://github.com/jingyaogong/minimind
外部链接:https://jingyaogong.github.io/minimind
MiniMind 项目旨在从零开始开发一个极其轻量的语言模型,只需3块钱和2小时即可完成。MiniMind 系列的核心特点是其体积非常小,最小版本仅为 GPT-3 的 1/7000,使得在个人 GPU 上快速训练成为可能。项目包括大模型开发全过程的开源代码,如共享混合专家(MoE)、数据集清洗、预训练、监督微调、LoRA 微调、直接偏好强化学习(DPO)算法和模型蒸馏。此外,MiniMind 还拓展了视觉多模态模型 MiniMind-V。所有核心算法均使用 PyTorch 从头重构,不依赖第三方抽象接口。该项目不仅是大语言模型全阶段的开源复现,也是入门 LLM 的教程。目标是激发灵感,促进更广泛的 AI 社区进步。
zaidmukaddam/scira
总 Star: 6303, 本周新增 Star: 1616
简介:Scira(原名MiniPerplx)是一个极简主义的AI驱动搜索引擎,帮助你在互联网上查找信息。由Vercel AI SDK提供支持!使用Grok 2.0等模型进行搜索。
仓库:https://github.com/zaidmukaddam/scira
外部链接:https://scira.app
Scira 是一个极简主义的AI驱动搜索引擎,旨在帮助用户高效地在互联网上查找信息。它利用先进的AI模型和多种API提供多样的搜索功能。主要特点包括:
- AI驱动搜索:利用Anthropic的模型回答问题。
- 网络搜索:使用Tavily的API进行全面的网络搜索功能。
- 特定URL搜索:从特定URL获取信息。
- 天气信息:通过OpenWeather的API提供当前天气更新。
- 编程支持:通过E2B的API运行多种语言的代码片段。
- 地图集成:使用Google Maps、Mapbox和TripAdvisor的API提供位置信息。
- YouTube搜索:支持搜索YouTube视频,包括由Exa.AI提供的时间戳和转录。
- 学术搜索:通过Exa.AI的Web Search API搜索学术论文。
Scira 集成了来自Vercel AI SDK和Tavily AI的技术,用于模型集成、流媒体和网络搜索功能,确保提供强大而多功能的搜索体验。
microsoft/markitdown
总 Star: 38111, 本周新增 Star: 1454
简介:用于将文件和办公文档转换为 Markdown 的 Python 工具。
仓库:https://github.com/microsoft/markitdown
MarkItDown 是一个多功能工具,旨在将各种文件格式转换为 Markdown,使其在索引和文本分析等任务中非常有用。它支持多种文件类型,包括 PDF、PowerPoint 演示文稿、Word 文档、Excel 电子表格、图片(带 EXIF 元数据和 OCR 功能)、音频文件(带 EXIF 元数据和语音转录)、HTML 和基于文本的格式如 CSV、JSON 和 XML。此外,它还可以通过遍历 ZIP 文件的内容来处理它们。
MarkItDown 的主要特点包括:
- 在 0.0.2 alpha 1 版本中引入的插件架构,保持了与早期版本的向后兼容性。
- 易于使用的命令行和 Python 接口。
- 能够安装和使用第三方插件。
- 集成了 Microsoft Document Intelligence 以增强转换功能。
可以通过 pip 轻松安装,或者从 GitHub 克隆源代码进行安装。该工具可以通过命令行命令使用,指定输入和输出文件或直接传输内容。插件系统允许扩展 MarkItDown 的功能,并提供了开发新插件的资源。
datawhalechina/llm-cookbook
总 Star: 15236, 本周新增 Star: 1178
简介:面向开发者的 LLM 入门教程,吴恩达大模型系列课程中文版
仓库:https://github.com/datawhalechina/llm-cookbook
外部链接:https://datawhalechina.github.io/llm-cookbook/
“LLM Cookbook” 项目是一个面向开发者的综合指南,特别是针对中国国内开发者的需求。它基于吴恩达的系列课程,提供了大模型(LLM)的全方位入门实践,通过翻译、复现和优化这些课程内容,涵盖从 Prompt Engineering 到 RAG 开发和模型微调的整个流程。

项目的主要特点包括:
- 翻译和改编了吴恩达的 11 门课程,针对中国开发者的学习需求进行了定制。
- 提供结构化的课程体系,初学者可以通过必修课程掌握基础技能,并通过选修课程进行深入探索。
- 邀请开发者按照提供的格式和写法复现更多课程并提交 PR 进行贡献。
该项目旨在教会开发者如何利用 LLM API 来创建创新和实用的应用程序。它包括学习 Prompt Engineering、使用 ChatGPT API 构建应用程序、使用 LangChain 框架以及集成 Gradio 和 W&B 等工具来开发和评估生成式 AI 应用的资源。所有课程都翻译成中文,并提供示例代码和字幕,以便中文学习者更好地学习。此外,项目还提供中文情境下的 Prompt 以帮助更好地理解和对比多语言 LLM 开发。
目标受众:
- 具有基础 Python 能力并对 LLM 感兴趣的开发者。
亮点:
- 官方教程由吴恩达和 OpenAI 联合推出,翻译和改编为中文版,方便中文学习者使用。
- 提供实用且系统的大模型开发入门介绍,包括 Prompt 构建和应用程序开发。
- 提高可访问性,提供中文翻译和情境示例。
hummingbot/hummingbot
总 Star: 10945, 本周新增 Star: 1136
简介:开源软件,帮助你创建和部署高频加密货币交易机器人。
仓库:https://github.com/hummingbot/hummingbot
Hummingbot 是一个开源框架,旨在创建和部署自动化交易策略或机器人,可以在各种中心化和去中心化的交易所运行。其目标是通过培养一个全球性的算法交易员和开发者社区,共享知识和贡献项目代码,从而实现高频交易的普及。该平台已在140多个交易场所上促成了超过340亿美元的交易量。Hummingbot 在 Apache 2.0 开源许可证下免费提供,并提供丰富的资源,如文档、安装指南、Discord 社区支持、YouTube 上的教学视频,以及通过 Twitter 和新闻通讯提供的定期更新。
vercel/ai-chatbot
总 Star: 13103, 本周新增 Star: 1067
简介:由 Vercel 构建的功能齐全且可自定义的 Next.js AI 聊天机器人。
仓库:https://github.com/vercel/ai-chatbot
“Next.js AI Chatbot” 是一个使用 Next.js 和 Vercel 的 AI SDK 创建的开源 AI 聊天机器人模板。
它具有高级路由功能,支持通过 React 服务器组件进行服务器端渲染和服务器操作以增强性能。
该聊天机器人支持多种 AI 模型提供商,包括 OpenAI、Anthropic 和 Cohere,并且通过 AI SDK 可以轻松集成。
该项目使用 Tailwind CSS 进行样式设计,并使用 Radix UI 提供的可访问组件原语。
数据持久性通过 Vercel Postgres 管理,用于保存聊天记录和用户数据,文件存储则使用 Vercel Blob。
身份验证通过 NextAuth.js 安全处理。
该模板设计为易于部署和定制,适用于各种 AI 聊天机器人应用。

labring/FastGPT
总 Star: 21402, 本周新增 Star: 821
简介:FastGPT 是一个基于大语言模型(LLM)的知识型平台,提供全面的开箱即用功能,如数据处理、RAG 检索和可视化 AI 工作流编排,使您无需进行大量设置或配置即可轻松开发和部署复杂的问答系统。
仓库:https://github.com/labring/FastGPT
FastGPT 是一个基于大语言模型(LLM)的知识库问答系统。它提供了开箱即用的数据处理和模型调用功能。其独特之处在于可以通过 Flow 进行可视化工作流编排,从而实现复杂的问答场景。该平台支持多种语言和格式的知识输入,包括文本文件、Markdown、HTML、PDF 等。此外,它还提供对话和插件工作流、代码沙盒、以及通过表单进行用户输入的工具。FastGPT 同时支持在线使用和本地开发,适用于各种应用场景。
andrewyng/aisuite
总 Star: 11262, 本周新增 Star: 674
简介:简单、统一的多生成式 AI 提供商接口
仓库:https://github.com/andrewyng/aisuite
aisuite
项目为开发者提供了一个简单且统一的界面,通过标准化的接口与多个生成式 AI 提供商进行交互,类似于 OpenAI 的接口。
它作为各个 Python 客户端库的轻量级封装,使用户无需修改代码即可无缝切换和比较不同大型语言模型(LLM)提供商的响应。该库目前主要关注聊天补全功能,并计划在未来扩展到其他用例。
aisuite
的主要特点包括:
- 支持多个 AI 提供商,包括 OpenAI、Anthropic、Azure、Google、AWS、Groq、Mistral、HuggingFace Ollama、Sambanova 和 Watsonx。
- 通过使用 HTTP 端点或 SDK 来调用提供商,确保稳定性。
- 安装灵活,可以按需安装基础包或特定提供商的包。
- 简单的设置,API 密钥可以设置为环境变量或通过配置传递。
该项目旨在简化与各种生成式 AI 模型的交互过程,提供一种高效的方法来测试和比较其输出。
landing-ai/vision-agent
总 Star: 2907, 本周新增 Star: 645
简介:视觉代理
仓库:https://github.com/landing-ai/vision-agent
VisionAgent 是一个帮助用户利用代理框架生成代码来解决各种视觉任务的库。它与流行的大型语言模型(如 Anthropic Claude-3.5 和 OpenAI)无缝集成,以提供最佳性能。VisionAgent 的主要特点包括:
- 易用性: 可以通过一个网络应用快速测试。
- 简便安装: 使用 pip 进行安装非常简单。
- 详细文档: 为用户提供了详细的文档。
- 实用示例: 提供实际示例,如在本地 Jupyter Notebook 中运行的图像计数。
- 支持多种 LLM 提供商: 可以灵活使用不同的大型语言模型提供商。
总体来说,VisionAgent 简化了生成视觉任务代码的过程,使其对开发者来说更为便捷和高效。
