Recent Posts

🚀本地部署OmniParser v2.0与pyautogui真正实现自动化点击!支持macOS、Windows与Linux!轻松实现自动化操作电脑!从服务端部署到客户端开发,从接口设计到自动化控制全流程

4 minute read

OmniParser V2.0是微软开发的一款先进开源AI工具,旨在将图形用户界面(GUI)截图转换为结构化数据。这一功能增强了大型语言模型(LLMs)与屏幕上视觉元素的互动,能够实现更加智能的自动化和用户辅助。

🚀vLLM本地部署Qwen2.5-VL多模态大模型!70亿参数即可打造监控视频目标查找项目!轻松实现监控视频自动找人!RTX A6000显卡部署Qwen2.5-VL-7B-Instruct模型实战教程

7 minute read

Qwen2.5-VL是阿里云开发的最新多模态大型语言模型,它在视觉理解、文档处理和多模态交互方面表现出色。在视觉理解方面,Qwen2.5-VL能够准确识别图像和视频中的物体、场景和关系,并进行描述。在文档处理方面,它擅长提取和分析各种类型的文档信息,包括文字、表格和图片。Qwen2.5-VL还支持自然的多模态交互...

🚀微调DeepSeek-R1-Distill-Llama-8B打造SQL语言转自然语言大模型!小白也能十分钟打造自己的推理大模型!unsloth+Colab轻松上手

4 minute read

DeepSeek-R1-Distill-Llama-8B 是一个基于 Llama 架构的 8B 参数语言模型,经过深度蒸馏(distillation)处理,旨在提高推理效率和精度。通过蒸馏技术,模型在保持较高性能的同时,减少了计算资源的消耗,特别适合在资源受限的环境中应用。该模型经过优化,可用于多种自然语言处理任...

🚀谷歌重磅发布Gemini 2.0 Pro!多模态能力大幅提升,训练数据质量高,编程能力强!多维度测评轻松识别手写汉字、提取模糊扫描内容,Roo Code+Gemini 2.0 Pro编程能力大幅提升

3 minute read

Gemini 2.0 Pro Experimental 是 Google 在 2025 年 2 月 5 日推出的最新实验性 AI 模型,作为 Gemini 2.0 系列的重要组成部分。该模型在编码能力、复杂提示处理及世界知识理解方面展现了当前最先进的性能,现通过 Gemini Advanced 订阅(每月 19....