行业资源与工具汇总
实用工具、开源项目、数据集、学习资源一站式索引
一、通用AI工具
1.1 大语言模型API
| 模型 | 厂商 | 特点 | 适用场景 |
|---|---|---|---|
| GPT-4o | OpenAI | 多模态、综合能力强 | 通用场景 |
| Claude 3.5 | Anthropic | 长上下文、安全性好 | 长文档处理 |
| 文心一言 | 百度 | 中文理解好、国内合规 | 国内业务 |
| 通义千问 | 阿里 | 性价比高、生态完善 | 企业应用 |
| DeepSeek | DeepSeek | 开源可商用、成本低 | 降本需求 |
| GLM-4 | 智谱 | 中英双语、工具调用 | 对话应用 |
1.2 开源模型
| 模型 | 参数量 | 许可 | 特点 |
|---|---|---|---|
| Llama 3.1 | 8B/70B/405B | Meta License | 综合能力强 |
| Qwen2.5 | 0.5B-72B | Apache 2.0 | 中文优秀 |
| Mistral | 7B/8x7B | Apache 2.0 | 效率高 |
| DeepSeek-V2 | 236B MoE | MIT | 性价比高 |
| Yi | 6B/34B | Apache 2.0 | 长上下文 |
| ChatGLM | 6B/9B | Apache 2.0 | 中文对话 |
1.3 向量数据库
| 产品 | 类型 | 特点 | 适用场景 |
|---|---|---|---|
| Milvus | 开源 | 分布式、生产级 | 大规模部署 |
| Qdrant | 开源 | Rust实现、高性能 | 高性能需求 |
| Weaviate | 开源 | 语义搜索、GraphQL | 复杂查询 |
| Chroma | 开源 | 轻量、易用 | 快速原型 |
| Pinecone | 商业 | 托管服务、免运维 | 快速上线 |
1.4 RAG框架
| 框架 | 语言 | 特点 | 链接 |
|---|---|---|---|
| LangChain | Python/JS | 最流行、生态丰富 | langchain.com |
| LlamaIndex | Python | 专注数据索引 | llamaindex.ai |
| Haystack | Python | 企业级、可扩展 | haystack.deepset.ai |
| RAGFlow | Python | 开源RAG引擎 | github.com/infiniflow/ragflow |
| Dify | Python | 低代码、可视化 | dify.ai |
二、行业专用资源
2.1 法律行业
开源项目:
| 项目 | 功能 | 链接 |
|---|---|---|
| LexNLP | 法律文本NLP | github.com/LexPredict/lexnlp |
| Legal-BERT | 法律预训练模型 | huggingface.co/nlpaueb |
| 法律NLP工具包 | 中文法律NLP | github.com/thunlp/LegalNLP |
数据集:
| 数据集 | 内容 | 规模 |
|---|---|---|
| CAIL | 裁判文书 | 260万+ |
| 法研杯 | 类案检索 | 10万+ |
| 合同数据集 | 合同文本 | 社区收集 |
API服务:
- 法信:裁判文书检索API
- 天眼查:企业风险信息API
- 企查查:工商数据API
2.2 医疗健康
开源项目:
| 项目 | 功能 | 链接 |
|---|---|---|
| MONAI | 医学影像深度学习 | monai.io |
| MedCLIP | 医学多模态 | github.com/RyanWangZf/MedCLIP |
| ChatMed | 医疗对话模型 | 华佗GPT等 |
数据集:
| 数据集 | 内容 | 应用 |
|---|---|---|
| MIMIC-III | ICU临床数据 | 临床预测 |
| ChestX-ray | 胸部X光 | 影像诊断 |
| cMedQA | 中文医疗问答 | 医疗问答 |
合规要求:
- 医疗器械注册证(三类)
- 数据安全等级保护
- 伦理委员会审批
2.3 教育培训
开源项目:
| 项目 | 功能 | 链接 |
|---|---|---|
| Open edX | 在线学习平台 | openedx.org |
| Moodle | 学习管理系统 | moodle.org |
| H5P | 互动内容创作 | h5p.org |
AI工具:
- 讯飞星火教育版:作文批改、口语评测
- 学而思AI:自适应学习
- 猿辅导AI:拍照搜题
知识图谱:
- OpenKG教育知识图谱
- 学科知识图谱工具
2.4 金融行业
开源项目:
| 项目 | 功能 | 链接 |
|---|---|---|
| FinGPT | 金融大模型 | github.com/AI4Finance-Foundation |
| FinRL | 强化学习量化 | finrl.readthedocs.io |
| CCKS金融NLP | 金融实体识别 | biendata.xyz |
数据源:
| 数据 | 来源 | 用途 |
|---|---|---|
| 行情数据 | 同花顺/万得 | 量化分析 |
| 舆情数据 | 新闻/社交 | 情绪分析 |
| 公告数据 | 交易所 | 事件驱动 |
合规要求:
- 金融牌照
- 反洗钱合规
- 数据跨境限制
2.5 电商零售
开源项目:
| 项目 | 功能 | 链接 |
|---|---|---|
| RecBole | 推荐系统库 | recbole.io |
| DeepCTR | CTR预估 | github.com/shenweichen |
| CLIP | 多模态理解 | openai.com/clip |
电商工具:
| 工具 | 功能 | 适用平台 |
|---|---|---|
| 阿里妈妈 | 智能投放 | 淘系 |
| 千川 | 内容投放 | 抖音 |
| AIGC工具 | 商品图/视频 | 通用 |
2.6 制造业
开源项目:
| 项目 | 功能 | 链接 |
|---|---|---|
| OpenCV | 计算机视觉 | opencv.org |
| MMDetection | 目标检测 | github.com/open-mmlab |
| Anomalib | 异常检测 | github.com/openvinotoolkit |
工业平台:
- 阿里云工业大脑
- 华为工业互联网
- 西门子MindSphere
2.7 农业
开源项目:
| 项目 | 功能 | 链接 |
|---|---|---|
| PlantVillage | 植物病害数据 | plantvillage.psu.edu |
| DeepWeeds | 杂草识别 | github.com/AlexOlsen |
| Crop Disease | 作物病害模型 | Kaggle |
农业平台:
- 大疆农业:无人机植保
- 极飞科技:智慧农业
- 佳格天地:遥感+AI
三、开发工具链
3.1 模型开发
模型开发工具:
├── 框架
│ ├── PyTorch:动态图、研究首选
│ ├── TensorFlow:生产部署、移动端
│ └── JAX:高性能计算
├── 训练
│ ├── Hugging Face:模型库、训练器
│ ├── DeepSpeed:分布式训练
│ └── Unsloth:高效微调
├── 评估
│ ├── lm-evaluation-harness:通用评测
│ └── OpenCompass:中文评测
└── 部署
├── vLLM:高性能推理
├── Ollama:本地部署
└── TensorRT:GPU优化
3.2 应用开发
应用开发工具:
├── 后端
│ ├── FastAPI:Python API框架
│ ├── LangServe:LangChain部署
│ └── Modal/Ray:分布式计算
├── 前端
│ ├── Streamlit:快速原型
│ ├── Gradio:ML演示
│ └── Next.js:生产前端
├── 数据
│ ├── DuckDB:轻量分析
│ ├── PostgreSQL + pgvector:向量搜索
│ └── Redis:缓存
└── 监控
├── LangSmith:LLM可观测
├── Weights & Biases:实验跟踪
└── Prometheus + Grafana:系统监控
3.3 数据处理
| 工具 | 用途 | 特点 |
|---|---|---|
| Unstructured | 文档解析 | 多格式支持 |
| LlamaParse | PDF解析 | 结构化提取 |
| DocArray | 多模态数据 | 向量操作 |
| Label Studio | 数据标注 | 开源免费 |
四、学习资源
4.1 课程
| 课程 | 平台 | 内容 |
|---|---|---|
| CS224N | Stanford | NLP基础 |
| CS229 | Stanford | 机器学习 |
| Fast.ai | Fast.ai | 实践优先 |
| 吴恩达课程 | Coursera | 系统全面 |
4.2 书籍
推荐书单:
├── 基础
│ ├── 《深度学习》花书
│ ├── 《机器学习》西瓜书
│ └── 《统计学习方法》李航
├── NLP
│ ├── 《Speech and Language Processing》
│ └── 《自然语言处理入门》何晗
├── 实践
│ ├── 《动手学深度学习》d2l
│ └── 《Building LLM Applications》
└── 行业
└── 各行业AI应用白皮书
4.3 社区
| 社区 | 特点 | 链接 |
|---|---|---|
| Hugging Face | 模型分享 | huggingface.co |
| GitHub | 代码仓库 | github.com |
| 知乎 | 中文讨论 | zhihu.com |
| 即刻 | AI动态 | okjk.co |
| Hacker News | 技术前沿 | news.ycombinator.com |
五、服务商资源
5.1 云服务商
| 厂商 | AI服务 | 特点 |
|---|---|---|
| 阿里云 | 通义系列、PAI平台 | 生态完善 |
| 腾讯云 | 混元、智能客服 | 社交场景 |
| 华为云 | 盘古、ModelArts | 政企市场 |
| 百度智能云 | 文心、飞桨 | 技术积累深 |
| 火山引擎 | 豆包、大模型平台 | 性价比高 |
5.2 行业服务商
| 行业 | 代表厂商 |
|---|---|
| 法律 | 无讼、法智、iCourt |
| 医疗 | 医渡云、推想科技、深睿 |
| 教育 | 科大讯飞、好未来、猿辅导 |
| 金融 | 同盾、百融、氪信 |
| 零售 | 有赞、微盟、店小蜜 |
| 制造 | 创新奇智、格创东智 |
六、合规与安全
6.1 法规政策
相关法规:
├── 数据安全
│ ├── 《数据安全法》
│ ├── 《个人信息保护法》
│ └── 《网络安全法》
├── AI治理
│ ├── 《生成式人工智能服务管理暂行办法》
│ ├── 《互联网信息服务算法推荐管理规定》
│ └── 《互联网信息服务深度合成管理规定》
└── 行业规定
├── 医疗:医疗器械监管
├── 金融:监管沙盒
└── 教育:内容审核
6.2 安全工具
| 工具 | 用途 | 链接 |
|---|---|---|
| Guardrails AI | LLM安全护栏 | guardrailsai.com |
| NeMo Guardrails | NVIDIA护栏 | github.com/NVIDIA |
| Presidio | 隐私保护 | microsoft.github.io/presidio |
七、资源获取渠道
7.1 官方渠道
- 各AI厂商开发者文档
- 政府公开数据平台
- 行业协会发布的数据
7.2 开源社区
- GitHub:代码和项目
- Hugging Face:模型和数据集
- Kaggle:竞赛和数据
7.3 商业数据
- 天眼查/企查查:企业数据
- 同花顺/万得:金融数据
- 各垂直行业数据服务商
📖 持续更新:本资源列表会定期更新,欢迎补充