跳到主要内容

行业资源与工具汇总

实用工具、开源项目、数据集、学习资源一站式索引


一、通用AI工具

1.1 大语言模型API

模型厂商特点适用场景
GPT-4oOpenAI多模态、综合能力强通用场景
Claude 3.5Anthropic长上下文、安全性好长文档处理
文心一言百度中文理解好、国内合规国内业务
通义千问阿里性价比高、生态完善企业应用
DeepSeekDeepSeek开源可商用、成本低降本需求
GLM-4智谱中英双语、工具调用对话应用

1.2 开源模型

模型参数量许可特点
Llama 3.18B/70B/405BMeta License综合能力强
Qwen2.50.5B-72BApache 2.0中文优秀
Mistral7B/8x7BApache 2.0效率高
DeepSeek-V2236B MoEMIT性价比高
Yi6B/34BApache 2.0长上下文
ChatGLM6B/9BApache 2.0中文对话

1.3 向量数据库

产品类型特点适用场景
Milvus开源分布式、生产级大规模部署
Qdrant开源Rust实现、高性能高性能需求
Weaviate开源语义搜索、GraphQL复杂查询
Chroma开源轻量、易用快速原型
Pinecone商业托管服务、免运维快速上线

1.4 RAG框架

框架语言特点链接
LangChainPython/JS最流行、生态丰富langchain.com
LlamaIndexPython专注数据索引llamaindex.ai
HaystackPython企业级、可扩展haystack.deepset.ai
RAGFlowPython开源RAG引擎github.com/infiniflow/ragflow
DifyPython低代码、可视化dify.ai

二、行业专用资源

2.1 法律行业

开源项目

项目功能链接
LexNLP法律文本NLPgithub.com/LexPredict/lexnlp
Legal-BERT法律预训练模型huggingface.co/nlpaueb
法律NLP工具包中文法律NLPgithub.com/thunlp/LegalNLP

数据集

数据集内容规模
CAIL裁判文书260万+
法研杯类案检索10万+
合同数据集合同文本社区收集

API服务

  • 法信:裁判文书检索API
  • 天眼查:企业风险信息API
  • 企查查:工商数据API

2.2 医疗健康

开源项目

项目功能链接
MONAI医学影像深度学习monai.io
MedCLIP医学多模态github.com/RyanWangZf/MedCLIP
ChatMed医疗对话模型华佗GPT等

数据集

数据集内容应用
MIMIC-IIIICU临床数据临床预测
ChestX-ray胸部X光影像诊断
cMedQA中文医疗问答医疗问答

合规要求

  • 医疗器械注册证(三类)
  • 数据安全等级保护
  • 伦理委员会审批

2.3 教育培训

开源项目

项目功能链接
Open edX在线学习平台openedx.org
Moodle学习管理系统moodle.org
H5P互动内容创作h5p.org

AI工具

  • 讯飞星火教育版:作文批改、口语评测
  • 学而思AI:自适应学习
  • 猿辅导AI:拍照搜题

知识图谱

  • OpenKG教育知识图谱
  • 学科知识图谱工具

2.4 金融行业

开源项目

项目功能链接
FinGPT金融大模型github.com/AI4Finance-Foundation
FinRL强化学习量化finrl.readthedocs.io
CCKS金融NLP金融实体识别biendata.xyz

数据源

数据来源用途
行情数据同花顺/万得量化分析
舆情数据新闻/社交情绪分析
公告数据交易所事件驱动

合规要求

  • 金融牌照
  • 反洗钱合规
  • 数据跨境限制

2.5 电商零售

开源项目

项目功能链接
RecBole推荐系统库recbole.io
DeepCTRCTR预估github.com/shenweichen
CLIP多模态理解openai.com/clip

电商工具

工具功能适用平台
阿里妈妈智能投放淘系
千川内容投放抖音
AIGC工具商品图/视频通用

2.6 制造业

开源项目

项目功能链接
OpenCV计算机视觉opencv.org
MMDetection目标检测github.com/open-mmlab
Anomalib异常检测github.com/openvinotoolkit

工业平台

  • 阿里云工业大脑
  • 华为工业互联网
  • 西门子MindSphere

2.7 农业

开源项目

项目功能链接
PlantVillage植物病害数据plantvillage.psu.edu
DeepWeeds杂草识别github.com/AlexOlsen
Crop Disease作物病害模型Kaggle

农业平台

  • 大疆农业:无人机植保
  • 极飞科技:智慧农业
  • 佳格天地:遥感+AI

三、开发工具链

3.1 模型开发

模型开发工具:
├── 框架
│ ├── PyTorch:动态图、研究首选
│ ├── TensorFlow:生产部署、移动端
│ └── JAX:高性能计算
├── 训练
│ ├── Hugging Face:模型库、训练器
│ ├── DeepSpeed:分布式训练
│ └── Unsloth:高效微调
├── 评估
│ ├── lm-evaluation-harness:通用评测
│ └── OpenCompass:中文评测
└── 部署
├── vLLM:高性能推理
├── Ollama:本地部署
└── TensorRT:GPU优化

3.2 应用开发

应用开发工具:
├── 后端
│ ├── FastAPI:Python API框架
│ ├── LangServe:LangChain部署
│ └── Modal/Ray:分布式计算
├── 前端
│ ├── Streamlit:快速原型
│ ├── Gradio:ML演示
│ └── Next.js:生产前端
├── 数据
│ ├── DuckDB:轻量分析
│ ├── PostgreSQL + pgvector:向量搜索
│ └── Redis:缓存
└── 监控
├── LangSmith:LLM可观测
├── Weights & Biases:实验跟踪
└── Prometheus + Grafana:系统监控

3.3 数据处理

工具用途特点
Unstructured文档解析多格式支持
LlamaParsePDF解析结构化提取
DocArray多模态数据向量操作
Label Studio数据标注开源免费

四、学习资源

4.1 课程

课程平台内容
CS224NStanfordNLP基础
CS229Stanford机器学习
Fast.aiFast.ai实践优先
吴恩达课程Coursera系统全面

4.2 书籍

推荐书单:
├── 基础
│ ├── 《深度学习》花书
│ ├── 《机器学习》西瓜书
│ └── 《统计学习方法》李航
├── NLP
│ ├── 《Speech and Language Processing》
│ └── 《自然语言处理入门》何晗
├── 实践
│ ├── 《动手学深度学习》d2l
│ └── 《Building LLM Applications》
└── 行业
└── 各行业AI应用白皮书

4.3 社区

社区特点链接
Hugging Face模型分享huggingface.co
GitHub代码仓库github.com
知乎中文讨论zhihu.com
即刻AI动态okjk.co
Hacker News技术前沿news.ycombinator.com

五、服务商资源

5.1 云服务商

厂商AI服务特点
阿里云通义系列、PAI平台生态完善
腾讯云混元、智能客服社交场景
华为云盘古、ModelArts政企市场
百度智能云文心、飞桨技术积累深
火山引擎豆包、大模型平台性价比高

5.2 行业服务商

行业代表厂商
法律无讼、法智、iCourt
医疗医渡云、推想科技、深睿
教育科大讯飞、好未来、猿辅导
金融同盾、百融、氪信
零售有赞、微盟、店小蜜
制造创新奇智、格创东智

六、合规与安全

6.1 法规政策

相关法规:
├── 数据安全
│ ├── 《数据安全法》
│ ├── 《个人信息保护法》
│ └── 《网络安全法》
├── AI治理
│ ├── 《生成式人工智能服务管理暂行办法》
│ ├── 《互联网信息服务算法推荐管理规定》
│ └── 《互联网信息服务深度合成管理规定》
└── 行业规定
├── 医疗:医疗器械监管
├── 金融:监管沙盒
└── 教育:内容审核

6.2 安全工具

工具用途链接
Guardrails AILLM安全护栏guardrailsai.com
NeMo GuardrailsNVIDIA护栏github.com/NVIDIA
Presidio隐私保护microsoft.github.io/presidio

七、资源获取渠道

7.1 官方渠道

  • 各AI厂商开发者文档
  • 政府公开数据平台
  • 行业协会发布的数据

7.2 开源社区

  • GitHub:代码和项目
  • Hugging Face:模型和数据集
  • Kaggle:竞赛和数据

7.3 商业数据

  • 天眼查/企查查:企业数据
  • 同花顺/万得:金融数据
  • 各垂直行业数据服务商

📖 持续更新:本资源列表会定期更新,欢迎补充