以下是 Easy Dataset 的详细使用教程,结合其核心功能及操作流程整理而成:
一、环境准备与安装
- 下载与安装
• 直接安装包(推荐新手):
• 访问 GitHub Release 页面,下载对应系统的安装包(Windows/macOS/Linux)。
• 双击安装包按向导完成安装,支持 GUI 界面操作。
• 开发者模式(适合代码调试):
git clone https://github.com/ConardLi/easy-dataset.git
cd easy-dataset
npm install # 安装依赖
npm run build && npm run start # 启动本地服务器
访问 http://localhost:1717
即可使用。
• Docker 部署(适合生产环境):
docker build -t easy-dataset .
docker run -d -p 1717:1717 -v {本地数据路径}:/app/local-db easy-dataset
- 配置 API 密钥
• 支持 OpenAI、DeepSeek、Ollama 等模型,需在项目设置 -> 模型配置
中填写 API Key。
• 推荐使用 Alaya NeW API(免费额度)或 DeepSeek(高性价比)。
二、核心操作流程
- 创建项目
• 启动工具后,点击创建新项目
,输入名称(如“网络安全法规”)和描述(可选),用于区分不同数据集。 - 上传与处理网页
• 支持的格式:Markdown(.md
)、TXT、DOCX(PDF 需先用工具如 MinerU 转换)。
• 上传步骤:
• 进入 网页处理
模块,拖拽或点击上传文件。
• 系统自动将文本分割为语义连贯的片段(默认最小 100 字符,最大 5000 字符),可手动调整分割规则。
- 生成问题与答案
• 问题生成:
• 选择文本片段,点击 批量生成问题
,工具基于 LLM 自动生成 1-5 个相关问题。
• 支持编辑问题,通过标签树(Domain Tree)组织问题分类。
• 答案生成:
• 勾选问题后,点击 生成答案
,模型根据文本片段生成答案,支持添加 思维链(CoT) 提升逻辑性。
- 数据集导出
• 格式支持:Alpaca、ShareGPT、JSON、JSONL。
• 自定义选项:
• 添加系统提示词(如“你是一位法律专家”)以控制回答风格。
• 选择是否包含思维链(CoT)和标签信息。
• 导出路径:数据集管理 -> 导出
,保存为本地文件。
三、高级功能与技巧
- 多项目管理
• 每个项目独立存储配置和生成数据,适合处理不同领域(如医疗、金融)。 - 模型对比与优化
• 在模型测试
模块中,可对比不同 LLM(如 GPT-4、DeepSeek-R1)的生成效果,选择响应速度和准确性最优的模型。 - 批量操作
• 支持批量删除问题、导出数据集,提升效率。
四、常见问题与解决
- 文件格式不支持:
• 仅支持 Markdown,PDF 需转换为 MD 格式(推荐工具:MinerU)。 - 生成内容重复:
• 调整文本分割长度或更换模型(如从qwen2
换为deepseek-r1
)。 - 处理速度慢:
• 检查网络稳定性,或降低单次生成的问题数量(默认 10 个/批次)。 - 中文文件名报错:
• 暂不支持中文文件名,建议重命名为英文。
五、应用场景示例
- 企业知识库:将内部网页转为问答对,微调专属客服模型。
- 教育领域:课件生成练习题,训练学生辅导助手。
- 法律合规:法规条文生成案例题,辅助法律咨询。
六、项目资源
• GitHub 仓库:ConardLi/easy-dataset
• 官方文档:包含 API 参考、故障排查及社区案例。
通过上述步骤,可快速完成从网页处理到数据集导出的全流程。如需进一步优化,可结合领域知识调整提示词或扩展多模态支持(未来版本规划)。