以下是 Easy Dataset 的详细使用教程,结合其核心功能及操作流程整理而成:


一、环境准备与安装

  1. 下载与安装
    • 直接安装包(推荐新手):

• 访问 GitHub Release 页面,下载对应系统的安装包(Windows/macOS/Linux)。

• 双击安装包按向导完成安装,支持 GUI 界面操作。

• 开发者模式(适合代码调试):

git clone https://github.com/ConardLi/easy-dataset.git
cd easy-dataset
npm install  # 安装依赖
npm run build && npm run start  # 启动本地服务器

访问 http://localhost:1717 即可使用。
• Docker 部署(适合生产环境):

docker build -t easy-dataset .
docker run -d -p 1717:1717 -v {本地数据路径}:/app/local-db easy-dataset
  1. 配置 API 密钥
    • 支持 OpenAI、DeepSeek、Ollama 等模型,需在
    项目设置 -> 模型配置 中填写 API Key。

• 推荐使用 Alaya NeW API(免费额度)或 DeepSeek(高性价比)。

二、核心操作流程

  1. 创建项目
    • 启动工具后,点击
    创建新项目,输入名称(如“网络安全法规”)和描述(可选),用于区分不同数据集。
  2. 上传与处理网页
    • 支持的格式:Markdown(
    .md)、TXT、DOCX(PDF 需先用工具如 MinerU 转换)。

• 上传步骤:

• 进入 网页处理 模块,拖拽或点击上传文件。

• 系统自动将文本分割为语义连贯的片段(默认最小 100 字符,最大 5000 字符),可手动调整分割规则。


  1. 生成问题与答案
    • 问题生成:

• 选择文本片段,点击 批量生成问题,工具基于 LLM 自动生成 1-5 个相关问题。

• 支持编辑问题,通过标签树(Domain Tree)组织问题分类。

• 答案生成:

• 勾选问题后,点击 生成答案,模型根据文本片段生成答案,支持添加 思维链(CoT) 提升逻辑性。


  1. 数据集导出
    • 格式支持:Alpaca、ShareGPT、JSON、JSONL。

• 自定义选项:

• 添加系统提示词(如“你是一位法律专家”)以控制回答风格。

• 选择是否包含思维链(CoT)和标签信息。

• 导出路径:数据集管理 -> 导出,保存为本地文件。


三、高级功能与技巧

  1. 多项目管理
    • 每个项目独立存储配置和生成数据,适合处理不同领域(如医疗、金融)。
  2. 模型对比与优化
    • 在
    模型测试 模块中,可对比不同 LLM(如 GPT-4、DeepSeek-R1)的生成效果,选择响应速度和准确性最优的模型。
  3. 批量操作
    • 支持批量删除问题、导出数据集,提升效率。


四、常见问题与解决

  1. 文件格式不支持:
    • 仅支持 Markdown,PDF 需转换为 MD 格式(推荐工具:MinerU)。
  2. 生成内容重复:
    • 调整文本分割长度或更换模型(如从
    qwen2 换为 deepseek-r1)。
  3. 处理速度慢:
    • 检查网络稳定性,或降低单次生成的问题数量(默认 10 个/批次)。
  4. 中文文件名报错:
    • 暂不支持中文文件名,建议重命名为英文。


五、应用场景示例

  1. 企业知识库:将内部网页转为问答对,微调专属客服模型。
  2. 教育领域:课件生成练习题,训练学生辅导助手。
  3. 法律合规:法规条文生成案例题,辅助法律咨询。


六、项目资源
• GitHub 仓库:
ConardLi/easy-dataset

• 官方文档:包含 API 参考、故障排查及社区案例。


通过上述步骤,可快速完成从网页处理到数据集导出的全流程。如需进一步优化,可结合领域知识调整提示词或扩展多模态支持(未来版本规划)。