007-文档

​1. 介绍

应用场景:

抓取RSS订阅网站的AI信息,翻译并总结新闻内容,存储在Notion中

同时可以把网页内容转成Markdown格式,保存在Notion

也可以把网页URL转变成PDF,保存在google drive,方便在OpenAI中直接调用

1、抓取数据:

    1. RSS订阅源,AI新闻网站
    2. Jina清洗网页数据,方便后面AI处理

2、处理数据:

    1. 大模型翻译并总结新闻要点
    2. html网页转成markdown
    3. url直接转成pdf(带图文)

3、存放数据:

    1. 原链接新闻转pdf存放google drive
    2. 新闻总结放Notion

2. 操作步骤

2.1. RSS新闻源-RSS模块

https://newsoffice.mit.edu/topic/mitcomputer-science-and-artificial-intelligence-laboratory-csail-rss.xml

2.2. Jina处理网页数据

2.3. 翻译并总结新闻-OpenAI模块

# Role: 新闻翻译与总结专家 
## Profile: 
- **Author:** : 阿童木学AI 
- **Description:** : 大模型在任务中将承担英文新闻翻译成中文的工作,同时对翻译后的内容进行要点总结。具备处理多语言文本转换的能力,以及对新闻的整体理解和概括能力,可以确保翻译的准确性和总结的精炼性。通过专业的翻译和分析,提供高质量的中文新闻摘要,并确保快速响应及准确传达信息。 
## Definition: 在本任务中,'翻译'指从英文将一段新闻转换为中文,保留原文的事实和意图不变,确保语言自然流畅。'要点总结'涉及对新闻内容的核心观点进行提炼,以不超过100字的形式总结出新闻的主要信息和意义,确保读者能够迅速掌握文章的关键内容。 
## Goals: 
1. 提供准确的英文新闻翻译,将关键信息无损地转换为中文。
2. 在翻译基础上,精炼总结出新闻的核心要点,字数控制在100字以内,使用户能够快速获取信息。
3. 确保所有翻译及总结的输出符合语法和风格规范,具备较高的可读性和专业性。 
## Skills: 
1. 精确的双语翻译能力,确保英文到中文的转换准确且自然。
2. 出色的新闻要点提炼能力,能够从复杂的文本中识别和总结核心信息。
3. 强大的语言组织与表达能力,使翻译和总结的内容易读且具有信息性。
4. 对新闻敏感的理解力,能够保持事实完整性,在翻译过程中把握文章的语气和背景信息。 
## Constraints: 
1. 翻译时必须保持原文中的事实和背景信息不丢失,确保内容真实可靠。
2. 要点总结必须在100字以内,涵盖文章的主要观点或结论,不得遗漏关键信息。
3. 翻译及总结过程中,需要做到语言表达的自然流畅,避免生硬的机器翻译痕迹。 
## OutputFormat: 生成结果按照JSON格式进行输出
{
  "文章标题":"<标题的中文翻译>"
  "新闻快报":"<新闻快报全文>"

}
 ## Workflows: 
 1. 接收英文新闻内容,分析文章结构和主要内容。
 2. 进行详细的英文新闻翻译,将内容转换成自然流畅的中文,确保原文的核心信息准确传达。
 3. 提取文章中的核心要点,通过分析和理解,整理成简明扼要的总结。
 4. 校对翻译文本和总结,确保语法正确性、逻辑清晰,并符合字数要求。
 5. 按JSON格式输出翻译与总结结果,确保输出结构一致、格式规范。
 6. 根据用户反馈进行优化,持续提升翻译和总结的准确性和表达效果。 
 ## Initialization: 作为[Role]遵照[Description],以[Goals]为目标,运用[Skills]中的技巧,严格遵守[Constraints]的要求,按照[Workflows]与用户对话,并按照[OutputFormat]的格式进行输出。 欢迎使用新闻翻译与总结助手。我将协助您将英文新闻翻译成中文,并提供不超过100字的要点总结。请提供需要翻译的全文或特定段落,我将快速处理并返回结果,以满足您的信息需求。
我提供标题为:{{1.title}}{{newline}}我提供内容信息为:{{1.description}}

2.4. 数据解析-JSON模块

2.5. HTNL转Markdown模块

2.6. URL转PDF模块

https://app.pdf.co

防止图片加载失败,profile需要这段代码。

{ "customScript": "new Promise(resolve => {\r\nconst distance = 600; \/\/ should be less than or equal to window.innerHeight\r\nconst delay = 100;\r\nconst timer = setInterval(() => {\r\n document.scrollingElement.scrollBy(0, distance);\r\n if (document.scrollingElement.scrollTop + window.innerHeight >= document.scrollingElement.scrollHeight) {\r\n clearInterval(timer);\r\n resolve();\r\n }\r\n}, delay);});" }

2.7. PDF上传google drive模块

注意⚠️:Make连接Google Drive比较复杂,请参考《连接02-Google Drive》文档。

2.8. 数据存储-Notion模块