GCP AI APIs 信息汇总


建议&限制

API 名称 建议 避免
Cloud Speech-to-Text API 以 16000 Hz 或更高的采样率采集音频。 应该避免对采样率较低的音频进行重采样,即使他们不是推荐的采样率。
使用无损编解码器录制和传输音频。建议使用 FLAC 或 LINEAR16。 避免使用有损编解码器,例如 .mp3
尽量减少背景噪音 否则会影响准确性
将多声道尽可能进行拆解 多人同讲的部分声源可能被识别为背景杂音
使用字词和短语提示将名称和术语添加到词汇表中,提高特定字词和短语的准确性。 部分专有名词无法识别
对应短音频文件(<1min)使用同步识别功能,对于(>1min) 使用异步识别功能。 /
可以对本地文件进行识别(如从二进制文件转换得到的base64文件),也可以对远程例如 GCS 上的文件进行识别。 /
Vision API 图片通常最低应为 640 x 480 像素(约 30 万像素),对于 FACE_DETECTION 应高于 1600*1200 使用低像素图片
对图片进行预处理,将它们的分辨率减小的最小标准 高分辨率图片,准确性不会提高很多,但吞吐量会受到较大影响。
JSON 请求大小最大为10mb,再大可以使用托管在 GCS 或其他网络中的文件。 高分辨率图片,准确性不会提高很多,但吞吐量会受到较大影响。

Natural Language API

特性

Natural Language API 有几种方法可以对文本进行分析和注释,如下:

  • 情感分析(Sentiment analysis):检测给定文本,并确定文本中的主导性情绪观点,尤其是确定作者的态度是积极、消极还是中立的。情感分析是通过 analyzeSentiment 方法执行的。
  • 实体分析(Entity analysis):检测给定文本以找出已知实体(公众人物、地标等专有名词,以及餐厅、体育场等普通名词),并返回这些实体的相关信息。实体分析是通过 analyzeEntities 方法执行的。
  • 实体情感分析(Entity sentiment analysis):检测给定文本以找出已知实体(专有名词和普通名词),并返回这些实体的相关信息,同时确定对文本中实体的主导性情绪观点,尤其是确定作者对实体的态度是积极、消极还是中立的。 实体分析是通过 analyzeEntitySentiment 方法执行的。
  • 语法分析(Syntactic analysis):提取语言信息,将给定文本分解为一系列句子和词条词法单元(通常是字词边界),从而对这些词法单元进行进一步分析。语法分析是通过 analyzeSyntax 方法执行的。
  • 内容分类分析(Content classification):文本内容并返回内容所属的内容类别。内容分类是通过 classifyText 方法执行的。

Translation API

没啥特别需要注意的

Cloud Text-to-Speech

没啥特别需要注意的

Dialogflow

基础知识

  1. 代理:Dialogflow 代理是负责与最终用户对话的虚拟客服人员。它是一种自然语言理解模块,能够理解人类语言的细微差别。Dialogflow 可以在对话过程中将最终用户输入的文字和音频转换为应用和服务可以理解的结构化数据。
  2. 意图:意图对最终用户每轮对话的意图进行分类。您可以为每个代理定义多个意图,组合意图可以处理一段完整的对话。当最终用户输入文字或说出话语(称为“最终用户表述”时,Dialogflow 会将最终用户表述与代理中的最佳意图进行匹配。匹配意图也又称为“意图分类”。
    • 基本意图包含以下内容:
      • 训练短语:这些是最终用户可能会说的示例短语。当最终用户的表述与其中某一短语类似时,Dialogflow 会匹配意图。因为 Dialogflow 的内置机器学习功能可使用其他相似的短语扩展您的列表,所以您无需定义所有可能出现的示例。
      • 操作:您可以为每个意图定义一个操作。当匹配了相应意图时,Dialogflow 会向系统提供该操作,您可以使用该操作触发系统中定义的特定操作。
      • 参数:在运行时中匹配了某个意图时,Dialogflow 会将从最终用户表述中提取的值作为“参数”提供。每个参数都有一个类型,称为实体类型,用于确切规定提取该数据的方式。与原始的最终用户输入不同,参数是结构化数据,可以轻松用于执行某些逻辑或生成响应。
      • 响应:您可以定义要返回给最终用户的文本、语音或视觉响应。这些响应可能是为最终用户提供解答、向最终用户询问更多信息或终止对话。
  3. 实体:每个意图参数都有一个类型,称为实体类型,该类型确切规定从最终用户表述中提取数据的方式。
  4. 上下文:Dialogflow 上下文类似于自然语言上下文。

Vision API

支持的特征类型:

  • FACE_DETECTION 人脸检测,人脸检测功能可以检测图片中的多张人脸,以及相关的主要面部特征,如情绪状态
  • LANDMARK_DETECTION 地标检测:注意,此处并没有要求提供IP,只输入图片就可以了
  • LOGO_DETECTION 商标检测
  • LABEL_DETECTION 标签检测
  • TEXT_DETECTION OCR文本监测
  • SAFE_SEARCH_DETECTION 监测露骨内容
  • 裁剪提示:确定图片的建议裁剪区域顶点
  • 检测图片属性:可检测图片的一般属性,如主色。