Compartir a través de


Seguridad del contenido en el portal de Microsoft Foundry (clásico)

Nota:

Este documento hace referencia al portal de Microsoft Foundry (clásico).

🔍 Consulte la documentación de Microsoft Foundry (nuevo) para obtener información sobre el nuevo portal.

Azure AI Content Safety es un servicio de inteligencia artificial que detecta contenido perjudicial generado por el usuario y por la IA en aplicaciones y servicios. Azure AI Content Safety incluye API que le ayudan a detectar y evitar la salida de contenido dañino. La página interactive Content Safety try it out en la página Microsoft Foundry portal le permite ver, explorar y probar código de ejemplo para detectar contenido perjudicial en distintas modalidades.

Características

Use Azure AI Content Safety para los siguientes escenarios:

Contenido de texto

  • Contenido de texto moderado: examina y modera el contenido de texto. Identifica y clasifica el texto en función de diferentes niveles de gravedad para garantizar las respuestas adecuadas.
  • Detección de fundamento: determina si las respuestas de la inteligencia artificial se basan en fuentes confiables proporcionadas por el usuario. Esta característica garantiza que las respuestas se "basen" en el material previsto. La detección de fundamentos ayuda a mejorar la confiabilidad y la exactitud factual de las respuestas.
  • Detección de material protegido para texto: identifica material de texto protegido, como letras conocidas de canciones, artículos u otro contenido. Esta característica garantiza que la inteligencia artificial no genera este contenido sin permiso.
  • Detección de material protegido para código: detecta segmentos de código en la salida del modelo que coinciden con el código conocido de repositorios públicos. Esta característica ayuda a evitar la reproducción no acreditado o no autorizada del código fuente.
  • Escudos de avisos: proporciona una API unificada para abordar "Jailbreak" y "Ataques indirectos":
    • Ataques de jailbreak: intentos de los usuarios para manipular la inteligencia artificial para pasar sus protocolos de seguridad o directrices éticas. Entre los ejemplos se incluyen las indicaciones diseñadas para engañar a la inteligencia artificial para dar respuestas inapropiadas o realizar tareas que se programó para evitar.
    • Ataques indirectos: también conocido como ataques de inyección de mensajes entre dominios. Los ataques indirectos implican la inserción de mensajes malintencionados dentro de documentos que la inteligencia artificial podría procesar. Por ejemplo, si un documento contiene instrucciones ocultas, la inteligencia artificial podría seguirlas involuntariamente, lo que conduce a salidas no deseadas o no seguras.

Contenido de la imagen

  • Contenido moderado de la imagen: similar a la moderación de texto, esta característica filtra y evalúa el contenido de la imagen para detectar objetos visuales inapropiados o dañinos.
  • Contenido multimodal moderado: diseñado para gestionar una combinación de texto e imágenes. Evalúa el contexto general y los posibles riesgos en varios tipos de contenido.

Filtrado personalizado

  • Categorías personalizadas: permite a los usuarios definir categorías específicas para moderar y filtrar contenido. Adapta los protocolos de seguridad a necesidades únicas.
  • Mensaje del sistema de seguridad: proporciona un método para configurar un "Mensaje del sistema" para indicar a la inteligencia artificial sobre el comportamiento deseado y las limitaciones. Refuerza los límites de seguridad y ayuda a evitar salidas no deseadas.

Descripción de las categorías de daños

Categorías de daños

Categoría Description Término de API
Odio y equidad Los daños de odio y equidad hacen referencia a cualquier contenido que ataque o use lenguaje discriminatorio con referencia a una persona o grupo de identidades basado en determinados atributos diferenciadores de estos grupos.

Esto incluye, pero no se limita a:
  • Raza, etnia o nacionalidad
  • Grupos de identidad de género y expresión
  • Orientación sexual
  • Religión
  • Apariencia personal y tamaño corporal
  • Estado de discapacidad
  • Acoso
Hate
Sexual Sexual describe el lenguaje relacionado con los órganos anatómicos y los genitales, las relaciones románticas y los actos sexuales, los actos representados en términos eróticos o afectuosos, incluidos los representados como una agresión o un acto violento sexual forzado contra la propia voluntad.

Entre otras cosas, nos ocupamos de:
  • Contenido vulgar
  • Prostitución
  • Desnudos y pornografía
  • Abuso
  • Captación, abuso y explotación infantil
Sexual
Violencia La violencia describe el lenguaje relacionado con acciones físicas destinadas a herir, lesionar, dañar o matar a alguien o algo; describe armas, pistolas y entidades relacionadas.

Entre otras cosas, nos ocupamos de:
  • Armas
  • Acoso e intimidación
  • Terrorismo y extremismo violento
  • Acoso
Violence
Autolesiones La autolesión describe el lenguaje relacionado con acciones físicas destinadas a herir, lesionar, dañar el propio cuerpo o suicidarse.

Entre otras cosas, nos ocupamos de:
  • Trastornos alimentarios
  • Acoso e intimidación
SelfHarm

Niveles de gravedad

Level Description
Seguro El contenido puede estar relacionado con las categorías de violencia, lesiones autoinfligidas, contenido sexual u odio. Sin embargo, los términos se usan en contextos generales, periodísticos, científicos, médicos y profesionales similares, que son apropiados para la mayoría del público.
Low Contenido que expresa prejuicios, juicios u opiniones, incluye un uso ofensivo del lenguaje, estereotipos, casos de uso que exploran un mundo ficticio (por ejemplo, los juegos, la literatura) y representaciones con baja intensidad.
Media El contenido que usa un lenguaje ofensivo, insultante, burlón, intimidatorio o degradante hacia grupos de identidad específicos, incluye representaciones de búsqueda y ejecución de instrucciones dañinas, fantasías, glorificación, promoción del daño con una intensidad media.
Alto Contenido que muestra instrucciones, acciones, daños o abusos explícitos y graves; incluye la aprobación, la exaltación o la promoción de actos dañinos graves, formas extremas o ilegales de daño, radicalización o intercambio de poder no consensuado o abuso.

Limitaciones

Para conocer las regiones admitidas, los límites de velocidad y los requisitos de entrada para todas las características, consulte la información general del servicio de seguridad de Content Safety. Para ver los idiomas admitidos, consulte la página Language support.

Paso siguiente

Comienza a usar Azure AI Content Safety en el portal de Foundry siguiendo la guía de cómo hacerlo.