En marzo de 2026, la Agencia Española de Protección de Datos (AEPD) impuso la primera sanción significativa a una empresa española por usar un modelo de lenguaje de gran escala con datos de clientes sin base legal adecuada: 1,2 millones de euros y la orden de suspender el tratamiento hasta acreditar cumplimiento. El expediente tardó nueve meses desde la denuncia inicial. La empresa afectada era una pyme de gestión de recursos humanos con 80 empleados que usaba una herramienta de IA para procesar currículums y datos de candidatos. No era un caso de negligencia grave: simplemente nadie había leído los términos de servicio del proveedor.
Este artículo es la guía que esa empresa necesitaba antes de desplegar la herramienta. Cubre el marco regulatorio real (RGPD y AI Act), los vectores de riesgo técnico que abren brechas de seguridad o de cumplimiento, las medidas concretas que puedes implementar sin un equipo legal interno, y una comparativa de los principales proveedores de IA según su nivel de cumplimiento con la normativa europea.
El problema real: los datos de tu empresa ya circulan por modelos de IA
Antes de abordar las medidas de protección, conviene dimensionar el problema. Una encuesta de Gartner de 2025 reveló que el 47% de los empleados de empresas europeas había introducido datos confidenciales de su organización en una herramienta de IA de consumo sin autorización explícita de su departamento de IT o legal. El dato no sorprende: cuando una herramienta es útil y gratuita, la adopción espontánea precede a la gobernanza.
El riesgo no es solo normativo. Cuando un empleado pega el contenido de un contrato en ChatGPT para que lo resuma, o introduce datos de pacientes en un asistente de IA para redactar un informe médico, esos datos pueden quedar retenidos en los servidores del proveedor, usarse para el entrenamiento futuro del modelo o estar sujetos a jurisdicciones fuera del Espacio Económico Europeo. Cada uno de esos escenarios tiene implicaciones legales y de seguridad que una empresa europea no puede ignorar.
El marco regulatorio europeo en 2026: RGPD + AI Act
Las empresas que operan en Europa y usan IA están sujetas a dos normativas que se solapan y se complementan: el Reglamento General de Protección de Datos (RGPD, Reglamento UE 2016/679) y el Reglamento de Inteligencia Artificial (AI Act, Reglamento UE 2024/1689). Entender cómo interactúan es el primer paso para construir un programa de cumplimiento coherente.
RGPD y los modelos de lenguaje: los puntos de fricción más comunes
El RGPD fue diseñado antes de que los modelos de lenguaje de gran escala existieran, pero sus principios fundamentales aplican con toda su fuerza. Los cuatro puntos de mayor fricción entre el RGPD y el uso empresarial de IA son:
Base legal para el tratamiento. El artículo 6 del RGPD exige que cualquier tratamiento de datos personales tenga una base legal: consentimiento, contrato, interés legítimo, obligación legal, interés vital o interés público. Cuando introduces datos de clientes en un modelo de IA externo, estás realizando un tratamiento que requiere base legal. Si esa base es el consentimiento, el interesado debe haber sido informado de que sus datos se procesarán mediante IA y por qué proveedor.
Transferencias internacionales de datos. La mayoría de los grandes proveedores de IA tienen sus servidores principales en Estados Unidos. El artículo 46 del RGPD exige garantías adecuadas para estas transferencias: cláusulas contractuales tipo (CCT) actualizadas, normas corporativas vinculantes o un mecanismo de adecuación vigente. El Data Privacy Framework UE-EE.UU. de 2023 cubre a las empresas estadounidenses adheridas, pero su estabilidad legal sigue siendo objeto de litigio en los tribunales europeos.
Decisiones automatizadas con efectos significativos. El artículo 22 del RGPD otorga a los interesados el derecho a no ser objeto de decisiones basadas únicamente en el tratamiento automatizado que produzcan efectos jurídicos o les afecten significativamente. Si usas IA para aprobar o rechazar solicitudes de crédito, seleccionar candidatos, calcular primas de seguros o tomar decisiones disciplinarias, estás en el ámbito de aplicación de este artículo y debes garantizar la intervención humana, el derecho de impugnación y una explicación comprensible de la lógica aplicada.
Derechos del interesado aplicados a sistemas de IA. Si un modelo de IA ha sido entrenado con datos de una persona, ¿puede esa persona ejercer su derecho de supresión? La respuesta técnica es compleja: los modelos no almacenan datos individuales como una base de datos relacional, sino que los "aprenden" como patrones estadísticos. Las autoridades de protección de datos europeas están aún definiendo cómo se materializan estos derechos en el contexto de los LLM, lo que genera incertidumbre regulatoria que debes monitorizar.
El AI Act europeo: qué obliga a hacer a las empresas en 2026
El AI Act clasifica los sistemas de IA en cuatro categorías de riesgo con obligaciones diferentes. Para la mayoría de las empresas que usan herramientas de IA de terceros, las categorías más relevantes son:
Sistemas de IA de riesgo inaceptable (prohibidos desde febrero de 2025): puntuación social generalizada, manipulación subliminal, explotación de vulnerabilidades de grupos específicos, reconocimiento de emociones en entornos laborales y educativos (con excepciones), e identificación biométrica remota en tiempo real en espacios públicos con fines policiales.
Sistemas de IA de alto riesgo (obligaciones desde agosto de 2026): IA en infraestructuras críticas, educación, empleo (selección, evaluación de rendimiento), servicios esenciales (crédito, seguros), aplicación de la ley, administración de justicia y gestión de la migración. Si tu empresa usa IA en alguno de estos ámbitos, debes implementar: sistemas de gestión de riesgos documentados, datos de entrenamiento de alta calidad, registro y trazabilidad, transparencia para los usuarios, supervisión humana efectiva, y robustez y ciberseguridad.
Sistemas de IA de propósito general (GPAI): los grandes modelos de lenguaje como GPT-4o, Claude 3.5 o Gemini 1.5 son GPAI. Sus proveedores tienen obligaciones directas bajo el AI Act (transparencia técnica, cumplimiento de derechos de autor, gestión de riesgos sistémicos para modelos con más de 10^25 FLOPs de entrenamiento). Como empresa usuaria, debes verificar que los proveedores que eliges cumplen estas obligaciones y exigir la documentación técnica correspondiente.
Los 5 vectores de riesgo más críticos al usar IA en la empresa
1. Filtración de datos confidenciales a través de prompts
El escenario más común y más fácilmente prevenible: un empleado introduce en el prompt de un LLM información que no debería salir de la organización. Contratos con clientes, datos financieros no públicos, código fuente propietario, información de salud de empleados o datos personales de clientes son categorías que aparecen regularmente en los logs de uso de herramientas de IA corporativas.
La solución técnica pasa por implementar una capa de Data Loss Prevention (DLP) que analice los prompts salientes antes de que lleguen a la API del proveedor. Herramientas como Microsoft Purview, Nightfall AI o soluciones específicas de AI Gateway como Portkey o LangFuse pueden detectar patrones que indiquen datos sensibles (números de DNI, IBAN, dirección de email, números de tarjeta, diagnósticos médicos) y bloquear o redactar automáticamente esa información antes de que salga de tu infraestructura.
2. Uso de datos de clientes para entrenar modelos sin base legal
Algunos proveedores de IA, especialmente en sus planes gratuitos o de bajo coste, incluyen en sus términos de servicio el derecho a usar las conversaciones para mejorar sus modelos. Esto convierte a la empresa usuaria en responsable de una transferencia de datos personales a un encargado del tratamiento que los usará con fines propios, lo que destruye la relación responsable-encargado del artículo 28 del RGPD y convierte al proveedor en corresponsable o incluso responsable autónomo.
La medida preventiva es doble: revisar siempre los términos de servicio y la Data Processing Agreement (DPA) antes de contratar cualquier herramienta de IA, y exigir contractualmente la política de cero retención de datos de entrenamiento (zero training data retention). OpenAI, Anthropic, Google y Microsoft la ofrecen en sus planes API y Enterprise respectivamente.
3. Transferencias internacionales sin garantías adecuadas
Enviar datos personales de ciudadanos europeos a un servidor en Estados Unidos, Canadá, India o cualquier otro país fuera del EEE sin las garantías del artículo 46 del RGPD es una infracción directa que puede acarrear multas de hasta 20 millones de euros o el 4% de la facturación mundial anual. El hecho de que "todo el mundo lo haga" no es una defensa válida ante la AEPD.
Para cubrir este riesgo, exige a tu proveedor el Data Processing Agreement con Cláusulas Contractuales Tipo (Standard Contractual Clauses, versión de 2021) firmadas, y verifica que el proveedor ha realizado una Evaluación de Impacto de la Transferencia (Transfer Impact Assessment, TIA) que concluye que las leyes del país de destino no menoscaban las garantías ofrecidas. Los grandes proveedores (Microsoft, Google, Amazon, OpenAI, Anthropic) disponen de estas garantías en sus planes empresariales; documenta que las tienes activas.
4. Shadow IT: empleados usando herramientas de IA no autorizadas
Según datos de Salesforce (2025), el 55% de los trabajadores del conocimiento en Europa usa al menos una herramienta de IA que no ha sido evaluada ni aprobada por su departamento de TI. Estas herramientas no están cubiertas por ningún DPA corporativo, no han pasado ninguna evaluación de seguridad y no están registradas en el Registro de Actividades de Tratamiento (RAT) de la empresa.
La solución no es solo técnica (listas blancas en el firewall o proxies de inspección de tráfico), sino también organizativa: publicar una política clara de uso aceptable de IA, crear un proceso ágil de aprobación de nuevas herramientas, y formar a los empleados sobre los riesgos. Las prohibiciones sin alternativas válidas no funcionan; lo que funciona es ofrecer herramientas aprobadas que satisfagan las necesidades reales de los usuarios.
5. Alucinaciones con datos reales y responsabilidad legal
Los modelos de lenguaje generan texto plausible, no necesariamente veraz. Cuando un LLM alucinan sobre datos de una persona real (inventa antecedentes, atribuye declaraciones, genera conclusiones erróneas sobre su historial médico o financiero), la empresa que ha desplegado ese sistema puede incurrir en responsabilidad por daños, violación del derecho al honor o difamación, además de las implicaciones bajo el artículo 22 del RGPD si la información errónea ha fundamentado una decisión automatizada.
La mitigación requiere diseño: nunca permitir que un LLM genere afirmaciones sobre personas reales sin verificación humana posterior, implementar sistemas RAG (Retrieval-Augmented Generation) que anclen las respuestas del modelo a fuentes de datos verificadas y auditables, y mantener registros de qué modelo generó qué output para poder auditar y corregir errores.
Cómo anonimizar y pseudonimizar datos antes de pasarlos a un LLM
La técnica más eficaz para reducir el riesgo de cumplimiento sin renunciar a la utilidad de los modelos de IA es reducir la identificabilidad de los datos antes de que salgan de tu infraestructura. El RGPD distingue entre dos enfoques con consecuencias legales muy diferentes:
Pseudonimización (artículo 4.5 RGPD): sustituir los identificadores directos (nombre, DNI, email, número de cuenta) por un seudónimo o código de referencia, de forma que los datos solo puedan reidentificarse con información adicional mantenida por separado y de forma segura. Los datos pseudonimizados siguen siendo datos personales bajo el RGPD, pero su tratamiento conlleva riesgos significativamente menores y puede ser suficiente para acceder a las bases legales de interés legítimo o de investigación. Herramientas como Microsoft Presidio (open source) o AWS Comprehend permiten detectar y reemplazar automáticamente entidades personales en texto antes de enviarlo a un LLM.
Anonimización (Considerando 26 RGPD): eliminación o transformación irreversible de los datos de forma que la reidentificación sea técnicamente imposible, incluso con información adicional. Los datos verdaderamente anonimizados quedan fuera del ámbito de aplicación del RGPD. En la práctica, la verdadera anonimización es difícil de conseguir para texto no estructurado, porque incluso sin nombre ni DNI, la combinación de edad, localidad, puesto de trabajo y circunstancias específicas puede identificar a una persona en una población pequeña (el llamado riesgo de reidentificación por agregación).
Para implementar un pipeline de pseudonimización antes de llamar a la API del LLM, el flujo básico es: (1) detectar entidades nombradas en el texto de entrada (NER: nombres, organizaciones, fechas, ubicaciones, números de referencia); (2) sustituirlas por tokens genéricos o seudónimos consistentes ("[PERSONA_1]", "[EMPRESA_A]", "[FECHA_2]"); (3) enviar el texto pseudonimizado al LLM; (4) recibir y almacenar la respuesta; (5) opcionalmente, reemplazar los tokens por los valores originales si la respuesta debe ser legible para el destinatario y si existe base legal para hacerlo.
Qué debes exigir a tu proveedor de IA antes de contratarlo
Esta es la lista de verificación que debes completar antes de integrar cualquier herramienta de IA en procesos que involucren datos personales de clientes, empleados o terceros:
- Data Processing Agreement (DPA) firmado que identifique expresamente al proveedor como encargado del tratamiento bajo el artículo 28 del RGPD, con las cláusulas mínimas requeridas.
- Cláusulas Contractuales Tipo (SCC) para transferencias fuera del EEE, versión de junio de 2021 de la Comisión Europea.
- Política de cero retención de datos de entrenamiento: los datos que envías no se usan para entrenar ni mejorar el modelo.
- Localización de los servidores: dónde se procesan y almacenan tus datos, incluyendo los sistemas de backup y los logs de uso.
- Registro de subencargados: lista de terceros a los que el proveedor puede subcontratar el tratamiento, con derecho a oponerte o ser notificado de cambios.
- Procedimiento de notificación de brechas de seguridad en plazo compatible con tu obligación de notificar a la AEPD en 72 horas.
- Mecanismo de ejercicio de derechos: cómo puedes atender solicitudes de acceso, rectificación o supresión de datos que estén en el sistema del proveedor.
- Certificaciones de seguridad: ISO 27001, SOC 2 Type II o equivalente, con informes de auditoría disponibles bajo NDA.
- Política de retención y eliminación de datos: plazos y procedimientos para borrado seguro al finalizar el contrato.
Tabla comparativa: principales herramientas de IA y cumplimiento RGPD 2026
| Proveedor / Producto | DPA disponible | Servidores en UE | Sin entrenamiento con tus datos | Nivel recomendado |
|---|---|---|---|---|
| OpenAI API (planes de pago) | ✅ DPA + SCC | ⚠️ EE.UU. + DPF | ✅ Por defecto en API | 🟡 Medio-alto |
| ChatGPT Enterprise | ✅ DPA + SCC | ⚠️ EE.UU. + DPF | ✅ Garantizado contractualmente | 🟡 Medio-alto |
| ChatGPT Free / Plus | ❌ No disponible | ❌ EE.UU. sin garantías SCC | ⚠️ Opt-out manual necesario | 🔴 No apto uso empresarial |
| Anthropic API (Claude) | ✅ DPA + SCC | ⚠️ EE.UU. + DPF | ✅ Por defecto en API | 🟡 Medio-alto |
| Azure OpenAI Service | ✅ DPA Microsoft + SCC | ✅ Regiones UE disponibles | ✅ Política explícita de no entrenamiento | 🟢 Alto |
| Google Vertex AI (Gemini) | ✅ DPA Google Cloud + SCC | ✅ Regiones UE disponibles | ✅ Garantizado en Vertex AI | 🟢 Alto |
| Amazon Bedrock (AWS) | ✅ DPA AWS + SCC | ✅ Regiones eu-west disponibles | ✅ Aislamiento de datos por cliente | 🟢 Alto |
| Modelos open source autoalojados (Llama 3, Mistral, Qwen) | ✅ Control total (no hay tercero) | ✅ Tu infraestructura | ✅ Sin transferencia de datos externa | 🟢 Máximo |
Plan de acción en 30 días para empresas que ya usan IA
Semana 1 — Inventario y auditoría. Identifica todas las herramientas de IA que se usan actualmente en tu organización, incluyendo las no autorizadas. Para cada una: documenta qué datos personales se procesan, si existe DPA firmado y si está incluida en tu Registro de Actividades de Tratamiento. Este inventario es el punto de partida de cualquier programa de cumplimiento.
Semana 2 — Clasificación y priorización de riesgos. Aplica una evaluación básica de riesgo a cada herramienta: ¿qué categoría de datos trata? (datos ordinarios, categorías especiales del artículo 9, datos de menores). ¿Toma o informa decisiones con efectos significativos sobre personas? ¿Existe DPA y SCC firmados? Las herramientas de alto riesgo sin DPA son las que debes resolver primero, ya sea migrando a una alternativa compliant o suspendiendo el uso hasta tenerlo todo en orden.
Semana 3 — Medidas técnicas y organizativas. Implementa las medidas de mitigación para las herramientas que vas a mantener: DPA firmado, política de no entrenamiento activada, pipeline de pseudonimización para datos sensibles, lista blanca de herramientas aprobadas y política de uso aceptable publicada y comunicada a todos los empleados.
Semana 4 — Documentación y gobernanza continua. Actualiza tu Registro de Actividades de Tratamiento para incluir todos los tratamientos de IA. Si alguno de los tratamientos implica alto riesgo para los derechos y libertades de las personas (decisiones automatizadas, tratamiento a gran escala de categorías especiales, monitorización sistemática), realiza o actualiza la Evaluación de Impacto de Protección de Datos (EIPD/DPIA) correspondiente. Establece un proceso de revisión trimestral para incorporar nuevas herramientas de forma controlada.
Preguntas frecuentes sobre privacidad de datos e IA en Europa
¿Es legal usar ChatGPT con datos de clientes en una empresa europea?
Depende de cómo se configure. En su versión estándar, ChatGPT puede usar las conversaciones para mejorar sus modelos, lo que constituye una transferencia de datos a un tercero fuera del EEE sin garantías adecuadas. ChatGPT Enterprise y la API de OpenAI con DPA firmado y política de no entrenamiento activada sí son configuraciones compatibles con el RGPD, siempre que el tratamiento tenga base legal adecuada y esté reflejado en tu Registro de Actividades de Tratamiento.
¿Qué es el AI Act europeo y cuándo entra en vigor para las empresas?
El AI Act (Reglamento UE 2024/1689) es la primera regulación integral sobre IA del mundo. Entró en vigor en agosto de 2024 con aplicación progresiva. Las prohibiciones de sistemas de riesgo inaceptable se aplican desde febrero de 2025; las obligaciones para sistemas de alto riesgo, desde agosto de 2026; el resto de disposiciones, desde agosto de 2027. Los grandes modelos de lenguaje como GPAI tienen obligaciones específicas de transparencia que sus proveedores deben cumplir, y tú como empresa usuaria debes poder documentar.
¿Necesita mi empresa un DPO para usar IA?
La obligación de designar un Delegado de Protección de Datos no depende directamente del uso de IA, sino de los criterios del artículo 37 del RGPD: organismos públicos, tratamientos a gran escala de categorías especiales o monitorización sistemática de personas. Sin embargo, si usas IA para tomar decisiones automatizadas con efectos significativos sobre personas (artículo 22) o procesas datos sensibles con IA a escala, la designación de un DPO es prácticamente obligatoria y siempre recomendable para gestionar el programa de cumplimiento.
¿Pueden los datos que introduzco en un LLM usarse para entrenar el modelo?
Depende del proveedor y del plan. Las APIs de OpenAI, Anthropic y Google con DPA firmado tienen por defecto política de cero retención de datos de entrenamiento. Las versiones de consumo gratuitas pueden usar los datos de la conversación para mejorar el modelo, salvo que el usuario opte por no participar. La regla de oro: si no hay DPA firmado con cláusula explícita de no entrenamiento, asume que tus datos pueden usarse para ese fin y no introduzcas datos personales ni confidenciales.
¿Qué diferencia hay entre pseudonimización y anonimización en el contexto del RGPD?
La pseudonimización sustituye identificadores directos por códigos, pero los datos siguen siendo datos personales porque la reidentificación es posible con la clave de correspondencia. La anonimización elimina de forma irreversible la posibilidad de reidentificación, sacando los datos del ámbito de aplicación del RGPD. En la práctica, la verdadera anonimización de texto no estructurado es muy difícil de garantizar. La pseudonimización es la técnica estándar para reducir el riesgo sin perder la utilidad de los datos en flujos de IA.