Base de LLMs de IA para documentacao e topologia de infraestrutura IT/OT

A maior parte dos dados de infraestrutura que acaba em pipelines de IA nunca foi pensada para estar ali.

Exports brutos de vendors, blobs JSON ad hoc e dumps de logs carregam ruido suficiente para que o treinamento nesses dados ensine um modelo principalmente a reproduzir o dialeto do vendor, e nao a raciocinar sobre infraestrutura, incluindo um risco potencial de carregar dados sensiveis como segredos. O OSIRIS JSON foi projetado para um proposito diferente, para ser:

portavel
neutro em relacao a vendors
normalizar dados de saida
snapshots de topologia padronizados e validados por schema

mas esse desenho acaba sendo exatamente o que o torna util como base de treinamento para LLMs de IA. As duas etapas do pipeline de LLM em que o OSIRIS JSON se encaixa de forma mais natural sao fine-tuning e instrucao.

O que o fine-tuning precisa dos dados

O fine-tuning adapta um modelo pretreinado a um dominio especifico. O sinal vem do corpus de treinamento: cada documento ensina ao modelo qual vocabulario e normal, quais estruturas aparecem juntas, quais relacoes sao validas e quais padroes se repetem.

Para que esse sinal seja util, os dados precisam ser consistentes. Um corpus de treinamento feito de exports brutos de Cisco NX-OS, templates Azure ARM e dumps de VMware vCenter nao ensina raciocinio sobre infraestrutura. Ele ensina tres dialetos de vendor separados. Um modelo treinado nessa mistura refletira essas inconsistencias de volta quando for solicitado a raciocinar atraves de fronteiras.

O OSIRIS JSON tenta remover esse problema no nivel do schema.

Todo documento OSIRIS JSON, independentemente de ter sido produzido a partir de um hyperscaler como uma conta AWS, de um fabric Arista on-premise ou de uma serie de switches Cisco Nexus, ou ainda de um fabric Nokia, compartilha a mesma estrutura externa: version, metadata e topology. Recursos sempre tem id, type e provider. Tipos de conexao seguem as mesmas convencoes de notacao por pontos. A semantica de grupos e consistente.

Um corpus de fine-tuning construido a partir de documentos OSIRIS pode treinar melhor um modelo LLM em conceitos de infraestrutura, e nao nos formatos de cada vendor, que podem eventualmente mudar ao longo do tempo conforme o vendor atualiza recursos. O modelo aprende que um network.firewall fica entre recursos network.switch e possui conexoes connectivity com os segmentos que protege. Aprende que uma topologia de aplicacao em tres camadas envolve de forma consistente um load balancer, recursos de computacao e um banco de dados da camada de aplicacao. Aprende como e uma relacao containment valida em contraste com uma dependency.

Esse e o tipo certo de conhecimento de dominio para especializar um modelo.

A estrutura de grafo e um sinal natural de treinamento

O OSIRIS JSON modela infraestrutura como um grafo explicito: recursos sao nos, conexoes sao arestas e grupos agrupam ambos em fronteiras logicas ou fisicas.

A estrutura de grafo e incomumente valiosa em dados de treinamento porque codifica relacionamentos explicitamente. Em texto nao estruturado, o modelo precisa inferir que um firewall esta a montante dos servidores que protege. Em um documento OSIRIS JSON, esse relacionamento e uma conexao tipada e direcional com source, target e type. O modelo nao precisa adivinhar, ele le uma estrutura que foi construida deliberadamente para expressar exatamente aquela topologia.

A taxonomia de tipos de conexao carrega sinal adicional. A diferenca entre uma conexao dependency e uma conexao containment e semantica, nao sintatica. Treinar em documentos que usam corretamente esses tipos ensina um modelo a distinguir relacionamentos funcionais de estruturais. Essa distincao importa quando se pede ao modelo para responder perguntas como:

o que quebra se este recurso sair do ar?
o que esta logicamente dentro desta amazon aws vpc?
voce pode mostrar o fluxo de trafego de todos os recursos dentro desta assinatura microsoft azure?

A taxonomia de tipos de recursos adiciona outra camada. A hierarquia por notacao de pontos (compute.vm, compute.vm.template, network.switch, storage.volume) fornece uma classificacao natural que um modelo ajustado por fine-tuning pode internalizar, generalizar e aplicar a recursos que nunca viu antes.

Por que a normalizacao importa para a qualidade do treinamento

A normalizacao de producers e uma das partes menos discutidas do OSIRIS JSON, mas tem impacto direto na qualidade dos dados de treinamento.

Antes que um documento OSIRIS JSON chegue ao corpus de fine-tuning, um producer ja:

mapeou tipos de recursos especificos de vendor para entradas padrao da taxonomia OSIRIS JSON
removeu credenciais, tokens e segredos por meio de redaction
resolveu identificadores duplicados ou conflitantes em IDs estaveis e deterministicas
serializou a topologia em uma saida consistente e ordenada

O resultado e que todo documento no corpus de treinamento fica estruturalmente limpo, com guardrails em vigor. Nao existem senhas ou segredos embutidos ensinando o modelo a associar credenciais a campos de topologia. Nao ha instabilidade de identificadores introduzindo ruido entre execucoes do mesmo ambiente. Nao ha propriedade especifica de vendor em conflito com a mesma propriedade nomeada de forma diferente por outro vendor.

Um corpus de fine-tuning construido a partir de documentos OSIRIS JSON validados por producer tem um piso de ruido incomumente baixo para um dominio tao heterogeneo quanto infraestrutura.

O que o alinhamento por instrucao precisa dos dados

O fine-tuning por instrucao trata de algo diferente. O objetivo nao e ensinar conhecimento de dominio, e ensinar o modelo a usar esse conhecimento em resposta a pedidos humanos. Esta e a etapa que melhora dramaticamente a usabilidade ao alinhar o comportamento do modelo com expectativas humanas, tornando-o mais util, confiavel e controlavel.

Documentos OSIRIS JSON sao artefatos ancorados. Eles descrevem uma infraestrutura especifica em um ponto especifico no tempo, validada contra um schema conhecido. Esse enraizamento e o que os torna uteis para construir pares de instrucao.

Um exemplo bem formado de instrucao combina uma pergunta em linguagem natural, um documento OSIRIS JSON como contexto e uma resposta correta derivada da topologia. Por exemplo:

Esta topologia tem um ponto unico de falha? O modelo le as conexoes, identifica recursos sem caminho redundante e responde com IDs de recursos especificos e raciocinio
O que seria afetado se o firewall perdesse seu uplink? O modelo percorre o grafo de conexoes para fora a partir do recurso relevante e lista os recursos dependentes
Resuma esta infraestrutura para uma revisao de arquitetura O modelo le tipos de recurso, contagens e a estrutura de grupos para produzir um resumo legivel por humanos
Gere um documento OSIRIS atualizado que adicione uma replica em standby ao banco de dados primario O modelo estende a topologia de forma valida em relacao ao schema
Gere uma topologia precisa da minha infraestrutura Microsoft Azure e documente-a em formato markdown Lendo um documento OSIRIS JSON, o modelo e capaz de criar uma topologia em formato draw.io ou mermaid (para visibilidade de alto nivel) junto com um documento markdown que resume a configuracao da infraestrutura em um ponto no tempo.

A propriedade chave aqui e a verificabilidade. Como o documento-fonte e validado por schema e a topologia e explicita, um revisor humano pode verificar se a resposta do modelo esta correta. Esse ciclo de feedback, em que avaliadores humanos podem de fato avaliar respostas do modelo contra uma verdade de referencia, e o que torna dados de instrucao uteis. E muito mais dificil construir pares de instrucao de qualidade para infraestrutura quando os dados-fonte sao ambiguos ou formatados de forma inconsistente.

A atribuicao de provider preserva rastreabilidade sem prender o modelo a vies de vendor

Uma decisao de projeto no OSIRIS JSON que importa para casos de uso de IA e a atribuicao de provider.

Os recursos carregam a informacao do provider de origem, AWS, Azure, Arista, Cisco, Nokia, HPE, mas a estrutura core permanece sempre neutra em relacao a vendors. Um modelo treinado em documentos OSIRIS JSON aprende a associar contexto de provider ao comportamento do recurso sem aprender que a linguagem de topologia core e especifica de provider.

Isso importa em especial para alinhamento por instrucao. Se um usuario pergunta que tipo de infraestrutura e esta? o modelo deve responder com base na topologia, e nao por reconhecer um formato de export especifico de vendor. A atribuicao de provider no OSIRIS JSON torna essa distincao explicita nos dados de treinamento em vez de deixar que o modelo a infira a partir de padroes lexicais.

Uma base estruturada para modelos LLM de IA conscientes de infraestrutura

A direcao para a qual isso aponta e a de LLMs de IA conscientes de infraestrutura, capazes de raciocinar sobre topologia, expor riscos, responder perguntas de arquitetura, ajudar na documentacao e propor mudancas fundamentadas em seus dados reais de inventario atualizados, e nao em conhecimento e documentacao vagos e genericos ou especificos de vendor sobre como a infraestrutura “normalmente” se parece.

O OSIRIS JSON nao e o unico ingrediente para isso. Mas, como formato de intercambio normalizado, validado por schema e deterministico, que producers em diferentes vendors e plataformas podem adotar, ele fornece algo que o pipeline de IA teria de construir do zero: uma linguagem estrutural consistente para infraestrutura.

Essa e a base OSIRIS JSON.

Leituras relacionadas

Autor do icone do banner Esri

OSIRIS JSON como base para fine-tuning e instrucao de LLMs de IA

Base de LLMs de IA para documentacao e topologia de infraestrutura IT/OT

O que o fine-tuning precisa dos dados

A estrutura de grafo e um sinal natural de treinamento

Por que a normalizacao importa para a qualidade do treinamento

O que o alinhamento por instrucao precisa dos dados

A atribuicao de provider preserva rastreabilidade sem prender o modelo a vies de vendor

Uma base estruturada para modelos LLM de IA conscientes de infraestrutura

Leituras relacionadas

Mais notícias

OSIRIS JSON para Microsoft Azure

OSIRIS JSON para Cisco APIC, NX-OS e IOS

O que se espera que um producer de OSIRIS JSON faca