Skip to main content
Artigo de Ivyna Alves, Cientista de Dados – Semantix

Introdução

Os dados formam a estrutura da inteligência artificial (IA), representando informações fundamentais que alimentam os algoritmos e modelos para a tomada de decisões e aprendizado.

Em seu sentido mais amplo, dados são conjuntos de informações coletadas e organizadas, podendo ser números, textos, imagens e outros formatos. Logo, a importância dos dados na inteligência artificial reside na sua capacidade de servir como matéria-prima para treinar e aprimorar modelos, permitindo que máquinas compreendam padrões, façam previsões e realizem tarefas complexas.

Portanto, dados são valores atribuídos a algo e esses valores não precisam ser necessariamente números, eles também podem ser, por exemplo, conceitos ou posições em um mapa, ou seja, dados podem ser medidos ou mensurados por meio de instrumentos, mas também podem ser atribuídos de forma arbitrária [2].

No entanto, no mundo real a obtenção de dados é um desafio complexo. A variedade de fontes e a quantidade massiva de informações disponíveis tornam a tarefa de coleta uma jornada intricada.

Além disso, a qualidade dos dados pode ser comprometida por erros, incompletude e até mesmo preconceitos. Dessa maneira, a presença de preconceitos nos dados é um fenômeno significativo, pois reflete as características e visões da sociedade que os produziu.

Esses preconceitos podem se manifestar como vieses nos conjuntos de dados, influenciando negativamente os resultados dos modelos de inteligência artificial. Portanto, o tratamento adequado dos dados torna-se essencial. Logo, o processo de limpeza e preparação dos dados é essencial para mitigar viéses e assegurar que as informações utilizadas pelos algoritmos sejam representativas e justas.

A conscientização sobre os desafios associados aos dados no mundo real, juntamente com um compromisso ético na manipulação e tratamento dessas informações, é crucial para garantir o desenvolvimento responsável e eficaz da IA.

De onde pode vir os dados?

Para o desenvolvimento de produtos de inteligência artificial, o volume e a diversidade de dados desempenham papéis cruciais, pois alimentam algoritmos com informações robustas e variadas, possibilitando a criação de modelos mais eficazes, adaptáveis e capazes de fornecer insights valiosos em diversos setores e cenários.

O equilíbrio entre o volume, a diversidade e a qualidade dos dados é um desafio constante na resolução de problemas complexos de IA.

A diversidade não apenas amplia a representatividade dos conjuntos de dados, mas também desafia os algoritmos a generalizarem de maneira mais eficaz em diferentes contextos. O valor da informação no mercado contemporâneo é inegável, uma vez que dados precisos e relevantes capacitam organizações a tomar decisões estratégicas informadas.

Uma das soluções utilizadas é usar fontes de dados abertos desempenha um papel significativo nas atividades de inteligência de dados, fornecendo informações valiosas e acessíveis para análise.

Essas fontes abertas podem abranger uma ampla gama de setores e tópicos, oferecendo insights que variam desde análise de mercado até prevenção de fraudes e segurança cibernética. Abaixo estão algumas categorias comuns de fontes de dados abertos que podem ser exploradas para atividades de inteligência de dados:

  • Dados governamentais: muitos governos disponibilizam dados abertos por meio de portais dedicados, oferecendo informações sobre orçamentos, estatísticas demográficas, registros de empresas, saúde e entre outros.
  • Redes sociais: plataformas como Twitter, Facebook e Instagram oferecem APIs que permitem a coleta de dados relacionados a tendências, opiniões públicas e atividades de usuários.
  • Economia e finanças: dados de transações financeiras, preços de ações e índices podem ser acessados por meio de APIs de bolsas de valores.
  • Plataforma de pesquisa acadêmica: plataformas que hospedam artigos acadêmicos e pesquisas científicas podem fornecer dados para análises especializadas em diversas áreas.

Ao utilizar essas fontes de dados abertos, é essencial considerar questões éticas, legais e de segurança, garantindo conformidade com regulamentações e direitos de privacidade. Além disso, a integração de diferentes fontes e a aplicação de técnicas avançadas de análise de dados podem potencializar os benefícios da inteligência de dados.

Ao considerar esses pontos, surge uma conclusão. Nem sempre as fontes de dados abertas suprem as necessidades. Logo, a exploração de dados sintéticos pode ser um recurso para se utilizar como solução.

Por que há necessidade de dados sintéticos?

Os dados gerados às vezes podem apresentar inconsistências ou não ter a qualidade desejada. Consequentemente, o pós-processamento, que envolve refinar e filtrar a saída, torna-se essencial.

Além disso, garantir a variabilidade e a riqueza dos dados sintéticos é fundamental, uma vez que demasiada uniformidade pode levar a um sobre ajuste quando os dados são utilizados para fins de aprendizagem automática.

Este processo de refinamento deve ter como objetivo eliminar quaisquer amostras redundantes ou não representativas que possam distorcer o processo de aprendizagem do modelo [4]. Logo a seguir tem-se alguns pontos que reforçam a utilização dos dados sintéticos:

  • Escassez de dados: o desafio da insuficiência de dados para treinar seu modelo? Esse dilema é uma realidade diária para especialistas em aprendizado de máquina em todo o mundo. Dado que a recolha e o processamento de dados estão entre os aspectos mais assustadores de toda a jornada de aprendizagem automática, a importância dos dados sintéticos não pode ser exagerada.
  • Privacidade e segurança de dados: os dados do mundo real geralmente contêm informações confidenciais. Para setores como saúde e finanças, existem regulamentações rigorosas sobre o uso de dados. Esses dados podem incluir cartões de crédito dos clientes, padrões de compra e doenças. Os dados sintéticos podem ser usados sem comprometer a privacidade, uma vez que não contêm informações individuais reais. [4]
  • Ambiente mais controlado de conteúdo: além do ponto da preservação da privacidade como citado acima, tem-se que no mundo real há dados com vieses e preconceitos e gerando-os, pode-se mitigar esse problema.

É possível criar dados artificialmente?

Fonte: Icons8

A criação de dados sintéticos com modelos de linguagem grandes (LLMs, como GPT-3, Llama) para o treinamento desses mesmos modelos é uma abordagem interessante com vantagens e desafios específicos.

Nesse contexto, é válido ressaltar o que significa LLMs. Sendo assim, são modelos gigantes, contendo bilhões, ou até trilhões, de parâmetros e de dados que são utilizados para “ensinar” os sistemas.

E essa é a diferença crucial entre LLMs e modelos convencionais, o tamanho do modelo. Com isso, permite que eles capturem nuances complexas da linguagem e entendam uma variedade incrivelmente ampla de tópicos [7].

Logo, gerar dados sintéticos refere-se à criação de dados fictícios que se assemelham aos dados reais, mas não representam informações reais de indivíduos ou situações específicas.

Esses dados são frequentemente usados para testes, simulações, desenvolvimento de algoritmos e análises estatísticas sem comprometer a privacidade ou a segurança das informações reais.

Ao usar dados sintéticos, é crucial garantir que os dados gerados estejam alinhados com as características e distribuição desejadas dos dados do mundo real.

Avaliar o desempenho do LLM em dados reais e sintéticos é essencial para validar a eficácia do processo de formação. Além disso, combinar dados sintéticos com dados reais de forma equilibrada e significativa pode melhorar o desempenho e a generalização do LLM [3]. 

Vantagens:

  • Ampliação de dados de treinamento: a geração de dados sintéticos permite a expansão do conjunto de dados de treinamento disponível, o que pode ser crucial para melhorar o desempenho do modelo, especialmente quando há restrições na quantidade de dados reais disponíveis.
  • Diversificação do conjunto de dados: a capacidade de criar dados sintéticos oferece a oportunidade de diversificar o conjunto de treinamento, expondo o modelo a uma variedade maior de contextos, estilos de linguagem e tópicos.
  • Criação de cenários específicos: os dados sintéticos permitem a criação de cenários específicos que podem ser difíceis de encontrar ou reproduzir na vida real. Isso é particularmente útil para treinar modelos em situações extremas ou incomuns.
  • Controlar qualidade dos dados: ao criar dados sintéticos, os rótulos e a qualidade dos dados podem ser controlados com precisão, permitindo treinamento supervisionado mais eficiente e aprimoramento de tarefas específicas.
  • Agilidade para criar volume de dados: para os desenvolvedores, a IA generativa pode agilizar o processo de escrita, verificação, implementação e otimização de código. [6]

Desvantagens:

  • Desafios na representação do mundo real: modelos de linguagem podem ter dificuldades em gerar dados sintéticos que representem com precisão o mundo real, especialmente em contextos complexos ou situações não convencionais.
  • Viés na geração de dados: modelos de linguagem aprendem a partir dos dados de treinamento fornecidos, e se esses dados sintéticos introduzirem viés, o modelo também pode reproduzi-lo, gerando resultados tendenciosos.
  • Dificuldade na captura de nuances subjetivas: alguns aspectos da linguagem, como nuances subjetivas, sarcasmo ou ironia, podem ser desafiadores para os modelos de linguagem capturarem corretamente, mesmo na geração de dados sintéticos.
  • Risco de overfitting: dependendo da complexidade da tarefa e da qualidade dos dados sintéticos, há o risco de os modelos se ajustarem demais (overfitting) aos padrões específicos dos dados sintéticos, comprometendo sua capacidade de generalização.
  • Consumo computacional: a geração de grandes conjuntos de dados sintéticos e o treinamento subsequente podem exigir recursos computacionais significativos, aumentando os custos associados ao desenvolvimento e manutenção de modelos.

A geração de dados sintéticos para treinamento de LLMs é uma técnica poderosa, mas requer uma abordagem cuidadosa para mitigar os desafios e garantir que o modelo resultante seja robusto, justo e capaz de generalizar para dados do mundo real.

Algo importante analisar é a qualidade do conjunto de dados gerado e o impacto direto na eficácia, precisão e utilidade do LLM em uma ampla variedade de cenários e aplicações. Portanto, ao treinar um LLM, é essencial utilizar um conjunto de dados de alta qualidade e considerar as características específicas do caso de uso desejado.

Dados sintéticos e LLMs

Ao pensar em realizar atividades de treinamento de LLMs com dados sintéticos gerado por LLMs pode ser algo confuso e impulsionar diversos pensamentos sobre a performance do modelo.

Pode ser até repetitivo e pensar que o modelo terá comportamento enviesado, pois está sendo treinado com o próprio corpus de dados que ele já tem conhecimento.

Assim, ao utilizar LLMs para gerar dados sintéticos, pode-se impulsionar o treinamento de modelos em tarefas específicas, aprimorando sua capacidade de compreensão e adaptação à nuances da linguagem e contextos variados.

Esse processo não só otimiza a eficácia dos modelos, mas também promove a inovação ao expandir suas capacidades de resolução de problemas complexos.

Dessa forma, atividades de fine-tuning pode ser uma metodologia interessante, pois ao combinar a produção de um grande volume de dados para uma área específica e treinar um modelo especializado.

Já que, como o explorado anteriormente, na maioria dos casos é difícil reunir um grande volume de dados para tarefas específicas. Logo, associar os dados gerados para treinar LLMs é uma abordagem que faz sentido nessa solução.

Conclusão

Diante dos fatores abordados, o volume exponencial de dados disponíveis é uma ferramenta poderosa para o desenvolvimento de produtos de inteligência artificial, pois a ampla gama de informações provenientes de diversas fontes contribui para a diversidade de dados, fornecendo uma riqueza de perspectivas que enriquecem os modelos de IA.

Portanto, pode-se observar que os dados são matéria-prima de uma IA assertiva. No entanto, pontos importantes para desenvolvê-la é analisar a qualidade e o volume dos dados.

Dessa forma, soluções como criar dados artificialmente se torna um recurso interessante para usar nesses casos, devido ao controle e segurança que empregado, principalmente quando se trata de treinamento como o fine-tuning com LLM, pois necessitam de grandes volumes de dados para obter resultados assertivos.

É válido ressaltar que essa abordagem não apenas supera desafios relacionados à escassez ou privacidade dos dados, mas também abre portas para a criação de conjuntos de dados mais diversificados e abrangentes.

Logo, é fundamental manter uma vigilância ética durante todo o processo, garantindo a transparência e a responsabilidade no uso desses dados gerados sinteticamente para garantir que a inteligência artificial contribua positivamente para a sociedade.

Referências
[1] https://www.ime.usp.br/~vwsetzer/datagrama.html
[2] https://escoladedados.org/tutoriais/o-que-sao-dados/
[3] https://medium.com/@rtales/generating-synthetic-data-for-training-llms-8a5b48cce7db
[4] https://www.packtpub.com/article-hub/generating-synthetic-data-with-llms
[5] https://arxiv.org/pdf/2305.15041.pdf
[6] https://www.elastic.co/pt/what-is/generative-ai

[7] https://futurorelativo.com.br/o-que-e-llm-entenda/

Leave a Reply