janeiro 5, 2023
O que são dados sintéticos e como eles podem revolucionar o seu negócio
Entenda mais sobre uma das 10 tecnologias mais inovadoras de 2022 e como ela pode revolucionar o seu negócio.
Por Rodrigo Custódio — CEO da Muvz Tech
Apresentado como uma das 10 tecnologias mais inovadoras de 2022 pela MIT Technology Review, os dados sintéticos prometem acelerar os processos de inovação nas organizações.
Mas afinal, o que são dados sintéticos?
Synthetic data ou dados sintéticos são dados gerados artificialmente, sob demanda, no volume e variedade desejada, sem que haja grande quantidade de fenômenos ou eventos do mundo real. A partir de uma pequena amostra de dados reais, os dados sintéticos são gerados, refletindo o comportamento dos dados originais em termos estatísticos e matemáticos.
Quais dados podem ser gerados sinteticamente?
Qualquer dado pode ser gerado de forma sintética, sejam imagens, vídeos, voz, textos e números.
Para que servem?
Os dados sintéticos habilitam negócios a continuar desenvolvendo soluções inovadoras quando os dados reais necessários não estão disponíveis ou são insuficientes para validação de novos produtos, ferramentas, pesquisas ou treinamentos de inteligência artificial.
O que está por traz dos dados sintéticos?
O sucesso no uso dos dados sintéticos foi impulsionado pelas Redes Adversárias Generativas (GANs), que são arquiteturas de redes neurais profundas compostas por duas redes colocadas uma contra a outra (daí o nome “adversárias”). Esta é uma das arquiteturas mais recentes e mais fascinantes em Deep Learning. O potencial das GANs é enorme, porque elas podem aprender a imitar qualquer distribuição de dados. Ou seja, as GANs podem ser ensinadas a criar mundos estranhamente semelhantes aos nossos em qualquer domínio: imagens, música, fala, texto etc.
De onde os dados sintéticos surgiram?
Dados sintéticos não são uma ideia nova e, embora o conceito exista há décadas, ele foi utilizado comercialmente pela primeira vez em 2010 no setor de veículos autônomos, com o objetivo de deixar o veículo o mais seguro possível e evitar que ele saísse pelas ruas cometendo delitos. A inteligência dos automóveis foi treinada a reconhecer situações reais através de dados gerados sinteticamente.
Quem usa?
A tecnologia se disseminou com velocidade e empresas de diferentes setores já fazem uso de dados sintéticos, desde negócios da área da saúde, passando por finanças, telecomunicações, manufatura, varejo, investigação de crimes, entre outros.
A Amazon utiliza os dados sintéticos para treinar a sua assistente de voz Alexa e os sistemas de reconhecimento de imagem dos mercados inteligentes da Amazon Go.
O Google aplica a tecnologia na empresa de veículos autônomos Waymo, para simular situações reais que os automóveis enfrentarão no dia a dia.
A farmacêutica Roche aposta em dados sintéticos para aprimorar pesquisa clínicas, onde os dados dos pacientes são sensíveis.
A American Express e o JP Morgan, por sua vez, utilizam dados financeiros sintéticos para melhorar a prevenção e a detecção de fraudes.
As principais vantagens
Os dados sintéticos prometem transformar a economia dos dados nos próximos anos.
“Até 2024, 60% de todos os dados de treinamento de IA podem ser sintéticos, de acordo com o Gartner.”
E os principais motivos são:
Primeiro, com os dados sendo gerados sinteticamente não teremos mais problemas com a sua escassez. Afinal, para alimentar uma inteligência artificial a ponto de ela ser realmente eficaz ou “inteligente”, é preciso um volume muito grande de dados.
Além disso, é muito mais barato e rápido produzir dados sintéticos, do que coletar os dados reais, limpá-los e depois para depois trabalhar com eles. Para se ter uma ideia, uma imagem real pode valer até 6 dólares, enquanto um registro criado artificialmente sai por cerca de 6 centavos de dólar.
Uma outra vantagem é a privacidade, pois os dados sintéticos não envolvem informações pessoais de indivíduos, permitindo a criação de soluções sem violar a LGPD.
Outra vantagem importante, os dados sintéticos teoricamente tendem a ser menos enviesados, por serem gerados por softwares e não por humanos, que inconscientemente carregam preconceitos.
Por fim, essa tecnologia ajuda a democratizar o acesso a dados, permitindo que outras empresas se desenvolvam e concorram com as big techs, como Amazon, Google e Meta, que hoje detêm os dados de praticamente 100% da população e, justamente por isso, dominam o mercado.
Quais são os riscos?
Primeiro, os dados sintéticos podem gerar cenários não condizentes com a realidade e como resultado, chegarmos em uma IA menos “inteligente” do que uma IA gerada com dados reais.
Um segundo risco, dados sintéticos podem gerar situações que estão fora da realidade e assim, de alguma forma, gerar distorções da realidade. Um exemplo clássico disso: o modelo do carro autônomo aprende que se o sinal está verde, pode seguir. E por algum motivo, ele também aprende que se o sinal está azul, ele também pode seguir. Desta forma, por exemplo, se algum reflexo de sol bater na cor vermelha e o automóvel entender que é azul, ele seguirá causando um acidente.
Um mercado em forte ascensão
Segundo o Gartner, em 2024 mais de 60% de todos os dados utilizados para treinamentos de IA’s serão sintéticos.
De empresas que criam dados sintéticos às que gerenciam essas informações, há muitas oportunidades. Este mercado, porém, ainda deve levar um tempo para amadurecer, entre 3 e 5 anos, pelo menos, segundo a Tech Brew.
A empresa Cognilytica indicou que em 2027 os dados sintéticos devem integrar uma indústria avaliada em 1,15 bilhão de dólares. Em 2021, valia 110 milhões de dólares.
As big tech’s e fundos de investimento do setor também estão de olho neste mercado. Em 2021, a Meta adquiriu a startup de dados sintéticos Reverie. Em 2022, as startups Mostly.ai, Synthetaic e Datagen foram negociadas por 25 milhões, 17 milhões e 50 milhões de dólares, respectivamente.