Muitos executivos e investidores assumem que é possível usar os dados do cliente para obter vantagem competitiva imbatível. Quanto mais clientes você tiver, mais dados poderá coletar, e esses dados, quando analisados com ferramentas de aprendizado de máquina, permitem oferecer um produto melhor que atrai mais clientes. Você coletará ainda mais dados e, eventualmente, poderá marginalizar concorrentes da mesma forma que fazem as empresas com grande efeito de rede. Essa é a teoria. Mas, na maior parte dos casos, ela está errada, e as pessoas superestimam a vantagem conferida pelos dados.
O aprendizado baseado em dados e o efeito de rede — no qual um serviço, como uma plataforma de mídia social, se torna mais valioso conforme as pessoas aderem, e exclui os concorrentes ao reunir uma massa crítica de usuários — geram ciclos virtuosos parecidos. Mas, na prática, o efeito de rede dura mais e tende a ser mais eficaz. Para buscar a melhor posição competitiva, você precisa dele e do aprendizado baseado em dados. No entanto, poucas empresas conseguem desenvolver os dois. Mesmo assim, nas condições certas, os dados gerados pelos clientes podem ajudá-lo a criar defesas competitivas, mesmo que os efeitos de rede não estejam presentes. Neste artigo, mostraremos quais são essas condições e explicaremos como avaliar se elas se aplicam à sua empresa.
O QUE MUDOU?
As empresas baseadas em dados existem há muito tempo. Veja, por exemplo, as agências de crédito e agregadores de informações como Lexis-Nexis, Thomson Reuters e Bloomberg. Essas empresas são protegidas por barreiras de entrada significativas graças à economia de escala proporcionada pela aquisição e estruturação de grandes quantidades de dados, mas seus modelos de negócio não envolvem coleta e mineração de dados de clientes para aprimorar os serviços.
Reunir informações de clientes e usá-las para criar melhores produtos e serviços é uma estratégia milenar, mas o processo costumava ser lento, de escopo limitado e difícil de ser escalado. Para montadoras, empresas de bens de consumo embalados e muitos outros fabricantes tradicionais, isso implicava processar grandes quantidades de dados de vendas, fazer pesquisas com clientes e conduzir grupos focais. Mas os dados de venda geralmente não estavam vinculados a clientes individuais e, como as pesquisas e os grupos focais eram caros e demorados, apenas os dados de um número relativamente pequeno de clientes eram coletados.
Isso mudou drasticamente com o advento da nuvem e das novas tecnologias que permitem que empresas compreendam e processem rapidamente grandes quantidades de dados. Agora, produtos e serviços conectados à internet coletam diretamente informações sobre os clientes, inclusive dados pessoais, comportamento de pesquisa, opções de conteúdo, comunicações, publicações nas mídias sociais, localização do GPS e padrões de uso. Depois que os algoritmos de aprendizado de máquina analisam esse “escapamento digital”, os produtos e serviços da empresa podem ser ajustados automaticamente para refletir essas descobertas ou mesmo personalizados para cada indivíduo.
Esses avanços tornam o aprendizado baseado em dados muito mais poderoso do que os insights sobre os clientes obtidos pelas empresas no passado. No entanto, não garantem barreiras defensáveis.
A CONSTRUÇÃO DE “FOSSOS” COM APRENDIZAGEM HABILITADA POR DADOS
Com o objetivo de determinar o grau de sustentabilidade de determinada vantagem competitiva proporcionada pelo aprendizado baseado em dados, as empresas devem responder a sete perguntas:
1. Quanto valor é adicionado pelos dados do cliente em relação ao valor do produto ou serviço por si só? Quanto maior o valor agregado, maior é a probabilidade de criar vantagem duradoura. Considere uma empresa cujos dados do cliente têm valor elevado: a Mobileye, fornecedora líder de sistemas avançados de assistência ao motorista (ADAS) que alertam quando há risco de colisão ou quando o veículo sai da faixa. A Mobileye vende seus sistemas para fabricantes de automóveis que os testam exaustivamente antes de incorporá-los a seus produtos. É crucial que os sistemas sejam à prova de falhas, e os dados dos testes são essenciais para aumentar o grau de precisão. Com os dados de dezenas de clientes, a Mobileye conseguiu aumentar a precisão de seu ADAS para 99,99%.
Por outro lado, para os fabricantes de televisores inteligentes, aprender com os clientes tem valor relativamente baixo. Agora, alguns aparelhos incluem software que fornece recomendações personalizadas para programas ou filmes com base nos hábitos de visualização do indivíduo e no que é popular entre outros usuários. Por enquanto, os consumidores não ligam muito para esse recurso (oferecido também por provedores de serviços de streaming como Amazon e Netflix). Em suas decisões de compra, eles consideram sobretudo o tamanho do aparelho, a qualidade da imagem, a facilidade de uso e a durabilidade. Se o fator aprendizado dos clientes fosse relevante, o negócio de TVs inteligentes seria talvez menos competitivo.
2. Com que velocidade diminui o valor marginal do aprendizado baseado em dados? Em outras palavras, em quanto tempo a empresa chega a um ponto em que dados adicionais de clientes já não aumentam o valor de um produto ou serviço? Quanto mais devagar diminui o valor marginal, mais forte é a barreira. Observe que, ao responder a esta pergunta, você deve avaliar o valor do aprendizado pela disposição dos clientes em pagar e não por alguma outra medida específica do aplicativo, como a porcentagem de consultas de bots de bate-papo respondidas corretamente ou a proporção de vezes em que uma recomendação de filme foi clicada.
Digamos que você tenha representado graficamente a precisão do ADAS da Mobileye com base no uso do cliente (total de quilômetros percorridos pelos fabricantes de automóveis que o testam) e constatou que alguns fabricantes e um número moderado de testes seriam suficientes para atingir, digamos, 90% de precisão — mas fosse necessário um número muito maior de testes com um conjunto maior de fabricantes de automóveis para chegar a 99%, que dirá 99,99%. Interpretar isso como uma rápida diminuição no valor marginal dos dados do cliente seria, é claro, incorreto: o valor da melhoria adicional de 9 pontos percentuais (ou mesmo 0,99 ponto) na precisão permanece extremamente alto, uma vez que implica salvar vidas. Seria difícil para qualquer fabricante de automóveis — até mesmo o maior — gerar a quantidade necessária de dados por conta própria ou para qualquer potencial concorrente da Mobileye replicar os dados. É por isso que
a Mobileye conseguiu dominar o mercado de ADAS, tornando-o uma aquisição altamente atraente para a Intel, que o comprou por US$ 15 bilhões em 2017.
Quando o valor marginal do aprendizado com os dados do cliente permanece alto, mesmo após a aquisição de uma enorme base de clientes, os produtos e serviços tendem a ter expressivas vantagens competitivas. É o caso dos sistemas projetados para prever doenças raras (como os oferecidos pelo RDMD) e mecanismos de pesquisa online, como Baidu e Google. Embora a Microsoft tivesse investido muitos anos e bilhões de dólares no Bing, não conseguiu abalar o domínio da Google em número de buscas. Os mecanismos de pesquisa e os sistemas de previsão de doenças precisam de grandes quantidades de dados do usuário para fornecer resultados consistentemente confiáveis.
Um contraexemplo de um negócio cujo valor marginal dos dados do usuário diminui rapidamente são os termostatos inteligentes. Esses produtos precisam de apenas alguns dias para conhecer as preferências de temperatura dos usuários ao longo de um dia. Neste contexto, o aprendizado baseado em dados não oferece muitas vantagens competitivas. Embora tenha lançado em 2011 os primeiros termostatos inteligentes que aprendem com os hábitos do cliente, a Nest (adquirida pela Google em 2014) agora enfrenta concorrência acirrada com a Ecobee e com a Honeywell.
3. Qual é a velocidade de depreciação dos dados do usuário? Se os dados logo se tornam obsoletos, é mais fácil para um concorrente entrar no mercado, porque ele não precisará equiparar os anos de aprendizado aos dados da empresa existente — desde que todo o resto seja mantido inalterado.
Todos os dados de fabricantes de automóveis que a Mobileye acumulou ao longo dos anos continuam valiosos nas versões atuais de seus produtos. O mesmo acontece com os dados dos usuários dos mecanismos de pesquisa que a Google coletou ao longo de décadas. Embora, com o tempo, as pesquisas por algumas palavras-chave possam se tornar raras à medida que começam a aparecer com mais frequência pesquisas por termos novos, ter um longo histórico de pesquisas é de valor inestimável para atender aos usuários de hoje. A baixa taxa de depreciação de seus dados ajuda a explicar por que o Mobileye e a Pesquisa Google provaram-se altamente resilientes.
Nos jogos sociais casuais para computadores e dispositivos móveis, no entanto, o valor do aprendizado com os dados do usuário tende a diminuir rapidamente. Em 2009, esse mercado decolou quando a Zynga lançou seu bem-sucedido jogo FarmVille. Embora a empresa fosse famosa por se apoiar fortemente em analytics de dados do usuário para tomar decisões de design, as informações aprendidas em jogos não eram totalmente transferíveis para o seguinte: jogos sociais informais estão sujeitos a modismos, e as preferências do usuário mudam rapidamente com o tempo, e tudo isso dificulta a criação de vantagens competitivas sustentáveis baseadas em dados. Após mais alguns sucessos, incluindo FarmVille 2 e CityVille, a Zynga parou de produzir novos hits e, em 2013, perdeu quase metade de sua base de usuários. Foi substituída por criadores de jogos como Supercell (Clash of Clans) e Epic Games (Fortnite). Depois de atingir o pico de US$ 10,4 bilhões em 2012, o valor de mercado da Zynga ficou abaixo de US$ 4 bilhões em grande parte dos seis anos seguintes.
4. Os dados são proprietários — o que significa que não podem ser comprados de outras fontes, facilmente copiados ou obtidos por engenharia reversa? Ter dados exclusivos de clientes com pouca ou nenhuma substituição possível é crítico para criar uma barreira defensável. A Adaviv, startup na área de Boston na qual investimos, oferece um sistema de gestão de safras que permite aos produtores (a maioria deles de Cannabis) monitorar continuamente plantas individuais. O sistema conta com IA, software de visão computacional e uma técnica proprietária de anotação de dados para rastrear biometrias de plantas invisíveis ao olho humano, como sinais precoces de doença ou falta de nutrientes adequados. Os dados são convertidos em insights que os produtores podem usar para evitar surtos de doenças e melhorar o rendimento. Quanto mais produtores a Adaviv atende, maior é a variedade de plantas, melhores são as condições agrícolas e outros fatores propícios ao aprendizado e maior é a precisão de suas previsões para clientes futuros e atuais. Compare essa situação com a dos fornecedores de filtro de spam, que podem adquirir dados do usuário de forma relativamente barata. Isso ajuda a explicar a existência de dezenas desses provedores.
É importante lembrar que o progresso tecnológico pode prejudicar uma posição baseada em dados exclusivos ou proprietários. Um exemplo é o software de reconhecimento de voz. Historicamente, os usuários precisavam treinar o software para identificar vozes e padrões de fala, e quanto mais uma pessoa o usava, mais preciso ele se tornava. Por muitos anos, esse mercado foi dominado pelas soluções Dragon da Nuance. No entanto, na última década, os sistemas de reconhecimento de voz melhoraram rapidamente e de forma independente do orador. Esses sistemas podem ser aprimorados com conjuntos de dados de voz disponíveis ao público e levar pouco tempo ou tempo nenhum para aprender a reconhecer a voz de novos oradores. Esses avanços permitiram que muitas empresas fornecessem novos aplicativos de reconhecimento de voz (atendimento telefônico automatizado, serviços de transcrição automática de reuniões, assistentes virtuais) e acirrassem a competição com a Nuance em seus principais mercados.
5. Quão difícil é replicar as melhorias de produtos baseadas nos dados do cliente? Mesmo quando os dados são únicos ou proprietários e produzem informações valiosas, é difícil criar uma vantagem competitiva durável se as melhorias resultantes podem ser copiadas por concorrentes desprovidos de dados semelhantes.
Alguns fatores afetam a capacidade das empresas de superar esse desafio. Um é se as melhorias estão ocultas ou profundamente embutidas em algum processo de produção complexo, tornando-as difíceis de replicar. O Pandora, serviço de streaming de música, se beneficia dessa barreira. Seu serviço alavancou o Music Genome Project, com dados proprietários, que categorizou milhões de músicas com base em cerca de 450 atributos, permitindo que o Pandora personalizasse estações de rádio de acordo com as preferências de usuários individuais. Conforme o usuário ouve suas estações e classifica as músicas positiva ou negativamente, melhor o Pandora personaliza as seleções musicais para ele. A personalização não pode ser facilmente imitada por qualquer concorrente, porque está profundamente ligada ao Projeto Genoma da Música. Por outro lado, os aprimoramentos de design baseados em conhecimento obtido de clientes de muitos produtos de software de produtividade — como o Calendly, que coordena calendários, e o Doodle, que facilita o processo de agendamento de reuniões — podem ser facilmente copiados. É por isso que dezenas de empresas oferecem softwares semelhantes.
O segundo fator é a rapidez com que os insights dos dados do cliente são alterados. Quanto mais rápido isso acontece, mais difícil é para os outros imitarem. Por exemplo, muitos recursos de design da interface do Google Maps podem ser facilmente copiados (e foram, pelo Apple Maps, entre outros). Mas uma parte essencial do valor do Google Maps é sua capacidade de prever o tráfego e recomendar rotas alternativas, o que é muito mais difícil de copiar, porque o aplicativo utiliza dados em tempo real do usuário que se tornam obsoletos em questão de minutos. Apenas empresas com bases igualmente grandes de usuários (como a Apple nos Estados Unidos) poderiam replicar esse recurso. O Apple Maps está alcançando o Google Maps nos Estados Unidos, mas não em países onde a Apple possui uma base de usuários relativamente pequena.
6. Dados de um usuário ajudam a melhorar o produto apenas para ele ou também para os demais? Idealmente farão as duas coisas, mas a diferença entre ambas é importante. Quando os dados de um usuário melhoram o produto para ele especificamente, a empresa pode personalizá-lo, criando custos de troca. Quando os dados de um usuário aprimoram o produto para outros usuários, isso pode criar efeitos de rede — o que não será feito necessariamente. Ambos os tipos de aprimoramento ajudam a construir uma barreira de entrada, mas o primeiro torna os clientes existentes muito fiéis, enquanto o segundo fornece uma vantagem importante na competição por novos clientes.
Por exemplo, a Pandora foi o primeiro grande ator do streaming de música digital, mas depois ficou atrás da Spotify e da Apple Music, que ainda crescem. Como observamos, o principal argumento de venda da Pandora é a personalização de estações de acordo com o gosto do usuário. Porém, o aprendizado entre os usuários é muito limitado: os votos positivos ou negativos de um usuário permitem que a Pandora identifique características das músicas preferidas do usuário e forneça a essa pessoa músicas com essas características. Já a Spotify optou por fornecer aos usuários recursos de compartilhamento e descoberta, como a possibilidade de pesquisar e ouvir estações de outras pessoas, criando efeitos diretos na rede e atraindo clientes adicionais. O serviço da Pandora permanece disponível apenas nos Estados Unidos (onde possui uma base de usuários fiéis), enquanto o Spotify e a Apple Music se tornaram atores globais. E embora a Pandora tenha sido adquirida pela Sirius XM por US$ 3,5 bilhões em fevereiro de 2019, o Spotify abriu capital em abril de 2018 e, no início de novembro de 2019, valia US$ 26 bilhões. Claramente, a personalização baseada no aprendizado de dados de usuário individual ajuda a manter os clientes existentes, mas não leva ao crescimento exponencial que os efeitos de rede produzem.
7. Com que velocidade os insights dos dados de usuário podem ser incorporados aos produtos? Ciclos rápidos de aprendizado afastam os concorrentes, especialmente se vários ciclos de melhoria de produto ocorrerem durante o contrato do cliente médio. Mas quando leva anos ou gerações sucessivas de produtos para implementar melhorias com base nos dados, os concorrentes têm mais chance de, nesse ínterim, inovar e começar a coletar seus próprios dados de usuário. Portanto, a vantagem competitiva dos dados do cliente é mais forte quando o aprendizado dos clientes atuais se traduz em aprimoramentos mais frequentes do produto para os mesmos clientes do que apenas para futuros clientes do produto ou serviço. Vários dos exemplos de produtos que já discutimos — mapas, mecanismos de pesquisa e sistemas de gestão de safra baseados em IA — podem ser atualizados com rapidez para ser integrados ao aprendizado dos clientes atuais.
Um contraexemplo são os credores diretos online, como LendUp e LendingPoint, que aprendem a tomar melhores decisões de empréstimo examinando o histórico de pagamentos do usuário e relacionando esse histórico com o perfil e com os hábitos dessa pessoa. Neste caso, o único aprendizado relevante para atuais tomadores de empréstimo é o dos anteriores, que já se reflete nos contratos e taxas oferecidos aos tomadores atuais. Para estes, não há motivo de preocupação com qualquer aprendizado futuro do qual o credor possa se beneficiar, já que os contratos existentes não serão afetados. Por esse motivo, ao decidirem se devem fazer um empréstimo de um credor específico, os clientes não se preocupam com o número de futuros postulantes. Os existentes talvez prefiram transacionar com seus credores atuais, que os conhecem melhor do que outros credores, mas o mercado para novos devedores permanece muito competitivo.
OS DADOS CRIAM EFEITOS DA REDE?
As respostas às perguntas 6 e 7 indicam se o aprendizado ativado por dados criará verdadeiro efeito de rede. Quando o aprendizado de um cliente se traduz em uma experiência melhor para outros e também pode ser incorporado a um produto com rapidez suficiente para beneficiar seus usuários atuais, os clientes se importarão com o número de pessoas que adotam o produto. O mecanismo em ação aqui é muito semelhante aos efeitos de rede subjacentes das plataformas online. A diferença é que os usuários de plataformas preferem ingressar em redes maiores porque desejam que mais pessoas interajam, não porque mais usuários geram mais insights que melhoram os produtos.
Vejamos novamente o Google Maps. Em parte, os motoristas o utilizam porque esperam que muitos outros também o utilizem, e quanto mais dados de tráfego o software coletar deles, melhores serão suas previsões sobre as condições das estradas e o tempo das viagens. O Google Search e o sistema de gestão de safra baseado em IA do Adaviv também se beneficiam do efeito de rede ativado por dados.
Assim como os efeitos de rede tradicionais, aqueles que são habilitados por dados podem criar barreiras à entrada. Ambos os tipos de efeito apresentam um enorme desafio de partida a frio, do tipo o ovo ou a galinha: empresas com o objetivo de criar efeitos normais de rede precisam atrair um número mínimo de usuários para fazer com que esses efeitos comecem, e aquelas com o objetivo de conseguir um efeito de rede habilitado por dados precisam de uma boa quantidade inicial de dados para iniciar o ciclo virtuoso de aprendizado.
Apesar dessas semelhanças, os efeitos normais de rede e os efeitos de rede habilitados por dados têm diferenças fundamentais, e a tendência é que as vantagens baseadas nos efeitos normais sejam maiores. Primeiro, o problema de partida a frio geralmente é menos grave nos efeitos de rede habilitados por dados, porque a compra de dados é mais fácil do que a compra de clientes. Muitas vezes, fontes alternativas de dados, mesmo que não sejam perfeitas, podem nivelar significativamente o campo, removendo a necessidade de uma grande base de clientes.
Segundo, para produzir efeitos de rede habilitados por dados que sejam duradouros, a empresa precisa trabalhar constantemente para aprender com os dados do cliente. Por outro lado, como o cofundador da Intuit, Scott Cook, costuma dizer, “enquanto eu durmo os produtos que se beneficiam dos efeitos de rede [normais] ficam melhores”. Com efeitos normais de rede, as interações entre clientes (e possivelmente com fornecedores terceirizados de serviços complementares) criam valor mesmo que a plataforma pare de inovar. Mesmo que uma nova rede social oferecesse aos usuários recursos melhores que os do Facebook (por exemplo, melhor proteção de privacidade), ainda teria de combater os poderosos efeitos de rede do Facebook — os usuários querem estar na mesma plataforma social que a maioria dos demais usuários.
Terceiro, em muitos casos quase todos os benefícios de aprender com os dados do cliente podem ser alcançados com um número relativamente baixo de clientes. E em alguns aplicativos (como reconhecimento de voz), melhorias drásticas na IA reduzirão a necessidade de dados do cliente a ponto de eliminar por completo o valor do aprendizado habilitado por dados. Efeitos normais de rede, por outro lado, são mais amplos e resilientes: um cliente adicional ainda aprimora o valor para os clientes existentes (que podem interagir ou fazer transações com ele), mesmo quando o número de clientes existentes já é grande.
Mesmo quando produtos de consumo triviais se tornam inteligentes e conectados — novos tipos de vestuário, por exemplo, respondem às condições climáticas e medem quilometragem e sinais vitais —, o aprendizado habilitado por dados será usado para aprimorar e personalizar um número crescente de produtos e serviços. No entanto, seus fornecedores só criarão posições competitivas fortes se o valor agregado dos dados do cliente for alto e duradouro, os dados sejam proprietários e levem a melhorias de produto difíceis de copiar, ou o aprendizado ativado por dados crie efeitos de rede.
Nas próximas décadas, melhorar as ofertas com dados do cliente será um pré-requisito para permanecer na disputa e poderá dar aos atores existentes uma vantagem sobre os novos participantes. Mas, na maioria dos casos, não faz com que o vencedor fique com todos os prêmios. Em vez disso, as empresas mais valiosas e poderosas do futuro próximo
serão construídas com efeitos normais de rede e aprimoradas pelo aprendizado baseado em dados, como os mercados da Alibaba e da Amazon, a App Store da Apple e as redes sociais da Facebook.
ANDREI HAGIU é professor associado de sistemas de informação na Questrom School of Business da Boston University.
JULIAN WRIGHT é professor de economia na National University of Singapore.
Fonte HBR