A IA generativa está coletando seus dados. Então, e agora?

Views: 179
0 0
Read Time:5 Minute, 26 Second

Não há como negar que o ChatGPT e outros modelos generativos de IA são uma faca de dois gumes: embora possam agregar grande valor no aumento da produtividade e automação dos negócios, eles acarretam sérios riscos, especialmente no que diz respeito à privacidade de conteúdo e dados. Considere o seguinte: e se todo o seu modelo de negócios for baseado em conteúdo e o sucesso for baseado no valor consistente, na visibilidade e na acessibilidade do seu conteúdo para o número máximo possível de “visitantes únicos”? Entre no debate em torno da raspagem de conteúdo.

O lado bom da raspagem de conteúdo

O processo de raspagem de conteúdo (ou Web) usa bots para capturar e armazenar conteúdo. Existem benefícios definitivos do Web scraping. Se usado junto com o aprendizado de máquina, pode ajudar a reduzir o viés das notícias , reunindo grandes quantidades de dados e informações de sites e aproveitando os recursos de aprendizado de máquina para avaliar a precisão do conteúdo, bem como o tom.

As técnicas de extração de conteúdo também podem agregar informações rapidamente, economizando custos ao aproveitar a automação para reduzir o tempo de extração de dados e a dependência de humanos para realizar a tarefa. No entanto, também existem riscos significativos.

O lado ruim da extração de conteúdo

Um desses riscos ficou evidente quando começamos a trabalhar com um site de comércio eletrônico global. Descobrimos que incríveis 75% do tráfego do site foi gerado por bots , a maioria dos quais eram bots de scraping. Os bots copiaram dados que poderiam ser vendidos na Dark Web ou usados ​​de formas potencialmente nefastas, como a criação de identidades falsas ou a promoção de desinformação ou desinformação.

Outro exemplo são os falsos “Googlebots” – bots raspadores que são particularmente perigosos e causam danos significativos porque evitam a detecção em sites, aplicativos móveis e interfaces de programação de aplicativos (APIs), disfarçando-se de rastreadores amigáveis ​​​​ao SEO. Sabendo que os sites precisam de uma boa classificação no Google, os agentes de ameaças oportunistas desenvolvem bots que se assemelham aos Googlebots, mas realizam atividades maliciosas assim que têm acesso aos sites, aplicativos ou APIs.

A área cinzenta intermediária

O ChatGPT é treinado em grandes quantidades de dados coletados na Internet, o que lhe permite responder a uma vasta gama de perguntas. O ChatGPT foi treinado especificamente em Common Crawl , que produz e mantém um repositório aberto de dados de rastreamento da Web, permitindo acesso a grandes quantidades de informações para grandes modelos de linguagem (LLMs). Common Crawl é uma organização legítima e sem fins lucrativos. No entanto, usando seu crawler bot (CCBot), ChatGPT e outros LLMs podem reunir e permitir treinamento sobre qualquer conteúdo que não esteja especificamente protegido.

Esta atividade abre a porta para questões significativas. Considere um jornalista que entrevistou especialistas, pesquisou um tópico e aperfeiçoou um artigo, apenas para ter o conteúdo copiado pelo ChatGPT sem atribuição. O trabalho árduo do jornalista está agora completamente perdido graças a um bot de web scraping. Além disso, os leitores já não clicam no website original onde o jornalista publicou o artigo, levando à perda de tráfego do website e, por extensão, de autoridade de domínio e, potencialmente, de receitas publicitárias.

Da mesma forma, considere o recente incidente em que a IA foi usada para replicar a voz do rapper Drake em uma música – que ele não escreveu e com a qual não estava envolvido – que se tornou viral no TikTok. Isto levanta questões legais e de direitos autorais, bem como discussões mais amplas sobre IA e o futuro da música.

Então, esses são exemplos de comportamento malicioso ou são mais um debate ético ou uma questão de operação comercial? Embora muito disto possa ir além do que normalmente consideraríamos “utilização justa”, a inovação da IA ​​está a avançar mais rapidamente do que as nossas leis e regulamentos conseguem acompanhar, colocando grande parte desta actividade de scraping algures na zona cinzenta. Também deixa a porta aberta para as empresas decidirem como proceder: bloquear ou não bloquear conteúdo?

E agora?

Se você não deseja que o ChatGPT ou outras ferramentas generativas de IA treinem em seus dados, a primeira etapa que você pode realizar é bloquear o tráfego do bot Common Crawler, CCBot. Isso pode ser feito com uma linha de código ou bloqueando o agente do usuário CCBot. No entanto, parte do tráfego gerado pelo plug-in ChatGPT agora vem de bots sofisticados que podem se passar por tráfego humano. Portanto, simplesmente bloquear o CCBot não é suficiente. Também é importante notar que LLMs como o ChatGPT usam outras formas mais discretas de extrair conteúdo, que também não são tão fáceis de bloquear.

Outra opção é colocar o conteúdo atrás de um acesso pago. Isso evitará a raspagem, desde que o raspador não pague pelo conteúdo. No entanto, isso também limita o número de visualizações que um site de mídia receberá organicamente – e corre o risco de irritar os leitores (humanos). Mas com a incrível velocidade da inovação tecnológica da IA, será isto suficiente no futuro?

Se muitos sites começarem a impedir que os web scrapers coletem dados fornecidos ao Common Crawl ou que o ChatGPT e ferramentas semelhantes sejam treinados, os desenvolvedores poderão parar de compartilhar a identidade do rastreador em agentes de usuários, forçando as empresas a usar técnicas ainda mais sofisticadas e avançadas para detectar e bloquear. raspadores.

Além disso, empresas como OpenAI e Google podem decidir construir conjuntos de dados que possam treinar seus modelos de IA usando robôs raspadores de mecanismos de pesquisa do Bing e do Google. Isso dificultaria a exclusão da coleta de dados para empresas on-line que dependem do Bing e do Google para indexar seu conteúdo e direcionar tráfego para seu site.

Só o tempo dirá o futuro da IA ​​e da recolha de conteúdos, mas uma coisa que sabemos com certeza é que a tecnologia continuará a evoluir, assim como as regras e regulamentos que a rodeiam. As empresas precisam decidir se desejam permitir que seus dados sejam copiados em primeiro lugar e o que é considerado um jogo justo para chatbots de IA. Os criadores que desejam optar por não participar do web scraping precisarão garantir que intensificarão suas defesas tão rapidamente quanto a tecnologia de scraping evolui e o mercado de IA generativa se expande.

FONTE: DARKREADING

POSTS RELACIONADOS