Este foi essencialmente um ataque DDoS de duas semanas de duração: Lentidão do banco de dados de UI de jogo causada pela raspagem implacável da OpenAI
Não muito tempo depois de ser relançado com mais de 55.000 capturas de tela e uma série de novos recursos, o Game UI Database enfrentou um grande obstáculo.
Edd Coates, criador do repositório gratuito, percebeu que o site estava "lento pra caramba" e, com a ajuda do mestre de servidores Jay Peet, começou a investigar. A solução foi surpreendentemente simples. Bloquear um único endereço IP permitiu que o serviço normal fosse retomado, mas quem era o dono desse cartão de visita digital? Ninguém menos que a OpenAI, a empresa de IA generativa por trás do ChatGPT e Dall-E.
Coates compartilhou inicialmente a notícia no X e criticou a prática da OpenAI de raspar websites em busca de informações que podem ser usadas para treinar seus modelos. A empresa não esconde isso. Seu site declaradamente afirma que seus grandes modelos de linguagem são treinados em três fontes, incluindo "informações publicamente disponíveis na internet". Claro, uma miríade de processos judiciais e potenciais desafios legais envolvendo importantes jornais (incluindo o New York Times) e até criadores do YouTube argumentariam que "publicamente disponível" não equivale a legal (obrigado The Guardian e The Verge).
Para Coates, o problema aqui é duplo. Para começar, ele não concorda com os métodos ou modelo de negócios da OpenAI, mas ser alvo da empresa também destruiu um recurso gratuito que ele passou cinco anos construindo.
"Eu percebi que o banco de dados estava tendo problemas há algumas semanas, quando as páginas estavam demorando muito mais para carregar. Eu sabia que isso não tinha nada a ver com o site em si, pois sempre havia funcionado sem problemas (mesmo com mais usuários online ativos), então suspeitei de jogo sujo, mas não conseguia encontrar evidências na época", disse Coates ao Game Developer.
"Eu não conseguia lançar nenhuma atualização para o site, pois a lentidão estava interferindo nas minhas ferramentas de administração, e até recebia e-mails e mensagens irritados dos usuários que contam com o site como parte de seu fluxo de trabalho diário."
Ele explicou que a interrupção eventualmente fez o site parar de funcionar completamente, exibindo erros "502 Bad Gateway" para os usuários. Nesse estágio, Coates buscou a ajuda de Jay Peet, que hospedava o banco de dados em seu servidor privado nos últimos cinco anos. Peet analisou os logs do site e percebeu que os recursos do site estavam sendo consumidos por um único endereço IP pertencente à OpenAI.
"A página inicial estava sendo recarregada 200 vezes por segundo, já que o bot [OpenAI] aparentemente estava com dificuldades para se movimentar pelo site e ficava preso em um loop contínuo", acrescentou Coates. "Isso foi essencialmente um ataque DDoS de duas semanas na forma de um roubo de dados."
O fundador do Game UI Database questiona se a raspagem da OpenAI é "justa ou mesmo legal?"
Coates não ganha dinheiro com o Game UI Database. Na verdade, eles realmente mantêm o site com prejuízo. No entanto, se eles tivessem tentado monetizar o projeto ou utilizado ferramentas externas como Amazon Web Services, o interesse indesejado da OpenAI poderia ter causado prejuízos financeiros.
"Se eu dependesse do [Game UI Database] para receitas com anúncios ou taxas de associação, o tempo de inatividade causado pela OpenAI teria absolutamente impactado minha renda", disse ele. "Eles estavam transferindo ~70GB de dados do servidor a cada dez minutos. Felizmente, eu não tenho custos de largura de banda e taxas mínimas de servidor, então consigo fornecer este recurso gratuitamente a todos (como todos os recursos educacionais deveriam ser). Mas se eu estivesse pagando a AWS pelo armazenamento, por exemplo, essa largura de banda teria custado cerca de £850 por dia."
"A OpenAI nem mesmo está sendo transparente sobre de onde seus dados estão vindo, então eu teria sido o único responsável por essa conta. Como isso é justo ou mesmo legal? E certamente não sou o único sendo afetado por isso."
Coates disse que o problema é mais profundo do que uma potencial perda de renda, porém. "Não me faça começar sobre o que eles estão fazendo com esses dados", continuou, apontando que passou anos coletando e catalogando referências de UI meticulosamente para ajudar outros criativos na indústria de jogos, apenas para ter esse trabalho (que engloba os esforços de milhares de desenvolvedores) "roubado por uma organização multi-bilionária".
Coates disse que a ideia de que a OpenAI está reaproveitando esse trabalho para "prejudicar e substituir as pessoas que estou tentando ajudar" só aumenta a afronta. "É doentio. A tecnologia de IA generativa simplesmente não existiria sem o trabalho de criativos humanos, e mesmo assim somos nós aqui sendo punidos sem compensação ou crédito", acrescentou.
Quanto ao sucesso do Game UI Database em repelir os avanços da OpenAI, Coates e Peet eventualmente bloquearam todos os IPs associados à empresa no nível do servidor HTTP para evitar que ela usasse uma solução alternativa.
"Quando investiguei esse problema, ficou evidente que estávamos sendo raspados ou rastreados por algo. Nossas análises de uso mostravam 10 usuários ativos, enquanto o servidor real relatava 200 a 300 solicitações ativas", disse Peet. "Suspeitei que alguém estava tentando DDoS-nos ou que os dados estavam sendo retirados em massa por um raspador automatizado.
"Bloquear os rastreadores não foi muito complexo, embora o método para fazê-lo pudesse ser frágil se a OpenAI adicionasse ou mudasse algum de seus endereços IP em uso. Depois de modificar o robots.txt (que a OpenAI pode simplesmente ignorar se desejar), bloqueei explicitamente todos os IPs da OpenAI no nível do servidor HTTP. Após a mudança para a nova configuração, o site voltou imediatamente ao seu tempo de resposta regular."
No momento da escrita, o Game UI Database está de volta com todo vapor e destacando o trabalho de UI em quase 1.400 títulos, incluindo projetos malsucedidos como Concord. O Game Developer entrou em contato com a OpenAI para comentar.