Toda a diversão está por baixo do corte!
Percorrendo o feed de nossa rede social favorita na soneca da manhã, mal pensamos em como o algoritmo funciona, ele fornece informações que nos interessam. Graças a este e outros algoritmos, o conteúdo nos segue em todos os lugares. Se você tiver sorte - parece um grande cobertor aconchegante com fotos atmosféricas e música, se você não tiver sorte - ele chega atrás de nós com uma nuvem pegajosa e irritante que você quer afastar, embora nem sempre seja o caso.
Parece que nem percebemos quando o mundo físico tem uma nova dimensão - a dimensão do conteúdo com suas próprias regras e características. Mas nos acostumamos rapidamente.
A abundância de informações faz com que nos esqueçamos de como buscar e peneirar grãos de conhecimento e experiência - afinal, ela, pronta e ordenada, já está no nosso prato, como um sortimento de iguarias. Mas de onde vem tudo isso e, o mais importante, como podemos influenciar nosso ambiente de conteúdo? E podemos?
História de classificação e pesquisa
Ao contrário da crença popular, as ferramentas para selecionar e classificar informações para diversos fins úteis são uma invenção bastante antiga. Não apareceu agora, mas na era dos catálogos de biblioteca agora meio esquecidos.
Antes da invenção da impressora de livros no século 15, o catálogo da biblioteca era apenas um inventário de livros preciosos com seus títulos. Foi o surgimento das cópias impressas que deu origem à necessidade de catalogação e busca conveniente das obras necessárias em bibliotecários e leitores.
É bastante difícil estabelecer quem exatamente se tornou o criador do primeiro catálogo. Algumas fontes atribuem sua invenção a Johann Trithemius, abade de Spongheim, bibliotecário, historiador e amante da criptografia, mas a maioria menciona Gottfried Van Swieten, um oficial austríaco e prefeito da biblioteca imperial de Viena.
Foi Gottfried Van Swieten quem criou em 1780 o primeiro catálogo de fichas, muito semelhante aos catálogos de bibliotecas modernas - fichas com o título do livro, o nome do autor, o ano de publicação e uma breve descrição. Podemos dizer que o catálogo de fichas tornou-se um prenúncio dos modernos buscadores - afinal, foi a primeira meta informação - ou seja, informação sobre outras informações necessárias à busca e navegação. É claro que os modestos cartões de Van Swieten não conseguiam atender a todas as necessidades dos leitores e pesquisadores - mas foram substituídos apenas em 1870, graças à invenção do bibliotecário americano Melville Dewey.
Dewey trabalhou por muito tempo para melhorar a eficiência da catalogação e chegou a um sistema completamente novo baseado na classificação dos livros por conteúdo, o chamado sistema decimal. Sua ideia se baseava em dividir todas as obras em dez seções - do geral à religião, idioma e geografia e história. Cada seção, por sua vez, foi dividida em dez subseções, e assim sucessivamente, enquanto o código foi formado a partir dos índices numéricos da seção e subseções, que foram indicados glória à direita, por exemplo:
500 Ciências Naturais e Matemática
510 Matemática
516 Geometria
Na verdade, foi o primeiro diretório temático a nível nacional, permitindo-lhe encontrar facilmente qualquer informação de que necessite. Além disso, devido à ausência de caracteres não numéricos nos índices de tópicos, o sistema de Dewey era ideal para processamento por máquina e ainda é válido em bibliotecas nos EUA e Canadá.
Essa invenção levou os bibliógrafos belgas Paul Otle e Henri La Fontaine a uma ideia ainda mais ousada - substituir os livros de papel por um sistema de cartões eletrônicos com fragmentos de informação, o que lhes permitiria classificá-los sem a opinião subjetiva do autor. Em 1934, essa ideia foi concretizada no livro "Monde" de Paul Otlet, que, segundo muitos pesquisadores, antecipou a criação da Internet. Infelizmente, este livro é difícil de encontrar em russo, então darei apenas uma citação em inglês:
“Tudo no universo, e tudo no homem, seria registrado à distância à medida que fosse produzido. Desta forma, uma imagem em movimento do mundo será estabelecida, um verdadeiro espelho de sua memória. À distância, todos poderão ler um texto, ampliado e limitado ao assunto desejado, projetado em uma tela individual. Desta forma, cada um desde a sua poltrona poderá contemplar a criação, como um todo ou em algumas de suas partes. “
Lembra-nos de nossas realidades, não é?
Infelizmente, as idéias de Paul Otlet não se tornaram realidade durante sua vida, e a World Wide Web nasceu muito mais tarde. E já em 1998, com a invenção do algoritmo PageRank para avaliação de páginas da Internet por Sergey Brin e Larry Page, começou a era da navegação sem fim na web.
As informações tornaram-se disponíveis, a pesquisa é conveniente e fácil. E com o advento de novos recursos de armazenamento e computação, as empresas começaram a coletar dados.
A espada de dois gumes do big data
Aumentar os dados acumulados prometia novas oportunidades de negócios, desde uma melhor percepção do cliente até produtos digitais completamente novos.
A análise do trabalho de joalheria para testar cada hipótese se transformou em uma busca por padrões estáveis em enormes quantidades de dados que descrevem pessoas e fenômenos do mundo. Esta abordagem permitiu ver coisas que antes simplesmente não estavam disponíveis, modelar e otimizar vários processos, desde a publicidade à oferta de produtos, personalizar a experiência do cliente nas diferentes áreas e melhorá-la para o deleite do cliente e do negócio. Esse salto, em minha opinião, é comparável à transição de um inventário de livros medieval para um sistema coerente de catálogos de fichas, onde cada objeto recebe seu próprio espaço de prateleira e etiqueta.
No entanto, trabalhar com big data ainda não se tornou uma panacéia para tudo e há vários motivos para isso.
- , , , . , – , , , .
- , . , , , , , .
- , , . , – , .
- – , , – , -.
Apesar dessas limitações, mais e mais empresas estão encontrando os recursos e oportunidades para implantar seus próprios serviços para personalizar a experiência do cliente e aumentar seus resultados financeiros. De uma fonte de conhecimento, os dados se transformam em uma fonte de monetização, às vezes bastante agressiva. Em alguns casos, os efeitos colaterais são possíveis tanto para o cliente quanto para a empresa: da sobrecarga de informações à chamada bolha de conteúdo. E antes de falarmos sobre eles, vamos descobrir - o que está escondido sob o capô das recomendações?
Sob o capô das recomendações pessoais
A maioria dos modelos que oferecem conteúdo, produto ou serviço se enquadra em um de cinco conceitos simples.
- . , – , , , .
- . , / , , .
- . , , « – » . , – , .
- . , – , . , – , . – , . , , 70- – .
- – , .
Problemas de recomendações e recarregamento do ambiente de conteúdo
Todos esses modelos funcionam muito bem (até mesmo heurísticas!), Mas ainda podem levar a situações desagradáveis:
- Super saturação. Muitos modelos semelhantes, treinados com dados incompletos (afinal, toda empresa tem apenas um conhecimento), atacam você com as mesmas propostas. Digamos que você seja um amante do café. E então, esta manhã, você foi oferecido um cappuccino perfumado maravilhoso no café mais próximo. A proposta despertou seu entusiasmo e prazer em absorver o creme. Mas então outro empurrão bate com uma sugestão de café, outro banner - e agora são quinze deles. Quantas xícaras de café você pode beber por dia?
- – , , / , . , – .
- – -, .
- – , , 9 , . , , .
- – , , , - . , .
Tais situações são extremamente indesejáveis não só para o cliente, mas também para o negócio, pois podem reduzir significativamente a vontade de continuar interagindo com os serviços anunciados, ou de usar um ou outro produto ou aplicativo.
Uma parte significativa deles pode ser corrigida dentro do sistema de recomendação, por exemplo, tempos irrelevantes ou recomendações intrusivas são eliminados por uma política de comunicação e cronograma bem desenvolvidos.
Mesmo a bolha de conteúdo pode se tornar menos monótona se você adicionar algoritmos concorrentes ao sistema de recomendação que mostrará propostas alternativas, ou um elemento adicional de aleatoriedade que lhe oferecerá algo completamente novo e, se estiver interessado, expanda os limites das recomendações (consulte a Figura 1).

Figura: 1 Modelos concorrentes com adições aleatórias.
No entanto, algumas das consequências de recomendações imperfeitas terão de ser tratadas por nós mesmos. Que métodos podem ajudá-lo a lutar por um ambiente de conteúdo agradável?
Como melhorar seu ambiente de conteúdo
Para encontrar o caminho para seu conteúdo que seja relevante e relevante, tente brincar com os algoritmos ao seu redor e descubra a que eles respondem melhor. Mas antes disso, proponho adotar algumas regras simples de higiene da ciência de dados que irão salvá-lo das recomendações mais irritantes.
- – , , , . – , – , email.
- – , .
- – « », , - .
- Tenha cuidado ao pagar as compras - é melhor ter instrumentos de pagamento separados para todos os membros da família e, às vezes, para fins diferentes.
- Desligue o wi-fi periodicamente em locais com muitas redes públicas.
Caso contrário, use a pesquisa ativa com mais frequência e tente algo novo. A maioria dos bons modelos de recomendação usa não apenas dados retroativos (dados sobre sua atividade por um longo período), mas também dados sobre ações atuais, dando-lhes maior prioridade. Depois de brincar um pouco com os novos pedidos, você pode obter uma parte do conteúdo para se adequar ao seu humor atual.
E se isso não parece suficiente - junte-se às fileiras estreitas de datasaentistas para criar aquele sistema de recomendação ideal e aprender todas as sutilezas por dentro. O aprendizado de máquina é indispensável sem uma mente humana curiosa!
Neste tópico:
- « Data Science: »;
- - « Data Scientist».
- www.history.ox.ac.uk/british-medieval-library-catalogues
- Fred Lerner, “The story of libraries, from invention of writing to the computer age”, continuum, 2006
- en.wikipedia.org/wiki/Gottfried_van_Swieten#As_librarian
- en.wikipedia.org/wiki/Dewey_Decimal_Classification
- Milena Tsvetkova. – – : . Scientific Enquiry in the Contemporary World: Theoretical basis and innovative approach, 2016, San Francisco, United States. pp.115-128
- boxesandarrows.com/forgotten-forefather-paul-otlet
- www.mondotheque.be/wiki/images/e/e2/Heuvel_Rayward_Facing_Interfaces.pdf
- Sergey Brin, Lawrence Page. The Anatomy of a Large-Scale Hypertextual Web Search Engine. — 1998.
- googleblog.blogspot.com/2009/12/personalized-search-for-everyone.html