🤥 🗺️ 🌗 Tarefas específicas de ciência de dados no banco 🥁 👩‍👩‍👧‍👧 👨🏾‍⚖️

Nos últimos cinco anos, trabalhei no escritório de aprendizado de máquina (ML) de um grande banco e vi muitos gargalos no desenvolvimento e validação de modelos.

Neste artigo, inicialmente pretendi considerar os principais sistemas de informação de alguns abstratos Banco X, uma vez que é com base em sistemas de informação já estabelecidos que o trabalho dos analistas de dados é construído, e os algoritmos de ML para tomada de decisão são treinados e funcionam . Mas quando comecei a escrever, de repente descobri que na verdade é muito mais interessante discutir uma série de tópicos e subtarefas que surgem na construção e validação dos modelos mais básicos do Banco, ou seja, modelos de risco de crédito.

A gestão e o cálculo do risco de crédito podem ser considerados os precursores da data science no Banco, uma vez que a gestão do risco de crédito é uma prerrogativa primordialmente bancária. É uma gestão de risco habilidosa que permite aos bancos oferecer algo de valor ao mercado de crédito e de relações financeiras. A ideia de que o banco simplesmente embolsa a margem de juros entre os juros do empréstimo e os juros do depósito é fundamentalmente errada, embora às vezes eu ouça isso de pessoas que não estão familiarizadas com o funcionamento interno do negócio bancário.

Por um lado, o banco assume todos os riscos de não reembolso do empréstimo e, por outro lado, dá garantias ao depositante quanto à devolução dos fundos investidos. Uma alternativa ao depósito bancário é emprestar seu dinheiro diretamente ao mutuário, sem garantias de retorno. O banco, por sua vez, é capaz de dar garantias, pois por um lado possui um "colchão de segurança" na forma de capital fixo e inicialmente inclui perdas por não reembolso de empréstimos em seus indicadores financeiros ("forma reservas") . Por outro lado, o Banco sabe calcular a probabilidade de o mutuário não reembolsar o empréstimo que lhe foi concedido. É claro que ninguém pode prever com exatidão se um determinado indivíduo ou empresa pagará a dívida, mas, em média, a probabilidade pode ser estimada para um grande número de tomadores de empréstimos.

O Banco será financeiramente estável apenas se o lucro obtido com a margem de juros cobrir as perdas com inadimplência de empréstimos e outras despesas relacionadas do Banco.

Prática bancária bem estabelecida

Antes de passar a discutir modelos preditivos e tarefas de ciência de dados diretamente, vamos nos deter por um minuto nas especificações de como um banco trabalha com um cliente. Um banco, e especialmente um grande banco, é um sistema bem organizado no qual literalmente cada etapa é prescrita. Isso também se aplica à interação com os mutuários.

Em particular, em relação aos tomadores de empréstimos, um conceito como "inadimplência" é freqüentemente usado. A inadimplência é um status atribuído a um cliente quando há quase total confiança de que o cliente não devolverá o dinheiro ao banco, pelo menos na íntegra. As regras e procedimentos pelos quais os clientes são atribuídos a um status padrão são negociados no nível de um grupo de trabalho especialmente criado. E então as regras acima são prescritas na documentação regulatória interna.

Se um cliente é atribuído a um status padrão, normalmente é dito que "o cliente está inadimplente". Do ponto de vista dos processos do Banco, isto significa que serão lançados determinados procedimentos de interação com o cliente. Talvez a questão da falência do devedor seja resolvida, o Banco tentará vender o imóvel penhorado, arrecadar fundos de fiadores ou vender a dívida do devedor a cobradores, etc.

Historicamente, as perdas esperadas com o não reembolso de empréstimos são geralmente divididas em três componentes:

EL = PD * EAD * LGD

onde EL - perda esperada, perdas esperadas;

PD - probabilidade de inadimplência, a probabilidade de o tomador receber uma condição de inadimplência no próximo ano, a partir da data de avaliação;

EAD - exposição à inadimplência, todos os recursos que o cliente deve devolver ao Banco na data de “entrada em inadimplência”, incluindo valor de emissão e juros, multas e comissões;

LGD - perda em caso de inadimplência, parcela da dívida total do tomador com o banco, que o Banco não mais devolverá para si. Ou seja, é uma perda líquida para o Banco;

Se eu em algum lugar me afastar das definições e conceitos educacionais, peço desculpas antecipadamente, já que meu principal objetivo não é escrever uma releitura correta dos livros didáticos, mas compreender a essência dos problemas existentes. Para isso, às vezes é necessário raciocinar "nos dedos".

Agora, vamos tentar formular uma tarefa típica para um cientista de dados. A primeira coisa a ser capaz de prever é a probabilidade de inadimplência de PD. Tudo parece simples aqui. Temos um problema de classificação binária. Dê-nos os dados com o rótulo da verdadeira classe e todos os fatores e rapidamente montaremos um script com dupla validação cruzada e seleção de todos os hiperparâmetros, escolha o modelo com a melhor métrica Gini e tudo ficará bem. Mas por algum motivo, na realidade, isso não funciona.

Não existe um verdadeiro rótulo de classe

Na verdade, não sabemos o verdadeiro rótulo da classe (destino). Em teoria, a meta é uma variável binária igual a zero se o mutuário for “saudável” e igual a um se o mutuário tiver recebido o status “inadimplente”. Mas o problema é que as regras pelas quais o default é determinado são inventadas por nós. Depois que as regras são alteradas, o modelo não funciona mais nem mesmo em dados históricos de treinamento.

Não conhecemos bem o nosso cliente

Com o acúmulo do histórico de empréstimos concedidos, surge o desejo de construir modelos mais complexos, o que requer informações adicionais sobre os clientes. É então que descobrimos que antes não precisávamos dessas informações e, portanto, ninguém as coletava. Como resultado, existem muitas lacunas nas amostras coletadas, o que nega a própria ideia de construir um "modelo mais informado". E, se apenas isso.

A presença de um grande número de clientes é tentadora para dividi-los em segmentos, dentro dos quais construir modelos "mais estreitos" e ao mesmo tempo mais precisos. Mas a divisão em segmentos também é realizada de acordo com alguma regra, e essa regra é baseada nos mesmos dados do cliente. E o que nós temos? E temos lacunas nos dados, portanto nem sempre conseguimos entender a qual segmento um determinado cliente deve ser atribuído.

O regulador exige que os modelos sejam interpretáveis

Por “regulador” quero dizer o Banco Central, o que exige que os modelos sejam compreensíveis. Deve ficar claro não apenas a previsão em si, mas também as regras pelas quais essa previsão foi feita. Para ser justo, direi que em maior medida essa regra se aplica apenas aos chamados modelos "regulatórios". A fim de garantir a estabilidade do sistema bancário como um todo, o regulador monitora constantemente as atividades dos bancos de acordo com uma série de indicadores-chave, entre os quais, por exemplo, está o cálculo da adequação de capital para cobrir perdas imprevistas durante possíveis crises financeiras.

O que significa o requisito de interpretabilidade? Isso significa que, na maioria dos casos, você terá que se contentar com modelos na forma de regressão logística ou árvore de decisão. Você terá que esquecer as redes neurais, conjuntos, empilhamento e outros arquitetos "modernos".

Leito de Procusto da prática bancária estabelecida

O padrão da indústria de fato exige que a perda esperada seja estimada como o produto de três valores: PD, EAD e LGD. Isso é verdade apenas quando os eventos se desenvolvem de acordo com o mesmo cenário. O cliente devolve o empréstimo ou não. No primeiro caso, considera-se que não há perdas. No segundo caso, presume-se que haja uma determinada quantia em risco (EAD).

Na prática, o comportamento de pagamento dos clientes não se limita a duas opções simples, e a fronteira entre essas opções é bastante arbitrária. O mutuário pode entrar em inadimplência em um mês, um ou dois anos e, então, após receber o status de “inadimplência”, repentinamente retornar aos pagamentos e quitar todo o empréstimo. Além disso, os desvios do cronograma de pagamento podem ser em termos de valores e prazos, adiantado ou vice-versa. O resultado financeiro para o Banco em todos os casos será diferente.

Não estou dizendo que seja impossível reduzir, em princípio, toda a variedade de comportamentos do tomador de empréstimo ao esquema de cálculo de três componentes. Claro, tudo depende da tarefa. Onde queremos aplicar este modelo mais tarde? Se, para avaliar o risco de crédito por pools (grupos) de mutuários, todos os desvios possíveis são levados em consideração por várias calibrações e o cálculo de valores médios ponderados. Mas, se nosso objetivo é personalizar a abordagem de emissão de um empréstimo, incluindo a seleção pessoal de propostas, torna-se importante prever o fluxo de pagamentos do cliente ou prever o valor presente líquido.

Onde alternativas avançadas baseadas em dados tropeçam

Deve ser entendido que toda a prática bancária do setor foi formada naqueles anos em que não havia Big Data ou aprendizado de máquina, e todos os cálculos foram reduzidos a construir cartões de pontuação. Eles pegaram todos os fatores significativos que afetam a qualidade de crédito do tomador e os avaliaram na forma de pontos, então esses pontos foram somados e, de acordo com a soma dos pontos, foi determinado se deveria ou não fazer um empréstimo.

Com o acúmulo do histórico de empréstimos emitidos e o desenvolvimento da tecnologia de informática, os procedimentos de tomada de decisão no Banco foram se tornando gradativamente mais complicados. Os mapas do Scorch se transformaram em modelos de regressão logística que são construídos com scripts Python. O Banco passou a segmentar seus clientes e produtos para construir seus próprios modelos de visão estreita dentro de cada segmento. Por outro lado, com o crescimento dos volumes de armazenamento de dados, tornou-se possível coletar e armazenar cada vez mais informações de forma interconectada.

Em última análise, tudo está se movendo em direção à ideia de quando, para cada cliente que chega, a melhor oferta (produto bancário ideal) será encontrada quase que instantaneamente, o que maximizaria CLTV (valor de vida do cliente) em um determinado horizonte de tempo, ou outra métrica, dependendo de o estado atual do Banco e os objetivos dos seus stakeholders.

Por que não usar uma rede neural poderosa (isto é, a notória "inteligência artificial") para resolver o problema acima? Vou listar algumas circunstâncias que interferem nisso:

- O banco central exige que os modelos envolvidos no cálculo da adequação de capital sejam aplicados em um processo de crédito "ativo". Ou seja, são esses modelos que devem ser aplicados na tomada de decisões sobre a concessão de empréstimos, ser interpretáveis e passar por uma série de testes de validação obrigatórios;

- As bases de dados dos clientes estão em constante expansão e complementação. Por exemplo, tipos relativamente novos de dados são biometria, análise da web, análise de aplicativo móvel e pontuação de mídia social. A adição de novos atributos ocorre ao longo do tempo e, portanto, praticamente não temos dados históricos sobre eles;

- os produtos e processos do Banco estão em constante mudança e é necessário um novo cálculo do CLTV para os clientes e cálculo do VPL (valor presente líquido) para os novos produtos. E para construir um modelo de qualidade aceitável, você precisa esperar vários anos, acumular dados históricos e calcular os valores reais de CLTV ou NPV em uma amostra de tomadores reais;

Resultado:

Com todo o desejo, a construção de modelos de previsão no Banco não pode ser considerada um problema puramente matemático. Na prática, resolvem-se os problemas empresariais, que, entre outras coisas, estão fortemente interligados às exigências do regulador na pessoa do Banco Central.

Às vezes parece que empresas com forte ciência de dados podem se infiltrar na área bancária e mudar as regras do jogo. Mas, para fazer empréstimos, você tem que jogar de acordo com as regras já existentes e, portanto, torna-se um Banco com todas as consequências. O círculo está completo.

O surgimento de uma nova startup de fintech bacana em empréstimos parece ter mais a ver com encontrar brechas no campo jurídico do que com inovar no aprendizado de máquina.

Tarefas específicas de ciência de dados no banco