O que é regressão logística e como a utilizamos para classificar e-mails
A regressão logística é um algoritmo que lida com questões e problemas de classificação. É um dos algoritmos de machine learning mais conhecidos e utilizados no mundo, sendo empregado em diferentes áreas, como a cibersegurança e a biologia.
Antes de tudo, é importante ter em mente que a regressão logística não é apenas utilizada para classificar coisas entre duas categorias. Por exemplo, determinado e-mail é spam ou não. Outro exemplo: o paciente tem câncer ou não tem. Sim, a regressão logística é muito utilizada para problemas de duas classes. Mas não apenas para isso.
Sendo um pouco mais técnico, a regressão logística trabalha com os conceitos de estatística e probabilidade. Como apropriadamente dito na Wikipedia, “a regressão logística mede a relação entre a variável dependente categórica e uma ou mais variáveis independentes, estimando as probabilidades usando uma função logística”.
Quer dizer que este tipo de algoritmo de machine learning analisa diferentes aspectos ou variáveis de um objeto para depois determinar uma classe na qual ele se encaixa melhor.
Neste artigo, você vai ler mais sobre:
BEC - Business Email Compromise
Faça o download deste ebook para entender tudo sobre BEC, das características às técnicas mais usadas.
Tipos de regressão logística
Como já previamente explicado, a regressão logística é muito utilizada para categorizar objetos entre duas classes. Mas ela não se restringe a isso. Ao todo, há três tipos principais de regressão logística, ou três modelos. Agora vamos dar uma olhada neles.
1. Regressão logística binominal
No modelo de regressão logística binominal, os objetos são classificados em dois grupos ou categorias. É quase um jogo entre o que é e o que não é. Por exemplo, a mensagem é spam ou não, a imagem é colorida ou não, a célula é cancerígena ou não.
2. Regressão logística ordinal
O modelo de regressão logística ordinal é diferente porque trabalha com o conceito de categorias ordenadas. Neste caso, os objetos são classificados em três ou mais classes que possuem uma ordem já determinada. Por exemplo, o desempenho do atleta é ruim, justo ou excelente. Outro exemplo: o grau de satisfação do paciente com o tratamento é insatisfeito, satisfeito ou muito satisfeito.
3. Regressão logística multinomial
No modelo de regressão logística multinomial, os objetos são classificados em três ou mais categorias que não possuem ordem entre si. Vamos aos exemplos. Este animal é um gato, um leão ou um tigre. Esta fruta é uma maçã, uma pera, uma manga ou um maracujá.
Usando regressão logística em e-mails
A regressão logística é um tipo de algoritmo de machine learning muito eficaz. Por isso, é um dos algoritmos favoritos do nosso time de desenvolvimento. Consequentemente, é um dos algoritmos mais utilizados nas nossas soluções de proteção e segurança de e-mail.
Aqui, na Gatefy, adotamos o modelo de regressão logística multinomial como um dos principais mecanismos do nosso sistema de inteligência artificial.
Para deixar mais simples, vamos criar um exemplo utilizando o seu negócio. Independentemente do tamanho que a sua empresa tenha, ela deve receber dezenas, centenas ou até milhares de e-mails diariamente.
Agora imagine que a sua solução de proteção de e-mail classifique as mensagens em apenas dois grupos, usando regressão logística binominal: spam (mensagens indesejadas) e ham (mensagens desejadas). Como estariam hoje as caixas de entrada de e-mails de todos os funcionários da empresa?
Provavelmente, elas estariam um tanto quanto bagunçadas, apontando muitos falsos positivos e falsos negativos. Ou seja, muitos e-mails desejados estariam bloqueados e muitos e-mail indesejados teriam sido entregues. O resultado disso é que os funcionários gastariam muito tempo analisando essas mensagens e, pior, estariam mais expostos a algum tipo de fraude que colocaria a empresa toda em risco, como ataques de phishing, por exemplo.
Em nossa solução de segurança de e-mail, a inteligência artificial da Gatefy, com a ajuda da regressão logística multinomial, permite que a sua organização classifiquem os seus e-mails em pelo menos sete classes diferentes. O resultado: mais segurança e melhor gerenciamento dos e-mails.
Ou seja, a sua organização tem mais visibilidade e controle sobre as informações e ainda reduz o risco de sofrer violação ou vazamento de dados. Além disso, os funcionários podem se concentrar no core business da organização.
O legal ainda é que o sistema de inteligência artificial da Gatefy vai aprender com o tráfego de e-mail da sua organização. A cada dia que passa, a solução se torna mais assertiva e precisa, melhorando o seu próprio desempenho e performance. Como alguém sempre me diz, é a tecnologia sendo usada para o bem e a seu favor.