IA/ML para Biologia & Saúde: Um Caminho de Aprendizagem
Meu objetivo com este boletim é construir a base para as gerações atuais e futuras de pesquisadores e engenheiros que trabalham (ou trabalharão) na interseção entre IA e ciências da vida. Nesta primeira publicação, quero compartilhar o caminho de aprendizado que tenho seguido para estar pronto para enfrentar problemas reais de biologia e saúde com aprendizado de máquina. Este é um guia abrangente e um mapa de conhecimento, algo a que sempre podemos retornar para preencher lacunas. É também um documento vivo: quanto mais eu aprender, mais completo ele se tornará. Ao longo do caminho, compartilharei o conhecimento fundamental, os tópicos avançados, as heurísticas e a intuição que precisamos desenvolver. Cada tópico terá pelo menos um recurso associado para que você possa percorrer o processo de aprendizagem e dominá-lo.
Índice
- Programação e Engenharia
- IA e Aprendizado de Máquina
- Matemática para Aprendizado de Máquina
- Assistência Médica
- Biologia e Biomedicina
- Recursos Gerais
1. Programação e Engenharia
É bastante óbvio, mas tudo começa aqui. Você precisa dominar o básico para conseguir resolver problemas de aprendizado de máquina e avançar. Recomendo escolher um curso ou livro, praticar bastante e combinar com desafios em plataformas como LeetCode ou Codeforces. O objetivo nesta etapa é dominar variáveis, tipos de dados, estruturas de dados simples, condicionais, loops, lógica, algoritmos e programação orientada a objetos.
1.1 Algoritmos e Estruturas de Dados
Compreender os algoritmos e estruturas de dados mais comuns é uma das bases mais importantes para quem quer trabalhar com ML de forma séria. Junto a isso, a notação Big O é fundamental para avaliar a complexidade de espaço e tempo de execução de qualquer solução que você construir. O recurso que recomendo é o “The Last Algorithms Course You’ll Need”, que é bem explicado, muito prático e um ótimo ponto de partida para desenvolver esse raciocínio. A ideia central é simples: aprender a teoria e praticá-la ao máximo, construindo os algoritmos e estruturas do zero e resolvendo problemas reais até que os padrões se tornem naturais.
1.2 Práticas de Engenharia de Software
Esta seção é especialmente útil para quem vem de fora da ciência da computação e nunca trabalhou em projetos colaborativos de software. Todo projeto sério envolve controle de versão com Git (branches, pull requests, o ciclo completo de git add → commit → push) e à medida que o projeto cresce, outros tópicos entram em cena. CI/CD (integração e entrega contínua) automatiza testes e implantação, enquanto os padrões de projeto ensinam a estruturar código de forma sustentável e escalável. Não é preciso dominar tudo de uma vez, mas conhecer essas práticas desde cedo poupa muito retrabalho no futuro.
1.3 Frameworks de ML
PyTorch e TensorFlow estão convergindo em ideias, e a escolha entre eles importa menos do que a profundidade com que você domina um deles. Minha recomendação é clara: escolha um e mergulhe fundo. O melhor recurso que usei foi o learnpytorch.io, onde em cada capítulo você cria um notebook e aprende desde os blocos de construção (como tensores) até CNNs completas. A abordagem é muito prática, o progresso é visível desde os primeiros capítulos e o conteúdo está sempre atualizado.
1.4 Engenharia de ML e MLOps
Um dos pilares mais importantes dos sistemas de ML modernos e, ao mesmo tempo, um dos mais negligenciados em formações puramente acadêmicas. Projetar sistemas de aprendizado de máquina envolve pensar em toda a jornada, desde a definição de requisitos, passando pela coleta e processamento de dados, treinamento e avaliação de modelos, até a implantação e o monitoramento em produção. Cada etapa apresenta desafios próprios que raramente aparecem em tutoriais ou competições. Para essa etapa, recomendo o curso ML in Production (Coursera) e o livro Designing Machine Learning Systems, de Chip Huyen, que cobre esse ciclo com profundidade e exemplos reais extraídos da indústria.
2. IA e Aprendizado de Máquina
2.1 Engenharia de Dados
Esta seção constrói a base para que sejamos capazes de enfrentar desafios de dados desde o princípio: manipular e processar dados, reformular problemas de biologia e saúde como problemas de dados, e treinar e avaliar modelos de forma rigorosa. A ideia fundamental é otimizar dados para o treinamento de modelos, o que envolve muito mais do que simplesmente carregar um CSV e rodar um modelo.
Os tópicos essenciais cobrem análise exploratória de dados (EDA), limpeza e tratamento de dados ausentes, escalonamento e normalização, codificação de variáveis categóricas, tratamento de outliers e conjuntos desbalanceados, engenharia de features e validação cruzada. Para as ferramentas, Pandas tem um excelente curso no Kaggle, enquanto NumPy conta com guia oficial, o livro From Python to NumPy e o desafio 100-numpy-exercises. Para EDA, a melhor prática é trabalhar com datasets reais do Kaggle. Para processamento em geral, o livro Hands-On ML with Scikit-Learn, Keras & TensorFlow e o Designing Machine Learning Systems cobrem bem o terreno.
2.2 Aprendizado de Máquina Tradicional
As duas grandes divisões são aprendizado supervisionado e não supervisionado, e entender as diferenças entre elas é essencial para formular corretamente qualquer problema de ML.
No supervisionado, o modelo aprende padrões nos dados para fazer previsões com base em exemplos rotulados. Os modelos fundamentais incluem regressão linear e logística, SVMs (Support Vector Machines), árvores de decisão, florestas aleatórias e métodos de conjunto como bagging e boosting. Os problemas se dividem em regressão (prever valores contínuos) e classificação (prever rótulos ou categorias). Os recursos recomendados são o curso Supervised Machine Learning (Coursera) e o livro Hands-On ML with Scikit-Learn, Keras & TensorFlow.
No não supervisionado, o modelo aprende padrões nos dados sem rótulos predefinidos, o que é especialmente útil em biologia, onde muitas vezes não temos anotações disponíveis. Os tópicos principais são agrupamento (K-means, DBSCAN) e redução de dimensionalidade (PCA, t-SNE). O curso Unsupervised Learning da Especialização em Machine Learning (Coursera) é um bom ponto de partida.
2.3 Aprendizado Profundo
O aprendizado profundo continua evoluindo rapidamente com novos algoritmos, modelos e arquiteturas, mas sua base permanece a mesma: a rede neural. Para entender essa base com profundidade, recomendo a Especialização em Deep Learning (Coursera) de Andrew Ng e o livro Understanding Deep Learning, de Simon Prince, que é gratuito e cobre tanto os fundamentos matemáticos quanto as arquiteturas modernas.
Arquiteturas Fundamentais
| Arquitetura | Para que serve |
|---|---|
| MLP (Rede Neural Básica) | Base de todo o aprendizado profundo; descida de gradiente e retropropagação |
| CNN (Redes Convolucionais) | Extração de características em dados de imagem |
| RNN (Redes Recorrentes) | Problemas de sequências temporais |
| LSTM (Long Short-Term Memory) | Dependências de longo prazo em sequências |
| Transformers | Embeddings, atenção e atenção multi-cabeça; base dos maiores modelos atuais |
Além das arquiteturas fundamentais, tópicos avançados como LLMs (Large Language Models), GNNs (Graph Neural Networks), VAEs (Autoencoders Variacionais), GANs (Redes Adversárias Generativas) e Modelos de Difusão são diretamente relevantes para biologia e saúde. O Aprendizado por Reforço (cujo curso da DeepMind é excelente) e a Inferência Causal também merecem atenção especial nesse contexto, especialmente para problemas de tomada de decisão clínica.
2.4 Artigos Relevantes
Biologia
Na interseção entre LLMs e biologia, os modelos de linguagem têm sido aplicados a DNA, RNA, proteínas e genomas completos com resultados impressionantes. No problema central de dobramento de proteínas (predizer a estrutura tridimensional a partir da sequência de aminoácidos), os trabalhos mais importantes são AlphaFold2, AlphaFold3, Boltz-1, Boltz-2, Chai-1, Chai-2, Protenix e ESM. Para o problema inverso (projetar uma sequência que adote uma estrutura desejada), o ProteinMPNN é a referência atual. Na geração de novo com modelos generativos e de difusão, os trabalhos de destaque são EvoDiff, Chroma, RFDiffusion, RFDiffusion All-Atom e RFAntibody, cada um com abordagens e aplicações distintas.
Saúde
Três artigos fundamentais para quem quer entender o estado da arte de ML em saúde: Opportunities and obstacles for deep learning in biology and medicine, Deep learning in medical image analysis e Multimodal biomedical AI foundation models in clinical diagnosis and treatment. Juntos, eles oferecem uma visão abrangente dos avanços recentes e dos desafios ainda em aberto.
3. Matemática para Aprendizado de Máquina
Os três pilares fundamentais para desenvolver intuição em sistemas de ML são Álgebra Linear, Cálculo e Estatística e Probabilidade. Não é preciso ser um matemático profissional, mas entender por que os algoritmos funcionam faz toda a diferença na hora de depurar modelos, interpretar resultados e tomar decisões de projeto.
3.1 Álgebra Linear
O núcleo da álgebra linear para ML envolve vetores e matrizes, operações matriciais (adição, subtração, multiplicação, inversa e transposta) e conceitos como posto de matrizes e independência linear. Esses elementos aparecem em praticamente tudo, desde a representação de dados em tensores até os embeddings nos transformers, passando pela descida de gradiente e pelas transformações aprendidas pelas redes neurais. Desenvolver fluência nesses conceitos torna muito mais fácil ler artigos, entender arquiteturas e depurar problemas de treinamento.
3.2 Cálculo
O conceito central aqui é a derivada e a intuição por trás dela, especialmente no contexto de funções de múltiplas variáveis. Mais especificamente, a regra da cadeia é o que sustenta a retropropagação, o algoritmo responsável por ensinar as redes neurais a aprender. Entendê-la de verdade, calculando derivadas manualmente em exemplos simples, muda a forma como você lê e depura código de treinamento. Quem entende a retropropagação raramente fica perdido quando um modelo não converge.
3.3 Estatística e Probabilidade
Esta área cobre os fundamentos descritivos (média, mediana, variância, covariância, correlação e desvio padrão) e a distinção essencial entre populações e amostras. Outros conceitos centrais incluem variáveis aleatórias, distribuições de probabilidade, o teorema do limite central, a distribuição normal, significância estatística, escores z, testes de hipóteses, probabilidade condicional e o Teorema de Bayes, que é especialmente relevante em diagnóstico médico, onde precisamos atualizar probabilidades à medida que novos dados chegam.
3.4 Aplicação no Aprendizado de Máquina
Uma base sólida nesses três pilares desenvolve a intuição necessária para compreender funções de perda, descida de gradiente (e suas variantes como Adam e SGD), regularização (L1 e L2), o papel dos pesos e hiperparâmetros no comportamento do modelo, validação cruzada e os conceitos de overfitting e underfitting. Cada um desses tópicos tem raízes diretas nos pilares matemáticos apresentados acima, e entendê-los matematicamente permite ir muito além do uso superficial de APIs de frameworks.
3.5 Roteiro de Aprendizagem em Matemática
O caminho recomendado tem três etapas. Primeiro, aprenda o básico com a Khan Academy, que oferece trilhas completas e gratuitas de Álgebra Linear, Cálculo e Estatística e Probabilidade, com exercícios interativos e progressão bem estruturada. Segundo, aprofunde a prática com o curso de Matemática para ML da MathAcademy, que usa aprendizado adaptativo e é especialmente eficaz para solidificar a matemática aplicada a ML. Terceiro, coloque em prática com código, implementando álgebra linear em Python para desenvolver uma intuição concreta sobre como ela opera em dados e modelos.
Dica: Construa uma rede neural do zero e calcule todas as derivadas manualmente na etapa de retropropagação. O livro Understanding Deep Learning é excelente para revisar os conceitos matemáticos e entender como eles se aplicam às redes neurais.
4. Assistência Médica
4.1 Tipos de Dados na Saúde
Os dados clínicos vêm em vários formatos, e compreendê-los é essencial para escolher os algoritmos certos, planejar o pré-processamento e avaliar os modelos de forma adequada. Cada modalidade tem características próprias de dimensionalidade, resolução, artefatos e protocolos de aquisição que impactam diretamente o pipeline de ML.
| Tipo de Dado | Dimensão | Descrição |
|---|---|---|
| Raio-X | 2D | Estruturas densas como ossos; usado em fraturas e problemas pulmonares |
| Tomografia Computadorizada (TC) | 3D | Imagens transversais detalhadas para diagnóstico de ampla gama de doenças |
| Ressonância Magnética (RM) | 3D | Alta resolução de órgãos e tecidos moles (cérebro, coluna, articulações) |
| Ultrassonografia | 2D/3D/4D | Imagens em tempo real sem radiação |
| PET | 3D/4D | Atividade metabólica; câncer, doenças cardíacas e neurológicas |
| RMf | 4D | Atividade cerebral via fluxo sanguíneo |
| Endoscopia | 2D/Vídeo | Visualização interna de órgãos via câmera em tubo flexível |
| SPECT | 3D | Função dos órgãos e fluxo sanguíneo |
Além das imagens, os Registros Eletrônicos de Saúde (RES/EHR) são outra fonte essencial, concentrando histórico do paciente, anotações clínicas, medicamentos, resultados laboratoriais e sinais vitais em um único repositório. Trabalhar com EHRs exige lidar com dados heterogêneos, incompletos e temporais, o que os torna um dos tipos mais desafiadores e, ao mesmo tempo, mais ricos de informação.
4.2 Métricas de Avaliação
Em problemas de saúde, a escolha das métricas importa muito e nem sempre a acurácia é suficiente. Um modelo que classifica corretamente 95% dos casos pode ser inútil clinicamente se errar sistematicamente nos casos mais críticos. As métricas mais relevantes incluem acurácia, precisão (Precision), recall e sensibilidade, especificidade, F1-Score, curva ROC com área sob a curva (AUC) e curva de Precisão-Recall com AUC. A combinação dessas métricas oferece uma visão mais completa do desempenho real do modelo em cenários clínicos, especialmente quando as classes são desbalanceadas (o que é muito comum em doenças raras).
4.3 Enquadrando Problemas de Saúde como Problemas de Dados
Diagnóstico
O diagnóstico pode ser enquadrado como classificação ou detecção de objetos, ambos sob aprendizado supervisionado. As entradas típicas são imagens médicas (raios-X, TCs, RMs, mamografias), registros eletrônicos de saúde e sinais fisiológicos como ECG e EEG. As saídas variam entre classificação binária (positivo ou negativo para uma condição), classificação multiclasse (entre múltiplas doenças possíveis) ou detecção de objetos (localizar anomalias em imagens, como nódulos pulmonares ou lesões dermatológicas).
Prognóstico
O prognóstico é formulado como regressão ou análise de sobrevivência. Na regressão, o modelo estima diretamente o tempo de sobrevida esperado ou alguma métrica clínica contínua. Na análise de sobrevivência, ele calcula a probabilidade de um evento ocorrer ao longo do tempo, como recidiva de um tumor, falha de um órgão ou readmissão hospitalar, levando em conta a censura dos dados (pacientes que saem do estudo antes de o evento ocorrer).
Tratamento
O planejamento de tratamento é formulado como sistema de recomendação ou como problema de tomada de decisão sequencial com aprendizado por reforço. As entradas envolvem dados do paciente (genética, comorbidades, estilo de vida), variáveis de tratamento e resultados históricos de pacientes similares. As saídas podem ser um plano de tratamento recomendado ou uma sequência ótima de ações ao longo do tempo, por exemplo decidir quando e como ajustar a dosagem de um medicamento em tempo real.
Outros Problemas Operacionais
Além dos problemas clínicos, a IA também tem papel importante em questões operacionais do sistema de saúde: previsão de faltas de pacientes, otimização de agendamento, previsão de demanda por leitos e triagem de prioridades nas emergências. Esses problemas, embora menos glamorosos, têm impacto direto na eficiência e na qualidade do atendimento.
Nota: Em problemas de saúde, ferramentas de IA Explicável (XAI) como SHAP e LIME são fundamentais. Médicos, pacientes e enfermeiros precisam compreender as decisões dos modelos, não apenas confiar nelas.
5. Biologia e Biomedicina
Em biologia, existe um mundo inteiro de conhecimento a ser explorado. Esta não é uma lista exaustiva, mas um mapa inicial para compreender os problemas e desafios atuais da área e reformulá-los como problemas de dados. A biologia computacional é uma das fronteiras mais ativas da ciência hoje, e entender mesmo os fundamentos já abre portas para contribuições significativas.
5.1 Tipos de Dados em Biologia (Ômicas)
O estudo das ômicas (metabolômica, proteômica, genômica, transcriptômica, epigenômica) apresenta diferentes tipos e formatos de dados, cada um com suas convenções e ferramentas próprias. Os mais comuns incluem FASTA para sequências de nucleotídeos ou aminoácidos, FASTQ para sequências com qualidade de sequenciamento, VCF para variantes genéticas e MOL para estruturas moleculares, além de muitos outros formatos específicos de cada área. Familiarizar-se com esses formatos é o primeiro passo para trabalhar com dados biológicos reais.
5.2 Biologia Molecular
Os tópicos teóricos essenciais cobrem genética (genes, DNA, RNA e o dogma central: DNA → RNA → Proteína) e proteínas, com o paradigma sequência → estrutura → função, que é o núcleo de grande parte da biologia computacional moderna. A estrutura proteica se desdobra em quatro níveis (primária, secundária, terciária e quaternária), e as propriedades funcionais de interesse incluem atividade, expressão, estabilidade e afinidade. As categorias de proteínas mais relevantes para aplicações de ML são anticorpos, peptídeos, enzimas, fatores de transcrição e proteínas de membrana. Outros tópicos importantes incluem acoplamento molecular (molecular docking), planejamento de novo (de novo design), descoberta de fármacos e seu processo de desenvolvimento, alinhamento de múltiplas sequências (MSA) e dinâmica molecular.
5.3 Recursos Recomendados
Para formação em biologia computacional, o ponto de partida mais estruturado é a Especialização em Genomic Data Science da Universidade Johns Hopkins (Coursera). Para leitura, os livros A Cell Biology Guide for Computer Scientists e Molecular Biology for Computer Scientists oferecem uma ponte direta entre as duas áreas, escritos especificamente para quem vem do lado da computação. Para aprofundamento em algoritmos bioinformáticos, An Introduction to Bioinformatics Algorithms é a referência clássica e ainda muito relevante. Quem quiser ir mais fundo na biologia celular pode recorrer a Molecular Biology of the Cell, Molecular Cell Biology e The Cell: A Molecular Approach, que são os livros-texto mais usados em cursos de biologia ao redor do mundo.
6. Recursos Gerais
IA/ML
Para acompanhar o estado da arte em ML, o Papers With Code é indispensável, reunindo artigos com código e benchmarks organizados por área e tarefa. Para desenvolver intuição prática sobre o campo como um todo, os guias Machine Learning: Just Know Stuff e How I’d Learn Machine Learning in 2025 são ótimos complementos, especialmente para quem quer entender o que realmente importa dominar versus o que é apenas ruído.
Matemática para ML
A Khan Academy oferece trilhas gratuitas e bem estruturadas de álgebra linear, cálculo e estatística. Para ir além, a MathAcademy usa aprendizado adaptativo e é especialmente eficaz para solidificar a matemática aplicada a ML de forma progressiva e personalizada.
Biologia + ML
A coleção Deep Learning for Biology da Nature reúne os artigos mais influentes da área. O repositório Awesome Deep Biology no GitHub é um bom agregador de referências atualizado pela comunidade. Para quem quer uma visão mais estruturada, os recursos Biology for AI, A Comprehensive Introduction to Protein AI, e os cursos da Georgia Tech (Machine Learning in Computational Biology) e Harvard (AI in Molecular Biology e Mathematics in Biology) formam uma trilha sólida e progressiva.
ML na Saúde
Os livros Deep Learning in Healthcare e Artificial Intelligence in Medicine oferecem uma visão abrangente e aplicada de como ML está sendo usado na prática clínica e em pesquisa biomédica, com exemplos reais, discussões sobre regulação e os desafios éticos que acompanham a adoção de IA em saúde.
Este artigo é um documento vivo, atualizado continuamente à medida que o aprendizado avança e novos projetos são desenvolvidos. Por agora, basta começar — e voltar aqui quando precisar.
Obrigado por ler até aqui! — Diego Gabs
