Ciência de dados e analytics

Similaridade entre strings e fuzzy matching

Publicado em:

07/01/2025

No contexto de análise de dados é bastante comum o uso dos joins no SQL e do df.merge() no Pandas quando queremos obter correspondências exatas entre dois registros, mas qual seria a alternativa quando queremos encontrar strings que são diferentes, mas semelhantes? É para isso que serve a técnica de fuzzy matching e da biblioteca […]

Tags: nlp, python

Continuar lendo: Similaridade entre strings e fuzzy matching
Análise exploratória de dados do dataset público de comércio eletrônico brasileiro, por Olist

Publicado em:

24/12/2024

A Olist é uma empresa brasileira de tecnologia fundada em 2015 que oferece como serviço para o varejo soluções de gestão de e-commerce e a disponibilização de produtos de lojistas em diferentes marketplaces. Em 2018, a Olist disponibilizou no Kaggle uma base de dados anonimizada de uma amostra das vendas ocorridas desde o final de 2016 até agosto de 2018, possibilitando diversos tipos de análises.

Tags: eda, kaggle, machine learning, nlp, python

Continuar lendo: Análise exploratória de dados do dataset público de comércio eletrônico brasileiro, por Olist
Modelos pré-treinados para tarefas de ciência de dados

Publicado em:

22/10/2024

Cientistas de dados e empresas criam modelos de machine learning a todo momento para os mais diversos tipos de tarefas e especificidades, então é bem capaz de ao se deparar com a necessidade de ter que usar um modelo para classificação de textos ou geração de imagens, por exemplo, você já possa começar de um […]

Tags: machine learning, nlp, python

Continuar lendo: Modelos pré-treinados para tarefas de ciência de dados
Usando o DVC para versionamento de arquivos em projetos

Publicado em:

03/09/2024

Com a crescente complexidade das análises e dos projetos de dados envolvendo diversos datasets diferentes, o versionamento dos dados usados (e gerados) se torna muito importante para se manter a reprodutibilidade e a transparência dos resultados. O Data Version Control (DVC) surge como uma boa opção de ferramenta para gerenciar e versionar datasets, permitindo que […]

Tags: dvc, ferramentas, google cloud, python

Continuar lendo: Usando o DVC para versionamento de arquivos em projetos
Livro “essencialismo: A disciplinada busca por menos” de Greg McKeown

Publicado em:

21/04/2024

Essencialismo é dedicar-se a fazer menos, porém melhor. Somente ao focar apenas no que é realmente importante, em vez de tentar abarcar tudo, é que podemos oferecer nossa máxima contribuição.

Tags: livro, produtividade

Continuar lendo: Livro “essencialismo: A disciplinada busca por menos” de Greg McKeown

Henrique Marques Turqueti

Similaridade entre strings e fuzzy matching

Análise exploratória de dados do dataset público de comércio eletrônico brasileiro, por Olist

Modelos pré-treinados para tarefas de ciência de dados

Usando o DVC para versionamento de arquivos em projetos

Livro “essencialismo: A disciplinada busca por menos” de Greg McKeown