Em matemática aplicada, a análise topológica de dados (TDA, na abreviatura do nome em inglês, topological data analysis) é uma abordagem para a análise de conjuntos de dados por meio de técnicas da topologia. A extração de informações de conjuntos de dados de dimensão alta, incompletos e com ruídos é um desafio. A TDA fornece uma estrutura geral para analisar esses dados de maneira insensível à métrica específica escolhida e fornece redução de dimensionalidade e robustez ao ruído. Além disso, ela herda funtorialidade, um conceito fundamental da matemática moderna, de sua natureza topológica, o que lhe permite adaptar-se às novas ferramentas matemáticas.
A motivação inicial é estudar a forma dos dados. A TDA combinou a topologia algébrica e outras ferramentas da matemática pura para permitir o estudo matematicamente rigoroso da "forma". A ferramenta principal é a homologia persistente, uma adaptação da homologia para dados de nuvem de pontos. A homologia persistente foi aplicada a muitos tipos de dados em muitas áreas. Além disso, sua base matemática também é de importância teórica. As características exclusivas da TDA fazem dela uma ponte promissora entre topologia e geometria.
Teoria básica
Intuição
A premissa subjacente à TDA é que a forma é importante. Dados reais em altas dimensões quase sempre são esparsos e tendem a ter características de baixa dimensão relevantes. Uma tarefa de TDA é fornecer uma caracterização precisa desse fato. Um exemplo ilustrativo é um sistema predador-presa simples, governado pelas equações de Lotka-Volterra.[1] Pode-se observar facilmente que a trajetória do sistema forma um círculo fechado no espaço de estados. A TDA fornece ferramentas para detectar e quantificar esse movimento recorrente.[2]
Muitos algoritmos para a análise de dados, incluindo aqueles usados na TDA, exigem a escolha de vários parâmetros. Sem conhecimento prévio do domínio, é difícil escolher a coleção correta de parâmetros para um conjunto de dados. A principal percepção da homologia persistente é que podemos usar as informações obtidas de todos os valores de um parâmetro. É claro que apenas essa percepção é fácil de fazer; a parte difícil é codificar essa enorme quantidade de informações em um formato compreensível e fácil de representar. Com a TDA, há uma interpretação matemática quando a informação é um grupo de homologia. Em geral, a suposição é que as características que persistem para uma ampla variedade de parâmetros são "verdadeiras" características. Presume-se que as características que persistem apenas para uma faixa estreita de parâmetros sejam ruídos, embora a justificativa teórica para isso não seja clara.[3]
História antiga
Os precursores do conceito completo de homologia persistente apareceram gradualmente ao longo do tempo.[4] Em 1990, Patrizio Frosini introduziu a função tamanho, que é equivalente à 0ª homologia persistente.[5] Quase uma década depois, Vanessa Robins estudou as imagens de homomorfismos induzidos pela inclusão.[6] Finalmente, logo em seguida, Edelsbrunner et al. introduziram o conceito de homologia persistente juntamente com um algoritmo eficiente e sua visualização como um diagrama de persistência.[7] Carlsson et al. reformularam a definição inicial e deu um método de visualização equivalente chamado códigos de barras de persistência,[8] interpretando a persistência na linguagem da álgebra comutativa.[9]
Em topologia algébrica, a homologia persistente surgiu através do trabalho de Barannikov na teoria de Morse. O conjunto de valores críticos de função Morse suave foi particionado canonicamente em pares "nascimento-morte", complexos filtrados foram classificados e a visualização de seus invariantes, equivalente ao diagrama de persistência e códigos de barras de persistência, foi dada em 1994 pela forma canônica de Barannikov.[10]
Conceitos
Alguns conceitos amplamente usados são apresentados a seguir. Observe que algumas definições podem variar de autor para autor.
Uma nuvem de pontos é frequentemente definida como um conjunto finito de pontos em algum espaço euclidiano, mas pode ser considerada qualquer espaço métrico finito.
Um módulo de persistência indexado por consiste de um espaço vetorial , para cada , e uma transformação linear sempre que , de tal modo que para todo e sempre que [11] Uma definição equivalente é um funtor de considerado como um conjunto parcialmente ordenado para a categoria dos espaços vetoriais.
O grupo de homologia persistente de uma nuvem de pontos é o módulo de persistência definido como , em que é o complexo de Čech de raio da nuvem de pontos e é o grupo de homologia.
Um código de barras de persistência é um multiconjunto de intervalos em e um diagrama de persistência é um multiconjunto de pontos em ( )
A distância de Wasserstein entre dois diagramas de persistência e é definida como em que e varia sobre as bijeções entre e . Para uma ilustração, pode consultar a figura 3.1 em Munch.[12] A distância de gargalo entre e é Este é um caso especial da distância de Wasserstein, obtido ao considerar .
Propriedade básica
Teorema da estrutura
O primeiro teorema de classificação para a homologia persistente apareceu em 1994[10] através das formas canônicas de Barannikov. O teorema da classificação que interpreta a persistência na linguagem da álgebra comutativa apareceu em 2005:[9] para um módulo de persistência finitamente gerado com coeficientes em um corpo , Intuitivamente, as partes livres correspondem aos geradores da homologia que aparecem no nível da filtração e nunca desaparecem, enquanto as partes de torção correspondem às que aparecem no nível da filtração e duram por etapas da filtração (ou equivalentemente, desaparecem no nível da filtração).[10]
A homologia persistente é visualizada através de um código de barras ou diagrama de persistência. O código de barras originou-se na matemática abstrata. Especificamente, a categoria dos complexos filtrados finitos sobre um corpo é semissimples. Qualquer complexo filtrado é isomorfo à sua forma canônica, uma soma direta de complexos filtrados simples uni e bidimensionais.
Estabilidade
A estabilidade é desejável por fornecer robustez contra ruídos. Se é qualquer espaço homeomorfo a um complexo simplicial, e são funções tame contínuas,[13] então os espaços vetoriais de persistência e são apresentados finitamente e , onde refere-se à distância de gargalo[14] e é a aplicação que leva uma função tame contínua no diagrama de persistência de sua -ésima homologia.
Se é uma nuvem de pontos, substitua por uma família aninhada de complexos simpliciais (como o complexo de Čech ou Vietoris-Rips). Esse processo converte a nuvem de pontos para uma filtragem de complexos simpliciais. Tomando-se a homologia de cada complexo nessa filtração obtém-se um módulo de persistência
Aplique o teorema da estrutura para fornecer uma versão parametrizada do número de Betti, diagrama de persistência ou, equivalentemente, código de barras.
Graficamente,
Cálculo
O primeiro algoritmo sobre todos os corpos para homologia persistente no contexto da topologia algébrica foi descrito por Barannikov[10] através da redução à forma canônica por matrizes triangulares superiores. O primeiro algoritmo para homologia persistente sobre foi dado por Edelsbrunner et al.[7] Zomorodian e Carlsson deram o primeiro algoritmo prático para calcular a homologia persistente em todos os corpos.[9] O livro de Edelsbrunner e Harer fornece orientação geral sobre topologia computacional.[17]
Uma questão que surge na computação é a escolha do complexo. O complexo de Čech e o complexo de Vietoris – Rips são mais naturais à primeira vista; no entanto, seu tamanho aumenta rapidamente com o número de pontos de dados. O complexo de Vietoris – Rips é preferível ao complexo de Čech porque sua definição é mais simples e o complexo de Čech requer um esforço extra para definir em um espaço métrico finito geral. Foram estudadas formas eficientes de reduzir o custo computacional da homologia. Por exemplo, o complexo α e o complexo testemunha são usados para reduzir a dimensão e o tamanho dos complexos.[18]
Recentemente, a teoria de Morse discreta mostrou-se promissora para a homologia computacional, pois pode reduzir um complexo simplicial dado a um complexo celular muito menor que é homotópico ao original.[19] Essa redução pode de fato ser realizada à medida em que o complexo é construído usando a teoria matroide, levando a maiores aumentos de desempenho.[20] Outro algoritmo recente economiza tempo ignorando as classes de homologia com baixa persistência.[21]
Há vários pacotes de software disponíveis, como por exemplo javaPlex, Dionysus, Perseus, PHAT, DIPHA, Gudhi, Ripser e TDAstats. Uma comparação entre essas ferramentas é feita por Otter et al.[22]Giotto-tda é um pacote Python dedicado à integração de TDA no fluxo de trabalho de aprendizagem de máquina por meio de uma API scikit-learn. Um pacote R chamado TDA é capaz de calcular conceitos inventados recentemente, como paisagem e o estimador de distância do núcleo.[23] O pacote Topology ToolKit é especializado em dados contínuos, definidos em variedades de baixa dimensão (1, 2 ou 3), como os que normalmente são encontrados em visualização científica. Outro pacote R, o TDAstats, implementa a biblioteca rápida C++ Ripser para calcular a homologia persistente.[24] Ele também usa o onipresente pacote ggplot2 para gerar visualizações de homologia persistente reproduzíveis, personalizáveis e com qualidade de publicação, especificamente códigos de barras topológicos e diagramas de persistência. O código de exemplo abaixo mostra como a linguagem de programação R pode ser usada para calcular a homologia persistente.
# instalar pacote a partir do CRAN e carregar conjuntos de dadosinstall.packages("TDAstats")library("TDAstats")data("unif2d")data("circle2d")# calcular a homologia persistente para ambos os conjuntos de dadosunif.phom<-calculate_homology(unif2d)circ.phom<-calculate_homology(circle2d)# plotar nuvem de pontos distribuídos uniformemente como um diagrama de persistênciaplot_persist(unif.phom)# plotar nuvem circular de pontos como um código de barras# nota-se uma única barra persistente, como seria de se esperar para uma circunferência (único 1-ciclo/laço)plot_barcode(circ.phom)
Visualização
É impossível visualizar diretamente dados de dimensão alta. Muitos métodos foram inventados para extrair uma estrutura de baixa dimensão do conjunto de dados, como análise de componentes principais e dimensionamento multidimensional.[25] No entanto, é importante observar que o próprio problema é mal posto, pois muitas características topológicas diferentes podem ser encontradas no mesmo conjunto de dados. Assim, o estudo da visualização de espaços de alta dimensão é de importância central para a TDA, embora ele não envolva necessariamente o uso de homologia persistente. No entanto, houve tentativas recentes de usar homologia persistente na visualização de dados.[26]
Carlsson et al. propuseram um método geral chamado MAPPER.[27] Ele herda a ideia de Serre de que uma cobertura preserva a homotopia.[28] Uma formulação generalizada de MAPPER é a seguinte:
Sejam e espaços topológicos e uma função contínua. Seja uma cobertura aberta finita de . A saída do MAPPER é o nervo da cobertura pullback, em que cada pré-imagem é dividida em suas componentes conexas.[26] Este é um conceito muito geral, do qual o gráfico Reeb[29] e as árvores de mesclagem são casos especiais.
Esta não é exatamente a definição original.[27] Carlsson et al. tomaram como ou e o cobriram com conjuntos abertos, tais que no máximo dois se intersectassem.[3] Essa restrição significa que a saída está na forma de uma rede complexa. Como a topologia de uma nuvem de pontos finitos é trivial, métodos de agrupamento (como ligação única) são usados para produzir o análogo de conjuntos conexos na pré-imagem quando se aplica MAPPER a dados reais.
Em termos matemáticos, o MAPPER é uma variação do gráfico de Reeb. Se o é no máximo unidimensional, então para cada , [30] A flexibilidade adicional também tem desvantagens. Um problema é a instabilidade, na medida em que alguma mudança na escolha da cobertura pode levar a grandes mudanças na saída do algoritmo.[31] Houve trabalho no sentido de superar esse problema.[26]
Três aplicações bem-sucedidas do MAPPER podem ser encontradas em Carlsson et al.[32] Um comentário de J. Curry sobre as aplicações neste artigo é que "uma característica de interesse comum em aplicações é a presença de flares ou tendrils".[33]
Está disponível online uma implementação gratuita do MAPPER, escrita por Daniel Müllner e Aravindakshan Babu. O MAPPER também serve como base para a plataforma de IA da Ayasdi.
Persistência multidimensional
A persistência multidimensional é importante para a TDA. O conceito surge tanto na teoria quanto na prática. A primeira investigação da persistência multidimensional foi no início do desenvolvimento da TDA,[34] e é um dos artigos fundadores da TDA.[9] A primeira aplicação a aparecer na literatura é um método para comparação de formas, semelhante à invenção da TDA.[35]
A definição de um módulo de persistência n- dimensional em é[33]
um espaço vetorial é associado a cada ponto em
uma aplicação é associada se (
as aplicações satisfazem para quaisquer
Pode ser interessante notar que existem controvérsias sobre a definição de persistência multidimensional.[33]
Uma das vantagens da persistência unidimensional é sua representabilidade por um diagrama ou código de barras. No entanto, não existem invariantes completos discretos de módulos de persistência multidimensionais.[36] A principal razão para isso é que a estrutura da coleção de indecomponíveis é extremamente complicada pelo teorema de Gabriel na teoria das representações de quiver,[37] embora um módulo de persistência finitamente n-dim possa ser decomposto unicamente em uma soma direta de indecomponíveis devido ao teorema de Krull-Schmidt.[38]
No entanto, muitos resultados foram estabelecidos. Carlsson e Zomorodian introduziram o invariante de classificação, definido como o , no qual é um módulo n-graduado finamente gerado. Em uma dimensão, é equivalente ao código de barras. Na literatura, o invariante de classificação é freqüentemente referido como os números de Betti persistentes (PBNs, na sigla em inglês).[17] Em muitos trabalhos teóricos, os autores usaram uma definição mais restrita, um análogo da persistência de conjunto subnível. Especificamente, os números de Betti de persistência de uma função são dados pela função , que leva cada em , em que e .
Entre as propriedades básicas estão a monotonicidade e o salto diagonal.[39] Números de Betti persistentes serão finitos se é um subespaço compacto e localmente contrátil de .[40]
Usando um método de foliação, os PBNs k-dim podem ser decompostos em uma família de PBNs 1-dim por dedução de dimensionalidade.[41] Este método também levou a uma prova de que os PBNs multi-dim são estáveis.[42] As descontinuidades dos PBNs ocorrem apenas em pontos em que ou é um ponto descontínuo de ou é um ponto descontínuo de sob a suposição de que e é um espaço topológico compacto e triangulável.[43]
O espaço persistente, uma generalização do diagrama persistente, é definido como o multiconjunto de todos os pontos com multiplicidade maior que 0 e a diagonal.[44] Ele fornece uma representação estável e completa dos PBNs. Em um trabalho em andamento, Carlsson et al. tentam dar uma interpretação geométrica da homologia persistente, o que pode fornecer insights sobre como combinar a teoria do aprendizado de máquina com a análise topológica de dados.[45]
O primeiro algoritmo prático para calcular a persistência multidimensional foi inventado muito cedo.[46] Posteriormente, muitos outros algoritmos foram propostos, baseados em conceitos como a teoria de Morse discreta[47] e estimativa de amostras finitas.[48]
Outras persistências
O paradigma padrão em TDA é frequentemente referido como persistência de subnível. Além da persistência multidimensional, muitos trabalhos foram feitos para estender este caso especial.
Persistência em zigue-zague
As aplicações não nulas no módulo de persistência são restritas pela relação de pré-ordem na categoria. No entanto, os matemáticos descobriram que a unanimidade de direção não é essencial para muitos resultados. “O ponto filosófico é que a teoria de decomposição das representações de grafos é um tanto independente da orientação das arestas dos grafos”.[49] A persistência em zigue-zague é importante do ponto de vista teórico. Os exemplos dados no artigo de revisão de Carlsson para ilustrar a importância da funcionalidade, todos compartilham algumas de suas características.[3]
Persistência estendida e persistência de conjuntos de nível
Algumas tentativas é perder a restrição mais estrita da função.[50] Por favor, consulte as seções sobre categorização e cofeixes e impacto na matemática para mais informações.
É natural estender a homologia de persistência a outros conceitos básicos da topologia algébrica, como a coomologia e a homologia/coomologia relativa.[51] Uma aplicação interessante é o cálculo de coordenadas circulares para um conjunto de dados por meio do primeiro grupo de coomologia persistente.[52]
Persistência circular
A homologia de persistência normal estuda funções a valores reais. Funções a valores no círculo podem ser úteis, "a teoria da persistência para aplicações a valores no círculo promete desempenhar para alguns campos vetoriais o papel que a teoria de persistência padrão desempenha para campos escalares", como comentado em D. Burghelea et al.[53] A principal diferença é que as células de Jordan (muito semelhantes em formato aos blocos de Jordan na álgebra linear) não são triviais em funções a valores no círculo, que seriam zero no caso a valores reais, e combinando com códigos de barras fornecem as invariantes de uma aplicação tame, sob condições moderadas.
Duas técnicas que eles usam são a teoria de Morse-Novikov[54] e a teoria de representação de grafos.[55] Resultados mais recentes podem ser encontrados em D. Burghelea et al.[56] Por exemplo, o requisito de tame pode ser substituído por uma condição muito mais fraca, a continuidade.
Persistência com torção
A prova do teorema da estrutura depende do domínio de base ser corpo, portanto, não foram feitas muitas tentativas de homologia de persistência com torção. Frosini definiu uma pseudométrica neste módulo específico e comprovou sua estabilidade.[57] Uma de suas novidades é não depender de uma teoria de classificação para definir a métrica.[58]
Categorificação e cofeixes
Uma vantagem da teoria das categorias é a sua capacidade de elevar resultados concretos a um nível superior, mostrando relações entre objetos aparentemente desconectados. Bubenik et al.[59] oferecem uma breve introdução da teoria das categorias ajustada para a TDA.
A teoria das categorias é a linguagem da álgebra moderna e tem sido amplamente utilizada no estudo da geometria algébrica e da topologia. Foi notado que "a observação chave de[9] é que o diagrama de persistência produzido por[7] depende apenas da estrutura algébrica carregada por este diagrama."[60] O uso da teoria das categorias na TDA provou ser frutífero.[59]
Seguindo as notações feitas em Bubenik et al.,[60] a categoria de indexação é qualquer conjunto pré-ordenado (não necessariamente ou ), a categoria de destino é qualquer categoria (em vez do comumente usado ), e funtores são chamados de módulos de persistência generalizados em , sobre .
Uma vantagem de se usar a teoria das categorias na TDA é uma compreensão mais clara dos conceitos e a descoberta de novas relações entre as provas. Considere dois exemplos para ilustração. O entendimento da correspondência entre intercalação e correspondência é de grande importância, uma vez que a correspondência foi o método usado no início (modificado da teoria de Morse). Um resumo dos trabalhos pode ser encontrado em Vin de Silva et al.[61] Muitos teoremas podem ser provados com muito mais facilidade em um ambiente mais intuitivo.[58] Outro exemplo é a relação entre a construção de diferentes complexos a partir de nuvens de pontos. Há muito tempo foi notado que os complexos de Čech e de Vietoris-Rips estão relacionados. Especificamente, .[62] A relação essencial entre os complexos Cech e Rips pode ser vista muito mais claramente na linguagem categórica.
A linguagem da teoria das categorias também ajuda a expor os resultados em termos reconhecíveis pela comunidade matemática mais ampla. A distância de gargalo é amplamente usada na TDA por causa dos resultados sobre a estabilidade em relação à distância de gargalo.[11][14] Na verdade, a distância de intercalação é o objeto terminal em uma categoria poset de métricas estáveis em módulos de persistência multidimensionais em um corpo primo.☃☃☃☃
Feixes, um conceito central em geometria algébrica moderna, estão intrinsecamente relacionados à teoria das categorias. Em linhas gerais, os feixes são a ferramenta matemática para entender como as informações locais determinam as informações globais. Justin Curry considera a persistência do conjunto de níveis como o estudo de fibras de funções contínuas. Os objetos que ele estuda são muito semelhantes aos do MAPPER, mas com a teoria dos feixes como fundamento teórico.[33] Embora nenhuma grande descoberta na teoria de TDA tenha usado a teoria dos feixes, ela é promissora, uma vez que existem muitos teoremas em geometria algébrica relacionados à teoria dos feixes. Por exemplo, uma questão teórica natural é se diferentes métodos de filtragem resultam na mesma saída.[63]
Estabilidade
A estabilidade é de importância central para a análise de dados, uma vez que dados reais têm ruídos. Com o uso da teoria das categorias, Bubenik et al. distinguiram entre teoremas de estabilidade soft e hard e provaram que os casos flexíveis são formais.[60] Especificamente, o fluxo de trabalho geral da TDA é
dados
módulo de persistência topológica
módulo de persistência algébrica
invariante discreto
O teorema de estabilidade soft afirma que é Lipschitz contínuo, e o teorema da estabilidade hard afirma que é Lipschitz contínuo.
A distância do gargalo é amplamente usada na TDA. O teorema de isometria afirma que a distância de intercalação é igual à distância do gargalo.[58] Bubenik et al. abstrairam a definição àquela entre functores quando está equipado com uma projeção sublinear ou família superlinear, na qual ainda permanece uma pseudométrica.[60] Considerando os caracteres magníficos da distância de intercalação,[64] aqui é apresentada a definição geral de distância de intercalação (em vez da primeira introduzida):[11] (uma função de para que é monótona e satisfaz para todo ) Uma -intercalação entre F e G consiste em transformações naturais e , tais que e .
Seja um conjunto pré-ordenado com uma projeção sublinear ou família superlinear. Seja um funtor entre categorias arbitrárias . Então, para quaisquer dois funtores , tem-se .
Seja um conjunto parcialmente ordenado de um espaço métrico , e seja um espaço topológico. Sejam também funções (não necessariamente contínuas), e os diagramas de persistência correspondentes. Então .
Esses dois resultados resumem muitos resultados sobre a estabilidade de diferentes modelos de persistência.
Para o teorema de estabilidade da persistência multidimensional, consulte a subseção de persistência.
Teorema de estrutura
O teorema de estrutura é de importância central para a TDA; como comentado por G. Carlsson, "o que torna a homologia útil como discriminador entre espaços topológicos é o fato de que existe um teorema de classificação para grupos abelianos finitamente gerados".[3] (veja o teorema fundamental dos grupos abelianos finitamente gerados).
Em geral, nem todo módulo de persistência pode ser decomposto em intervalos.[65] Muitas tentativas foram feitas para relaxar as hipóteses do teorema de estrutura original. O caso dos módulos de persistência pontualmente de dimensão finita indexados por um subconjunto localmente finito de é resolvido com base no trabalho de Webb.[66] O resultado mais notável é feito por Crawley-Boevey, que resolveu o caso de . O teorema de Crawley-Boevey afirma que qualquer módulo de persistência pontualmente de dimensão finita é uma soma direta de módulos de intervalo.[67]
Para entender o que diz o teorema, alguns conceitos precisam ser introduzidos. Um intervalo em é definido como um subconjunto com a propriedade de que se e se houver um de tal modo que , então também é tem-se . Um módulo de intervalo atribui a cada elemento o espaço vetorial e atribui o espaço vetorial nulo aos elementos de . Todas as aplicações são nulas, a não ser que e , nesse caso é a aplicação identidade.[33] Módulos de intervalo são indecomponíveis.[68]
Embora o resultado de Crawley-Boevey seja um teorema muito poderoso, ele ainda não se estende ao caso q-tame.[65] Um módulo de persistência é q-tame se o posto de ☃☃ é finito sempre que ☃☃. Existem exemplos de módulos de persistência q-tamenão são pontualmente finitos. ☃ No entanto, verifica-se que um teorema de estrutura semelhante ainda é válido sforem removides a as características que existem apenas em um valor de índias.[68] Isso é válido porque as partes de dimensão inifinita em cada valor de índice não persistem, devido à condição de posto finito.[69] Formalmente, a categoria observável é definida como , em que denota a subcategoria completa de cujos objetos são os módulos efêmeros ( sempre que )
Observe que os resultados estendidos listados aqui não se aplicam à persistência em ziguezague, uma vez que o análogo de um módulo de persistência em ziguezague sobre não é imediatamente óbvio.
Estatísticas
Os dados reais são sempre finitos, consequentemente seu estudo exige que levemos em consideração a estocasticidade. A análise estatística nos dá a habilidade de separar características verdadeiras dos dados de artefatos introduzidos por ruído aleatório. Não há um mecanismo inerente à homologia persistente para distinguir entre características de baixa probabilidade e características de alta probabilidade.
Uma maneira de aplicar estatística à análise topológica de dados é estudar as propriedades estatísticas das características topológicas das nuvens de pontos. O estudo de complexos simpliciais aleatórios oferece alguns insights sobre a topologia estatística. K. Turner et al.[70] oferecem um resumo dos trabalhos nessa linha.
Uma segunda maneira é estudar as distribuições de probabilidade no espaço de persistência. O espaço de persistência é , Onde é o espaço de todos os códigos de barras contendo exatamente intervalos e as equivalências são se .[71] Este espaço é bastante complicado; por exemplo, ele não é completo na métrica de gargalo. A primeira tentativa de estudá-lo foi feita por Y. Mileyko et al.[72] O espaço dos diagramas de persistência é definido em seu artigo como em que é a reta diagonal em . Uma boa propriedade é que é completo e separável na métrica de Wasserstein . A esperança, a variância e a probabilidade condicional podem ser definidas no sentido de Fréchet. Isso permite que muitas ferramentas estatísticas sejam transferidas para a TDA. Trabalhos em teste de significância de hipótese nula,[73]intervalos de confiança[74] e estimativas robustas[75] são etapas notáveis.
Uma terceira forma é considerar a coomologia do espaço probabilístico ou sistemas estatísticos diretamente, chamadas de estruturas de informação e consistindo basicamente nas triplas ( ), espaço amostral, variáveis aleatórias e leis de probabilidade.[76][77] Variáveis aleatórias são consideradas como partições das n probabilidades atômicas (vistas como um (n-1)-simplex de probabilidade, ) no reticulado de partições (). As variáveis aleatórias ou módulos de funções mensuráveis fornecem os complexos de cocadeia enquanto o cobordo é considerado como a álgebra homológica geral descoberta pela primeira vez por Hochschild com uma ação à esquerda implementando a ação de condicionamento. A primeira condição de cociclo corresponde à regra da cadeia de entropia, permitindo derivar unicamente a menos da constante multiplicativa, a entropia de Shannon como a primeira classe de coomologia. A consideração de uma ação deformada à esquerda generaliza o quadro para entropias de Tsallis. A coomologia da informação é um exemplo de topos anelados. k-informações mútuas multivariadas aparecem em expressões cobordos, e o seu desaparecimento, relacionado à condição de cociclo, fornece condições equivalentes para a independência estatística.[78] Mínimos de informações mútuas, também chamados de sinergia, dão origem a configurações de independência interessantes análogas a links homotópicos. Devido à sua complexidade combinatória, apenas o subcaso simplicial da coomologia e da estrutura de informação foi investigado nos dados. Aplicadas a dados, essas ferramentas coomológicas quantificam dependências e independências estatísticas, incluindo cadeias de Markov e independência condicional, no caso multivariado.[79] Notavelmente, as informações mútuas generalizam o coeficiente de correlação e a covariância para dependências estatísticas não lineares. Essas abordagens foram desenvolvidas de forma independente e apenas indiretamente relacionadas aos métodos de persistência, mas podem ser aproximadamente compreendidas no caso simplicial usando o Teorema de Hu Kuo Tin que estabelece correspondência um a um entre funções de informações mútuas e função mensurável finita de um conjunto com operador de interseção, para construir o esqueleto do complexo de Čech . A coomologia de informações oferece alguma interpretação e aplicação direta em termos de neurociência (teoria da montagem neural e cognição qualitativa[80]), física estatística e rede neural profunda para a qual a estrutura e o algoritmo de aprendizagem são impostos pelo complexo de variáveis aleatórias e pela regra da cadeia de informações.[81]
As paisagens de persistência, introduzidas por Peter Bubenik, são uma forma diferente de representar códigos de barras, mais passíveis de análise estatística.[82] A paisagem de persistência de um módulo persistente é definida como uma função , , Onde denota a reta real estendida e . O espaço de paisagens de persistência é muito bom: ele herda todas as boas propriedades de representação de código de barras (estabilidade, fácil representação, etc.), mas as quantidades estatísticas podem ser prontamente definidas, e alguns problemas no trabalho de Y. Mileyko et al., como a não unicidade das expectativas,[72] podem ser superados. Estão disponíveis algoritmos eficazes para computação com paisagens de persistência.[83] Outra abordagem é usar a persistência revisada, que é a persistência de imagem, núcleo e conúcleo.[84]
Aplicações
Classificação das aplicações
Existe mais de uma maneira de classificar as aplicações da TDA. Talvez a forma mais natural seja pela área. Uma lista muito incompleta de aplicações bem-sucedidas inclui[85] esqueletização de dados,[86] estudo da forma,[87] reconstrução de gráfico,[88][89][90][91][79] análise de imagem,[92][93] material,[94] análise de progressão de doenças,[95][96] rede de sensores,[62] análise de sinais,[97] teia cósmica,[98] rede complexa,[99][100][101][102] geometria fractal,[103] evolução viral,[104] propagação de contágios em redes,[105] classificação de bactérias usando espectroscopia molecular,[106] imageamento hiperespectral em físico-química[107] e sensoriamento remoto.[108] Outra forma é distinguindo as técnicas de G. Carlsson,[71]
uma sendo o estudo de invariantes homológicos de dados em conjuntos de dados individuais, e a outra é o uso dos invariantes homológicos no estudo de bancos de dados em que os próprios pontos de dados têm estrutura geométrica.
Características da TDA em aplicações
Existem várias características interessantes notáveis das aplicações recentes do TDA:
Combinação de ferramentas de vários ramos da matemática. Além da necessidade óbvia de álgebra e topologia, a TDA também fez uso a equações diferenciais parciais,[109] geometria algébrica,[36] teoria da representação,[49] estatística, combinatória e geometria Riemanniana.[69]
Análise quantitativa. A topologia é considerada muito suave, pois muitos conceitos são invariantes sob homotopia. No entanto, a topologia persistente é capaz de registrar o nascimento (aparecimento) e morte (desaparecimento) de características topológicas, portanto, informações geométricas extras estão incorporadas nela. Uma evidência em teoria é um resultado parcialmente positivo na unicidade da reconstrução de curvas;[110] dois em aplicações se referem à análise quantitativa da estabilidade do fulereno e a análise quantitativa da autossimilaridade, separadamente.[103][111]
O papel da persistência curta. A persistência curta também se mostrou útil, apesar da crença comum de que o fenômeno seja causado por ruído.[112] Isso é interessante para a teoria matemática.
Um dos principais campos da análise de dados hoje é o aprendizado de máquina. Alguns exemplos de aprendizado de máquina em TDA podem ser encontrados em Adcock et al.[113] Uma conferência é dedicada à ligação entre a TDA e o aprendizado de máquina. Para aplicar ferramentas de aprendizado de máquina, as informações obtidas na TDA devem ser representadas na forma vetorial. Uma tentativa contínua e promissora é o cenário de persistência discutido acima. Outra tentativa usa o conceito de imagens de persistência.[114] Porém, um problema desse método é a perda de estabilidade, uma vez que o teorema da estabilidade rígida depende da representação em código de barras.
Impacto na matemática
A análise topológica de dados e a homologia persistente tiveram impactos na teoria de Morse. A teoria de Morse desempenhou um papel muito importante na teoria de TDA, inclusive na computação. Alguns trabalhos em homologia persistente estenderam resultados sobre funções de Morse para funções tame ou mesmo para funções contínuas. Um resultado esquecido de R. Deheuvels de muito antes da invenção da homologia persistente estende a teoria de Morse a todas as funções contínuas.[115]
Um resultado recente é que a categoria de grafos Reeb é equivalente a uma classe particular de cofeixe.[116] Isso é motivado por trabalhos teóricos em TDA, uma vez que o grafo de Reeb está relacionado à teoria de Morse e o MAPPER é derivado dela. A prova desse teorema se baseia na distância de intercalação.
A homologia persistente está intimamente relacionada às sequências espectrais.[117][118] Em particular, o algoritmo que leva um complexo filtrado à sua forma canônica[10] permite um cálculo muito mais rápido de sequências espectrais do que o procedimento padrão de cálcular os grupos página por página. A persistência em ziguezague pode acabar sendo de importância teórica para as sequências espectrais.
↑Edelsbrunner H. Persistent homology: theory and practice[J]. 2014.
↑Frosini. «A distance for similarity classes of submanifolds of a Euclidean space». Bulletin of the Australian Mathematical Society. 42: 407–415. ISSN1755-1633. doi:10.1017/S0004972700028574
↑Robins V. Towards computing homology from finite approximations[C]//Topology proceedings. 1999, 24(1): 503-532.
↑ abcChazal, Frédéric; Cohen-Steiner, David; Glisse, Marc; Guibas, Leonidas J.; Oudot, Steve Y. (1 de janeiro de 2009). Proximity of Persistence Modules and Their Diagrams. ACM. Col: SCG '09. New York, NY, USA: [s.n.] pp. 237–246. ISBN978-1-60558-501-7. doi:10.1145/1542362.1542407
↑Munch E. Applications of persistent homology to time varying systems[D]. Duke University, 2013.
↑Chazal, Frédéric; Glisse, Marc; Labruère, Catherine; Michel, Bertrand (27 de maio de 2013). «Optimal rates of convergence for persistence diagrams in Topological Data Analysis». arXiv:1305.6239 [math.ST]
↑De Silva, Vin; Carlsson, Gunnar (1 de janeiro de 2004). Topological Estimation Using Witness Complexes. Eurographics Association. Col: SPBG'04. Aire-la-Ville, Switzerland, Switzerland: [s.n.] pp. 157–166. ISBN978-3-905673-09-8. doi:10.2312/SPBG/SPBG04/157-166
↑Mischaikow. «Morse Theory for Filtrations and Efficient Computation of Persistent Homology». Discrete & Computational Geometry. 50: 330–353. ISSN0179-5376. doi:10.1007/s00454-013-9529-6
↑Fasy, Brittany Terese; Kim, Jisu; Lecci, Fabrizio; Maria, Clément (7 de novembro de 2014). «Introduction to the R package TDA». arXiv:1411.1830 [cs.MS]
↑Wadhwa. «TDAstats: R pipeline for computing persistent homology in topological data analysis». Journal of Open Source Software. 3. 860 páginas. Bibcode:2018JOSS....3..860R. doi:10.21105/joss.00860
↑Liu S, Maljovec D, Wang B, et al. Visualizing High-Dimensional Data: Advances in the Past Decade[J].
↑ abcdeCurry, Justin (3 de novembro de 2014). «Topological Data Analysis and Cosheaves». arXiv:1411.0613 [math.AT]
↑Frosini P, Mulazzani M. Size homotopy groups for computation of natural size distances[J]. Bulletin of the Belgian Mathematical Society Simon Stevin, 1999, 6(3): 455-464.
↑Biasotti. «Multidimensional Size Functions for Shape Comparison». Journal of Mathematical Imaging and Vision. 32: 161–179. ISSN0924-9907. doi:10.1007/s10851-008-0096-z
↑Cerri, Andrea; Landi, Claudia (20 de março de 2013). Gonzalez-Diaz; Jimenez; Medrano, eds. The Persistence Space in Multidimensional Persistent Homology. Springer Berlin Heidelberg. Col: Lecture Notes in Computer Science. [S.l.: s.n.] pp. 180–191. ISBN978-3-642-37066-3. doi:10.1007/978-3-642-37067-0_16
↑Skryzalin, Jacek; Carlsson, Gunnar (14 de novembro de 2014). «Numeric Invariants from Multidimensional Persistence». arXiv:1411.4022 [cs.CG]
↑Carlsson, Gunnar; Singh, Gurjeet; Zomorodian, Afra (16 de dezembro de 2009). Dong; Du; Ibarra, eds. Computing Multidimensional Persistence. Springer Berlin Heidelberg. Col: Lecture Notes in Computer Science. [S.l.: s.n.] pp. 730–739. ISBN978-3-642-10630-9. doi:10.1007/978-3-642-10631-6_74
↑Allili, Madjid; Kaczynski, Tomasz; Landi, Claudia (30 de outubro de 2013). «Reducing complexes in multidimensional persistent homology theory». arXiv:1310.8089 [cs.CG]
↑Cavazza N, Ferri M, Landi C. Estimating multidimensional persistent homology through a finite sampling[J]. 2010.
↑Novikov S P. Quasiperiodic structures in topology[C]//Topological methods in modern mathematics, Proceedings of the symposium in honor of John Milnor’s sixtieth birthday held at the State University of New York, Stony Brook, New York. 1991: 223-233.
↑de Silva, Vin; Nanda, Vidit (1 de janeiro de 2013). Geometry in the Space of Persistence Modules. ACM. Col: SoCG '13. New York, NY, USA: [s.n.] pp. 397–404. ISBN978-1-4503-2031-3. doi:10.1145/2462356.2462402
↑ abDe Silva V, Ghrist R. Coverage in sensor networks via persistent homology[J]. Algebraic & Geometric Topology, 2007, 7(1): 339-358.
↑Lesnick, Michael (6 de junho de 2012). «Multidimensional Interleavings and Applications to Topological Inference». arXiv:1206.1365 [math.AT]
↑ abChazal, Frederic; de Silva, Vin; Glisse, Marc; Oudot, Steve (16 de julho de 2012). «The structure and stability of persistence modules». arXiv:1207.3674 [math.AT]
↑Crawley-Boevey, William (2015). «Decomposition of pointwise finite-dimensional persistence modules». Journal of Algebra and Its Applications. 14. 1550066 páginas. arXiv:1210.0819. doi:10.1142/s0219498815500668
↑ abChazal, Frederic; Crawley-Boevey, William; de Silva, Vin (22 de maio de 2014). «The observable structure of persistence modules». arXiv:1405.5644 [math.RT]
↑ abWeinberger S. What is... persistent homology?[J]. Notices of the AMS, 2011, 58(1): 36-39.
↑Turner, Katharine; Mileyko, Yuriy; Mukherjee, Sayan; Harer, John (12 de julho de 2014). «Fréchet Means for Distributions of Persistence Diagrams». Discrete & Computational Geometry. 52: 44–70. ISSN0179-5376. arXiv:1206.2790. doi:10.1007/s00454-014-9604-7
↑Robinson, Andrew; Turner, Katharine (28 de outubro de 2013). «Hypothesis Testing for Topological Data Analysis». arXiv:1310.7467 [stat.AP]
↑Fasy, Brittany Terese; Lecci, Fabrizio; Rinaldo, Alessandro; Wasserman, Larry; Balakrishnan, Sivaraman; Singh, Aarti (1 de dezembro de 2014). «Confidence sets for persistence diagrams». The Annals of Statistics. 42: 2301–2339. ISSN0090-5364. doi:10.1214/14-AOS1252
↑Blumberg, Andrew J.; Gal, Itamar; Mandell, Michael A.; Pancia, Matthew (15 de maio de 2014). «Robust Statistics, Hypothesis Testing, and Confidence Intervals for Persistent Homology on Metric Measure Spaces». Foundations of Computational Mathematics. 14: 745–789. ISSN1615-3375. arXiv:1206.4581. doi:10.1007/s10208-014-9201-4
↑Baudot, Pierre (2019). «The Poincaré-Shannon Machine: Statistical Physics and Machine Learning Aspects of Information Cohomology». Entropy. 21. 881 páginas. Bibcode:2019Entrp..21..881B. doi:10.3390/e21090881
↑Bubenik, Peter (26 de julho de 2012). «Statistical topological data analysis using persistence landscapes». arXiv:1207.6437 [math.AT]
↑Cerri, A.; Ferri, M.; Giorgi, D. (1 de setembro de 2006). «Retrieval of trademark images by means of size functions». Graphical Models. Special Issue on the Vision, Video and Graphics Conference 2005. 68: 451–471. doi:10.1016/j.gmod.2006.07.001
↑Chazal, Frédéric; Cohen-Steiner, David; Guibas, Leonidas J.; Mémoli, Facundo; Oudot, Steve Y. (1 de julho de 2009). «Gromov-Hausdorff Stable Signatures for Shapes using Persistence». Computer Graphics Forum. 28: 1393–1403. CiteSeerX10.1.1.161.9103. ISSN1467-8659. doi:10.1111/j.1467-8659.2009.01516.x
↑Biasotti, S.; Giorgi, D.; Spagnuolo, M.; Falcidieno, B. (1 de setembro de 2008). «Size functions for comparing 3D models». Pattern Recognition. 41: 2855–2873. doi:10.1016/j.patcog.2008.02.003
↑Carlsson, Gunnar; Ishkhanov, Tigran; Silva, Vin de; Zomorodian, Afra (30 de junho de 2007). «On the Local Behavior of Spaces of Natural Images». International Journal of Computer Vision. 76: 1–12. CiteSeerX10.1.1.463.7101. ISSN0920-5691. doi:10.1007/s11263-007-0056-x
↑Schmidt, Stephan; Post, Teun M.; Boroujerdi, Massoud A.; Kesteren, Charlotte van; Ploeger, Bart A.; Pasqua (1 de janeiro de 2011). Kimko; Peck, eds. Disease Progression Analysis: Towards Mechanism-Based Models. Springer New York. Col: AAPS Advances in the Pharmaceutical Sciences Series. [S.l.: s.n.] pp. 433–455. ISBN978-1-4419-7414-3. doi:10.1007/978-1-4419-7415-0_19
↑Perea, Jose A.; Harer, John (29 de maio de 2014). «Sliding Windows and Persistence: An Application of Topological Methods to Signal Analysis». Foundations of Computational Mathematics. 15: 799–838. CiteSeerX10.1.1.357.6648. ISSN1615-3375. doi:10.1007/s10208-014-9206-z
↑van de Weygaert, Rien; Vegter, Gert; Edelsbrunner, Herbert; Jones, Bernard J. T.; Pranav, Pratyush; Park (1 de janeiro de 2011). Gavrilova; Tan; Mostafavi, eds. Transactions on Computational Science XIV. Springer-Verlag. Berlin, Heidelberg: [s.n.] pp. 60–101. ISBN978-3-642-25248-8
↑Carstens, C. J.; Horadam, K. J. (4 de junho de 2013). «Persistent Homology of Collaboration Networks». Mathematical Problems in Engineering. 2013: 1–7. doi:10.1155/2013/815035
↑Offroy, M. (2016). «Topological data analysis: A promising big data exploration tool in biology, analytical chemistry and physical chemistry». Analytica Chimica Acta. 910: 1–11. PMID26873463. doi:10.1016/j.aca.2015.12.037
↑Duponchel, L. (2018). «Exploring hyperspectral imaging data sets with topological data analysis». Analytica Chimica Acta. 1000: 123–131. PMID29289301. doi:10.1016/j.aca.2017.11.029
↑Duponchel, L. (2018). «When remote sensing meets topological data analysis». Journal of Spectral Imaging. 7: a1. doi:10.1255/jsi.2018.a1
↑Wang, Bao; Wei, Guo-Wei (7 de dezembro de 2014). «Objective-oriented Persistent Homology». arXiv:1412.2368 [q-bio.BM]
↑Chepushtanova, Sofya; Emerson, Tegan; Hanson, Eric; Kirby, Michael; Motta, Francis; Neville, Rachel; Peterson, Chris; Shipman, Patrick; Ziegelmeier, Lori (22 de julho de 2015). «Persistence Images: An Alternative Persistent Homology Representation». arXiv:1507.06217 [cs.CG]
↑Deheuvels, Rene (1 de janeiro de 1955). «Topologie D'Une Fonctionnelle». Annals of Mathematics. Second Series. 61: 13–72. JSTOR1969619. doi:10.2307/1969619
↑de Silva, Vin; Munch, Elizabeth; Patel, Amit (13 de abril de 2016). «Categorified Reeb graphs». Discrete and Computational Geometry. 55: 854–906. arXiv:1501.04147. doi:10.1007/s00454-016-9763-9