Análise Probabilística de Semântica Latente (APSL), também conhecida como Indexação Probabilística de Semântica Latente (IPSL, especialmente na área de recuperação de informação) é uma técnica estatística para a análise de co-ocorrência de dados. Em efeito, pode-se derivar uma representação de poucas dimensões das variáveis observadas com relação sua afinidade para determinadas variáveis ocultas. A técnica evoluiu da análise de semântica latente.
Comparado com a análise de semântica latente padrão que decorre de álgebra linear e redimensionamento de matrizes (geralmente através de uma decomposição em valores singulares), APSL é baseada em uma decomposição mista derivada de um modelo latente de classes.
Considerando as observações sob a forma de co-ocorrências de palavras e documentos, PLSA modela a probabilidade de cada co-ocorrência como uma mistura de distribuições multinomais condicionalmente independentes:
c representa um tópico e w é uma palavra. Note que o número de tópicos é um hiper-parâmetro que deve ser escolhido com antecedência e não é estimado a partir dos dados. A primeira formulação é a de simetria, onde e são gerados a partir da classe latente de forma semelhante (usando as probabilidades condicionais e ). A segunda formulação é a de assimétria, onde, para cada documento , classe latente é escolhida condicionalmente para o documento de acordo com a probabilidade e uma palavra é gerada a partir dessa classe, de acordo com . Apesar de ter usado palavras e documentos neste exemplo, a co-ocorrência de qualquer par de variáveis discretas pode ser modelada exatamente da mesma maneira.
Assim, o número de parâmetros é igual a . O número de parâmetros cresce linearmente com o número de documentos. Além disso, embora o Análise Probabilistica de Semântica Latente seja um gerador de modelo de documentos, este não é um modelo generativo de novos documentos.
Seus parâmetros são extraídas utilizando o algoritmo EM.
APSL pode ser usado em uma configuração discriminatória, através de kernels fisher.[1]
APSL tem aplicações na recuperação de informações e de filtragem, processamento de linguagem natural, aprendizado de máquina, e áreas afins.
É relatado que modelos de aspectos utilizados no APSL tem problemas de overfitting.[2]
Este é um exemplo de um modelo de classes latentes, e está relacionado[5][6] para fatoração de matrizes não negativas. A presente terminologia foi criada em 1999 por Thomas Hofmann.[7]