Big data huella digital
Descarga del conjunto de datos de huellas dactilares
Este artículo trata de los algoritmos generales de huellas dactilares. Para los algoritmos específicos de audio, véase la huella digital acústica. Para los algoritmos específicos de vídeo, véase la huella digital de vídeo. Para los algoritmos que coinciden con las huellas dactilares humanas, véase Huellas dactilares § Algoritmos. Para la técnica de identificación de navegadores, véase Huella digital de navegadores. Para otros usos, véase huella digital.
En informática, un algoritmo de huellas dactilares es un procedimiento que asigna un elemento de datos de tamaño arbitrario (como un archivo informático) a una cadena de bits mucho más corta, su huella dactilar, que identifica de forma exclusiva los datos originales a todos los efectos prácticos[1], al igual que las huellas dactilares humanas identifican de forma exclusiva a las personas a efectos prácticos. Esta huella digital puede utilizarse para la deduplicación de datos. Esto también se conoce como huella digital de archivos, huella digital de datos o huella digital de datos estructurados.
Las huellas dactilares suelen utilizarse para evitar la comparación y transmisión de datos voluminosos. Por ejemplo, un navegador web o un servidor proxy pueden comprobar eficazmente si un archivo remoto ha sido modificado, obteniendo sólo su huella digital y comparándola con la de la copia obtenida anteriormente[2][3][4][5][6].
Huellas moleculares de dispositivos
Entre las diversas huellas moleculares disponibles para describir pequeñas moléculas orgánicas, la huella de conectividad extendida, hasta cuatro enlaces (ECFP4) es la que mejor se comporta en los estudios de recuperación de análogos de fármacos, ya que codifica las subestructuras con un alto nivel de detalle. Desafortunadamente, ECFP4 requiere representaciones de alta dimensión (≥ 1024D) para tener un buen rendimiento, lo que hace que las búsquedas de vecinos más cercanos de ECFP4 en bases de datos muy grandes como GDB, PubChem o ZINC tengan un rendimiento muy lento debido a la maldición de la dimensionalidad.
Aquí presentamos una nueva huella digital, denominada huella digital MinHash, hasta seis enlaces (MHFP6), que codifica subestructuras detalladas utilizando el principio de conectividad extendida de ECFP de una manera fundamentalmente diferente, aumentando el rendimiento de las búsquedas de vecinos más cercanos exactos en estudios de referencia y permitiendo la aplicación de algoritmos de búsqueda de vecinos más cercanos aproximados sensibles a la localidad (LSH). Para describir una molécula, MHFP6 extrae los SMILES de todas las subestructuras circulares alrededor de cada átomo hasta un diámetro de seis enlaces y aplica el método MinHash al conjunto resultante. MHFP6 supera a ECFP4 en los estudios de recuperación de análogos de referencia. Aprovechando el hash sensible a la localidad, los métodos de búsqueda aproximada de vecinos más cercanos de LSH funcionan tan bien en MHFP6 desdoblado como los métodos comparables en huellas dactilares ECFP4 dobladas en términos de velocidad y tasa de recuperación relativa, mientras operan en un espacio químico binario muy disperso y de alta dimensión.
Conjunto de datos de huellas dactilares
Antecedentes: Entre las diversas huellas moleculares disponibles para describir pequeñas moléculas orgánicas, la ECFP4 (huella de conectividad extendida, hasta cuatro enlaces) es la que mejor se comporta en los estudios de recuperación de análogos de fármacos de referencia, ya que codifica subestructuras con un alto nivel de detalle. Desafortunadamente, ECFP4 requiere representaciones de alta dimensión (≥1,024D) para tener un buen rendimiento, lo que hace que las búsquedas de vecinos más cercanos de ECFP4 en bases de datos muy grandes como GDB, PubChem o ZINC tengan un rendimiento muy lento debido a la maldición de la dimensionalidad.
Resultados: En este trabajo presentamos una nueva huella digital, denominada MHFP6 (MinHash fingerprint, up to six bonds), que codifica subestructuras detalladas utilizando el principio de conectividad extendida de ECFP de una manera fundamentalmente diferente, aumentando el rendimiento de las búsquedas exactas de vecinos más cercanos en estudios de referencia y permitiendo la aplicación de algoritmos de búsqueda aproximada de vecinos más cercanos sensibles a la localidad (LSH). Para describir una molécula, MHFP6 extrae los SMILES de todas las subestructuras circulares alrededor de cada átomo hasta un diámetro de seis enlaces y aplica el método MinHash al conjunto resultante. MHFP6 supera a ECFP4 en los estudios de recuperación de análogos de referencia. Además, MHFP6 supera a ECFP4 en las búsquedas de vecinos más cercanos aproximados en dos órdenes de magnitud en términos de velocidad, al tiempo que disminuye la tasa de error.
Algoritmo de la huella molecular
Entre las diversas huellas moleculares disponibles para describir pequeñas moléculas orgánicas, la huella de conectividad extendida, hasta cuatro enlaces (ECFP4) es la que mejor funciona en los estudios de recuperación de análogos de fármacos, ya que codifica las subestructuras con un alto nivel de detalle. Desafortunadamente, ECFP4 requiere representaciones de alta dimensión (≥ 1024D) para tener un buen rendimiento, lo que hace que las búsquedas de vecinos más cercanos de ECFP4 en bases de datos muy grandes como GDB, PubChem o ZINC tengan un rendimiento muy lento debido a la maldición de la dimensionalidad.
Aquí presentamos una nueva huella digital, denominada huella digital MinHash, hasta seis enlaces (MHFP6), que codifica subestructuras detalladas utilizando el principio de conectividad extendida de ECFP de una manera fundamentalmente diferente, aumentando el rendimiento de las búsquedas exactas de vecinos más cercanos en los estudios de evaluación comparativa y permitiendo la aplicación de algoritmos de búsqueda aproximada de vecinos más cercanos sensibles a la localidad (LSH). Para describir una molécula, MHFP6 extrae los SMILES de todas las subestructuras circulares alrededor de cada átomo hasta un diámetro de seis enlaces y aplica el método MinHash al conjunto resultante. MHFP6 supera a ECFP4 en los estudios de recuperación de análogos de referencia. Aprovechando el hash sensible a la localidad, los métodos de búsqueda aproximada de vecinos más cercanos de LSH funcionan tan bien en MHFP6 desdoblado como los métodos comparables en huellas dactilares ECFP4 dobladas en términos de velocidad y tasa de recuperación relativa, mientras operan en un espacio químico binario muy disperso y de alta dimensión.