Como localizar palabras clave en un texto

Inicio » Como localizar palabras clave en un texto

Como localizar palabras clave en un texto

Generador de texto a palabras clave

Estoy intentando hacer un script en Python para utilizarlo en el trabajo y automatizar algunas de mis tareas. He estado utilizando el módulo pyautogui para simular los clics del ratón y las pulsaciones de las teclas, y hasta ahora ha funcionado muy bien.

Ahora mismo estoy intentando averiguar cómo alimentar automáticamente a Python con unas líneas de texto y detectar algunas palabras clave. El texto va a estar en el mismo lugar cada vez que ejecute el script, así que pensé que podría usar pyautogui para seleccionar el texto que quiero y copiarlo a mi portapapeles. Después, usaría el módulo win32clipboard para alimentar a Python con el texto.

Si tus palabras clave no tuvieran espacios, podrías mejorar tu programa para evitar la coincidencia incidental de subcadenas y obtener un mejor rendimiento dividiendo el texto en tokens y comparando el conjunto de tokens con el conjunto de palabras clave:

Extracción de palabras clave

Tengo unos 100 megabytes de texto, sin ningún tipo de marcado, divididos en aproximadamente 10.000 entradas. Me gustaría generar automáticamente una lista de «etiquetas». El problema es que hay grupos de palabras (es decir, frases) que sólo tienen sentido cuando se agrupan.

Si sólo cuento las palabras, obtengo un gran número de palabras realmente comunes (is, the, for, in, am, etc.). He contado las palabras y el número de otras palabras que están antes y después de ella, pero ahora no sé qué hacer a continuación La información relativa a las frases de 2 y 3 palabras está presente, pero ¿cómo puedo extraer estos datos?

Durante el proceso de tokenización (análisis sintáctico de las palabras, en este caso), busque patrones que puedan definir los límites de la expresión (como los signos de puntuación, especialmente los puntos, y también la separación múltiple LF/CR, utilícelos. También las palabras como «el» pueden utilizarse a menudo como límites. Estos límites de expresión suelen ser «negativos», en el sentido de que separan dos instancias de tokens que seguramente no se incluirán en la misma expresión. Algunos límites positivos son las comillas, especialmente las dobles. Este tipo de información puede ser útil para filtrar algunos de los n-gramas (véase el párrafo siguiente). También las secuencias de palabras como «por ejemplo» o «en lugar de» o «es necesario» pueden utilizarse como límites de expresión (pero el uso de este tipo de información se acerca a la utilización de «antecedentes», de los que hablaré más adelante).

Extracción de palabras clave de documentos individuales usando múltiples características locales

Quiero crear una forma de optimizar mi curriculum vitae utilizando un script de python. Para ello, estoy tratando de encontrar las palabras clave utilizadas en el listado de trabajo que puedo añadir a mi curriculum vitae para hacer que se destaque cuando se ejecuta a través de ATS. Actualmente, estoy usando el siguiente código para encontrar qué porcentaje de coincidencia tiene mi currículum con el trabajo. ¿Cómo puedo usar esta comparación y encontrar cómo mejorar mi currículum con palabras clave específicas del listado de trabajo?

Estoy usando lo siguiente para generar palabras clave, sin embargo, esto omite palabras importantes y es una lista larga que creo que podría ser optimizada mejor usando sklearn. En lugar de usar FindKeywords(), ¿cómo puedo acceder a la información del CountVectorizer().fit_transform(compare)

Extractor de palabras clave

Utilizaría expresiones regulares precompiladas para cada grupo de palabras clave a comparar. En el fondo estas son «compiladas» a autómatas finitos, por lo que son bastante rápidas en reconocer el patrón en su cadena y mucho más rápidas que un Contain para cada una de las posibles cadenas.

2) Implementa tú mismo un lector con el método ReadToken() que añade los caracteres a un buffer hasta que encuentra (Split podría estar haciéndolo) un carácter de división y lo emite como token. Entonces comprueba con su diccionario.

Scroll al inicio
Ir arriba