Análisis semántico de los posts de Donald Trump

Resumen ejecutivo

El presente análisis examina las publicaciones de Donald Trump en las redes sociales Twitter (X) y Truth Social entre 2009 y 2026, con el propósito de identificar patrones temporales, textuales y temáticos en su discurso digital, procesando más de 90,000 publicaciones, revelando una evolución comunicacional caracterizada por picos de actividad en periodos electorales y una marcada preferencia por narrativas nacionalistas y confrontacionales.

La fase de limpieza y depuración de datos permitió conservar el 92.6% de los textos como insumos válidos para el análisis, evidenciando los resultados temporales una intensificación significativa de la actividad en 2020, mientras que el análisis textual muestra publicaciones predominantemente concisas, con un uso recurrente de vocabulario enfocado en la gratitud y el patriotismo, asimismo, el modelado semántico identifica 146 temas principales, dominados por encuestas políticas y mensajes de respaldo, y un sentimiento mayoritariamente positivo del 47.6%, lo que sugiere una estrategia retórica orientada al optimismo en el periodo más reciente comprendido entre 2024 y 2026.

Sobre la base de datos

El análisis se desarrolla en Python, utilizando bibliotecas especializadas para la manipulación temporal y el procesamiento textual, para lo cual, se importa un conjunto de 90,554 publicaciones, con una incidencia mínima de valores faltantes en el texto principal, inferior al 0.01%, y una ausencia elevada en elementos secundarios como hashtags, que alcanzan el 91.5%, sugiriendo este patrón que el discurso de Trump prioriza mensajes directos por sobre el uso de etiquetas o menciones.

Tras la eliminación de 8,423 publicaciones duplicadas, se consolida un corpus de 82,131 entradas únicas que abarcan 6,092 días, reflejando una estrategia de comunicación sostenida en el tiempo, con repeticiones aparentemente deliberadas para reforzar mensajes clave, identificando una actividad promedio de 12.5 publicaciones diarias, con picos asociados a respuestas reactivas frente a eventos coyunturales, lo que evidencia la adaptabilidad del estilo comunicacional de Trump a los ciclos noticiosos y electorales.

En conjunto, la alta tasa de retención de datos posterior a la limpieza, equivalente al 92,6%, establece una base analítica robusta que permite inferir patrones auténticos en la evolución de su narrativa política y en los niveles de interacción a lo largo del tiempo.

Análisis Exploratorio de Datos

El análisis temporal revela un crecimiento sostenido desde 2017 que alcanza su máximo en 2020, con más de 10.000 publicaciones, coincidiendo este pico con eventos de alta tensión política y social, como el proceso de impeachment, el ciclo electoral y la pandemia de COVID-19, lo que indica un uso reactivo de las redes sociales como mecanismo para controlar y disputar la narrativa pública en contextos de crisis.

A nivel mensual, octubre concentra más de 8.000 publicaciones, lo que sugiere una alineación estratégica con los cierres de año y con momentos de alta intensidad informativa y electoral. En la distribución semanal, de lunes a viernes se superan las 10.000 publicaciones, reflejando una estrategia orientada a influir en la agenda mediática en la semana, concentrando la actividad en horarios diurnos, con un pico cercano a las 5,000 publicaciones alrededor de las 15 horas, lo que indica una optimización del alcance durante la jornada laboral y una maximización del engagement tanto a nivel nacional como internacional.

distribucion temporal es

La serie diaria presenta una elevada volatilidad y un marcado ruido de alta frecuencia, con una relación entre la media diaria, cercana a 12,5 publicaciones, y su desviación estándar, aproximadamente 14,3, constituye un claro indicio de sobredispersión, al agregar la información a frecuencia semanal, la serie se suaviza de forma significativa; sin embargo, la desviación estándar continúa siendo elevada, en torno a 72,7, lo que refleja la presencia de choques agregados de gran magnitud, una vez aplicada una media móvil de tres meses, se observan con mayor nitidez ciclos de largo alcance y cambios estructurales de nivel.

series temporales es

La figura clasifica el corpus en cinco categorías según la longitud de las publicaciones. La moda se ubica en la categoría “Medio” (21–50 palabras) con 28.021 posts, seguida por “Corto” (11–20 palabras) con 26.233 y “Muy corto” (hasta 10 palabras) con 15.067 publicaciones, por lo que, en términos proporcionales, más de la mitad del corpus se concentra en textos de menos de 20 palabras.

categorias longitud es

Las distribuciones de longitud, tanto en caracteres como en palabras, presentan una marcada asimetría positiva, la mediana de las palabras se sitúa en 20 y la media en 25–26; en caracteres, la mediana es 136 y la media 169, confirmando la diferencia entre media y mediana asimetría hacia valores más largos, mientras que la elevada desviación estándar evidencia una dispersión considerable, por otra parte, el análisis mediante boxplot revela numerosos valores extremos, con textos que alcanzan casi 3.000 caracteres, responsables de la cola larga de la distribución.

longitud texto es

La nube de palabras refleja una distribución Zipfiana típica del lenguaje natural, donde pocos términos concentran gran parte de la frecuencia, mientras que una larga cola agrupa numerosos términos poco frecuentes. La prominencia de palabras como “people”, “america”, “thank”, “biden” y “country” evidencia núcleos semánticos vinculados con identidad nacional, apelación directa a la audiencia y temas de coyuntura electoral. Desde un enfoque estadístico, la alta concentración en la cabeza de la distribución indica que, aun tras eliminar stopwords, existen “palabras de función política” que actúan como marcadores temáticos y contribuyen a la cohesión de ciertos clústeres.

nube palabras es

Cada subserie presenta la frecuencia relativa anual de los términos, lo que permite compararlos controlando por el volumen de publicaciones de cada año, lo que permite mostrar quiebres o saltos destacados como en el caso de “biden”, observando además tendencias crecientes de términos como “people” y “america” en años de mayor exposició, en términos de dispersión, muchas series exhiben varianza creciente, donde la importancia relativa de ciertos términos se vuelve más volátil durante periodos de alta actividad.

evolucion terminos es

Modelo semántico

Para el modelado se utilizó BERTopic sobre el texto depurado, seleccionando las observaciones de mayor calidad y tomando una muestra estratificada por año, generando embeddings mediante un modelo preentrenado, se redujo la dimensionalidad con UMAP, se realizó agrupamiento con HDBSCAN y se vectorizó mediante n‑gramas para entrenar BERTopic, resultando en un modelo funcional con 146 tópicos.

El porcentaje de outliers, del 43,8%, es elevado, pero habitual en textos cortos y en discursos con alta variabilidad temática, revelando el análisis de los tópicos una estructura semántica compleja, que combina elementos de comunicación política, confrontación institucional y autopromoción, proporcionando una visión integral de las estrategias discursivas presentes en el corpus.

El gráfico de barras de los diez principales tópicos confirma una distribución de cola larga en el tamaño de los clústeres, con el tópico relacionado con encuestas a la cabeza, con aproximadamente 994 documentos en la muestra, mientras que el gráfico de torta destaca que la masa de “otros tópicos” es considerable y que los outliers representan una fracción elevada, situación típica cuando la longitud media de los textos es baja y la temática es altamente variable, por otra parte, el heatmap tópico×año evidencia heterogeneidad temporal: algunos tópicos concentran su actividad en periodos específicos, lo que indica estacionalidad política y cambios de foco temático, asociados a quiebres en la mezcla de tópicos, finalmente, la nube de palabras del tópico principal valida las etiquetas, mostrando coocurrencias internas coherentes y consistentes con la interpretación temática.

visualizacion topicos es

La proyección bidimensional del espacio de tópicos revela la presencia de agrupamientos y zonas vacías, donde los agrupamientos indican áreas de alta densidad semántica, mientras que la dispersión general refleja la diversidad temática del corpus, siendo el tamaño de las burbujas proporcional al número de documentos, confirmando que pocos tópicos concentran la mayor parte del volumen. La separación entre conglomerados sugiere baja similitud media entre distintas familias temáticas, coherente con la existencia de múltiples ejes discursivos, como electoral, judicial/mediático, inmigración y marca personal.

mapa distancias topicos es

La matriz de similitud presenta una diagonal dominante y bloques fuera de ella, lo que indica la existencia de grupos de tópicos más afines entre sí, donde la mayoría de las intensidades se sitúa en rangos medios-bajos, con islotes de alta similitud que podrían justificar la creación de fusiones o metatópicos si se busca compactar la taxonomía. La presencia de similitudes muy bajas e incluso negativas sugiere la coexistencia de temas ortogonales u opuestos en el vocabulario.

mapa calor similitud es

Las series temporales de los tópicos presentan picos abruptos intercalados con periodos de inactividad relativa, el tópico de endorsements alcanza el máximo más alto, con más de 100 publicaciones a finales de 2025, reflejando una fase discursiva concentrada y probablemente de corta duración. En términos de varianza, los tópicos difieren notablemente en su volatilidad temporal: algunos muestran baja frecuencia pero alta intensidad en los picos, mientras que otros mantienen una actividad de base más constante, esta heterogeneidad indica que la proporción semanal de publicaciones por tópico constituye un buen descriptor del estado en modelos de análisis temporal y permite capturar dinámicas diferenciadas entre tópicos.

evolucion topicos es

La serie semanal de sentimiento muestra una media positiva de aproximadamente 0,20, con intervalos de confianza que rara vez cruzan cero, indicando un tono sistemáticamente favorable durante el periodo analizado, por otra parte, la varianza es heterocedástica, aumentando en semanas con menor tamaño muestral, como se evidencia en la amplitud de las bandas de confianza.

El gráfico de volumen semanal confirma sobredispersión, con semanas de conteos muy dispares, la nube de puntos que relaciona volumen y sentimiento revela una correlación baja (~0,12), lo que sugiere casi independencia entre intensidad de publicación y tono emocional y el histograma del score de sentimiento muestra una aparente bimodalidad, con un modo prominente en valores altos, consistente con el sesgo positivo del discurso y/o del clasificador en dominios de redes sociales.

analisis sentimiento es

Resumen de resultados

El corpus analizado, comprendido entre el 4 de mayo de 2009 y el 8 de enero de 2026, alcanza un total de 82.131 publicaciones, de las cuales 76.047 se consideran válidas tras el proceso de depuración, lo cual implicó una reducción promedio del 19,1% en la longitud de los textos, permitiendo eliminar ruido sin pérdida sustantiva de contenido informativo, la cual exhibe un comportamiento marcadamente no estacionario, con máximos de volumen concentrados en los periodos 2015–2016 y, especialmente, en 2020, así como una reactivación sostenida desde 2024.

La arquitectura temática resultante identifica 146 tópicos, organizados en cinco ejes de mayor tracción: encuestas y momentum electoral; conflicto institucional y mediático, con referencias al FBI y al informe Mueller; endorsements y construcción de coaliciones, incluyendo menciones a la Segunda Enmienda; inmigración y muro fronterizo; y contenidos asociados a la marca personal, como hoteles y golf. Las métricas de distancia y similitud entre tópicos confirman la existencia de familias semánticas claramente diferenciadas, junto con bloques internos de alta cohesión. La evolución mensual evidencia transiciones nítidas de foco discursivo, como el ciclo intensivo de endorsements hacia finales de 2025, mientras que los contenidos vinculados a encuestas mantienen una presencia intermitente a lo largo del tiempo.

La arquitectura temática resultante identifica 146 tópicos con cinco ejes de mayor tracción: encuestas y momentum electoral; conflicto institucional/mediático (FBI/Mueller); endorsements y construcción de coalición (con referencias a 2ª Enmienda); inmigración y muro; y contenidos de marca personal (hoteles/golf), de esta manera, las distancias y similitudes entre tópicos confirman familias semánticas bien separadas y, a la vez, bloques internos cohesivos; la evolución mensual muestra transiciones nítidas de foco, como el ciclo de endorsements hacia finales de 2025, mientras que los contenidos de encuestas mantienen presencia intermitente.

Conclusiones

El análisis demuestra que un histórico masivo y heterogéneo cuerpo de posts puede transformarse en inteligencia comunicacional accionable mediante una arquitectura analítica coherente, donde la combinación semanal de proporciones de tópicos, sentimiento y volumen permite segmentar el discurso en regímenes operativos, detectar oportunamente cambios de narrativa y contextualizar picos de actividad, al tiempo que, la evidencia de un tono reciente moderadamente positivo y desacoplado del volumen evita decisiones basadas en la falsa equivalencia entre cantidad de publicaciones y mejora reputacional, orientando la gestión hacia métricas diferenciadas para intensidad y contenido narrativo.

El impacto práctico es inmediato, ya que los indicadores resultantes posibilitan la construcción de un tablero de control con alertas tempranas ante cambios temáticos, facilitan la priorización de análisis cualitativos en semanas críticas y permiten evaluar el efecto de mensajes o hitos, mientras que la fortaleza del enfoque reside en su replicabilidad, dado que el mismo andamiaje metodológico puede aplicarse a otros actores o periodos para establecer líneas base y comparativos.

Fuente:
Comparte esta página:
whatsapp.svg
facebook logo facebook social media icon free png
x icon.svg
linkedin logo initials
telegram logo.svg
6244438